2.2.1 用样本的频率分布估计总体分布
项目 内容 课题 2.2.1 用样本的频率分布估计总体分布
(共 1 课时) 修改与创新 教学
目标 1.通过实例体会分布的意义和作用,通过对现实生活的探究,感知应用数学知识解决问题的方法.
2.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图,理解数形结合的数学思想和逻辑推理的数学方法.
3.通过对样本分析和总体估计的过程,感受数学对实际生活的需要,通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地作出总体估计,认识到数学知识源于生活并指导生活的事实,体会数学知识与现实世界的联系.
教学重、
难点 教学重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图.
教学难点:能通过样本的频率分布估计总佒的分布 教学
准备 多媒体课件 教学过程
导入新课
在NBA的2006赛季中,甲、乙两名篮球运动员每场比赛得分的原始记录如下﹕
甲运动员得分:12,15,20,25,31,31,36,36,37,39,44, 49,50
乙运动员得分:8,13,14,16,23,26,28,38,39,51,31,29,33
请问从上面的数据中你能否看出甲、乙两名运动员哪一位发挥比较稳定?
如何根据这些数据作出正确的判断呢?这就是我们这堂课要研究、学习的主要内容--用样本的频率分布估计总体分布(板书课题).
推进新课
新知探究
提出问题
(1)我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较合理地确定出这个标准,需要做哪些工作?(让学生展开讨论)
(2)什么是频率分布?
(3)画频率分布直方图有哪些步骤?
(4)频率分布直方图的特征是什么?
讨论结果:
(1)为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况.
分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息.表格则是通过改变数据的构成形式,为我们提供解释数据的新方式.
下面我们学习的频率分布表和频率分布图,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律.可以让我们更清楚地看到整个样本数据的频率分布情况.
(2)频率分布是指一个样本数据在各个小范围内所占比例的大小;一般用频率分布直方图反映样本的频率分布.
(3)其一般步骤为:
①计算一组数据中最大值与最小值的差,即求极差;
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
(4)频率分布直方图的特征:
①从频率分布直方图可以清楚地看出数据分布的总体趋势.
②从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.
同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断,分别以0.1和1为组距重新作图,然后谈谈你对图的印象.
提出问题
(1)什么是频率分布折线图?
(2)什么是总体密度曲线?
(3)对于任何一个总体,它的密度曲线是否一定存在?是否可以被非常准确地画出来?
(4)什么叫茎叶图?画茎叶图的步骤有哪些?
(5)茎叶图有什么特征?
讨论结果:
(1)连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.它能够精确地反映总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.
(3)实际上,尽管有些总体密度曲线是客观存在的,但一般很难像函数图象那样准确地画出来,我们只能用样本的频率分布对它进行估计,一般来说,样本容量越大,这种估计就越精确.
(4)当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.
画茎叶图的步骤如下:
①将每个数据分为茎(高位)和叶(低位)两部分,在此例中,茎为十位上的数字,叶为个位上的数字;
②将最小茎和最大茎之间的数按大小次序排成一列,写在左(右)侧;
③将各个数据的叶按大小次序写在其茎右(左)侧.
(5)①用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.
②茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.
茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以在抽样的过程中随时记录(这对于教练员发现运动员现场状态特别有用);而频率分布表和频率分布直方图则损失了样本的一些信息,必须在完成抽样后才能制作.
正确利用三种分布的描述方法,都能得到一些有关分布的主要特点(如分布是否具有单峰性、是否具有对称性、样本点落在各分组中的频率等),这些主要特点受样本的随机性的影响比较小,更接近于总体分布的相应的特点.
频率分布表和频率分布直方图之间的密切关系是显然的,它们只不过是相同的数据的两种不同的表达方式,茎叶图和频率分布表极为类似,事实上,茎相当于频率分布表中的分组;茎上叶的数目相当于频率分布表中指定区间组的频数.
应用示例
例1 有100名学生,每人只能参加一个运动队,其中参加足球队的有30人,参加篮球队的有27人,参加排球队的有23人,参加乒乓球队的有20人.
(1)列出学生参加运动队的频率分布表.
(2)画出频率分布条形图.
解:(1)参加足球队记为1,参加篮球队记为2,参加排球队记为3,参加乒乓球队记为4,得频率分布表如下:[ ]
试验结果 频数 频率 参加足球队(记为1) 30 0.30 参加篮球队(记为2) 27 0.27 参加排球队(记为3) 23 0.23 参加乒乓球队(记为4) 20 0.20 合 计 100 1.00 (2)由上表可知频率分布条形图如下:
例2 为了了解中学生的身体发育情况,对某中学17岁的60名女生的身高进行了测量,结果如下:(单位:cm)
154 159 166 169 159 156 166 162 158
156 166 160 164 160 157 151 157 161
158 153 158 164 158 163 158 153 157
162 159 154 165 166 157 151 146 151
160 165 158 163 163 162 161 154 165
162 159 157 159 149 164 168 159 153
列出样本的频率分布表;绘出频率分布直方图.
解:第一步,求极差:上述60个数据中最大为169,最小为146.
故极差为:169-146=23 cm.
第二步,确定组距和组数,可取组距为3 cm,则组数为,可将全部数据分为8组.
第三步,确定组限:[145.5,148.5),[148.5,151.5),[151.5,154.5),[154.5,157.5),[157.5,160.5),[160.5,163.5),[163.5,166.5),[166.5,169.5).
第四步,列频率分布表:
分组 个数累计 频数 频率 [145.5,148.5) 1 0.017 [148.5,151.5) 3 0.050 [151.5,154.5) 6 0.100 [154.5,157.5) 8 0.133 [157.5,160.5) 18 0.300 [160.5,163.5) 11 0.183 [163.5,166.5) 10 0.167 [166.5,169.5) 3 0.050 合计 60 1.000 第五步,根据上述数据绘制频率分布直方图如下图:
以上例1和例2两种情况的不同之处在于,前者的频率分布表列出的是几个不同数值的频率,相应的条形图是用其高度表示取各个值的频率;后者的频率分布表列出的是在不同区间内取值的频率,相应的直方图是用图表面积的大小来表示在各个区间内取值的频率.
我们在处理一个数理问题时可以采用样本的频率分布估计总体分布的方法,这是因为,频率分布随着样本容量的增大更加接近于总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布的直方图就演变成一条光滑的曲线--总体密度曲线.这条曲线是客观存在的,但是我们却很难将它准确地画出,我们只能用样本的频率分布去对它进行估计.基于频率分布与相应的总体分布有这种关系,再加上我们通常并不知道一个总体的分布,我们往往是从一个总体中抽取一个样本,用样本的频率去估计相应的总体分布.一般说来,样本的容量越大,这种估计就越精确.
例3 从某校高一年级的1 002名新生中用系统抽样的方法抽取一个容量为100的身高样本,如下(单位:cm).作出该样本的频率分布表,并估计身高不小于170(cm)的同学所占的百分率.
168 165 171 167 170 165 170 152 175 174 165 170 168 169 171 166 164 155 164 158 170 155 166 158 155 160 160 164 156 162 160 170 168 164 174 170 165 179 163 172 180 174 173 159 163 172 167 160 164 169 151 168[ ] 158 168 176 155 165 165 169 162 177 158 175 165 169 151 163 166 163 167 178 165 158 170 169 159 155 163 153 155 167 163 164 158 168 167 161 162 167 168 161 165 174 156 167 166 162 161 164 166 解:(1)在全部数据中找出最大值180与最小值151,它们相差(极差)29,决定组距为3;
(2)将区间[150.5,180.5]分成10组;分别是[150.5,153.5),[153.5,156.5),...,[177.5,180.5);
(3)从第一组[150.5,153.5)开始分别统计各组的频数,再计算各组的频率,列频率分布表:
分组 频数累计 频数 频率 [150.5,153.5) 4 4 0.04 [153.5,156.5) 12 8 0.08 [156.5,159.5) 20 8 0.08 [159.5,162.5) 31 11 0.11 [162.5,165.5) 53 22 0.22 [165.5,168.5) 72 19 0.19 [168.5,171.5) 86 14 0.14 [171.5,174.5) 93 7 0.07 [174.5,177.5) 97 4 0.04 [177.5,180.5) 100 3 0.03 合计 100 1 根据频率分布表可以估计,估计身高不小于170的同学所占的百分率为:
[0.14×+0.07+0.04+0.03]×100%=21%.
点评:一般地,编制频率分布表的步骤如下:
(1)求极差,决定组数和组距;
(2)分组,通常对组内的数值所在的区间取左闭右开区间;
(3)登记频数,计算频率,列出频率分布表.
例3 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位:cm).
区间界限 [122,126) [126,130) [130,134) [134,138) [138,142) 人数 5 8 10 22 33 区间界限 [142,146) [146,150) [150,154) [154,158) 人数 11 6 5 20 (1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高小于134 cm的人数占总人数的百分比.
分析:根据样本频率分布表、频率分布直方图的一般步骤解题.
解:(1)样本频率分布表如下:
分组 频数 频率 [122,126) 5 0.04 [126,130) 8 0.07 [130,134) 10 0.08 [134,138) 22 0.18 [138,142) 33 0.28 [142,146) 20 0.17 [146,150) 11 0.09 [150,154) 6 0.05 [154,158) 5 0.04 合计 120 1 (2)其频率分布直方图如下:
(3)由样本频率分布表可知身高小于134 cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134 cm的人数占总人数的19%.
例4 为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如下图),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1.
解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,
因此第二小组的频率为:=0.08;
又因为频率=,
所以样本容量==150.
(2)由图可估计该学校高一学生的达标率约为×100%=88%.
例5 甲、乙两篮球运动员在上赛季每场比赛的得分如下,试比较这两位运动员的得分水平.
甲:12,15,24,25,31,31,36,36,37,39,44,49,50;
乙:8,13,14,16,23,26,28,33,38,39,51.
解:画出两人得分的茎叶图如下:
从这个茎叶图可以看出甲运动员的得分大致对称,平均得分及中位数、众数都是30多分;乙运动员的得分除一个51外,也大致对称,平均得分及中位数、众数都是20多分,因此甲运动员发挥比较稳定,总体得分情况比乙好.
知能训练
1.下面是甲、乙两名运动员某赛季一些场次得分的茎叶图,据下图可知( )
A.甲运动员的成绩好于乙运动员 B.乙运动员的成绩好于甲运动员
C.甲、乙两名运动员的成绩没有明显的差异 D.甲运动员的最低得分为0分
答案:A
2.有一个容量为45的样本数据,分组后各组的频数如下:(12.5,15.5],3;(15.5,18.5], 8;(18.5,21.5],9;(21.5,24.5],11;(24.5,27.5],10;(27.5,30.5],4.由此估计,不大于27.5的数据约为总体的( )
A.91% B.92% C.95% D.30%
答案:A
3.一个容量为20的样本数据,数据的分组及各组的频数如下:
(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4;(60,70),2.
则样本在区间(10,50)上的频率为( )
A.0.5 B.0.7 C.0.25 D.0.05
答案:B
4.一个高中研究性学习小组对本地区2000年至2002年快餐公司发展情况进行了调查,制成了该地区快餐公司个数情况的条形图和快餐公司盒饭年销售量的平均数情况条形图(如下图),根据图中提供的信息可以得出这三年中该地区每年平均销售盒饭____________万盒.
快餐公司个数情况图 快餐公司盒饭年销售量的平均数情况图
答案:85
拓展提升
为了了解一大片经济林生长情况,随机测量其中的100株的底部周长,得到如下数据表(单位:cm).
135 98 102 110 99 121 110 96 100 103 125 97 117 113 110 92 102 109 104 112 109 124 87 131 97 102 123 104 104 128 105 123 111 103 105 92 114 108 104 102 129 126 97 100 115 111 106 117 104 109 111 89 110 121 80 120 121 104 108 118 129 99 90 99 121 123 107 111 91 100 99 101 116 97 102 108 101 95 107 101 102 108 117 99 118 106 119 97 126 108 123 119 98 121 101 113 102 103 104 108 (1)编制频率分布表;(2)绘制频率分布直方图;(3)估计该片经济林中底部周长小于100 cm的树木约占多少?周长不小于120 cm的树木约占多少?
解:(1)这组数据的最大值为135,最小值为80, 极差为55,可将其分为11组,组距为5.
频率分布表如下:
分组 频数 频率 频率/组距 [80,85) 1 0.01 0.002 [85,90) 2 0.02 0.004 [90,95) 4 0.04 0.008 [95,100) 14 0.14 0.028 [100, 105) 24 0.24 0.048 [105,110) 15 0.15 0.030 [110,115) 12 0.12 0.024 [115,120) 9 0.09 0.018 [120,125) 11 0.11 0.022 [125,130) 6 0.06 0.012 [130,135] 2 0.02 0.004 合计 100 1 0.2 (2)直方图如下图:
(3)从频率分布表得,样本中小于100的频率为0.01+0.02+0.04+0.14=0.21,样本中不小于120的频率为0.11+0.06+0.02=0.19,估计该片经济林中底部周长小于100 cm的树木约占21%,周长不小于120 cm的树木约占19%.
课堂小结
总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.
总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.
作业
习题2.2A组1、2.