2.2.1 用样本的频率分布估计总体分布
课时目标 1.理解用样本的频率分布估计总体分布的方法.2.会列频率分布表,画频率分布直方图、频率分布折线图、茎叶图.3.能够利用图形解决实际问题.
1.用样本估计总体的两种情况
(1)用样本的____________估计总体的分布.
(2)用样本的____________估计总体的数字特征.
2.数据分析的基本方法
(1)借助于图形
分析数据的一种基本方法是用图将它们画出来,此法可以达到两个目的,一是从数据中____________,二是利用图形________信息.
(2)借助于表格
分析数据的另一方法是用紧凑的________改变数据的排列方式,此法是通过改变数据的____________,为我们提供解释数据的新方式.
3.频率分布直方图
在频率分布直方图中,纵轴表示____________,数据落在各小组内的频率用________________来表示,各小长方形的面积的总和等于____.
4.频率分布折线图和总体密度曲线
(1)频率分布折线图
连接频率分布直方图中各小长方形__________,就得到了频率分布折线图.
(2)总体密度曲线
随着样本容量的增加,作图时所分的____增加,组距减小,相应的频率分布折线图就会越来越接近于一条________,统计中称之为总体密度曲线,它反映了总体在各个范围内取值的百分比.
5.茎叶图
(1)适用范围:
当样本数据较少时,用茎叶图表示数据的效果较好.
(2)优点:它不但可以____________,而且可以__________,给数据的记录和表示都带来方便.
(3)缺点:
当样本数据______时,枝叶就会很长,茎叶图就显得不太方便.
一、选择题
1.下列说法不正确的是( )
A.频率分布直方图中每个小矩形的高就是该组的频率
B.频率分布直方图中各个小矩形的面积之和等于1
C.频率分布直方图中各个小矩形的宽一样大
D.频率分布折线图是依次连接频率分布直方图的每个小矩形上端中点得到的
2.一个容量为100的样本,其数据的分组与各组的频数如下:
组别
(0,10]
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
(60,70]
频数
12
13
24
15
16
13
7
则样本数据落在(10,40]上的频率为( )
A.0.13 B.0.39 C.0.52 D.0.64
3.100辆汽车通过某一段公路时的时速的频率分布直方图如下图所示,则时速在[60,70)的汽车大约有( )
A.30辆B.40辆
C.60辆D.80辆
4.如图是总体密度曲线,下列说法正确的是( )
A.组距越大,频率分布折线图越接近于它
B.样本容量越小,频率分布折线图越接近于它
C.阴影部分的面积代表总体在(a,b)内取值的百分比
D.阴影部分的平均高度代表总体在(a,b)内取值的百分比
5.一个容量为35的样本数据,分组后,组距与频数如下:[5,10),5个;[10,15),12个;[15,20),7个;[20,25),5个;[25,30),4个;[30,35),2个.则样本在区间[20,+∞)上的频率为( )
A.20% B.69%
C.31% D.27%
6.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( )
A.90 B.75 C.60 D.45
题 号
1
2
3
4
5
6
答 案
二、填空题
7.将容量为n的样本中的数据分成6组,绘制频率分布直方图.若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n=________.
8.在如图所示的茎叶图中,甲、乙两组数据的中位数分别是________.
9.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a,b)是其中的一组,抽查出的个体在各组上的频率为m,该组上直方图的高为h,则|a-b|=________.
三、解答题
10.抽查100袋洗衣粉,测得它们的重量如下(单位:g):
494 498 493 505 496 492 485 483 508
511 495 494 483 485 511 493 505 488
501 491 493 509 509 512 484 509 510
495 497 498 504 498 483 510 503 497
502 511 497 500 493 509 510 493 491
497 515 503 515 518 510 514 509 499
493 499 509 492 505 489 494 501 509
498 502 500 508 491 509 509 499 495
493 509 496 509 505 499 486 491 492
496 499 508 485 498 496 495 496 505
499 505 496 501 510 496 487 511 501
496
(1)列出样本的频率分布表:
(2)画出频率分布直方图,频率分布折线图;
(3)估计重量在[494.5,506.5]g的频率以及重量不足500 g的频率.
能力提升
11.在某电脑杂志的一篇文章中,每个句子的字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17
在某报纸的一篇文章中,每个句子的字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22
(1)将这两组数据用茎叶图表示;
(2)将这两组数据进行比较分析,你会得到什么结论?
12.某市2010年4月1日-4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):
61,76,70,56,81,91,92,91,75,81,88,67,101,103,
95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.
(1)完成频率分布表.
(2)作出频率分布直方图.
(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.
请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.
绘制频率分布直方图的具体步骤:①求极差:找出一组数据中的最大值和最小值,最大值与最小值的差是极差(正值).②确定组距与组数:组数与样本容量有关,当样本容量不超过100时,按照数据的多少,常分成5~12组;组距的选择力求“取整”,组数=.③将数据分组:将数据分成互不相交的组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.④列频率分布表:一般分“分组”、“频数累计”、“频数”、“频率”四列,最后一行是合计.注意频数的合计是样本容量,频率的合计是1.⑤绘制频率分布直方图:根据频率分布表绘制频率分布直方图,其中纵轴表示频率与组距的比值,其相应组距上的频率等于该组距上的矩形的面积,即每个矩形的面积=组距×=频率.这样频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小,各小矩形的面积的总和等于1.
答案:2.2.1 用样本的频率分布估计总体分布
知识梳理
1.(1)频率分布 (2)数字特征 2.(1)提取信息 传递 (2)表格 构成形式 3.频率/组距 小长方形的面积 1 4.(1)上端的中点 (2)组数 光滑曲线
5.(2)保留所有信息 随时记录 (3)较多
作业设计
1.A
2.C [样本数据落在(10,40]上的频数为13+24+15=52,故其频率为=0.52.]
3.B [时速在[60,70)的汽车的频率为:
0.04×(70-60)=0.4,
又因汽车的总辆数为100,
所以时速在[60,70)的汽车大约有0.4×100=40(辆).]
4.C
5.C [由题意,样本中落在[20,+∞)上的频数为5+4+2=11,∴在区间[20,+∞)上的频率为≈0.31.]
6.A [∵样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,
∴样本总数为=120.
∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,
∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.]
7.60
解析 ∵n·=27,
∴n=60.
8.45,46
解析 由茎叶图及中位数的概念可知
x甲中=45,x乙中=46.
9.
解析 =h,故|a-b|=组距==.
10.解 (1)在样本数据中,最大值是518,最小值是483,它们相差35,若取组距为4,由于=8,要分9组,组数合适,于是决定取组距为4 g,分9组,使分点比数据多一位小数,且把第一组起点稍微减小一点,得分组如下:
[482.5,486.5),[486.5,490.5),…,[514.5,518.5).
列出频率分布表:
分组
个数累计
频数
频率
累积频率
[482.5,486.5)
正
8
0.08
0.08
[486.5,490.5)
3
0.03
0.11
[490.5,494.5)
正正正
17
0.17
0.28
[494.5,498.5)
正正正正-
21
0.21
0.49
[498.5,502.5)
正正
14
0.14
0.63
[502.5,506.5)
正
9
0.09
0.72
[506.5,510.5)
正正正
19
0.19
0.91
[510.5,514.5)
正-
6
0.06
0.97
[514.5,518.5]
3
0.03
1.00
合计
100
1.00
(2)频率分布直方图与频率分布折线图如图.
(3)重量在[494.5,506.5]g的频率为:0.21+0.14+0.09=0.44.
设重量不足500 g的频率为b,根据频率分布表,
≈,故b≈0.55.因此重量不足500 g的频率约为0.55.
11.解 (1)
(2)电脑杂志上每个句子的字数集中在10~30之间;而报纸上每个句子的字数集中在20~40之间.还可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少.说明电脑杂志作为科普读物需要通俗易懂、简明.
12.解 (1)频率分布表:
分组
频数
频率
[41,51)
2
[51,61)
1
[61,71)
4
[71,81)
6
[81,91)
10
[91,101)
5
[101,111]
2
(2)频率分布直方图如图所示.
(3)答对下述两条中的一条即可:
①该市有一个月中空气污染指数有2天处于优的水平,占当月天数的;有26天处于良的水平,占当月天数的;处于优或良的天数为28,占当月天数的.说明该市空气质量基本良好.
②轻微污染有2天,占当月天数的;污染指数在80以上的接近轻微污染的天数15,加上处于轻微污染的天数2,占当月天数的,超过50%;说明该市空气质量有待进一步改善.