3.1 回归分析的基本思想及其初步应用(2)
【学情分析】:
教学对象是高二理科学生,学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题。在教学中,要结合实例,让学生了解随机误差产生的原因。初步了解可以通过求回归模型的相关指数或利用残差分析不同的回归模型的拟合精确度。在起点高的班级中通过让学生观察、思考与讨论,进一步体会回归分析中的数理计算,及运用相关指数与残差分析来刻画模型拟合效果,初步形成运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
【教学目标】:
(1)知识与技能:了解求线形回归方程的两个计算公式的推导过程,、回归平方和;了解随机误差产生的原因;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线性模型通过变换转化为线性回归模型。
(2)过程与方法:本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,进而学习相关指数,用相关指数来刻画回归的效果。
(3)情感态度与价值观:从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:
1.了解判断刻画模型拟合效果的方法——相关指数和残差分析;
2.通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型。
【教学难点】:
1.了解随机误差产生的原因,用残差平方和衡量回归方程的预报精度;
2.了解判断刻画模型拟合效果的方法——相关指数和残差分析。
【教学过程设计】:
教学环节
教学活动
设计意图
一、创设情境
1.由例1知,体重的值受身高或随机误差的影响。
2.问题一:身高172cm的女大学生的体重一定是60.316kg吗?如果不是,其原因是什么?
引入回归分析的效果评价的三个统计量
二、探究新知
解答问题一:
显然,身高172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于60.316kg.上图3.1-2中的样本点和回归直线的相互位置说明了这一点.
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:
y=bx+a+e (3)
这里a和b为模型的未知参数,e是y与之间的误差。通常e为随机变量,称为随机误差,它的均值E(e)=0,方差D(e)=.这样线性回归模型的完整表达式为:
(4)
在线性回归模型(4)中,随机误差e的方差越小,通过回归直线
(5)
预报真实值y的精度越高。随机误差是引起预报值与真实值y之间的误差的原因之一,大小取决于随机误差的方差。
另一方面,由于公式(1)和(2)中为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间误差的另一个原因。
思考1、产生随机误差项e的原因是什么?
答:实际上,从上例中,一个人的体重值除了受身高的影响外,还受到许多其它因素的影响。例如饮食习惯、是否喜欢运动、度量误差等。另外,我们选用的线性模型往往只是一种近似的模型。所有这些因素都会导致随机误差项e的产生。
问题二、在线性回归模型中,e是用预报真实值y的误差,它是一个不可观测的量,那么应该怎样研究随机误差?如何衡量预报的精度?
解答问题二:
因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征。均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差来衡量随机误差的大小。
为了衡量预报的精度,需要估计的值。一个自然的想法是通过样本方差来估计总体方差。如何得到随机变量e的样本呢?由于模型(3)或(4)中的e隐含在预报变量y中,我们无法精确地把它从y中分离出来,因此也就无法得到随机变量e的样本。
解决问题的途径是通过样本的估计值来估计。根据截距和斜率的估计公式(1)和(2),可以建立回归方程
因此是(5)中的估计量。由于随机误差,所以是e的估计量,对于样本点
…
而言,相当于它们的随机误差为
,i=1,2, …,n,
其估计值为
,i=1,2, …,n,
称为相应于点的残差(residual)。类比样本方差估计总体方差的思想,可以用
(n>2)
作为的估计量,其中由公式(1)(2)给出,称为残差平方和(residual sum of squares),可以用衡量回归方程的预报精度。通常,越小,预报精度越高。
学生动手计算出例1中的残差(如下表)与残差平方和。
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
yi
54.373
54.373
47.581
58.618
62.863
54.373
45.883
58.618
ei
-6.373
2.627
2.419
-4.618
1.137
6.627
-2.883
0.382
学习要领:①注意、、的区别;
②当残差平方和越小,此时模型的拟合效果越好;
③对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越接近于1,说明残差平方和越小,也就是说模型拟合的效果越好,即解释变量和预报变量的线性相关性越强.
代入例1中的数据知例1中的,表明“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”。即解释变量对总效应约贡献了64%,而随机误差贡献了剩余的36%,所以身高对体重的效应比随机误差的效应大得多。
用身高预报体重时,需要注意下列问题:
1.回归方程只适用于我们研究的样本的总体。
2.我们所建立的回归方程一般都有时间性。
3.样本取值的范围会影响回归方程的适用范围。
4.不能期望回归方程得到的预报值就是预报变量的精确值。
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
问题三:观察图3.1-3中的残差图,样本点是如何分布?有无异常情况(个别数据对应残差过大,或残差呈现不随机的规律性等等)?
师:提出问题,指导学生画出残差图(以残差为纵坐标,样本编号或身高或体重为横坐标作出图形),引导学生进行残差分析,从而做到检查数据是否有误,或模型是否合适等。
生:分析、讨论。
从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现采集的错误,指导学生去掉这两个数据后重新再计算回归方程与相关指数,了解到拟合的效果会更好。
引导学生归纳残差所能说明的情况:
1样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因;
2残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高。
结合实例由结果分析残差图是否异常,养成从实际问题出发,抽象为数学问题中的线性回归问题,从而指导实际问题的解决。
学生思考,回答
引导学生利用残差也可以分析所求出的模型的拟合效果
通过学生动手计算感受相关指数与残差分析说明回归方程的预报情况。
三、例题选讲
例2:一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程。
编号
1
2
3
4
5
6
7
温度x/°C
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
问题四:例2中如何选择解释变量与预报变量?
师:读例2的要求,引导学生理解例题含义。
生:思考、讨论、叙述自己的理解。
形成把温度x作自变量,红铃虫的产卵数y作因变量的共识
问题四:观察图3.1-4中的散点图,红铃虫的产卵数y与温度x具有线性关系吗?除线性关系外,还学过哪些常见的函数关系?
师:绘制散点图3.1-4,引导学生观察散点图的特点:随着自变量的增加,因变量也随之增加。
引导学生探究红铃虫的产卵数y与温度x更可能是什么关系,选择几个模型,比如线性回归模型、二次函数模型、指数函数模型。而二次与指数函数模型是属于非线性回归模型。
生:讨论、回忆一些常见函数图象的特点,判断红铃虫的产卵数y与温度x的可能关系
从散点图中可以看到样本点分布在指数函数曲线的周围。
问题五:请学生思考能否把模型经过变换后转化为另外两个变量的线性关系?
师:提出问题,引导学生寻找变换的方法,在学生讨论后给出具体的方法。
生:思考、讨论、解释。
解答过程如下:
对两边取自然对数
令,建立与之间的线性回归方程
问题六:经过变换后指数函数模型转化为线性回归模型,你如何得到这个线性回归模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算器)
解答过程如下:
令,,即
分析与之间的关系,通过画散点图(如下图),可知与之间是存在着线性回归关系,可以用最小二乘法求出线性回归方程
列表计算出各个量
编号
1
2
3
4
5
6
7
合计
温度x/°C
21
23
25
27
29
32
35
192
产卵数y/个
7
11
21
24
66
115
325
569
z=ln y
1.946
2.398
3.045
3.178
4.190
4.745
5.784
25.285
xi2
441
529
625
729
841
1024
1225
5414
xizi
40.9
55.2
76.1
85.8
121.5
151.8
202.4
733.7
27.429 3.612
5414 733.71
问题七:我们的目标是建立红铃虫的产卵数y与温度x的模型,如何使得到的线性回归模型再变回红铃虫的产卵数y与温度x的模型?
师:提出问题。
生:进行变换,每组得到红铃虫的产卵数y与温度x的模型。
因为,所以,即。
引导学生分析哪个变量作自变量,哪个变量作因变量
引导学生根据散点图判断两个变量的关系,使学生了解不是任何两个变量都一定是线性关系。
使学生进一步体会把因变量与自变量的非线性关系经过变换后转化为另外两个变量的线性关系的方法。
使学生熟悉线性回归模型的参数估计的方法
得出红铃虫的产卵数y与温度x的模型
四、练习
1.试对下列非线性模型进行适当的变形,使之线性化
⑴; ⑵
解:⑴对两边取自然对数,即
令,则有
⑵令,则有
巩固知识
五、小结
1.初步了解用残差平方和如何评价模型拟合效果的好坏;
2.注意回归方程适用的范围、时间。
3.归纳非线性回归模型的求解步骤:
⑴画出两个变量的散点图;
⑵判断是否线性相关;
⑶非线性相关模型要进行变换,转为线性回归模型;
⑷求出回归模型的方程(利用最小二乘法)。
反思归纳
练习与测试
1.下面4 个散点图中,不适合用线性回归模型拟合其中两个变量的是( A )
A. B.
C. D.
2.将非线性模型进行适当变形使之线性化。
答案:
3.已知回归方程,则样本点P(4,2.71)的残差为________________。
答案:
4.已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则点C 的残差是________。
答案:,,。
5.若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足yi=bxi+a+ei (i=1、2. …n)若ei恒为0,则R2为
答案:1
6.已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则其相关指数________。
答案:,,,,
,,
,,
7.现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高-130(磅)。其中体重和身高分别以磅和英寸为单位,已知1英寸≈2.5 cm,1磅≈0.45 kg,则该回归方程应该是______________。
答案:体重预测值=0.72(kg/ cm)×身高-58.5(kg)