3.利用相关指数R2刻画回归效果
其计算公式为:R2=1-\s\up3(07(07)∑,\s\up6(ni=1.
其几何意义:\s\up3(08(08)R2越接近于1,表示回归效果越好.
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程\s\up6(^(^)=\s\up6(^(^) x+\s\up6(^(^) ).
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适等.
2.线性回归模型中随机误差的主要来源
(1)用线性回归模型作为真实模型的近似所引起的误差.可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.
(2)忽略了某些因素的影响.影响变量y的因素不仅有变量x,可能还包括其他许多因素,例如,在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响.
(3)观测误差.由于测量工具等原因,导致y的观测值产生误差.
3.残差分析的结果
(1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
(2)若是有个别样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.
4.对R2的理解
(1)预报变量的变化与解释变量和随机误差的关系
预报变量的变化程度可以分解为解释变量引起的变化程度与残差变量的