其中 。
4 随机误差:当样本点散布在某一条直线的附近,而不是在一条直线上时,可用下面的线形回归模型来表示:
y=bx+a+e
其中a和b为模型的未知参数,e称为随机误差。
5 相关系数: 对于任何给定的一组样本()( i =1,2,...n )都可以用最小二乘法建立起一个线性回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意义的,只有当变量X与Y之间确实存在某种因果关系时,其回归直线才有意义。统计学中要确定变量X和Y之间是否确实存在线性相关,通常利用相关系数来检验。相关系数记作,它能够较精确地描述两个变量之间线性相关的密切程度。当>0时称Y与X正相关;当<0时称Y与X是负相关。
6 线性回归模型的残差原因:
第一是所选择的数学模型不适合,变量间不是线性关系而建立了线性模型;第二是模型中所包含的自变量数目不合适,或是遗漏了某些重要的影响因素,或是包含了不必要的其他因素等。一般地,残差平方和越小的模型,拟和的效果越好;类似地,还可用R2来比较两个模型的拟和效果,R2越大,模型的拟和效果也越好。
7 建立回归模型的步骤:
(1) 确定研究对象,明确解释变量、预报变量;
(2) 画出确定好的解释变量和预报变量的散点图,观察是否存在线性关系等;
(3) 确定回归方程的类型;
(4) 按一定的规则估计回归方程中的参数;
(5) 得出结果后分析残差图是否有异常,若存在异常,则探明原因。