多元线性回归,详细解读回归分析结果

来源:http://www.shyzzl.com 作者:关于我们 人气:95 发布时间:2019-09-24
摘要:在回归分析中有R2和R2,即调整后的R2,它的主要含义是什么?或者说它与R2的最大区别在哪里? 操作工具容易,解读结果难,今天跟大家总结一下Excel回归分析的结果应该怎么看,有误

在回归分析中有R2和R2,即调整后的R2,它的主要含义是什么?或者说它与R2的最大区别在哪里?

操作工具容易,解读结果难,今天跟大家总结一下Excel回归分析的结果应该怎么看,有误之处也欢迎各位小伙伴指正。

1. 模型简介

R2=1-SSerror/SStotal

补充一句,Excel只能做线性回归,本篇的讨论也是在这个条件的基础上进行的,好了,闲话不多说,直接上结果吧。

模型思想

多元线性回归(multiple linear regression) 模型的目的是构建一个回归方程,利用多个自变量估计因变量,从而解释和预测因变量的值。多元线性回归模型中的因变量和大多数自变量为定量值,某些定性指标需要转换为定量值才能应用到回归方程中。

R2=1-(SSerror//(SStotal/,n为总项数,p为回归式中的项数。

图片 1

意义

事物的联系也是多方面的,而影响事物发展的因素是多样的。由多个自变量的最优组合共同来估计因变量,比单一的自变量预测更有效,更符合实际。

比如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三酯等多种指标的影响。但很多情况下,由于自变量的单位是不一样的,需要做标准化处理。比如在消费水平预测模型中,工资水平、受教育程度、职业、地区、家庭负担等因素都会影响到消费水平,而这些影响因素的单位和量级肯定是不同的,虽然不会影响自变量的重要程度,但是对回归系数的大小还是有直接影响作用的。标准化回归系数没有单位,其值越大,说明该自变量对因变量的影响越大。

两个值越接近越好。两个值越大越好,越大说明你的回归式越好。

表1:

2. 多元线性回归模型

当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测的可靠性低。这表明一个回归方程涉及的自变量很多时,回归模型的拟合在外表上是良好的,而区间预报和区间估计的幅度则变大,以至失去实际意义。这里回归模型的拟合良好掺进了一些虚假的成分。为了克服样本决定系数的这一缺点,我们设法把R2给予适当的修正,使得只有加入"有意义"的变量时,经过修正的样本决定系数才会增加,这才是所谓的自由度调整复决定系数。R2=1-/

Multiple R:相关系数R,值在-1与1之间,越接近-1,代表越高的负相关,反之,代表越高的正相关关系。

一般形式

图片 2

一般形式

其中,Y为因变量,X为自变量,上式中共有k个自变量和一个常数项。如果自变量经过标准化处理,则上式没有常数项,换句话说,Y的期望值与自变量的函数关系如下:

图片 3

多元总体线性回归方程

上式也被称为多元总体线性回归方程。
如果有n组观测数据,则可以采用方程组形式表示

图片 4

n组观测值

图片 5

多元线性回归方程组

其矩阵形式为:

图片 6

矩阵形式

简化形式见下式:

图片 7

矩阵表示的简化形式

可以看出,尽管1-R2随着自变量的增加而减少,但由于其前面的系数/起折扣作用,才使R2随着自变量的增加不一定增大。当所增加的自变量对回归的贡献很小时,R2反而可能减少。

R Square:测定系数,也叫拟合优度。是相关系数R的平方,同时也等于表2中回归分析SS/(回归分析SS 残差SS),这个值在0~1之间,越大,代表回归模型与实际数据的拟合程度越高。

条件

使用多元线性回归必须满足如下的几个条件:(1) 因变量Y和自变量X之间具有线性关系。(2) 各观测值Y相互独立。(3) 残差e服从均值为0,方差为δ^2的正态分布,也就是对自变量的任意一组观测值,因变量Y具有相同的方差,且服从正态分布。

以上是人大版的何晓群编的《应用回归分析》中 自变量选择与逐步回归一章的解释。

Adjusted R Square:校正的测定系数,对两个具有不同个数的自变量的回归方程进行比较时,还必须考虑方程所包含的自变量个数的影响,为此提出,所谓“最优”回归方程是指校正的决定系数最大者。(该释义来自百度百科)由于小编没有碰到过这种情况,所以还不知道该值的实际作用。

参数估计

多元线性回归方程有k 1个待估计的系数

图片 8

k 1个待估计的系数

利用一组观测值可以对它们进行估计,常用的参数估计方法是最小二乘法。普通最小二乘法过最小化误差的平方和寻找最佳函数,常用矩阵运算求解系数矩阵。

图片 9

系数矩阵估计

假设利用上式计算得到了估计的系数矩阵β,则可以进一步计算样本拟合值或回归值。

图片 10

样本拟合

其中,Y的某个分量的拟合函数为

图片 11

拟合值Yi

对于真实的样本观测值和拟合值之间的差值,我们称为残差

图片 12

残差公式

最小二乘法的思想就是使得样本数据的残差平方和最小,进而得到最优的回归系数。即使得

图片 13

残差平方和

取得最小值。利用上式对k 1个系数求偏导数,并使得导数为0,即求得β的普通最小二乘估计量。矩阵计算公式参考上边系数矩阵估计方程。

标准误差:等于表2中残差SS / 残差df 的平方根。这个与测定系数一样都能描述回归模型与实际数据的拟合程度,它代表的是实际值与回归线的距离,当然这个值越小越好,不过具体小到什么程度?由于这个值实在没有范围,因此还很难界定。

3. 模型检验与评价

方差分析
我们假设系数全为0,利用传统的假设检验方法,计算F检验或t检验统计量,验证回归方程是否有统计学意义。如果利用excel或spss,可以得到如下图所示的回归方差分析表。

图片 14

回归方差分析表

如果F值大于置信边界值,或P小于0.01,则认为系数不全相等且回归方程有统计学意义。
决定系数
决定系数R^2,取值范围为[0,1],代表自变量能够解释因变量的比例,其值越接近1,说明模型对数据的拟合程度越好。

图片 15

决定系数计算公式

复相关系数
可以用来度量因变量Y和自变量X之间的线性相关程度,亦即观察值和估计值之间的相关程度。其值R为决定系数的平方根。
偏回归平方和
指的是在固定其他k-1个自变量的条件下,某一自变量对因变量Y的贡献程度或影响程度。相当于在回归方程中剔除某自变量后引起回归平方和的减少量,或者在k-1个自变量的基础上增加某自变量后引起的回归平方和的增加量。

图片 16

偏回归系数

SS回(X)指的是偏回归平方和,其值越大说明相应的自变量越重要。
t检验方法与偏回归平方和检验等价,利用假设检验的形式验证某自变量是否对因变量有显著的影响作用,其验证方法与F检验类似,t检验统计量的计算公式如下:

图片 17

t检验统计量

观测值:有多少组自变量的意思。

4. 案例解析

暂时先分享几个其他人的博客吧。
首先是最简单的例子,可以手工计算的小栗子,请参考这个课件,一边讲概念,一边进行具体的计算。
然后是利用SPSS这个统计软件的案例,软件功能强大,但是使用起来还要多看说明,不然有些功能还是不知道怎么实现。
再然后是强大的统计编程R语言的解读,强大的绘图功能可以方便我们做出很多好看的分析图表来,比如下面这张图。

图片 18

期货黑色品系价格预测曲线

最后是Python语言的实现博客简易篇和提升篇,两篇的难易程度不同,大家可以自行选择。

表2:

参考文献

[1]. 课件-多元线性回归分析-结合例子来讲,容易理解
[2]. 百度百科-多元线性回归-简单介绍
[3]. 博客-多元线性回归-公式很详细

回归分析df:回归分析模型的自由度,以样本来估计总体时,样本中独立或能自由变化的个数。见上表,数据自由度等于样本组数减1,回归分析模型的自由度是1,即这个回归模型有1个参数,残差自由度等于总自由度减去回归分析模型的自由度。

回归分析SS:回归平方和SSR,等于回归预测Y值(表4)与实际Y均值的平方和。表4 残差等于实际Y值减预测Y值,残差SSE,即表4残差平方和。

MS:均方差,等于SS/df。

F:回归分析MS/残差MS。

Significance F:是在显著性水平下的Fα临界值,即F检验的P值,代表弃真概率,这个值一般要小于0.05的,且越小越好,1-本值即为置信度,本例回归模型的置信度未达95%。

表3:

Intercept Coefficients:截距的回归值,X Variable 1 Coefficients:斜率的回归值。本例即Y=-0.002641967X 82.26263918。

标准误差不必多说,越小参数精度越高。

t Stat:回归系数/标准误差,对于一元线性回归,F值与t值都与相关系数R代表差不多的意思,但是,对于多元线性回归,t检验是有必要的。

P-value:P值不多说,代表两个参数的弃真概率,1-P值是置信度。

Lower 95%......:这四列,代表在95%的置信度下,回归系数的上下限。如本例斜率的回归系数,就不落在此区间内。

表4这个好像没什么可讲的。

以上,欢迎补充指正。

本文由新葡萄京官网发布于关于我们,转载请注明出处:多元线性回归,详细解读回归分析结果

关键词: 新葡萄京官网

最火资讯