自相关的概念

谈谈自相关

第一节什么是自相关

有时，进行简单回归后，检验结果中回归系数的标准误差非常小，t统计里量较大，同时可决系数也非常高，F统计量较大，表明模型异常的显著。但此估计结果可能是虚假的，t统计量和F统计量都被虚假地夸大，因此所得结果是不可信的，这就可能存在着自相关。

一、自相关的概念

自相关，又称序列相关，是指总体回归模型的随机扰动项ui之间存在着相关关系，即不同观测点上的误差项彼此相关。违背了回归模型的古典假定中假设随机扰动项是无自相关的。
在这里插入图片描述
自相关的程度可以用自相关系数去表示。随机扰动项ut与滞后一期的ut-1的自相关系数计算方法与样本相关系数相同，由于ut与ut-1的均值为0，自相关系数p为

其中自相关系数p称为一阶自相关系数。

二、自相关产生的原因

（1）经济系统的惯性。自相关现象大多出现在时间序列数据中，而经济系统的经济行为都具有时间上的惯性。例如，GDP、价格、就业等经济数据，都会随着经济系统的周期而波动。
（2）经济活动的滞后效应。滞后效应是指某一变量对另一变量的影响不仅限于当期，而是延续若干期。由此带来变量的自相关。
（3）数据处理造成的相关。鉴于某些原因对数据进行了修正和内插处理，在这样的数据序列中可能产生自相关。
（4）蛛网现象。蛛网现象是微观经济学中的一个概念。常见于农产品。它表示某种商品的供给量Yt受前一期Pt-1影响而表现出来的某种规律性，即呈蛛网状收敛或发散于供需的均衡点。
（5）模型设定偏误。如果模型中省略了某些重要的解释变量或者模型函数形式不正确，都会产生系统误差，这种误差存在于随机误差项中，从而带来了自相关。

自相关关系主要存在于时间序列模型数据中，但是在横截面数据中，也可能会出现自相关，通常称为空间自相关。

三、自相关的表现形式

自相关大多出现在时间序列数据中，下面以时间序列为例说明自相关的不同表现形式。
对于样本观测值为n的时间序列数据，可以得到总体回归函数的随机误差项为u1,u2,u3,…,un，如果自相关形式为
在这里插入图片描述
式中，p为自相关系数（也叫一阶自相关系数），vt为满足古典假定的误差项，即均值为0，误差恒定，协方差为0。该式称为一阶自回归形式，记为AR(1)。

如果式子中的随机扰动项vt是不满足古典假定的误差项，即vt中包含由ut的成分，如包含ut-2的影响，则需将ut-2包含在回归模型中，即
在这里插入图片描述
式中，p1为一阶自相关系数，p2为二阶自相关系数，vt’是满足古典假定的误差项。式子称为二阶自回归形式，记为AR(2)。由此我们可以推出AR(m)，即m阶自回归形式。

此外，自相关的形式可能为移动平均形式，记为MA(n)，还可能为更复杂的移动平均自回归形式，记为ARMA(m,n)，这些是时间序列分析的专题内容，可自己扩展学习。本节主要讨论假定自相关为AR(1)的形式。

第二节自相关的后果

一、一阶自回归形式的性质

以一元线性回归模型为例，对于
在这里插入图片描述
假定随机误差项ut存在一阶自相关，即

式中，ut为现期随机误差，ut-1为前期随机误差，vt为满足古典假定的误差项。由于ut不可观测，我们只能用样本回归模型的残差et去估计自相关系数。

在大样本情况下，现期残差平方和与滞后一期残差平方和近似相等，如果将随机扰动项ut的各期滞后值依次代入上式可得
在这里插入图片描述
可以推得

注：图片中var(vt)更正为Var(ut)

表明，ut为一阶自回归形式的自相关时，随机扰动项ut依然满足零均值、同方差的假定。
因为现期的随机误差项vt并不影响回归模型中随机扰动项ut以前各期值ut-k（k>0），所以vt与ut-k不相关，即E(vtut-k)=0。可以推出：
在这里插入图片描述
以此类推，可得：

易知，这些自协方差均不为0，这正是存在自相关的含义。

二、自相关对参数估计的影响

以一元线性回归模型为例，当ut满足各项古典假定时，普通最小二乘估计的B2估计的方差为：
首先在这里插入图片描述
因为在普通最小二乘法无偏性的证明中并不需要ut满足无自相关的假定，所以当随机误差项ut存在自相关时，B2的估计依然是无偏的。
在来看OLS(最小二乘估计)的方差，

在这里插入图片描述
因此，上式中左边括号的值通常大于1，如果仍用OSL法去计算B2估计的方差，将可能会低估存在自相关时参数估计值的真实方差。可以证明，当存在自相关时，普通最小二乘法估计量不再是最佳线性无偏估计量，即它在线性无偏估计量中不是方差最小的。

此外，当随机扰动项ut不存在自相关时，
在这里插入图片描述
但是，如果随机误差项ut存在一阶自相关，可以证明如果仍用原始式子去估计ut的方差，则会导致低估真实的方差。显然，这使得参数估计值的方差进一步低估。

三、自相关对模型检验的影响

通过以上讨论可知，存在自相关问题时，如果忽视自相关问题，依旧用最小二乘法去估计参数及其方差，会低估真实的方差，更会低估参数估计值的方差。当参数估计值方差被低估时，其标准误差也被低估，从而过高估计t统计量的值，这就会夸大所估计参数得显著性，对本来重要的解释变量可能误认为重要而被保留。这时通常的回归系数显著性的t检验就失去了意义。

类似地，由于自相关的存在，参数得最小二乘估计量是无效的，使得F检验和R^2检验是不可靠的。

四、自相关对模型预测的影响

模型预测的精度取决于抽样误差和总体误差项的方差。抽样误差来自于参数的估计，在自相关情形下，参数的方差的最小二乘估计变得不可靠，由此必定会加大抽样误差。

同时，在自相关情形下，对随机扰动项方差的估计也会变得不可靠。由此，影响预测精度的两大因素都因自相关的存在而加大不确定性，使预测的置信区间不可靠，从而降低了预测的精度。

第三节自相关的检验

一、图示检验法

图示检验法是一种直观的诊断方法，它是对给定的回归模型直接用普通最小二乘法估计其参数，求出残差项et，以残差et作为随机误差项ut的估计值，再描绘et的散点图，根据散点图来判断et的相关性。残差et的散点图通常有两种绘制方法。
（1）绘制et与et-1的散点图。如果大部分落在第一、三象限说明随机误差项ut存在着正相关，反之，如果大部分点落在第二、四象限，那么随机误差项ut存在着负相关，如下图所示。
在这里插入图片描述
（2）按照时间顺序绘制回归残差项et的图形。如果et随着t的变化逐次有规律地变化，呈现锯齿形或循环形状的变化，就可判断et存在相关，表明ut存在着自相关。如果et随着t的变化逐次变化并不频繁地改变符号，而是几个正的et后面跟着几个负的，则表明随机误差项ut存在正自相关。如果et随着t地变化逐次变化并不断改变符号，那么随机误差项ut之间存在负自相关。

二、DW检验法

DW检验法是检验自相关的常用方法，DW检验法的前提条件如下：
（1）随机变量X为非随机的（这与后边滞后被解释变量相呼应）
（2）随机误差项为一阶自回归形式，即：ut=p*ut-1+vt（vt满足古典假定）
（3）线性模型的解释变量中不包含滞后的被解释变量（因为变量是非随机的），如不应该出现下列形式：Yt=B1+B2Xt+B3Yt-1+ut
（4）截距项不为零，即只适用于有常数项的回归模型。
（5）数据序列无缺失项

为了检验序列的相关性，构造的原假设是H0：p=0。为了检验这一假设，构造DW统计量，首先要计算回归估计式的残差et，定义DW统计量为
在这里插入图片描述
式中，et=Yt-Yt估计，t=1,2,…,n.
则继续推到得

所以，DW值与p的估计对应关系如下表所示。

p的估计	DW
-1	4
(-1,0)	(2,4)
0	2
(0,1)	(0,2)
1	0

由上述讨论可知DW值在[0,4]区间内。
根据样本容量n和解释变量的数目k’（不包含常数项），查DW分布表，可得临界值dL和dU，然后依下列准则考察计算的DW值，以决定模型的自相关状态。

DW值范围	自相关状态
0=<DW<=dL	误差项之间存在正自相关
dL<DW<=dU	不能判定是否有自相关
dU<DW<4-dU	误差项之间无自相关
4-dU=<DW<4-dL	不能判定是否有自相关
4-dL=<DW<=4	误差项之间存在负相关

可以用图更直观的表现出来，
在这里插入图片描述
需要注意的式，DW检验尽管有广泛的应用，但也有很明显的局限和缺点。
（1）DW检验有两个不能确定的区域。一旦落入此两个区域，就无法判断，这时，只有增大样本容量或选取其他方法。
（2）DW统计量的上、下界表要求n>=15，这是因为样本如果再小，利用残差就很难对自相关的存在性做出比较正确的诊断。
（3）DW检验不适于随机误差项具有高阶序列相关的检验。
（4）DW检验有运用的前提条件，只有符合这些条件DW检验才是有效的。若不满足运用的条件，还需要寻求其他的检验方法。

三、Breusch-Godfrey检验（LM检验）

该方法也称BG检验，思想主要是基于所分析模型普通最小二乘估计的残差对解释变量和一定数量滞后残差的辅助回归，如果滞后残差足以解释当前残差的编译，就拒绝误差项无自相关的原假设。
对于线性回归模型：
在这里插入图片描述
假设误差项ut服从正态分布，同时ut服从p阶自回归模型：

式子中，vt满足古典假定的误差项。
BG检验的原假设为H0:p1=p2=…=pp=0，即不存在自相关，检验的具体步骤如下：
（1）用OLS估计原模型式，并得到残差et
（2）然后用残差et对解释变量X及滞后残差et-i作辅助回归，即：
在这里插入图片描述
式中，样本容量为n，有效样本n-p。为避免由于et取滞后值而缺失有效样本，不影响LM统计量的渐进性，并使LM统计量性质更好，将样本数据X和残差et的n个样本以前的p期初始值预处理为0，辅助回归的实际样本容量为T=(n+p)-p=n.
（3）计算辅助回归的可决系数R方，并且构建统计量LM=T*R方，其中T为辅助回归实际样本容量，p为ut的自回归阶数。在大样本条件下，有
在这里插入图片描述
给定显著性水平，若TR方大于临界值，则拒绝原假设，式中至少有一个p在统计上显著不为0，说明存在自相关。反之，不存在自相关。

与DW检验不同，BG检验有一些特点：（1）BG检验不只限于一阶自相关，还适合于高阶自相关的检验；（2）适合检验模型的解释变量中有滞后被解释变量如Yt-1、Yt-2的情况；（3）BG检验的滞后长度p不能先验确定。实际检验中逐次向更高阶检验，并结合辅助回归中滞后项参数的显著性去帮助判断自相关的阶数。

第四节自相关的补救

对于模型设定偏误造成的自相关，应该通过改变模型的设定去消除。对于设定正确的模型，如果随机误差项有自相关，则需采用广义差分法予于消除。

一、广义差分法

由于随机误差项ut是不可观测的，通常我们假定ut为一阶自回归形式，即
在这里插入图片描述
式中，p的绝对值小于1，vt满足古典假定的误差项。

当自相关系数p已知时，可用广义差分法来解决自相关问题。以一元线性回归模型为例：
在这里插入图片描述
再用(6.26)减去最后一式，得出
（6.28）

其中ut-put-1是满足古典假定的误差项（即无自相关），因此，该模型满足古典假定。

令：在这里插入图片描述
对（6.30）进行普通最小二乘估计，可得到参数的最佳线性无偏估计量。因为最终模型中被解释变量与解释变量均为现期值减去前一期值的一部分，所以称为广义差分方程。如果随机误差项的自相关形式是AR§，即p阶自相关，则需使用p阶广义差分。

在进行广义差分时，由于解释变量X与被解释变量均以差分形式出现，因而样本容量减少1个，如果样本容量较大，减少一个观测值对估计影响不大。但是，如果样本容量较小，则会对估计影响较大。此时，可采用普莱斯-温斯滕变换，将第一个观测值分别变换为在这里插入图片描述
补充到差分序列Yt*、Xt*中，在使用普通最小二乘估计法估计参数。

二、自相关系数p的确定

在实际应用中，自相关系数p往往是未知的，必须通过一定的方法去估计p。最简单的方法是依据DW统计量去估计p。p的估计=1-DW/2求得。

但是，这只是一个粗略的结果，这样得到的p的估计只是对p的精度不高的估计，根本原因在于对有自相关的回归模型使用了普通最小二乘法。为了得到p的更精确的估计值，可采用科克伦-奥克特迭代法或德宾两步法。

1、科克伦-奥克特迭代法

该方法的基本思想是通过逐步迭代去寻求更为满足的p的估计值，采用广义差分法，具体来说，该方法是利用残差et去估计未知的p。

对于一元线性回归模型，同样假定ut为一阶自回归形式。科克伦-奥克特迭代法估计p的步骤如下。

第一步，使用OSL法（普通最小二乘法）估计一元线性回归模型，并计算残差et：
在这里插入图片描述
第二步，利用残差et做如下的回归：

第三步，用OSL法估计式中的p^第一个估计，对一元线性回归模型进行广义差分，即：

第四步，由前一步估计的结果可以求出B1的估计和B2的估计，将它们代入原回归方程式，求出新的残差et(3):
在这里插入图片描述
第五步，利用残差et(3)作回归：

用OLS法估计p^(2)是对p的第二轮估计值。