第四章 多重共线性

合集下载

《计量经济学》第四章精选题及答案

《计量经济学》第四章精选题及答案

第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。

(1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。

(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。

(3)如果某一辅回归显示出较高的2i R 值,则必然会存在高度的多重共线性。

(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。

(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。

12233i i i Y X X βββ=++来对以上数据进行拟合回归。

(1) 我们能得到这3个估计量吗?并说明理由。

(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。

6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。

这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。

我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。

该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。

(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型12233i i i i Y X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。

如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗? (3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=? 9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫⎪ ⎪=⎪ ⎪ ⎪⎝⎭L L M M M M L 。

第四章 多重共线性

第四章 多重共线性

2
( x2 i x3 i ) 2 x [1 2 x3 i
2 2i

2
2 2 x2 i (1 r23 )
ˆ Var( 3 ) 同样可得
2
2 2 x3 i (1 r23 )
ˆ ˆ Cov( 2 , 3 )
r23 2
2 2 2 (1 r23 ) x2 i x3 i
1 X X 21 X 31
1 X 22 X 32
1 X 2n X 3n
nX 3 X 2 i X 3 i 2 X 3 i
X 2 i
2 X 2 i X 2 i X 3 i
X 3 i n nX 2 2 X 2 i X 3 i nX 2 X 2 i 2 X 3 i nX 3 X 2 i X 3 i
其中vi为随机变量,则称解释变量X2、X3、 …、 Xk 之间存在着不完全的多重共线性。 注意:解释变量之间不存在线性关系,并非不存在 非线性关系,当解释变量之间存在非线性关 系时,并不违反古典假定。
5
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1.经济变量之间具有相同的变化趋势。
10
n X X nX 2 nX 3 n 0
nX 2 X
2 2i
nX 3 X 2 i X 3 i
2 X 3 i
X 2 i X 3 i nX 2
2 2 X 2 i nX 2
X 2 i x2 i X 2 X 3 i x3 i X 3
nX 3
X 2 i X 3 i nX 2 X 3
这里r23是X2,X3的相关系数。
16

计量经济学第四章多重共线性

计量经济学第四章多重共线性

R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。
对于解释变量 X 2 , X 3, X k,存在不全为0的数
1
,

2
,
,使得
k
1 2X2 3X3 ...k Xk u 0
5
(三)解释变量的关系小节
可能表现为三种情形: r为相关系数 (1) rxixj 0 ,解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数(Cross correlation)
相关系数计算的是两组样本的同期相关程 度,交叉相关则可以表示不同期之间的相关 程度。
Eviews操作: Group窗口的view/cross correlation/输入 滞后期设定/ 输出结果阅读:看是否超出2倍标准差线
18
2倍 标准 差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。

第四章多重共线性

第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用

R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大

计量经济学课件:第四章多重共线性

计量经济学课件:第四章多重共线性

计量经济学课件:第四章多重共线性第四章多重共线性第⼀节违背基本假定的⼀般描述⼀、基本假定的回顾1、零均值假定。

2、同⽅差假定。

3、⽆⾃相关假定。

4、解释变量与随机误差项不相关。

5、⽆多重共线性假定。

6、正态性假定。

除此之外,还有⼀些需要注意的地⽅,回归模型关于参数线性;在重复抽样中X 值是固定的(或X 是⾮随机的);X 的值要有变异;模型设定是正确的。

⼆、假定1和假定6违背的讨论1、违背假定1的情况。

(1)正确理解零均值假定是掌握所有假定的关键(参见Wooldridge ,计量经济学导轮现代观点,pp.23-25)。

(2)假定1不满⾜的数学描述。

设⼀元线性回归模型为121212'1212,1,2,,()0,i i i i i i i i i iY X u i nE u k E Y X E u X k k X X ββββββββββ=++==≠=++=++=++=+如果有则有()()()由上式表明,这时在0≠)(i u E 下,改变的只是截距项,⽽对模型的线性结构并不影响。

(3)对假定1被破坏的解释。

通常在这种情况下,我们认为是变量所取的数据可能出现了异常表现,即有异常值。

因为按照零均值的意义,要求各个散点是均匀地分布在回归线的周围。

修正的⽅法将在后⾯虚拟变量部分介绍。

例如,我们分析江苏省社会商品消费品零售总额与江苏省城乡居民可⽀配收⼊之间的关系,发现在1991年该省的社会消费品零售总额存在异常值,表现为样本回归模型的残差在1991年有估计值与实际值存在明显的差异。

见下图和下表Dependent Variable: JSSHEHSPMethod: Least SquaresDate: 10/16/04 Time: 09:38Sample: 1980 1998Included observations: 19Variable Coefficient Std. Error t-Statistic Prob.R-squared 0.990391 Mean dependent var 751.2384Adjusted R-squared 0.989826 S.D. dependent var 728.4301S.E. of regression 73.47491 Akaike info criterion 11.53107Sum squared resid 91775.55 Schwarz criterion 11.63048Log likelihood -107.5451 F-statistic 1752.172Durbin-Watson stat 1.905133 Prob(F-statistic) 0.000000另⼀⽅⾯,有时通过变量的时序数据的样本折线图也可直接观察到样本是否存在异常表现。

多重共线性

多重共线性

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。

对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。

则称解释变量23,,,k X X X 之间存在着完全的线性关系。

用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。

当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。

在实际问题中,完全的共线性并不多见。

常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。

这表明此时解释变量之间只是一种近似的线性关系。

二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。

不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。

一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。

第四章第二节 多重共线性产生的后果

第四章第二节  多重共线性产生的后果

Y E(Y ) 1 2 X2 3 X3

二元线性回归模型 Y 1 2 X 2 3 X3 u
其离差形式为: y 2 x2 3x3 u


y 2 x2 3 x3 e
2和 3 的估计式
ˆ2 (
yx2 )( x32 ) ( yx3 )( x2 x3 ) ( x22 )( x32 ) ( x2 x3 )2

x31x32 x3n xk1xk 2xkn (k1)n



y x e, xy xx xe xx ,即为正规方程组
x21x22 x2n y1 x31x32 x3n y2 xk1xk2 xkn yn
r24 0.9632 r35 0.8435 r46 0.9248
r25 0.4569 r36 0.5494 r56 0.5438
r26 0.8569
表明一些解释变量之间确实存在共线性。
***离差形式的最小二乘估计量
多元线性总体回归模型有:
Yi 1 2 X 2i 3 X 3i k X ki ui Y 1 2 X2 3 X3 k Xk Yi Y 2 ( X 2i X 2 ) 3 ( X 3i X 3 ) k ( X ki X k ) ui yi 2 x2i 3 x3i k xki ui
x22 )2
x22 )

(
yx2
) 2 ( y)( ( x22 )( 2 )
x22 )
通过上式可以看出,随着 X2、X3 共线性程度的越
高,即 愈向零靠近,从而 ˆ2 就会愈趋向于不确定

计量经济学(第四章多重共线性)

计量经济学(第四章多重共线性)

06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分

数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 ˆ ) = σ2 Var( β 2 = 2 2 ∑ x2i (1- r23 )

σ2 1 2 2 x2 i (1- r23 ) ∑
r23
增大时 Var(β 2 ) 也增大
14
^
2.对参数区间估计时,置信区间趋于变大 对参数区间估计时, 对参数区间估计时 3.假设检验容易作出错误的判断 假设检验容易作出错误的判断 4.可能造成可决系数较高,但对各个参数单独的 可能造成可决系数较高, 可能造成可决系数较高 t 检验却可能不显著,甚至可能使估计的回归系 检验却可能不显著, 数符号相反,得出完全错误的结论。 数符号相反,得出完全错误的结论。
1.经济变量之间具有共同变化趋势。 经济变量之间具有共同变化趋势。 经济变量之间具有共同变化趋势 2.模型中包含滞后变量。 模型中包含滞后变量。 模型中包含滞后变量 3.利用截面数据建立模型也可能出现多重共线性。 利用截面数据建立模型也可能出现多重共线性。 利用截面数据建立模型也可能出现多重共线性 4.样本数据自身的原因。 样本数据自身的原因。 样本数据自身的原因
采用普通最小二乘法得到以下估计结果
2
财政收入模型的EViews估计结果 财政收入模型的EViews估计结果 EViews
Variable 农业增加值NZ 农业增加值 工业增加值GZ 工业增加值 建筑业增加值JZZ 建筑业增加值 总人口TPOP 总人口 最终消费CUM 最终消费 受灾面积SZM 受灾面积 截距项 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient -1.535090 0.898788 -1.527089 0.151160 0.101514 -0.036836 -11793.34 0.995015 0.993441 481.5380 4405699. -193.4165 1.873809 Std. Error 0.129778 0.245466 1.206242 0.033759 0.105329 0.018460 3191.096 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) t-Statistic -11.82861 3.661558 -1.265989 4.477646 0.963783 -1.995382 -3.695704 Prob. 0.0000 0.0017 0.2208 0.0003 0.3473 0.0605 0.0015 5897.824 5945.854 15.41665 15.75537 632.0999 0.000000 3
模型估计与检验结果分析 可决系数为0.995 校正的可决系数为0.993 0.995, 0.993, ●可决系数为0.995,校正的可决系数为0.993,模型 拟合很好。模型对财政收入的解释程度高达99.5% 99.5%。 拟合很好。模型对财政收入的解释程度高达99.5%。 统计量为632.10 说明0.05 632.10, 0.05水平下回归方程整体 ●F统计量为632.10,说明0.05水平下回归方程整体 上显著。 上显著。 ● t 检验结果表明,除了工业增加值和总人口以外, 检验结果表明,除了工业增加值和总人口以外, 其他因素对财政收入的影响均不显著。 其他因素对财政收入的影响均不显著。 农业增加值和建筑业增加值的回归系数是负数。 ●农业增加值和建筑业增加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗? 农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢? 若模型设定和数据真实性没问题,问题出在哪里呢?
17
注意: 注意:
较高的简单相关系数只是多重共线性存在的充分 条件,而不是必要条件。 条件,而不是必要条件。特别是在多于两个解释 变量的回归模型中, 变量的回归模型中,有时较低的简单相关系数也 可能存在多重共线性。 可能存在多重共线性。因此并不能简单地依据相 关系数进行多重共线性的准确判断。 关系数进行多重共线性的准确判断。
λ1 + λ2 X2i + λ3 X3i +... + λk Xki = 0
i =1, 2,..., n
则称解释变量 X2 , X3 ,LXk 之间存在着完全的多重 共线性。 共线性。
7
当 Rank ( X ) < k 时,表明在数据矩阵 X 中,至少 有一个列向量可以用其余的列向量线性表示, 有一个列向量可以用其余的列向量线性表示,则 说明存在完全的多重共线性。 说明存在完全的多重共线性。
11
第二节 多重共线性产生的后果
本节基本内容: 本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
12
一、完全多重共线性产生的后果
1.参数的估计值不确定 参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定 当解释变量完全线性相关时 完全线性相关 从偏回归系数意义看: 完全共线性时, ▲ 从偏回归系数意义看:在 X 2 和 X 3完全共线性时,无法保 持 X 3 不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响 不变, 的影响( 不可区分) 不可区分)
互正交。这时已不需要作多元回归,每个参数βj都可 以通过Y 对 Xj 的一元回归来估计。
(2) rxi x j = 1 ,解释变量间完全共线性。此时模型参 数将无法确定。 (3) 0<rxi x j <1 ,解释变量间存在一定程度的线性关 系。实际中常遇到的情形。
10
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 多重共线性产生的经济背景主要有几种情形:
1 (Variance Inflation Factor),即 VIFj = , 1- R 2 ) ( j
其中 R 2 是多个解释变量辅助回归的可决系数 j
19
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 方差膨胀因子越大, 性越严重。反过来,方差膨胀因子越接近于 , 性越严重。反过来,方差膨胀因子越接近于1, 多重共线性越弱。 多重共线性越弱。 ●经验表明,方差膨胀因子≥10时,说明解释变量 经验表明,方差膨胀因子 时 与其余解释变量之间有严重的多重共线性,且这 与其余解释变量之间有严重的多重共线性, 种多重共线性可能会过度地影响最小二乘估计。 种多重共线性可能会过度地影响最小二乘估计。
+ β 4TPOPi + β 5CUM i + β 6 SZM i + ui
其中: CS财政收入 亿元 ; 财政收入(亿元 其中 财政收入 亿元) NZ农业增加值 亿元 农业增加值(亿元 GZ工业增加值 亿元 工业增加值(亿元 农业增加值 亿元); 工业增加值 亿元); JZZ建筑业增加值 亿元 建筑业增加值(亿元 总人口(万人 建筑业增加值 亿元); TPOP总人口 万人 总人口 万人); CUM最终消费 亿元 最终消费(亿元 SZM受灾面积 万公顷 受灾面积(万公顷 最终消费 亿元); 受灾面积 万公顷) 数据样本时期1978年-2003年(资料来源:《中国统计年鉴 数据样本时期 年 年 资料来源: 2004》,中国统计出版社 年版) 》 中国统计出版社2004年版) 年版
8
不完全的多重共线性
实际中, 实际中,常见的情形是解释变量之间存在不完 全的多重共线性。 全的多重共线性。 对于解释变量 X 2 , X 3 ,L X k,存在不全为 的数 存在不全为0的数 使得 λ1 , λ 2 , L λ k ,使得
λ1 + λ2 X2i + λ3 X3i + ... + λk Xki + ui = 0
20
三、直观判断法
1. 当增加或剔除一个解释变量,或者改变一个观 当增加或剔除一个解释变量, 测值时,回归参数的估计值发生较大变化, 测值时,回归参数的估计值发生较大变化,回归 方程可能存在严重的多重共线性。 方程可能存在严重的多重共线性。 2. 从定性分析认为,一些重要的解释变量的回归 从定性分析认为, 系数的标准误差较大, 系数的标准误差较大,在回归方程中没有通过显 著性检验时, 著性检验时,可初步判断可能存在严重的多重共 线性。 线性。
计量经济学
第四章 多重共线性
1
引子: 引子: 发展农业和建筑业会减少财政收入吗? 发展农业和建筑业会减少财政收入吗?
为了分析各主要因素对财政收入的影响, 为了分析各主要因素对财政收入的影响,建立财政收 入模型: 入模型 CS i = β 0 + β1 NZ i + β 2GZ i + β 3 JZZ i
4
第四章 多重共线性
本章讨论四个问题: 本章讨论四个问题:
●什么是多重共线性 ●多重共线性产生的后果 ●多重共线性的检验 ●多重共线性的补救措施
5
第一节 什么是多重共线性
本节基本内容: 本节基本内容:
●多重共线性的含义 ●产生多重共线性的背景
6
一、多重共线性的含义
在计量经济学中所谓的多重共线性(Multi在计量经济学中所谓的多重共线性 Collinearity),不仅包括完全的多重共线性,还 ,不仅包括完全的多重共线性, 包括不完全的多重共线性。 包括不完全的多重共线性。 如果存在不全为0的 对于解释变量 X 2 , X 3 ,L , X k ,如果存在不全为 的 数 λ , 2 ,...λ ,使得 1 λ k
i = 1, 2,..., n
其中, 为随机变量。 其中 ui 为随机变量。这表明解释变量 X 2 , X 3 ,L X k 只是一种近似的线性关系。 只是一种近似的线性关系
相关文档
最新文档