Dummy_variable

合集下载

第7章 Dummy Variables 虚拟变量

• d: dummy variable虚拟变量
Case 1: y = b0 + d0d + b1x + u
• 考虑一个简单工资方程：
wage = b0 + d0 female + b1 educ + u
• If female =0, then wage = b0 + b1educ + u • If female =1, then wage = (b0 + d0) + b1educ + u
• d0 = E(wage| female=1, educ) - E(wage| female=0, educ)
• d0 (an intercept shift): 给定教育年限educ，女性平均工资比男性平均工资高d0元。
Example of d0 > 0
E(wage|female,educ) = b0 + d0 female + b1 educ
扩展：多个虚拟变量回归模型
• female(1 female; 0 male); married(1 married; 0 single) • marrfem( 1 female married; 0 others) • marrmale (1 male married; 0 others) • singlefem (1 female single; 0 others) • singlemale (1 male single; 0 others)
• A dummy variable 是一种只取1或0两个数值的变量. • Examples: (1) sex: 1: male 2: female
male (= 1 if male, 0 otherwise); female (= 1 if female, 0 otherwise) (2) region: 1. eastern; 2. central ; 3. western) eastern (=1 if eastern, 0 otherwise); central (=1 if central, 0 otherwise) western (=1 if western, 0 otherwise) • Dummy variables are also called: 二值变量(binary variables), 0-1变量(zero-one variables)

哑变量详解——精选推荐

哑变量详解1、哑变量定义哑变量（DummyVariable），也叫虚拟变量，引⼊哑变量的⽬的是，将不能够定量处理的变量量化，在线性回归分析中引⼊哑变量的⽬的是，可以考察定性因素对因变量的影响，它是⼈为虚设的变量，通常取值为0或1，来反映某个变量的不同属性。

对于有n个分类属性的⾃变量，通常需要选取1个分类作为参照，因此可以产⽣n-1个哑变量。

如职业、性别对收⼊的影响，战争、⾃然灾害对GDP的影响，季节对某些产品（如冷饮）销售的影响等等。

这种“量化”通常是通过引⼊“哑变量”来完成的。

根据这些因素的属性类型，构造只取“0”或“1”的⼈⼯变量，通常称为哑变量（dummyvariables），记为D。

举⼀个例⼦，假设变量“职业”的取值分别为：⼯⼈、农民、学⽣、企业职员、其他，5种选项，我们可以增加4个哑变量来代替“职业”这个变量，分别为D1（1=⼯⼈/0=⾮⼯⼈）、D2(1=农民/0=⾮农民)、D3（1=学⽣/0=⾮学⽣）、D4(1=企业职员/0=⾮企业职员)，最后⼀个选项“其他”的信息已经包含在这4个变量中了，所以不需要再增加⼀个D5（1=其他/0=⾮其他）了。

这个过程就是引⼊哑变量的过程，其实在结合分析（ConjointAnalysis）中，就是利⽤哑变量来分析各个属性的效⽤值的。

此时，我们通常会将原始的多分类变量转化为哑变量，每个哑变量只代表某两个级别或若⼲个级别间的差异，通过构建回归模型，每⼀个哑变量都能得出⼀个估计的回归系数，从⽽使得回归的结果更易于解释，更具有实际意义。

2、什么情况下需要设置哑变量1. 对于⽆序多分类变量，引⼊模型时需要转化为哑变量举⼀个例⼦，如⾎型，⼀般分为A、B、O、AB四个类型，为⽆序多分类变量，通常情况下在录⼊数据的时候，为了使数据量化，我们常会将其赋值为1、2、3、4。

从数字的⾓度来看，赋值为1、2、3、4后，它们是具有从⼩到⼤⼀定的顺序关系的，⽽实际上，四种⾎型之间并没有这种⼤⼩关系存在，它们之间应该是相互平等独⽴的关系。

第十讲虚拟变量DUMMYVARIALBE

SIB-BFSU, ECONOMETRICS
第十讲虚拟变量DUMMYVARIALBE
DUMMY VARIABLE CLASSIFICATION WITH TWO CATEGORIES
. Dependent Variable: COST Method: Least Squares Date: 05/16/04 Time: 19:22 Sample: 1 74 Included observations: 74 Variable C N OCC R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
SIB-BFSU, ECONOMETRICS
第十讲虚拟变量DUMMYVARIALBE
DUMMY VARIABLE CLASSIFICATION WITH TWO CATEGORIES
b1+d d
b1
Combined equation OCC = 0 Regular school OCC = 1 Occupational school
SIB-BFSU, ECONOMETRICS
第十讲虚拟变量DUMMYVARIALBE
DUMMY VARIABLE CLASSIFICATION WITH TWO CATEGORIES
We will now fit a function of this type using actual data for a sample of 74 secondary schools in Shanghai.
SIB-BFSU, ECONOMETRICS
第十讲虚拟变量DUMMYVARIALBE

stata中如何生成虚拟变量

Stata入门——如何生成虚拟变量
虚拟变量：dummy variable，也叫哑变量，例如在对变量进行量化时，如性别，则可以生成虚拟变量，男为1，女为0；或者对受教育程度的量化。

存在N个变量的时候，只允许使用N-1个虚拟变量，这是因为共线性的问题。

方法一：
gen dummy1 = 0 if !missing(变量X) //后面的!missing变量(X)的含义为对数据进行判断，如果该数据没有缺失，则继续进行，如果缺失则丢掉该组数据。

replace dummy1 = 1 if 变量X == 1 if !missing(变量X)
方法二：
gen dummy2 = cond(变量X == 1，1，0) //后面的cond为对变量X进行判断，若
为1，则赋值为1，否则赋值为0
replace dummy2 = . if 变量X == . //此处时对缺失数据进行删除处理
如何生成批量虚拟变量？
tab 变量列名称，gen(前缀名)
此处注意，在回归分析时，有着相同前缀名的虚拟变量可以键入公式：
reg 变量1 变量2 变量3 ...... 前缀名* //系统会自动加入相同前缀的变量进行回归。

结构方程哑变量

结构方程哑变量结构方程哑变量（dummy variable）是指在结构方程模型中，将分类变量转化为虚拟变量，以便于在模型中进行分析。

这个方法也被称为指示变量法（indicator variable approach）或者二元变量法（binary variable approach）。

以一个简单的例子为说明，假设我们要研究一个模型，其中性别是一个分类变量，可以取男或女两个值。

我们可以将性别转化为一个哑变量，比如设定1表示男性，0表示女性。

这样，在模型中，我们就可以将性别作为一个变量来进行分析。

对于多个分类变量，我们需要创建多个哑变量来表示不同的分类变量。

创建哑变量的方法有很多，其中一种常见的方法是使用One-Hot Encoding。

这个方法将每个分类变量转化为一个新的二元变量，其中一个值为1表示该变量的取值为真，另一个值为0表示该变量的取值为假。

在One-Hot Encoding的实现中，使用了pandas库中的get_dummies()函数，可以将分类变量转化为哑变量[1]。

除了One-Hot Encoding，还有其他的方法可以创建哑变量，比如使用sklearn库中的LabelEncoder和OneHotEncoder函数。

不同的方法有不同的优缺点，需要根据具体情况选择合适的方法。

在使用哑变量时需要注意以下几点：哑变量的数量不能超过样本的数量，否则会导致过拟合。

如果一个分类变量有很多取值，那么使用哑变量可能会导致维度灾难的问题，需要考虑其他的降维方法。

在使用哑变量时，需要注意避免哑变量陷阱，即在模型中同时使用所有的哑变量会导致多重共线性的问题。

为避免这个问题，可以在模型中使用k-1个哑变量，其中k为分类变量的取值数量。

总之，哑变量是在结构方程模型中将分类变量转化为虚拟变量的一种方法，可以方便地将分类变量纳入模型中进行分析。

在使用哑变量时需要注意避免过拟合、维度灾难和哑变量陷阱等问题。

dummy-variable-含结果

根据汇率挂钩产品的数据库（核对下，如果没有错误以我发给你的为样本)你的统计数据与我的excel里计算的怎么不一样？中行的平均实际收益率（及超额收益率）是低于农行的，这才符合eviews的结果。

搞准确！看看我给你发的excel文件里的kankan 工作簿另外，有空自己看看关于虚拟变量的讲述，如何解释下面的eviews 结果平均实际收益率平均超额收益率农业银行0.035648148 0.033548778 中国银行0.01527 0.012477667Dependent Variable: EXCESS_RMethod: Least SquaresDate: 10/24/11 Time: 16:01Sample: 1 74Included observations: 73Variable Coefficient Std. Error t-Statistic Prob.C 0.025932 0.013785 1.881095 0.0645TERM -0.001780 0.001216 -1.464104 0.1481D_ABC 0.009444 0.006020 1.568632 0.1217D_BOC -0.013840 0.006812 -2.031792 0.0463D_RMB -0.015918 0.007048 -2.258448 0.0273D_USD -0.010601 0.007494 -1.414595 0.1620D_Y09 -0.006896 0.012279 -0.561622 0.5763D_Y10 0.012991 0.011863 1.095075 0.2776D_Y11 0.025646 0.012049 2.128496 0.0372R-squared 0.518163 Mean dependent var 0.021000 Adjusted R-squared 0.457934 S.D. dependent var 0.022442 S.E. of regression 0.016523 Akaike info criterion -5.253135 Sum squared resid 0.017472 Schwarz criterion -4.970750 Log likelihood 200.7394 F-statistic 8.603134 Durbin-Watson stat 1.138704 Prob(F-statistic) 0.000000Dependent Variable: ACTURAL_RMethod: Least SquaresDate: 10/24/11 Time: 16:03Sample: 1 74Included observations: 73Variable Coefficient Std. Error t-Statistic Prob.C 0.026068 0.013662 1.908092 0.0609TERM 0.000245 0.001205 0.203228 0.8396D_ABC 0.009557 0.005966 1.601897 0.1141D_BOC -0.013468 0.006751 -1.995079 0.0503D_RMB -0.013970 0.006985 -2.000123 0.0497D_USD -0.012510 0.007427 -1.684408 0.0970D_Y09 -0.012136 0.012168 -0.997303 0.3224D_Y10 0.008902 0.011757 0.757150 0.4517D_Y11 0.022458 0.011941 1.880779 0.0646R-squared 0.477613 Mean dependent var 0.023983 Adjusted R-squared 0.412315 S.D. dependent var 0.021360 S.E. of regression 0.016375 Akaike info criterion -5.271174 Sum squared resid 0.017160 Schwarz criterion -4.988788Log likelihood 201.3978 F-statistic 7.314318 Durbin-Watson stat 1.198379 Prob(F-statistic) 0.000001Dependent Variable: BENCH_RMethod: Least SquaresDate: 10/24/11 Time: 16:04Sample: 1 74Included observations: 73Variable Coefficient Std. Error t-Statistic Prob.C 0.000136 0.001711 0.079452 0.9369TERM 0.002025 0.000151 13.41515 0.0000D_ABC 0.000114 0.000747 0.152096 0.8796D_BOC 0.000372 0.000846 0.439992 0.6614D_RMB 0.001947 0.000875 2.225377 0.0296D_USD -0.001909 0.000930 -2.051444 0.0443D_Y09 -0.005240 0.001524 -3.437148 0.0010D_Y10 -0.004090 0.001473 -2.776639 0.0072D_Y11 -0.003188 0.001496 -2.131299 0.0369R-squared 0.825691 Mean dependent var 0.002983 Adjusted R-squared 0.803903 S.D. dependent var 0.004632 S.E. of regression 0.002051 Akaike info criterion -9.425644 Sum squared resid 0.000269 Schwarz criterion -9.143259 Log likelihood 353.0360 F-statistic 37.89562 Durbin-Watson stat 1.846438 Prob(F-statistic) 0.000000。

pandas.get_dummies的用法

pandas.get_dummies的用法pandas.get_dummies是一个用于将分类变量转换为虚拟变量（dummy variables）的函数。

它将每个分类变量的每个可能取值创建一个新的虚拟变量，并为每个观察值赋予相应的取值。

用法：pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)参数：1. data：要转换的原始数据，可以是Pandas的DataFrame、Series、或者Numpy的数组。

2. prefix：新生成的虚拟变量的前缀。

默认为None，可以是一个字符串或者字符串的列表。

3. prefix_sep：前缀与原变量之间的分隔符，默认为'_'。

4. dummy_na：是否为缺失值创建一个虚拟变量，默认为False。

5. columns：要转换为虚拟变量的列，默认为None，表示将转换所有列。

6. sparse：是否使用稀疏数据格式，默认为False。

7. drop_first：是否删除第一个虚拟变量，默认为False。

当dummy_na也为True时，删除第一个虚拟变量且不会删除缺失值的虚拟变量。

8. dtype：创建新的虚拟变量的数据类型，默认为None，即自动推断。

返回值：转换后的数据，为Dataframe或者SparseArray示例：``` pythonimport pandas as pd# 创建示例数据data = pd.DataFrame({'color': ['red', 'blue', 'green', 'green'],'size': ['small', 'large', 'medium', 'small']})# 将color列转换为虚拟变量dummies = pd.get_dummies(data['color'])# 将转换后的虚拟变量与原始数据进行拼接data = pd.concat([data, dummies], axis=1)print(data)```输出结果：```color size blue green red0 red small 0 0 11 blue large 1 0 02 green medium 0 1 03 green small 0 1 0```在该例子中，"color"列中的分类变量被转换为了三个虚拟变量。

Pb设计

图片：图片：图片：请教:PB-design,最陡爬坡实验,CCD等中的响应面分析的相关问题请教:PB-design中的相关问题在实验设计的过程中,通过阅读文献了解到了很多的,但是同时也积累了很多问题解决不了,希望各位高手们指点一二不胜感激.1 在PB设计中出现的dummy variable的具体含义到底是什么?是对照组吗?如果不是应该遵循什么样的原则去设计呢?2 在PB中实验组数应该是变量数加1,那么在相关的文献中看到15个变量设计为:15+ 1+4,其中4是dummy variable,但是表格中这4个变量也是有高低水平的变化的,那么设计时是作为15个变量来考虑还是19个呢?3 想问问在最陡爬坡实验中,步长的选择有什么要求吗?纯经验还是有公式的?4 在设计CCD试验那的时候是否要包括全因子实验设计?5 什么是中轴点?各位高手帮帮忙啊,谢谢了小妹我也正在做这块试验，是培养基优化的刚做完单因素试验正在想下面该怎么设计呢？是PB？还是最陡爬坡？还是两个都要做？？反正最后是要做响应面的~~希望大虾们多多多指点一下下……另外，关于ＰＢ，我也在想，是不是必须要做空白项的呢？那么空白项里面的+1，-1是没有具体的水平值的亚，那么在实验中具体该怎么操作呢？？谢谢各位不吝指教了……我自己是怎么想的:单因子实验只是为了保险使PB实验的结果更加明显而进行的预实验,PB 实验本身就是有筛选单因子的功能,如果有把握是可以直接做PB的.而我的实验是先进行单因子,然后是PB,根据PB的实验分析数据做最陡爬坡实验,否则不能很好的确定爬坡的方向以及步长.最陡爬坡实验的步长的选择:根据前面PB实验的结果,做一阶方程的法线,法线方向就是爬坡方向,步长就根据回归系数和规范变量的比值在通过自然变量来换算,算到的结果在综合实际的情况就可以基本确定步长了这个是最近看文献理解到的一些,希望哪位高手指点一下dummy variable 不是对照组。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第 15章虚拟变量15.1. 虚拟变量定性描述某种属性变量，如性别，种族，战争等，这种属性常常是有或没有，出现或不出现，因此，度量这种属性常用“1”表示有，0表示“没有”(不出现)。

如性别，男性为1(或0)，女性为0(或1)，或教育程度用1表示大学毕业，0表示否定，即非大学毕业等。

如：研究薪金问题；薪水y i ,⎩⎨⎧=女性男性01i D （人只有2种属性，男和女）y i =α+βD i ++u i 于是：.)1(,)(βαα+====i i i i D y E o D y E表明男教授平均薪金为.βα+女教授为α，由此研究薪金是否存在歧视现象.由此还可以看出,虚拟变量的系数表示与基(女教授)的差。

以上的属性为二种，男性和女性。

将属性扩展为多个，如研究不同地区教师的工资差别，将一个国家分为3个地区，引进2个虚拟变量，建立模型 y i =β1+β2D 2i +β3D 3i +u i (5.1)模型(5.1)的回归因子全为互斥的虚拟变量，这样的模型称为方差模型分析(ANOV A ).例子: 美国公立学校教师的地区差别。

将美国分为东北(21个州)、南方（17个州）和西部地区（13个州），共3个属性，引进2个虚拟变量D 2i 和D 3i ，D 2i ＝1，如第i 个州属于东北区，否则D 2i ＝0；D 3i ＝1，如第i 个州属于南方区，否则D 3i ＝0.显然这两个虚拟变量互斥。

模型为 y i =β1+β2D 2i +β3D 3i +u i (5.1) 进一步，有E(y i ∣D 2i ＝1, D 3i ＝0)= β1+β2即东北区教师的平均工资，而南方区和西部地区教师的平均工资分别为 E(y i ∣D 2i ＝0, D 3i ＝1)= β1+β3E(y i ∣D 2i ＝0, D 3i ＝0)= β1(5.1)的估计结果为：y i＝26158.62－1734.473D2i－3264.615D3i+e i(5.1E)se= (1128.53) (1435.93) (1499.6)t= (23.18) (-1.21) (-2.18) R2=0.09即东北区教师的平均工资：26158.62－1734.473＝24424南方区教师的平均工资：26158.62－3264.615＝22894西部地区教师的平均工资：26158.62实际平均工资：东北区为24424.14；南方区为22894；西部区26158. 在虚拟变量的解释和模型设定中，要特别注意下述1.虚拟变量是为着描述属性，在含截距的模型中，虚拟变量的个数必须比属性或类别的个数少1，否则会造成完全共线！2.没有附着虚拟变量的截距即β1作为基(base)、或基准(benchmark),或比较基(comparison).3.截距即β1本身代表基的均值，如上例中为西部区的均值；4.附着虚拟变量的系数即β2和β3的系数称为级差截距系数，即不同属性的差别。

5.比较是与基相比较.如上例中估计的β2为－1734.473，表示东北区的平均工资比基即西部区少－1734.47，而不是东北区的平均工资为－1734.47。

5.基组的选择完全由研究者自行决定！6.虚拟变量陷井：属性或类别个数与虚属变量个数一致，模型无截距，如上例中，3个地区引进3个虚拟变量且模型不含截距，即定义D1i＝1，如第i个州属于西区，否则D1i＝0，即第i个州不属于西区。

模型为y i=β0＋β1D1i+β2D2i+β3D3i+u i(5.2)由于D1i+D2i+D3i＝1，1看作β0所附着的变量的数据，这是完全共线，(5.2)无法估计，所以(5.2)为虚拟变量陷井。

解决虚拟变量陷井：去掉β0，即 y i=β1D1i+β2D2i+β3D3i+u i(5.3)或去掉3个虚拟变量中的任一个。

如y i=β1+β2D2i+β3D3i+u i特别注意！如直接估计（5.3），所得到的估计即为各种属性的均值而不是差异！如上例，(5.3)的估计为y i＝26158.62 D1i＋24424.14D2i＋22894D3i+e i(5.3E)se= (1128.53) (887.9) (986.9.6)t= (23.18) (27.50) (23.2) R2=0.09将(5.3E)与(5.1E)相比较可知，哪一种引入虚拟变量的方式更好呢？肯尼迪（Kennedy）指出：“大多数研究者认为，在一个含有截距的方程中，他们更容易地处理他们通常最感兴趣的问题，是否某个组与基准组有所不同以及有多大的不同，所以在方程中包括截距更加方便。

为了检查分组是否得当，也可通过将虚拟变量的系数相对0做t检验（或者更一般地，对适当的虚拟变量系数集做一个F检验），就可以检验分类是否适当（因为分组的人可能预料在基准组与其它组之间存在统计上的显著差异）。

”15.2一个定量变量和一个虚拟变量的回归，将上述模型扩展为含定量变量X iy i=β1+β2D2i+β3D3i+β4X i＋u i(5.4)这里y i表示薪水，X i表示教龄为定量变量，D为虚拟或两分支变量。

例子：续前例，(5.4)的估计结果为Dependent Variable: SALARYMethod: Least SquaresDate: 10/05/04 Time: 16:23Sample: 1 51Included observations: 51Variable Coefficient Std. Error t-Statistic Prob.C 13269.11 1395.056 9.511530 0.0000D2 -1673.514 801.1703 -2.088837 0.0422D3 -1144.157 861.1182 -1.328687 0.1904SPENDING 3.288848 0.317642 10.35393 0.0000R-squared 0.722665 Mean dependent var 24356.22Adjusted R-squared 0.704963 S.D. dependent var 4179.426S.E. of regression 2270.152 Akaike info criterion 18.36827Sum squared resid 2.42E+08 Schwarz criterion 18.51978Log likelihood -464.3908 F-statistic 40.82341Durbin-Watson stat 1.414238 Prob(F-statistic) 0.000000从以上的估计结果可知，教龄增加一年导致工资增加3.29元。

不难看出，虚拟变量的系数（除D 3的系数外）显著，由于估计的β4为斜率，所以上述回归结果可以分解为3条斜率相同但截距不同的回归直线。

截距分别为基区即西部的13269.11，南区的12125＝13269.11－1144.2，东北区的11595＝13269.11－1673.5。

15.3对一个定量变量和一个多分定性变量的回归；教育程度不同对收入的影响，研究3种教育程度收入的影响，受教育程度为一个多分支变量，即高中、大学（专科）、本科。

为此引进2个虚拟变量⎩⎨⎧=否则高中毕业012D ⎩⎨⎧=否则大学毕业013D 注，⎩⎨⎧=否则高中毕业012D 非高中毕业可能仅受过初中教育或更低， ⎩⎨⎧=否则大学毕业013D 没受过大学教育，可能是社区(专科)毕业等模型为 y i =1α+α2D 2i +α3D 3i +βx i +u i由ii i i i i i i i i ii i i i x x D D y E x x D D y E x x D D y E βααβααβα++===++===+===)(),1,0()(),0,1(),0,0(31322132132表明不同的教育程度，对保健品的平均支出的条件期望不同。

15.4．对一个定量变量和两个以上的虚拟或定性变量的回归（续）以上是一个定量变量对一个多分支变量的回归，现在引入两个定性变量(虚拟变量)，仍以教授工资研究为例定义虚拟变量 ⎩⎨⎧=否则男性012i D ⎩⎨⎧=)(013黑人否则白人i D这是两个不同属性的2分支变量：性别，肤色，且性别和肤色的属性会完全不同。

设定模型：y i =α1+α2D 2i +α3D 3i ＋βx i +u iy i 为工资，X i 教龄，不难看出，这一模型是为着研究种族歧视是否显著。

基为黑人女性(D 2i =0 D 3i =0)的平均工资α1.由E(u i )=0,则有黑人女教授的平均工资与教龄的关系(简称为平均工资) E(y i ︱D 2i =0 D 3i =0)= α1＋βx i而黑人男教授平均工资与教龄的关系龄为E(y i ︱D 2i =1, D 3i =0)= (α1＋α2)+βx i白人女教授的平均工资与教龄的关系龄为E(y i ︱D 2i =0, D 3i =1)= (α1＋α3)+βx i白人男教授平均薪金与教龄的关系龄为E(y i ︱D 2i =1, D 3i =1)= (α1＋α2+ α3)+βx i注记：回归系数：保持其他变量不变，β表示x 增加一个单位，对y 的效应，即偏回归系数, 保持不变，这里即为D 2=D 3=1(或等于0). 15.6: (利用虚拟变量)检验模型的结构稳定性上述例子所研究的均是截距的差异(不同属性)。

问题：斜率是否有显著差异？回忆CHOW 检验，若检验结论表明具有显著结构变化，但不能确认是截距还是斜率发生了变化。

利用虚拟变量可以检验斜率是否发生了变化。

我们前面的例子研究的是美国高失业率是否改变了个人储蓄行为，续前例。

例子：续前例,美国高失业率与储蓄行为。

全样本1970－1995 样本Ⅰ：1970-1981，达到最高失业率之前；样本Ⅱ：1982-1995，达到最高失业率之后。

问题：两个时期的结构(系数)是否发生变化以及是否是斜率发生了变化。

为此，设定不同时期的模型为样本Ⅰ：y i =λ1+ λ2x i +u 1ii=1,2,…n 1(1981)样本Ⅱ： y i =γ1+ γ2x i +u 2ii=n 1(1981)+1,…n(1995)y 表示储蓄, x 表示收入，n 1≠n 2若① λ1= γ1, λ2= γ2, 重合回归(coincident),即无结构变化。

②λ1≠γ1, λ2= γ2,两个时期的回归仅在截距上(即位置上)不同,故称为平行回归(即Parallel Regressions)③λ1=γ1, λ2 ≠γ2,，两个时期的截距相同但斜率不同，称汇合 (concurrent ) 回归④λ1≠γ1, λ2 ≠γ2两个回归完全不同，称为相异（dissimilar ）回归：图1.重合回归、平行回归、、汇合回归和相异回归结构性变化是指参数(截距和斜率)在两个时期发生了变化，但检验这种结构变化是通过统计推断来产生是否发生变化)而非直观比较.引入虚拟变量：⎩⎨⎧∏I =)(01否则数据属于t D 模型 y=α1+α2D t +β1X t +β2(D t X t )+u t (5.5)i=1970,…n 1(=1981),n 1+1…n 2(=1995)由E(u i )=0,有 ,),0(11t t t X X D y E βα+== 即对应第Ⅱ组数据的期望; ,)()();1(2121t t t t X X D y E ββαα+++==即对应第Ⅰ组的期望. 使用前述符号,应有1211,βγαγ==，)(),(212211ββλααλ+=+=。