第14章-受限被解释变量

合集下载

第十八章-离散选择模型和受限因变量模型

第十八章-离散选择模型和受限因变量模型

第18章 离散选择模型和受限因变量模型 18.1概述在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。

在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。

通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。

例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。

以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables ),或称为离散选择模型(DCM ,discrete choice model )。

如果被解释变量只能有两种选择,称为二元选择模型(binary choice model );如果被解释变量有多种选择,称为多元选择模型(multiple choice model )。

20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。

在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。

例如,小时工资、住房价格和名义利率都必须大于零。

这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model )。

这两类模型经常用于调查数据的分析中。

本章将讨论三类模型及其估计方法和软件操作。

一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。

18.2二元因变量模型在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。

例如:对样本个体是否就业的研究,个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征,作为解释变量,目的是研究个体这些特征对个体就业概率的研究。

数字经济对中国制造业企业创新的影响研究

数字经济对中国制造业企业创新的影响研究

数字经济对中国制造业企业创新的影响研究-v引言作为国民经济的重要支柱、创新驱动高质量发展的主力军,中国制造业近年来持续快速发展。

然而,与庞大的制造业产值规模相悖的是,现阶段中国大部分制造业仍停留在全球价值链低端环节。

从国际经济环境来看,数字经济与实体经济的深入融合,使得各国之间核心技术的竞争日趋激烈;贸易保护主义不断抬头、受新冠肺炎疫情影响的国际市场需求疲软以及低端制造业向低成本国家转移等环境变化致使部分制造业企业退出市场。

在此背景下,提升企业创新能力是重塑我国国际合作和竞争新优势、构建新发展格局的最优解。

企业必须推进精益生产、积极提高自主创新能力,实现绿色可持续的高质量发展。

然而,较高的创新调整成本、融资能力受限、风险承担水平较低、创新驱动力不足等问题制约企业的创新活动。

故中国制造业企业如何克服阻碍、提高创新自主性和持续性是政府、企业目前所面临的一个重大现实问题。

现阶段,以数据为关键生产要素、以现代信息网络为重要载体、以信息通信技术有效使用为手段的数字经济,能够有效实现效率提升和经济结构优化[1]。

虽然目前我国数字经济总体发展水平不平衡,但数字经济的强渗透性可以显著提高传统行业的技术含量与科技创新能力[2],在数字化、智能化、网络化变革下,“互联网+”与“大众创业、万众创新”形成的双轮驱动现象对实现中国经济提质增效升级、重塑制造业核心竞争力具有重要意义,已成为最具活力与创新力的经济形态,引领经济蓬勃发展[2-4]。

数字经济使制造业企业内与企业间的信息流动更具规模性和效率性,提高了企业的生产效率和营运效率,节省了交易成本、信息交流成本等,从而提升了企业实现创新的能力,可见,数字经济已成为提高我国经济生产力的良性催化剂,中国的制造业必须学习如何有效地部署和利用研发资源[5-6]。

因此,在国内外诸多不利因素影响下,如何正确发挥数字经济的作用效果,促进企业追求差异化发展,进一步提高中国制造业企业自主创新能力,是实施创新驱动发展战略的重要内容,对实现贸易强国目标和经济高质量发展具有重要意义。

离散选择变量

离散选择变量

二、线性概率模型
对于二元选择问题,可以建立如下计量经济模型。 1、线性概率模型的概念。 设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示
Yi 1 2 X i ui
其中 X i 为家庭的收入水平, Yi 为家庭购买住房的选择,即
1 Y 0 家庭已购买住房 家庭无购买住房
p (2) ln( ) 对 X i 为线性函数。 1 p p (3)当 ln( ) 为正的时候,意味着随着 X i 的增加,选择 1 的可能性也增 1 p p 选择 1 的可能性将减小。 ) 为负的时候, 随着 X i 的增加, 换言之, 大了。 当 ln( 1 p p ) 会变负并且在幅度上越来越大;当机会比由 1 当机会比由 1 变到 0 时, ln( 1 p p 变到无穷时, ln( ) 为正,并且也会越来越大。 1 p
际情况通常不符。例如购买住房,通常收入很高或很低,对于购买住房的可能性 都不会有太大的影响, 而当收入增加很快时, 对购买住房的影响将会很大。 显然, 购买住房的可能性与收入之间应该是一种非线性关系。
2、Logit 模型的含义。
综合上述讨论,我们所需要的是具有如下两个性质的模型: (1)随着 X i 的减小, pi 趋近 0 的速度会越来越慢;反过来随着 X i 的增大,
ˆ ,用人工的方法定义当 Y ˆ >1 时,取 Y ˆ =1;当 Y ˆ <0 时,取 Y ˆ =0。但要比较 求出 Y i i i i i
好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的 Logit 模型 和 Probit 模型。
4
5
第二节 一、Logit 模型的产生
1、产生 Logit 模型的背景。
上述数学模型的经济学解释是,因为选择购买住房变量取值是 1,其概率是 p, 并且这时对应 p 的表示是一线性关系,因此,Y 在给定 X i 下的条件期望 E (Y X i ) 可解释为在给定 X i 下,事件(家庭购买住房)将发生的条件概率为 P (Yi 1 X i ) , 亦即家庭选择购买住房的概率是家庭收入的一个线性函数。 我们称这一关系式为 线性概率函数。 2、线性概率函数的估计。 对线性概率函数的估计存在以下困难: (1)随机误差项的非正态性表现。

计量经济学重点讲解

计量经济学重点讲解

计量经济学重点讲解计量经济学重点第⼀章经济计量学的特征及研究范围1、经济计量学的定义(P1)(1)经济计量学是利⽤经济理论、数学、统计推断等⼯具对经济现象进⾏分析的⼀门社会科学;(2)经济计量学运⽤数理统计学分析经济数据,对构建于数理经济学基础之上的模型进⾏实证分析,并得出数值结果。

2、学习计量经济学的⽬的(计量经济学与其它学科的区别)(P1-P2)(1)计量经济学与经济理论经济理论:提出的命题和假说,多以定性描述为主计量经济学:依据观测或试验,对⼤多数经济理论给出经验解释,进⾏数值估计(2)计量经济学与数理经济学数理经济学:主要是⽤数学形式或⽅程(或模型)描述经济理论计量经济学:采⽤数理经济学家提出的数学模型,把这些数学模型转换成可以⽤于经验验证的形式(3)计量经济学与经济统计学经济统计学:涉及经济数据的收集、处理、绘图、制表计量经济学:运⽤数据验证结论3、进⾏经济计量的分析步骤(P2-P3)(1)建⽴⼀个理论假说(2)收集数据(3)设定数学模型(4)设⽴统计或经济计量模型(5)估计经济计量模型参数(6)核查模型的适⽤性:模型设定检验(7)检验源⾃模型的假设(8)利⽤模型进⾏预测4、⽤于实证分析的三类数据(P3-P4)(1)时间序列数据:按时间跨度收集到的(定性数据、定量数据);(2)截⾯数据:⼀个或多个变量在某⼀时点上的数据集合;(3)合并数据:包括时间序列数据和截⾯数据。

(⼀类特殊的合并数据—⾯板数据(纵向数据、微观⾯板数据):同⼀个横截⾯单位的跨期调查数据)第⼆章线性回归的基本思想:双变量模型1、回归分析(P18)⽤于研究⼀个变量(称为被解释变量或应变量)与另⼀个或多个变量(称为解释变量或⾃变量)之间的关系2、回归分析的⽬的(P18-P19)(1)根据⾃变量的取值,估计应变量的均值;(2)检验(建⽴在经济理论基础上的)假设;(3)根据样本外⾃变量的取值,预测应变量的均值;(4)可同时进⾏上述各项分析。

受限被解释变量数据模型

受限被解释变量数据模型
受限被解释变量数据模型 ——选择性样本
Model with Limited Dependent Variable ——Selective Samples Model 一、经济生活中的受限被解释变量问题 二、“截断”问题的计量经济学模型
三、“归并”问题的计量经济学模型
一、经济生活中的受限被解释变量问题
cons
5759.210 4948.980 6023.560 8045.340 5666.540 5298.910 5400.240 5330.340 5540.610
incom
7041.87 6569.23 7643.57 8765.45 6806.35 6657.24 6745.32 6530.48 7173.54
二、“截断”问题的计量经济学模型
1、思路
• 如果一个单方程计量经济学模型,只能从“掐头” 或者“去尾”的连续区间随机抽取被解释变量的 样本观测值,那么很显然,抽取每一个样本观测 值的概率以及抽取一组样本观测值的联合概率, 与被解释变量的样本观测值不受限制的情况是不 同的。
• 如果能够知道在这种情况下抽取一组样本观测值 的联合概率函数,那么就可以通过该函数极大化 求得模型的参数估计量。

i 1
n
( yi X i ) 2
a X i ln1 i 1

n
yi X i i Xi n 2 ln L 2 ( yi X i ) i i 1 i 1 2 2 4 2 2 2 2
1、“截断”(truncation)问题
• 由于条件限制,样本不能随机抽取,即不能从全 部个体,而只能从一部分个体中随机抽取被解释 变量的样本观测值,而这部分个体的观测值都大 于或者小于某个确定值。 “掐头”或者“去尾”。

被解释变量与解释变量名词解释

被解释变量与解释变量名词解释

被解释变量与解释变量名词解释被解释变量和解释变量是统计学和实验设计中经常用到的概念。

被解释变量(dependent variable)是研究中需要解释或者预
测的变量。

它通常是研究的主要焦点,研究者试图通过其他变量的
变化来解释或者预测被解释变量的变化。

在实验设计中,被解释变
量通常是研究者希望观察其变化的变量。

例如,如果我们想了解学
生的考试成绩受到学习时间和学习方法的影响,那么考试成绩就是
被解释变量。

解释变量(independent variable)是用来解释或者预测被解
释变量变化的变量。

它是研究者可以操纵或者观察的变量,它的变
化会影响被解释变量的变化。

在实验设计中,解释变量通常是实验
中被操纵的变量。

继续以上面的例子,学习时间和学习方法就是解
释变量,因为研究者可以控制或者观察学生的学习时间和学习方法,并且研究它们对考试成绩的影响。

总之,被解释变量是研究中需要解释或者预测的变量,而解释
变量是用来解释或者预测被解释变量变化的变量。

它们在实验设计
和统计分析中扮演着非常重要的角色,帮助研究者理解变量之间的关系和影响。

chapter受限因变量模型

chapter受限因变量模型

第1章 受限因变量模型这一章讨论响应变量仅仅被部分观测到的情况。

引入被部分观测到的潜在随机变量y *,y *的实际观测变量为y i 。

引入二元指示变量D i ,如果a i < y *<b i ,D i = 1;否则,D i = 0。

即D i 表示变量y *是否可以被观测得到。

(a i , b i )称为观测区间。

如果对于D i = 1 和D i = 0都有实际观测数据,当D i = 1时,潜在变量与实际观测变量相等,当D i = 0时,实际观测变量同样有取值,但不等于潜在变量,这时称数据被归并(censored ),即小于a i 的数据被归并为a i ,而大于b i 的数据被归并为b i 。

用数学符号表示为:****,,,i i ii i i i i i i ia y a y y a yb b y b ⎧ <⎪= ≤≤⎨⎪ >⎩如果如果如果。

(1)如果只有当D i = 1时实际观测变量y i 才有观测数据,即:当D i = 1时,潜在变量与实际观测变量相等,而当D i = 0时,y i 没有观测值,这时称数据被截断(truncated ),即小于a i 的数据和大于a i 的数据被截断了。

因此截断数据与归并数据的区别在于,对于观测区间外的数据,归并数据将将其都归并为一点,而截断数据没有观测值。

将潜在随机变量y *的基本模型设定为:*i i i y v μσ=+。

(2)其中?i 为位置参数,?为刻度参数;v i 为独立于x i 的连续随机扰动项,均值为0,方差为1,其分布函数、密度函数分别为F 、f 。

在这些假定条件下,y i *的均值为?i ,方差为?2,分布函数为*()i iy F μσ-,概率密度函数为*()/i iy f μσσ-(证明请参见附录1)。

a i < y i * < b i 等价于i ii ii i i a b c v d μμσσ--=<<=,那么y i *被观测到的概率为:*Pr()Pr(1)()()i i i i i i a y b D F d F c <<===- (3)下面对截断数据模型和归并数据模型分别进行介绍1.1 截断数据模型如果样本数据是从总体的一部分抽取得到,我们把这类数据称为截断数据。

chap受限被解释变量实用

chap受限被解释变量实用
第23页/共32页
• (2)两步法的heckman回归
• 当数据集比较大时,极大似然估计非常耗时,两步法就 提供了一种很好的替代。键入命令:
• heckman wage educ age, select(married children educ age) twostep mills(m)
• 其中,选项twostep表明使用两步法的heckman回归。 选项mills()会生成一个新变量,计算出各样本的逆米 尔斯比率,即样本不被选择的可能性。我们这里给该变 量命名为m。
• 利用这些数据,我们会讲解样本选择问题的heckman 回归的操作以及相关的预测。
第21页/共32页
• 实验操作指导
• 1 heckman回归的操作
第22页/共32页
• 下面,我们利用“fwage.dta”的数据进行样本选择模 型的回归分析。我们认为,妇女的工资是教育程度和年 龄的函数,而妇女是否选择工作的影响因素是其保留工 资(受婚姻状况、家中儿童数量影响)以及雇主提供的 工资(受教育程度和年龄的影响)。
该回归的结果;第二步是对参加工作的妇女的期望工资的预测, 且将新变量命名为yc;第三步获得wage非缺失值的观测值的 wage和yc的描述统计量。
第28页/共32页
• 如果我们想知道所有妇女的期望工资,参加工作, 如果预期不参加,则其期望工资为0。
以将其看做观测值处于均值水平下的标准误。预测的标准误(stdf)也被称作 the standard error of the future or forecast value,指的是每个观测值 的点预测的标准误。根据两种标准误的计算公式可知,stdf预测的标准误总是 比stdp预测的要大。 我们对上面的断尾回归进行默认预测以及stdp和stdf的预测,采用如下命令: predict y predict p, stdp predict f, stdf list whrs y p f in 1/10 其中,第一步为默认预测,并将预测值命名为y;第二步预测的是拟合的标准误, 并将预测值命名为p;第三步预测的是预测的标准误,并将其命名为f;最后一 步列出原序列值whrs和各预测值的前10个观测值。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

© 陈强,《高级计量经济学及Stata 应用》课件,第二版,2014 年,高等教育出版社。

第 14 章受限被解释变量被解释变量的取值范围有时受限制,称为“受限被解释变量”(Limited Dependent Variable)。

14.1 断尾回归对线性模型yi =xi'β +εi,假设只有满足yi≥c 的数据才能观测到。

例:yi为所有企业的销售收入,而统计局只收集规模以上企业数据,比如yi≥100,000。

被解释变量在100,000 处存在“左边断尾”。

2⎨断尾随机变量的概率分布随机变量 y 断尾后,其概率密度随之变化。

记 y 的概率密度为 f ( y ) ,在 c 处左边断尾后的条件密度函数为⎧ f ( y ) 若 y > c f ( y | y > c ) = ⎪⎪⎩P( y 0, > c ) , 若 y ≤ c由于概率密度曲线下面积为 1,故断尾变量的密度函数乘以因子1 。

P( y > c )图14.1 断尾的效果3断尾分布的期望也发生变化。

以左边断尾为例。

对于最简单情形,y ~ N (0, 1),可证明(参见附录)E( y |y >c) = φ(c)1 -Φ(c)对于任意实数c,定义“反米尔斯比率”(Inverse Mill’s Ratio,简记IMR)为则E( y | y >c) =λ(c)。

λ(c) ≡φ(c)1 -Φ(c)4图14.2 反米尔斯比率56对 于 正 态 分 布 y ~ N (μ, σ 2) , 定 义 y - μz ≡σ~ N (0, 1) , 则y = μ + σ z 。

故E( y | y > c ) = E(μ + σ z | μ + σ z > c ) = E ⎡⎣μ + σ z z > (c - μ) ⎤⎦= μ + σ E ⎣⎡ z z > (c - μ) σ ⎦⎤ = μ + σ ⋅ λ [(c - μ) σ ]对于模型y = x 'β + ε ,ε | x ~ N (0, σ 2 ),则y | x ~ N ( x 'β , σ 2),故iiiiiiiiE( y i | y i > c ) = x i 'β + σ ⋅ λ [(c - x i 'β ) σ ]如 果 用 OLS 估 计 y i = x i 'β + εi , 则 遗 漏 了 非 线 性 项σ ⋅ λ [(c - x i 'β ) σ ],与x i 相关,导致 OLS 不一致。

7参见图 14.3。

总体回归线为α + β x i ,而样本回归线为αˆ + βˆx i。

图 14.3 断尾回归示意图8使用 MLE 可得到一致估计。

断尾前的概率密度:1 ⎧⎪ 1 ⎛ y - x 'β ⎫2 ⎫⎪ 1 ⎛ y - x 'β ⎫f ( y i )exp ⎨- i i ⎪ ⎬ = φ i i ⎪⎩⎪ 2 ⎝ σ ⎭ ⎪⎭ σ ⎝ σ ⎭样本被观测到的概率:9c - x i 'β σ c - x i 'β σ ⎭P( y i > c | x i ) = 1 - P( y i ≤ c | x i )= 1 - P ⎛y i - x i 'β ≤ x⎫⎝ σ i ⎪ = 1 - P ⎛ εi ≤ x ⎫⎝ = 1 - Φ⎛c - i ⎪ ⎭ x i 'β ⎫σ ⎪断尾后的条件密度: ⎝ ⎭ 1φ [( y - x 'β ) σ] f ( y | y > c , x ) = σ i ii i i1 - Φ[(c - x i 'β ) σ ]σ14.2 零断尾泊松回归与负二项回归计数数据有时仅包括正整数,不包括取值为0 的观测值,称为“零断尾”(zero-truncated)。

例:在商场发放问卷调查,研究消费者每周去商场的次数。

例:在公交车上发放问卷调查,研究乘车者每周坐公交的次数。

如果不对似然函数进行调整,将得不到一致估计。

记f ( y) 为y 的概率函数,而F ( y) ≡ P(Y ≤y) 为cdf。

如果存在零断尾,则断尾后的概率函数为10f ( y| y ≥ 1) = f ( y) ,y =1, 2,1 -F (0)如果y 服从泊松分布,则e-λλy,y =1, 2,f ( y | y ≥1) =y!(1 -e-λ)进行MLE 估计,得到“零断尾泊松回归”(zero-truncated Poisson regression)。

如果y 服从负二项分布(NB1 或NB2),可进行“零断尾负二项回归”(zero-truncated negative binomial regression)。

14.3 随机前沿模型(选读)1114.4 偶然断尾与样本选择被解释变量yi 的断尾有时与另一变量zi有关,称为“偶然断尾”(incidental truncation)或“样本选择”(sample selection)。

称zi为选择变量。

例在美国的亚裔移民给人的整体印象是聪明能干。

但在美国的亚裔并非亚洲人口的代表性样本。

通常只有受过高等教育或具有吃苦冒险精神的亚裔才会“自我选择”(self selection)移民。

决定移民与否的变量便对被解释变量产生了断尾作用,故“样本选择”将导致“选择性偏差”(selection bias)。

12例妇女劳动力供给模型:劳动时间方程hours =α0+α1 wage+α2 children+α3 marriage+u工资方程w o- w r=β +βage+βeducation+βchildren+β location+v0 1 2 3 0w o表示offered wage,w r表示reservation wage。

如果w o- w r< 0,则选择不工作,无法观测到劳动时间(hours),造成劳动时间方程的偶然断尾与样本选择问题。

1314考虑二维正态随机向量( y , z ) ,记期望为(μy , μz ) ,标准差为 (σ y , σ z ),相关系数为 ,联合密度函数为 f ( y , z )。

假设个体进入样本的“选择机制”(selection mechanism)为“选择变量 z 大于某常数 c ”。

比如,在妇女劳动力供给例子中, z = w o - w r,而c = 0。

断尾后的联合分布:f ( y , z | z> c ) =f ( y , z )偶然断尾 y 的条件期望:P(z > c )E( y | z > c ) = μy + ρσ y λ [(c - μz ) σ z ]λ(⋅)为反米尔斯比率(IMR)函数。

如果ρ= 0(y 与z 相互独立),则z 的选择过程并不对y 产生影响。

如果ρ> 0(即y 与z 正相关),则“ z >c ”偶然断尾的结果是把y 的整个分布推向右边(因为λ(⋅) > 0 ),从而使得条件期望E( y | z大于无条件期望E( y)。

>c) 在“z <c ”条件下,偶然断尾y 的条件期望为E( y| z <c) =μy-ρσy λ[(μz-c) σz ]假设回归模型为yi =xi'β +εi。

1516= i iy i 是否可观测取决于选择变量z i (取值为 0 或 1)⎧可观测 y i ⎨⎩不可观测z i =1 z i =0决定二值变量z i 的方程为 ⎧1, 若 z *> 0z i = ⎨ ⎩0, 若 i*≤ 0z *= w 'γ + uiiiz *为不可观测的潜变量。

z17假设u i 服从正态分布,则z i 为 Probit 模型,故P(z i = 1| w i ) = Φ(w i 'γ )。

可观测样本的条件期望:E( y | y 可观测) = E( y | z *> 0) = E( x 'β + ε | w 'γ + u > 0)iiiiiiii= E( x i 'β + εi | u i > -w i 'γ ) = x i 'β + E(εi | u i > -w i 'γ ) = x i 'β + ρσε λ (-w i 'γ )其中,E(εi ) = E(u i ) = 0,并将 Probit 扰动项的标准差σ u 标准化为 1。

OLS 估计,将遗漏非线性项ρσε λ(-w i 'γ )。

如w i 与x i 相关,则 OLS 不一致,除非“ ρ = 0”(即 y 与 z 不相关)。

18解释变量x ik 的边际效应:∂ E( y | z * > 0)∂λ(-w 'γ )ii∂x ik= βk + ρσεi∂x ik右边第一项为直接影响,第二项是通过改变个体进入样本可能性而产生的间接影响(即选择性偏差)。

如知道γ ,就知道λ(-w i 'γ ),可把它作为解释变量引入回归方程。

Heckman (1979)提出“两步估计法”,也称“Heckit ”。

第一步:用 Probit 估计方程P(z i 计算λˆ(-w i'γˆ)。

= 1| w ) = Φ(w i 'γ ) ,得到估计值γˆ,第二步:用OLS 回归y −O−LS−→x , λˆ,得到估计值βˆ, ρˆ, σˆ。

i i i ε更有效率的方法是MLE。

在两步法中,第一步误差被带入第二步,效率不如MLE 的整体估计。

两步法的优点在于,操作简便;对于分布的假设也更弱(即使不假设二维正态分布,也可能成立)。

为检验是否存在样本选择偏差(sample selection bias),可使用似然比检验来检验原假设“H: ρ= 0”。

如使用Heckit,无法进行此LR 检验。

1914.5 归并回归对于线性模型yi =xi'β +εi,当yi≥c (或yi≤c )时,所有yi都被归并为c,称为“归并数据”(censored data)。

例(上不封顶的数据,top coding)在问卷调查中,常有诸如“收入在¥50,000 及以上”这样的选项。

例(边角解)考虑买车的决定,并考察“买车开支”这个变量。

如果不买车,则“买车开支”的最优解为边角解,即买车开支为0;反之,如果买车,则买车开支一定为正数。

例(边角解)考察“劳动时间”这个变量。

对于失业或待业者而言,“劳动时间”的最优解为边角解,即劳动时间为0;而就业者2021y i的劳动时间一定为正数。

归并回归(censored regression)与断尾回归不同的是,虽有全部观测数据,但某些数据的y i 被压缩在一个点上。

相关文档
最新文档