第4 章多元回归分析
多元回归分析课程设计

多元回归分析课程设计一、课程目标知识目标:1. 学生能理解多元回归分析的基本概念,掌握多元线性回归模型的建立与求解方法。
2. 学生能够运用多元回归分析探讨变量间的关系,解释回归系数的实际意义。
3. 学生了解如何通过统计软件进行多元回归分析,并掌握其结果解读。
技能目标:1. 学生能够独立完成多元回归模型的构建,包括数据整理、模型设定和参数估计。
2. 学生能够利用多元回归分析结果进行预测,并评估预测结果的准确性。
3. 学生能够通过实际案例,运用多元回归分析解决实际问题,提高数据分析能力。
情感态度价值观目标:1. 学生通过多元回归分析的学习,培养科学、严谨的学术态度,增强数据分析的敏感性。
2. 学生能够认识到多元回归分析在实际问题中的价值,提高解决实际问题的信心。
3. 学生在小组合作学习过程中,培养团队协作精神和沟通能力,尊重他人意见,共同完成学习任务。
本课程针对高中年级学生,结合数学统计知识,注重培养学生的数据分析能力。
课程设计以实用性为导向,充分考虑学生的认知水平和学习需求,将理论教学与实践操作相结合。
通过本课程的学习,使学生能够掌握多元回归分析的基本技能,提高解决实际问题的能力,为后续相关课程打下坚实基础。
二、教学内容本课程教学内容主要包括以下几部分:1. 多元回归分析基本概念:变量间的关系、多元线性回归模型、回归系数的含义。
教材章节:第三章“回归分析”第1节“一元线性回归”,第2节“多元线性回归”。
2. 多元回归模型的建立与求解:最小二乘法、参数估计、模型检验。
教材章节:第三章“回归分析”第3节“多元线性回归模型的参数估计与检验”。
3. 多元回归分析的应用:实际案例分析与预测。
教材章节:第三章“回归分析”第4节“回归分析的应用”。
4. 统计软件操作与结果解读:使用统计软件进行多元回归分析,解读分析结果。
教材章节:附录“统计软件应用”。
教学进度安排如下:第1课时:多元回归分析基本概念、变量间的关系。
多元回归分析 方法

多元回归分析方法
多元回归分析是一种经济学和统计学中常用的方法,用于研究多个自变量对因变量的影响。
以下是多元回归分析的基础步骤:
1. 建立模型:确定一个适当的数学模型来解释因变量和自变量之间的关系。
2. 收集数据:收集与研究问题相关的数据,包括因变量和自变量的测量值。
3. 数据预处理:对收集到的数据进行处理,包括缺失值填补、异常值处理、数据标准化等。
4. 模型估计:根据收集到的数据,利用回归分析方法对模型进行估计,得出自变量和因变量之间的关系。
5. 模型验证:对估计的模型进行验证,包括检验模型的拟合度、残差统计分析、回归系数和相关系数的显著性测试等。
6. 模型应用:根据建立好的模型,预测因变量的值或者分析不同自变量对因变量的影响,制定相应的策略和决策。
未来预测:
7. 利用已有模型和数据对未观测的变量值进行预测和推断。
对新数据进行验证。
多元线性回归分析

S /(n k 1) 或 t ˆi / cii
S /(n k 1)
c 式中 ii 是矩阵 (X ' X )1对角线上的第 i 个元素,S 表示残
差平方和 。 当检验统计量的值大于给定显著性下的临界值时,拒绝 原假设,认为回归系数是显著的
(六)利用已通过检验的回归方程进行预测。
市场调查
多元线性回归分析
多元线性回归是在简单线性回归基础上推广而来。是 用来分析多个自变量对多个因变量如何产生影响的,最常见 的是分析多个自变量对一个因变量的影响方向和影响程度。
一、多元线性回归分析在市场调查中的应用
(一)确定市场调查中因变量与自变量之间的关系 是否存在,若存在,还要分析自变量对因变量的影 响程度是多大,影响方向如何。
Yt
因变量
X it (i 1,2,, k)
自变量
i (i 1,2,, k)
总体回归系数
ut
随机误差项
作为总体回归方程的估计,样本回归方程如下:
Yˆt ˆ1 ˆ2 X 2t ˆ3 X3t ˆk X kt et
ˆi (i 1,2,, k)
总体回归系数的估计
t 1,2,, n
样本数
et 是 Yt与其估计 Yˆt之间的离差,即残差
(二)确定因变量和自变量之间的联系形式,关 键是要找出回归系数。
(三)利用已确定的因变量和自变量之间的方程 形式,在已知自变量的情况下,对因变量的取值 进行预测。
(四)在众多影响因变量的因素中,通过评价其 对因变量的贡献,来确定哪些自变量是重要的或 者说是比较重要的,为市场决策行为提供理论依 据。
(五)回归的显著性检验
包括对回归方程的显著性检验和对回归系数的显著性检验。
多元统计分析回归分析

03
多元线性回归分析
多元线性回归模型的建立
确定自变量和因变量
01
在建立多元线性回归模型时,首先需要明确哪些变量是自变量
(解释变量),哪些是因变量(响应变量)。
确定模型形式
02
根据研究目的和数据特征,选择合适的多元线性回归模型形式,
如线性、多项式、逻辑回归等。
确定模型参数
03
根据选择的模型形式,确定模型中的参数,如回归系数、截距
04
多元非线性回归分析
多元非线性回归模型的建立
确定因变量和自变量
首先需要确定回归分析中的因变量和自变量, 并收集相关数据。
确定模型形式
根据理论或经验,选择合适的非线性函数形式 来表示自变量与因变量之间的关系。
确定模型参数
根据数据,使用适当的方法确定模型中的参数。
多元非线性回归模型的参数估计
01
详细描述
在社会调查中,回归分析可以帮助研究者了解不同因素对人类行为的影响,例如 教育程度、收入、性别等因素对个人幸福感的影响。通过回归分析,可以揭示变 量之间的关联和因果关系,为政策制定和社会干预提供科学依据。
生物医学数据的回归分析
总结词
生物医学数据的回归分析是多元统计分析在生命科学领域的应用,用于研究生物标志物和疾病之间的 关系。
详细描述
在经济领域,回归分析被广泛应用于股票价格、通货膨胀率 、GDP等经济指标的分析和预测。通过建立回归模型,可以 分析不同经济变量之间的因果关系,为政策制定者和投资者 提供决策依据。
社会调查数据的回归分析
总结词
社会调查数据的回归分析是多元统计分析在社会科学领域的应用,用于研究社会 现象和人类行为。
特点
多元统计分析具有多维性、复杂性和实用性。它可以处理多个变量之间的交互 作用和综合效应,广泛应用于各个领域,如经济学、社会学、生物学等。
多元回归分析原理

多元回归分析原理多元回归模型可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε其中,Y是因变量,X1、X2、..、Xk是自变量,β0、β1、β2、..、βk是模型参数,ε是误差项。
1.模型假设:多元回归模型基于一系列假设,包括线性关系、常数方差、误差项具有正态分布、误差项之间相互独立等。
这些假设为模型的参数估计和统计推断提供了基础。
2.参数估计:多元回归模型的参数估计采用最小二乘估计法,即通过最小化实际观测值与模型预测值之间的残差平方和来确定参数的取值。
参数估计求解具有闭式解,可以通过矩阵运算快速得到。
3. 模型评估:建立多元回归模型后,需要对模型进行评估,判断模型的拟合程度和预测能力。
常用的评估指标包括决定系数(R-squared)、调整决定系数(adjusted R-squared)、残差分析、F检验和t检验等。
4.假设检验:在多元回归分析中,可以对回归方程中每一个自变量的系数进行显著性检验,以判断自变量是否对因变量有显著影响。
常用的假设检验方法包括F检验和t检验。
5.多重共线性:多元回归分析中常常面临多重共线性的问题,即自变量之间存在高度相关性。
多重共线性会导致参数估计不准确、系数解释困难等问题。
对于存在多重共线性的情况,可以通过变量选择、主成分分析等方法处理。
6.模型改进:如果模型表现不佳,可以通过多种方法对模型进行改进。
常用的改进方法包括变量选择、非线性变换、交互作用项加入等。
多元回归分析具有广泛的应用领域,包括经济学、金融学、社会科学、医学科学等。
它可以帮助我们理解和预测各种复杂现象,为决策提供科学依据。
然而,多元回归分析也存在一些局限性,例如对数据的要求较高、假设前提较严格、模型解释力有限等。
因此,在实际应用中要注意适当选择适合的回归模型,并且结合领域知识和实际情况进行分析和解释。
多元回归分析的原理与应用

多元回归分析的原理与应用多元回归分析是一种广泛应用于统计学和经济学领域的统计分析方法,用于研究一个或多个自变量对一个或多个因变量的影响关系。
多元回归分析的原理基于最小二乘法,以建立一个数学模型来描述自变量与因变量之间的关系。
在多元回归分析中,我们通常使用如下的数学模型:Y=β0+β1X1+β2X2+...+βnXn+ε其中,Y表示因变量,X1到Xn表示自变量,β0到βn表示回归系数,ε表示误差项。
目标是找到最佳的回归系数估计值,使得模型的拟合与实际情况尽可能接近。
1.社会科学研究:多元回归分析可以用于研究社会行为和社会现象之间的关系。
例如,犯罪率与社会因素的关系、教育水平对收入的影响等。
2.经济学研究:多元回归分析在经济学中得到广泛应用,用于研究经济因素与经济指标之间的关系。
例如,GDP与人口、劳动力、投资等因素之间的关系。
3.市场营销研究:多元回归分析可以帮助企业了解消费者购买行为和市场趋势。
例如,产品销量与价格、广告投入、竞争对手的关系。
4.医学研究:多元回归分析可以应用于医学领域,用于研究疾病与遗传因素、生活方式等因素之间的关系。
5.公共政策评估:多元回归分析可以用于评估不同政策对社会效果的影响。
例如,教育政策对学生成绩的影响、环境政策对空气质量的影响等。
在进行多元回归分析之前,需要先进行数据的准备和探索性分析。
数据准备包括数据清洗、变量选择和数据变换等。
探索性分析包括计算变量之间的相关系数、绘制散点图等,以了解变量之间的关系。
在进行回归分析时,需要注意以下几个重要的步骤:1.变量选择:选择最适合模型的自变量和因变量。
可以通过领域知识、相关系数分析、回归系数的显著性检验等方法进行选择。
2.拟合模型:通过最小二乘法估计回归系数,获得一个最佳的拟合模型。
3.检验模型:通过检验回归系数的显著性来判断模型的拟合是否有效。
常用的检验方法包括t检验、F检验等。
4.模型解释与评估:通过回归系数的解释来解释变量的影响程度。
第四章多重共线性
1 2 ˆ Var ( j ) VIFj 2 2 2 x j (1 Rj ) x j
2
注意:R 2 是多个解释变量辅助回归的多重可决系数, j
而相关系数
2 r23只是说明两个变量的线性关系 。
17
(一元回归中可决系数的数值等于相关系数的平方)
方差扩大因子的作用
由
VIFJ 1 (1 R2 ) j
2. 严重多重共线时,假设检验作出错误判断的概率增大 (A)参数的置信区间扩大,使得接受一个本应拒绝的假 设(“以假当真”的第二类错误)的概率增大
ˆ (B)因为 t 2 ˆ Var ( 2 ) ,当方差变大时 会使 t 值减
小,导致使本应否定的“参数为0”的原假设被接受。
(该解释变量本来有显著影响,而检验结果却为无显著影响) 10
x y x ) x y x
3i i 2 2i
2i i 2 2i
对比一元回归时
ˆ 2
x y x
i 2 i
6
i
这种情况下多元回归是否还有必要呢?
一、存在完全多重共线性时 ——OLS估计式变得不确定、不精确
1. 解释变量完全线性相关时 ——OLS 估计式不确定 ▲ 从OLS估计式看:此时 X 3i X 2i 可以证明(见教材108页)
●多重共线性的影响程度与解释变量在方程中的
相对“地位”有关
11
●多重共线性的后果与研究目的有关:如果研究目的 仅在于预测Y,而解释变量X之间的多重共线性关系的性 质在未来将继续保持(前提条件),这时多重共线性可 能并不是严重问题,而应着重于可决系数高,F检验显 著。
(理解:出现高度共线性时,虽然无法精确估计个别回归系 数,但可精确估计这些系数的某些线性组合。)
第四章Minitab相关与回归分析
第一,如何确定非线性函数的具体形式。与线性回 归分析的场合不同,非线性回归函数有多种多样的 具体形式,需要根据所要研究的问题的性质并结合 实际的样本观测值做出恰当的选择。
第二,如何估计函数中的参数。非线性回归分析最 常用的方法仍然是最小二乘估计法,但需要根据函 数的不同类型,作适当的处理。
89 90 91 92 93 94 95 96 97 98
广告支出 10 20 40 50 60 80 70 110 110 140 x(万元)
销售量 y(万元)
20 30 35 40 50 70 65 80 70 95
试根据此资料确定销售量y与广告费支出x的是 否存在线性关系,并进行模型分析。
1.根据一般原理, 我们首先需要绘制 散点图,观察其是 否存在线性关系, 如果观察结果存在 线性关系,我们才 能对其进行进一步 的分析。
ut是随机误差项,又称随机干扰项,它是一个特 殊的随机变量,反映未列入方程式的其他各种因素
对y的影响。
(二)样本回归函数:
et称yt为 残a 差b,xt 在 e概t 念上t ,1,2e,t与,总n 体误差项ut相互
对应; n是样本的容量。
a、b分别为α、β的样本估计值
一元线性回归模型的估计
1. 回归系数的估计
关
|r|=0 不存在线性关系或存在非线性相关;
系
数 值: |r|=1 完全线性相关
0<|r|<1不同程度线性相关(0~0.3 微弱;0.3~0.5 低度;
0.5~0.8 显著;0.8~1 高度)
符号:r>0 正相关;r<0 负相关
相关系数的检验:
相关系数的检验( t 检验)
计量经济学复习要点
计量经济学复习要点第1章 绪论数据类型:截面、时间序列、面板用数据度量因果效应,其他条件不变的概念 习题:C1、C2第2章 简单线性回归回归分析的基本概念,常用术语现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究,回归的实质是由固定的解释变量去估计被解释变量的平均值;简单线性回归模型是只有一个解释变量的线性回归模型; 回归中的四个重要概念1. 总体回归模型Population Regression Model,PRMt t t u x y ++=10ββ--代表了总体变量间的真实关系;2. 总体回归函数Population Regression Function,PRFt t x y E 10)(ββ+=--代表了总体变量间的依存规律;3. 样本回归函数Sample Regression Function,SRFtt t e x y ++=10ˆˆββ--代表了样本显示的变量关系; 4. 样本回归模型Sample Regression Model,SRMtt x y 10ˆˆˆββ+=---代表了样本显示的变量依存规律; 总体回归模型与样本回归模型的主要区别是:①描述的对象不同;总体回归模型描述总体中变量y 与x 的相互关系,而样本回归模型描述所关的样本中变量y 与x 的相互关系;②建立模型的依据不同;总体回归模型是依据总体全部观测资料建立的,样本回归模型是依据样本观测资料建立的;③模型性质不同;总体回归模型不是随机模型,而样本回归模型是一个随机模型,它随样本的改变而改变;总体回归模型与样本回归模型的联系是:样本回归模型是总体回归模型的一个估计式,之所以建立样本回归模型,目的是用来估计总体回归模型; 线性回归的含义线性:被解释变量是关于参数的线性函数可以不是解释变量的线性函数 线性回归模型的基本假设简单线性回归的基本假定:对模型和变量的假定、对随机扰动项u 的假定零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定 普通最小二乘法原理、推导最小二乘法估计参数的原则是以“残差平方和最小”;Min21ˆ()niii Y Y =-∑01ˆˆ(,)ββ: 1121()()ˆ()nii i n ii XX Y Y X X ==--β=-∑∑ , 01ˆˆY X β=-βOLS 的代数性质拟合优度R 2离差平方和的分解:TSS=ESS+RSS“拟合优度”是模型对样本数据的拟合程度;检验方法是构造一个可以表征拟合程度的指标——判定系数又称决定系数;121SSE SST SSR SSRR SST SST SST-===-,表示回归平方和与总离差平方和之比;反映了样本回归线对样本观测值拟合优劣程度的一种描述; 2 2[0,1]R ∈;3 回归模型中所包含的解释变量越多,2R 越大改变度量单位对OLS 统计量的影响函数形式对数、半对数模型系数的解释101ˆˆˆi iY X =β+β:X 变化一个单位Y 的变化 201ˆˆˆln ln i i Y X =β+β: X 变化1%,Y 变化1ˆβ%,表示弹性; 301ˆˆˆln i i Y X =β+β:X 变化一个单位,Y 变化百分之1001ˆβ 401ˆˆˆln i i Y X =β+β:X 变化1%,Y 变化1ˆβ%; OLS 无偏性,无偏性的证明 OLS 估计量的抽样方差 误差方差的估计 OLS 估计量的性质1线性:是指参数估计值0β和1β分别为观测值t y 的线性组合; 2无偏性:是指0β和1β的期望值分别是总体参数0β和1β; 3最优性最小方差性:是指最小二乘估计量0β和1β在在各种线性无偏估计中,具有最小方差;高斯-马尔可夫定理OLS 参数估计量的概率分布2^22()iVar x σβ=∑OLS 随机误差项μ的方差σ2的估计 简单回归的高斯马尔科夫假定 对零条件均值的理解习题:4、5、6;C2、C3、C4第3章 多元回归分析:估计1、变量系数的解释剔除、控制其他因素的影响对斜率系数1ˆβ的解释:在控制其他解释变量X2不变的条件下,X1变化一个单位对Y 的影响;或者,在剔除了其他解释变量的影响之后,X1的变化对Y 的单独影响2、多元线性回归模型中对随机扰动项u 的假定,除了零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定以外,还要求满足无多重共线性假定;3、多元线性回归模型参数的最小二乘估计式;参数估计式的分布性质及期望、方差和标准误差;在基本假定满足的条件下,多元线性回归模型最小二乘估计式是最佳线性无偏估计式;最小二乘法 OLS 公式:Y ' X X)' (X ˆ-1=β 估计的回归模型:的方差协方差矩阵:残差的方差 : 估计的方差协方差矩阵是: 拟合优度 遗漏变量偏误 多重共线性多重共线性的概念多重共线性的后果 多重共线性的检验 多重共线性的处理习题:1、2、6、7、8、10;C2、C5、C6第4章 多元回归分析:推断经典线性模型假定 正态抽样分布2^22i e n σ=-∑变量显着性检验,t 检验 检验β值的其他假设 P 值实际显着性与统计显着性 检验参数的一个线性组合假设 多个线性约束的检验:F 检验 理解排除性约束 报告回归结果习题:1、2、3、4、6、7、10、11;C3、C5、C8第6章 多元回归分析:专题测度单位对OLS 统计量的影响 进一步理解对数模型 二次式的模型 交互项的模型 拟合优度修正可决系数的作用和方法;习题:1、3、4、7;C2、C3、C5、C9、C12第7章 虚拟变量虚拟变量的定义如何引入虚拟变量:如果一个变量分成N 组,引入该变量的虚拟变量形式是只能放入N-1个虚拟变量 虚拟变量系数的解释虚拟变量系数的解释:不同组均值的差基准组或对照组与处理组 以下几种模型形式表达的不同含义;1tt t t u D X Y +++=210βββ:截距项不同; 2tt t t t u X D X Y +++=210βββ:斜率不同;3tt t t t t u X D D X Y ++++=3210ββββ:截距项与斜率都不同;其中D 是二值虚拟变量,X 是连续的变量;虚拟变量陷阱虚拟变量的交互作用习题:2、4、9;C2、C3、C6、C7、C11第8章异方差异方差的后果异方差稳健标准误BP检验异方差的检验White检验加权最小二乘法习题:1、2、3、4;C1、C2、C8、C9Eviews回归结果界面解释表计量经济学复习题第1章习题:C1、C2第2章习题:4、5、6;C2、C3、C4第3章习题:1、2、6、7、8、10;C2、C5、C6 第4章习题:1、2、3、4、6、7、10、11;C3、C5、C8 第6章习题:1、3、4、7;C2、C3、C5、C9、C12 第7章习题:2、4、9;C2、C3、C6、C7、C11 第8章习题:1、2、3、4;C1、C2、C8、C9 1、判断下列表达式是否正确2469 2、给定一元线性回归模型:1叙述模型的基本假定;2写出参数0β和1β的最小二乘估计公式; 3说明满足基本假定的最小二乘估计量的统计性质; 4写出随机扰动项方差的无偏估计公式; 3、对于多元线性计量经济学模型:1该模型的矩阵形式及各矩阵的含义; 2对应的样本线性回归模型的矩阵形式; 3模型的最小二乘参数估计量;4、根据美国1961年第一季度至1977年第二季度的数据,我们得到了如下的咖啡需求函数的回归方程:D D D P I P t t t t t t tT Q 321'0097.0157.00961.00089.0ln 1483.0ln 5115.0ln 1647.02789.1ˆln ----++-=其中,Q=人均咖啡消费量单位:磅;P=咖啡的价格以1967年价格为不变价格;I=人均可支配收入单位:千元,以1967年价格为不变价格;P '=茶的价格1/4磅,以1967年价格为不变价格;T=时间趋势变量1961年第一季度为1,…,1977年第二季度为66;D 1=1:第一季度;D 2=1:第二季度;D 3=1:第三季度; 请回答以下问题:① 模型中P 、I 和P '的系数的经济含义是什么 ② 咖啡的需求是否很有弹性③ 咖啡和茶是互补品还是替代品 ④ 你如何解释时间变量T 的系数 ⑤ 你如何解释模型中虚拟变量的作用 ⑥ 哪一个虚拟变量在统计上是显着的 ⑦ 咖啡的需求是否存在季节效应5、为研究体重与身高的关系,我们随机抽样调查了51名学生其中36名男生,15名女生,并得到如下两种回归模型:h W5662.506551.232ˆ+-= t=h D W7402.38238.239621.122ˆ++-= t=其中,Wweight=体重 单位:磅;hheight=身高 单位:英寸 请回答以下问题:① 你将选择哪一个模型为什么② 如果模型确实更好,而你选择了,你犯了什么错误 ③ D 的系数说明了什么6、简述异方差对下列各项有何影响:1OLS 估计量及其方差;2置信区间;3显着性t 检验和F 检验的使用;4预测;7、假设某研究者基于100组三年级的班级规模CS 和平均测试成绩TestScore 数据估计的OLS 回归为:(1) 若某班级有22个学生,则班级平均测试成绩的回归预测值是多少 (2) 某班去年有19个学生,而今年有23个学生,则班级平均测试成绩变化的回归预测值是多少(3) 100个班级的样本平均班级规模为,则这100个班级的样本平均测试成绩是多少(4) 100个班级的测试成绩样本标准差是多少提示:利用R 2和SER 的公式 (5) 求关于CS 的回归斜率系数的95%置信区间;(6) 计算t 统计量,根据经验法则t=2来判断显着性检验的结果; 8、设从总体中抽取一容量为200的20岁男性随机样本,记录他们的身高和体重;得体重对身高的回归为:其中体重的单位是英镑,身高的单位是英寸;(1) 身高为70英寸的人,其体重的回归预测值是多少65英寸的呢74英寸的呢(2) 某人发育较晚,一年里蹿高了英寸;则根据回归预测体重增加多少 (3) 解释系数值和的含义;(4)假定不用英镑和英寸度量体重和身高而分别用厘米和千克,则这个新的厘米-千克回归估计是什么给出所有结果,包括回归系数估计值,R2和SER;(5)基于回归方程,能对一个3岁小孩的体重假设身高1米作出可靠预测吗9、假设某研究使用250名男性和280名女性工人的工资Wage数据估计出如下OLS回归:标准误其中WAGE的单位是美元/小时,Male为男性=1,女性=0的虚拟变量;用男性和女性的平均收入之差定义工资的性别差距;1性别差距的估计值是多少2计算截距项和Male系数的t统计量,估计出的性别差距统计显着不为0吗5%显着水平的t统计量临界值为3样本中女性的平均工资是多少男性的呢4对本回归的R2你有什么评论,它告诉了你什么,没有告诉你什么这个很小的R2可否说明这个回归模型没有什么价值5另一个研究者利用相同的数据,但建立了WAGE对Female的回归,其中Female为女性=1,男性=0的变量;由此计算出的回归估计是什么10、基于美国CPS人口调查1998年的数据得到平均小时收入对性别、教育和其他特征的回归结果,见下表;该数据集是由4000名全年工作的全职工人数据组成的;其中:AHE=平均小时收入;College=二元变量大学取1,高中取0;Female女性取1,男性取0;Age=年龄年;Northeast居于东北取1,否则为0;Midwest居于中西取1,否则为0;South居于南部取1,否则为0;West居于西部取1,否则取0;表1:基于2004年CPS数据得到的平均小时收入对年龄、性别、教育、地区的回归结果概括统计量和联合检验SERR2注:括号中是标准误;(1)计算每个回归的调整R2;(2)利用表1中列1的回归结果回答:大学毕业的工人平均比高中毕业的工人挣得多吗多多少这个差距在5%显着性水平下统计显着吗男性平均比女性挣的多吗多多少这个差距在5%显着性水平下统计显着吗(3)年龄是收入的重要决定因素吗请解释;使用适当的统计检验来回答; (4)Sally是29岁女性大学毕业生,Betsy是34岁女性大学毕业生,预测她们的收入;(5)用列3的回归结果回答:地区间平均收入存在显着差距吗利用适当的假设检验解释你的答案;(6)为什么在回归中省略了回归变量West如果加上会怎样;解释3个地区回归变量的系数的经济含义;7Juantia是南部28岁女性大学毕业生,Jennifer是中西部28岁女性大学毕业生,计算她们收入的期望差距计量经济学补充复习题一、填空题1、 计量经济学常用的三类样本数据是_横截面数据__、__时间序列数据__和_面板数据;2、虚拟解释变量不同的引入方式产生不同的作用;若要描述各种类型的模型在截距水平的差异,则以 加法形式 引入虚拟解释变量;若要反映各种类型的模型的不同相对变化率时,则以 乘法形式 引入虚拟解释变量;二、选择题1、参数的估计量βˆ具备有效性是指 BA Var βˆ=0B Var βˆ为最小C βˆ-=0D βˆ-为最小2、产量x,台与单位产品成本y, 元/台之间的回归方程为yˆ=356-,这说明 DA 产量每增加一台,单位产品成本增加356元B 产量每增加一台,单位产品成本减少元C 产量每增加一台,单位产品成本平均增加356元D 产量每增加一台,单位产品成本平均减少元3、在总体回归直线E x y10)ˆ(ββ+=中,1β表示 B A 当x 增加一个单位时,y 增加1β个单位B 当x 增加一个单位时,y 平均增加1β个单位C 当y 增加一个单位时,x 增加1β个单位D 当y 增加一个单位时,x 平均增加1β个单位4、以y 表示实际观测值,yˆ表示回归估计值,则普通最小二乘法估计参数的准则是使 DA )ˆ(i i yy -∑=0 B 2)ˆ(i i y y -∑=0 C )ˆ(i i yy -∑为最小 D 2)ˆ(i i y y -∑为最小 5、设y 表示实际观测值,yˆ表示OLS 回归估计值,则下列哪项成立 D A yˆ=y B y ˆ=y C yˆ=y D y ˆ=y 6、用普通最小二乘法估计经典线性模型t t t u x y ++=10ββ,则样本回归线通过点 DA x,yB x,yˆ C x ,yˆ D x ,y 7、判定系数2R 的取值范围是 CA 2R -1B 2R 1C 02R 1D -12R 18、对于总体平方和TSS 、回归平方和RSS 和残差平方和ESS 的相互关系,正确的是 BA TSS>RSS+ESSB TSS=RSS+ESSC TSS<RSS+ESSD TSS 2=RSS 2+ESS 29、决定系数2R 是指 CA 剩余平方和占总离差平方和的比重B 总离差平方和占回归平方和的比重C 回归平方和占总离差平方和的比重D 回归平方和占剩余平方和的比重10、如果两个经济变量x 与y 间的关系近似地表现为当x 发生一个绝对量变动x 时,y 有一个固定地相对量y/y 变动,则适宜配合地回归模型是 BA i i i u x y ++=10ββB ln i i i u x y ++=10ββC i ii u x y ++=110ββ D ln i i i u x y ++=ln 10ββ 11、下列哪个模型为常数弹性模型 AA ln i i i u x y ++=ln ln 10ββB ln i i i u x y ++=10ln ββC i i i u x y ++=ln 10ββD i ii u x y ++=110ββ 12、模型i i i u x y ++=ln 10ββ中,y 关于x 的弹性为 C A i x 1β B i x 1β C iy 1β D i y 1β 13、模型ln i i i u x y ++=ln ln 10ββ中,1β的实际含义是 BA x 关于y 的弹性B y 关于x 的弹性C x 关于y 的边际倾向D y 关于x 的边际倾向14、当存在异方差现象时,估计模型参数的适当方法是 AA 加权最小二乘法B 工具变量法C 广义差分法D 使用非样本先验信息15、加权最小二乘法克服异方差的主要原理是通过赋予不同观测点以不同的权数,从而提高估计精度,即 BA 重视大误差的作用,轻视小误差的作用B 重视小误差的作用,轻视大误差的作用C 重视小误差和大误差的作用D 轻视小误差和大误差的作用16、容易产生异方差的数据是 CA 时间序列数据B 修匀数据C 横截面数据D 年度数据17、设回归模型为i i i u x y +=β,其中var i u =22i x σ,则的最小二乘估计量为 CA. 无偏且有效 B 无偏但非有效C 有偏但有效D 有偏且非有效18、如果模型t t t u x b b y ++=10存在序列相关,则 DA cov t x ,t u =0B cov t u ,s u =0tsC cov t x ,t u 0D cov t u ,s u 0ts19、下列哪种形式的序列相关可用DW 统计量来检验i v 为具有零均值,常数方差,且不存在序列相关的随机变量 AA t t t v u u +=-1ρB t t t t v u u u +++=-- 221ρρC t t v u ρ=D ++=-12t t t v v u ρρ20、DW 的取值范围是DA -1DW0B -1DW1C -2DW2D 0 DW421、当DW =4是时,说明 DA 不存在序列相关B 不能判断是否存在一阶自相关C 存在完全的正的一阶自相关D 存在完全的负的一阶自相关22、模型中引入一个无关的解释变量 CA 对模型参数估计量的性质不产生任何影响B 导致普通最小二乘估计量有偏C 导致普通最小二乘估计量精度下降D 导致普通最小二乘估计量有偏,同时精度下降23、如果方差膨胀因子VIF =10,则认为什么问题是严重的 CA 异方差问题B 序列相关问题C 多重共线性问题D 解释变量与随机项的相关性24、某商品需求函数为i i i u x b b y ++=10,其中y 为需求量,x 为价格;为了考虑“地区”农村、城市和“季节”春、夏、秋、冬两个因素的影响,拟引入虚拟变量,则应引入虚拟变量的个数为 BA 2B 4C 5D 625、根据样本资料建立某消费函数如下:tC ˆ=+tD +t x ,其中C 为消费,x 为收入,虚拟变量D =农村家庭城镇家庭⎩⎨⎧01,所有参数均检验显着,则城镇家庭的消费函数为AA t C ˆ=+t xB tC ˆ=+t xC t C ˆ=+t xD tC ˆ=+t x 26、假设某需求函数为i i i u x b b y ++=10,为了考虑“季节”因素春、夏、秋、冬四个不同的状态,引入4个虚拟变量形式形成截距变动模型,则模型的 DA 参数估计量将达到最大精度B 参数估计量是有偏估计量C 参数估计量是非一致估计量D 参数将无法估计27、对于模型i i i u x b b y ++=10,为了考虑“地区”因素北方、南方,引入2个虚拟变量形式形成截距变动模型,则会产生 DA 序列的完全相关B 序列不完全相关C 完全多重共线性D 不完全多重共线性28、如果一个回归模型中不包含截距项,对一个具有m 个特征的质的因素要引入虚拟变量的数目为 AA mB m-1C m-2D m+129、某一时间序列经一次差分变换成平稳时间序列,此时间序列称为A;A .1阶单整B .2阶单整C .K 阶单整D .以上答案均不正确30、当随机误差项存在自相关时,进行单位根检验是由B 来实现;A . DF 检验B .ADF 检验C .EG 检验D .DW 检验三、多项选择题:1、一元线性回归模型t t t u x y ++=10ββ的经典假设包括 ABCDEA 0)(=t u EB 2)(σ=t u Var 常数C 0),cov(=j i u uD t u ~N0,1E x 为非随机变量,且0),cov(=t t u x2、以带“”表示估计值,u 表示随机误差项,如果y 与x 为线性相关关系,则下列哪些是正确的 BEA t t x y 10ββ+=B t t t u x y ++=10ββC t t t u x y ++=10ˆˆββD tt t u x y ++=10ˆˆˆββ E tt x y 10ˆˆˆββ+= 3、用普通最小二乘法估计模型t t t u x y ++=10ββ的参数,要使参数估计量具备最佳线性无偏估计性质,则要求: ABCDEA 0)(=t u EB 2)(σ=t u Var 常数C 0),cov(=j i u uD t u 服从正态分布E x 为非随机变量,且0),cov(=t t u x4、假设线性回归模型满足全部基本假设,则其参数估计量具备 CDEA 可靠性B 合理性C 线性D 无偏性E 有效性5、下列哪些非线性模型可以通过变量替换转化为线性模型 ABC A i i i u x y ++=210ββ B i ii u x y ++=110ββ C ln i i i u x y ++=ln 10ββ D i i i u x y ++=210ββE i i i i u x y ++=ββ06、异方差性将导致 BCDEA 普通最小二乘估计量有偏和非一致B 普通最小二乘估计量非有效C 普通最小二乘估计量的方差的估计量有偏D 建立在普通最小二乘估计基础上的假设检验失效E 建立在普通最小二乘估计基础上的预测区间变宽7、当模型中解释变量间存在高度的多重共线性时 ACDA 各个解释变量对被解释变量的影响将难于精确鉴别B 部分解释变量与随机误差项之间将高度相关C 估计量的精度将大幅下降D 估计量对于样本容量的变动将十分敏感E 模型的随机误差项也将序列相关8、下述统计量可以用来检验多重共线性的严重性 ACDA 相关系数B DW 值C 方差膨胀因子D 特征值E 自相关系数三、判断题1、随机误差项u i 与残差项e i 是一回事; F2、当异方差出现时,常用的t 检验和F 检验失效; T3、在异方差情况下,通常预测失效; T四、计算分析题1、指出下列模型中的错误,并说明理由;1 tt Y C 2.1180ˆ+= 其中,C 、Y 分别为城镇居民的消费支出和可支配收入;2 tt t L K Y ln 28.0ln 62.115.1ˆln -+= 其中,Y 、K 、L 分别为工业总产值、工业生产资金和职工人数;2、对下列模型进行适当变换化为标准线性模型:(1) y =0β+1βx 1+2β21x +u ; (2) Q =A u e L K βα;(3) Y =exp 0β+1βx+u ;3、一个由容量为209的样本估计的解释CEO 薪水的方程为:其中,Y 表示年薪水平单位:万元, 1X 表示年收入单位:万元, 2X 表示公司股票收益单位:万元; 321D D D ,,均为虚拟变量,分别表示金融业、消费品工业和公用事业;假设对比产业为交通运输业;(1) 解释三个虚拟变量参数的经济含义;(2) 保持1X 和2X 不变,计算公用事业和交通运输业之间估计薪水的近似百分比差异;这个差异在1%的显着性水平上是统计显着吗消费品工业和金融业之间估计薪水的近似百分比差异是多少。
第4章 回归模型中的随机误差项问题
xi递增(或递减) (i=1,2,…,n)
2020年4月4日 山东财经大学统计学院计量经济教研室
第21页
机动 目录 上页 下页 返回 结束
G-Q检验的步骤:
1.将n对样本观察值(xi , yi)按观察值xi的大小排队。 2.将序列中间的c个观察值除去,并将剩下的观察值
GLSE的协方差矩阵为:
Cov(βˆ )
(
X%X%)1
2 u
(
X
1
X
)1
2 u
2020年4月4日 山东财经大学统计学院计量经济教研室
第9页
机动 目录 上页 下页 返回 结束
第二节 异 方 差
一、异方差及其产生的原因
当不能满足同方差的假设,即u的条件方差在不同 次的观测中不再是一个常数,而是取得不同的数值,即
若因假定2和假定3不满足时,有
Cov(u) E(uu) u2
其中Ω≠I, Ω是一个n×n的正定对称方阵。
2020年4月4日 山东财经大学统计学院计量回 结束
此时可以觅得一个n×n的非奇异矩阵P,使得: PΩ P′=I 即 P′ P = Ω-1
然后用觅得的P乘以(4.7)的两边,有:
(三)White检验
White检验的基本思想:如果存在异方差,其方 差与解释变量有关,可以分析方差是否与解释 变量有某些形式的联系以判断异方差性。但是 方差一般是未知的,可用OLS 法估计的残差平 方作为其估计量。在大样本的情况下,做对常 数项,解释变量,解释变量的平方及其交叉乘 积等所构成的辅助回归,利用辅助回归相应的 检验统计量,即可判断是否存在异方差性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4 章多元回归分析:推断 1 , ,本章继续对多元回归分析的讨论。现在转向对总体回归模型中的参数进行假设检验的问题。在总体误差服从正态分布这个新增假定下,我们从寻求OLS 估计量的分布开始着手。4 . 2 节和4 . 3 节涵盖了对单个参数的假设检验,而4 . 4 节讨论的是如何检验一个涉及不止一个参数的假设。我们在4 . 5 节对多重限制进行了检验,并特别关注是否应该从一个模型中省略掉一组自变量的问题。 马,10 [ S 估计量的抽样分布 到目前为止,我们已经建立了系列假定,在这些假定之下,OLS 是无偏的,而且还推导和讨论r 由遗漏变髦所导致的偏误。在3 . 4 节中,我们在高斯一马尔科夫假定下得到了OLS 估计量的方差。在3 . 5 节,我们证明了在所有线性无偏估计量中,这个方差足最小的。 了解OLS 估计量的期望值和方差,有助于描述OLS 估计量的精密度。但为厂进行统计推断,我们需要知道尾的不止这两个,还需要知道月的全部抽样分布。即使在高斯一马尔科夫假定下,尾的分布仍完全有可能其有任何形式。食姿一万蕊石办万)一断卜107 当浅们把样本中自变丝的值视为既定时.显然01 一S 估计量的抽样分布就取决十其背后的误差分布为f 使得抽杆分布易扮掌握,我们现在假定.总体中不可观测的误差是正态分布的少戎们称之为正态性假定(n 。。汕以注ssu " lption )二 假定MLR . 6 (正态性〕 总体误差,‘独立士解释变址.,」,.介, 廖为迩延夸全起生一少巡迎,口生 一-一一一一-一一― 一一1 、,. , .而几服从均值为零和*, : } } 叮l ,玛瑕定MLR . 6 是一个比我们前面任何一个假定都更强的假定.实际L , 由丁在似定MLR . 6 下人独立于马,所以L ( “卜二。,”一,二。)一F ( " )二。和ve 「(u ‘朴,„ ,厂。)二v 试,〕 二二2 、因此,如果作出假定MLR . 6 ,那我们就必然假定了MLR . 3 和M 上R , 5 二为了强周现在所做的假定比似前多,我们将使用似定Ml _ H , l 一MLH . 6 全套似定 就横截面{l 弓归中的应用而言,假定M 乙尺.1 一Ml _ R . 6 这六个瑕定被称为经典线性模型(cLM )假定「。l :、污i 。,: 1 11 工1 。,r 。〕 〔 、]el ( cl 』 M )。加、1 】 月lpt .。)11 、」一于是我们将这六个假定下的模型称为经典线性模型〔 。l 。、.。成I :。a : n :川山。最好认为CLM 假定包括了所有的高斯马尔科夫假定,丙加上误轶正态分布的似定_ 在cLM 假定下,( ) l 。5 么片计童禹」,户.,„ ,风比在高斯一弓尔科夫赦定下具有更强的效率性质二可以证明,015 估计墩方差最小的无偏估计(。ir 、irn .」。、升111 。主、。。,,。bi 。、。‘l 。、ti 。:. ror ) ,即在所有的无偏估计中,OLS 具有最小的方差、不再需要把我们的比较限制在以夕为线性的估汁童内。Cl 一M 假定下OLS 的这个性质将在附录E 中进一步讨沦。 总结eLM 总体假定的一种简捷方法是 , , lx 一N 。。胡八,十召*. , !十君:, 2 +„ “脚,、,。2 ) 式中,x 为(、勺,二2 ,„ ,二、)的简写。就是说,以x 为条件的,,服从一个对土,, J : ,一,、r .为线性均值并且方差为常数的正态分布:图4 , 1 给出了只有一个自变量的情形〕 推出误差服从正态分布的理由通常这样推理:由于。是影响着少而又观测不到的许多因素之和,所以我们可借助于中心极限定理(参见附录C )断定。具有近似正态分布。虽然这种论证有其优点,但也并非毫尤瑕疵。灯先.。中的众多因素可能各有极为不同的总体分布(比如在上资方程中,误差中的个人能力和教学质量)口但中心极限定理(创_T )在这些情形下仍成立.这种正态近似可能不那么好,这依赖于“中有多少闪素以及它们的分布有多么地不同。 CLT 论证中更严重的阿题是,它假定所有不可观测因素都以各自的和可加的方式影响着夕。对于这一点没有任何保证。如果“是不可观测因素的一个复杂函数,那么fL 丁论证并不真正适用 在任何一个应用中,是否可以假定。的正态性,实际上都是• 个经验性间题。例如,没有一个定理会认为取决丁*I 二,。介:和,柳。,的二以岁105 卜基屏荞获译从“' ;。盗分筛事护钻:J 。代蔽, 月犷}二少 正态分布 于书 F 〔 Jl , )二声。+刀.x 一护一一,? ? 图4 . 1 单独一个解释变.的同方差正态分布 服从正态分布。如果有的话,那就是简单的推理表明相反的方面是成立的:由于工资绝不可能低于零,所以严格地讲,‘它不可能具有正态分布J 而且,因为存在最低工资法,总体中有一定比例的人恰好得到最低砚,资,所以也与上态性似定相违背、尽管如此,作为一个实践问题,我们还是可以问条件1 二资分布是否“接近”正态分布。以往的经验证据表明,正态性假定对工资而言不是• 个很好的假定。 通常利用一种变换(特别是取对数)就能得到一个更接近于正态的分布。比如,话如协g ( p 汀,)之类的变量,常具有一个比/, r ' , ,的分布更接近11 : ;正态的分布.同样,这又是一个经验问题,我们在第5 章将进步讨论。有一些M 七R . 6 明显不对的例子。要是夕仅取少数几个值,‘已就不叮能接近正态分布;例3 . 5 中的因变量是个很好的例子。一个年轻人在1986 年被逮捕的次数这个变量二rl - 86 ,取值仅限于一个很小的整数范围,而且对多数人来说都是零。因此,。rr 肠远非正态分布。在这些情况下,该怎么做呢?如我frJ 在第5 章将看到的那样。相对于很大的样本容量来说,误差的非正态性算不上一个严重的问题,而且这一点很重要。目前来看,我们姑且认可正态性的假定。 误差项的正态性寻致O 公估计量的正态抽样分布乙 定理4 . 1 (正态抽样分布) 在CLM 假定MLR . 1 一MLR . 6 下,给定白变量的样本值,有几一”。:m 。‘[凡,V 升,(风)」 ( 4 . 1 ) i 式中,Vor (耳)在第3 章[方程(3 . 51 ) :中给出口因此 „ 〔 汽一、)、d (殡)一N ' , rm 改,(。,l ) 带万蔺““荞‘芡猫万梦蔽“万薛卜即, 给定附录B 中正态分布随机变量的性质,证明定理(4 . ] )并不困难、每个风都可以写成氏=八十艺叫产J 。式‘l , ,二。一井。召、R , ;厂。为二,对所有其他自变髦进行回归的第?个残差;而绍凡是这个回归的残差’!汽方和[参见方程(3 .倪)j 。因为二I ,只取决于自变量,所以它们可作为非随机变量来处理。因此,月只是样本误差{u 「二,二1 , 2 .一,刀}的一个线性组合。在假定Ml : R6 〔 和随机抽样假定M 乙R2 )下,以差是独立同分布的正态〔 。,。2 )随机变量。有关独立正态随机变量的一个重要特征是,这种随机变量的线性组合仍是正态分布(参见附录B )。这就基本上完成了证明。在3 . 3 节,我们证明了E ‘昆)二几,而在3 一4 节,我们又推导了var (恳);这里不需要重新推导这些结论己 问题4 . 1 董犷 假设独立于解释套量,而与以朽同的概率1 巧取值一2 ,一1 . 0 , i 和2 。这释 会违背高斯一马尔科夫假定吗?会违背CLM 假定吗? 如果通过将一个正态随机变量除以它的标准差而使之标准化,就得到一个标准正态随机变量,由此便直接得到定理的第二部分。 定理(4 .约的结论可以加强。除式仔.1 )外,夕。,户」,„ ,凡的任何线性组合也都是正态分布的,而且尾的任何一个子集也都有一个联合正态分布。这些结论就构成了本章剩余部分检验结论的基础。我们在第5 章将证明,即使没有误差的正态性,在大样本情况下OLS 估计量的正态性也会近似成立二 4 . 2 检验对单个总体参数的假设:亡检验 本节包括丫J 一个十分重要的专题,即对.急体回归函数中有关某单个参数的程设进行检验。总体模型可写作 y 二几十夕1 二.+几二:+„ +几了。十。(4 . 2 ) 而且假设它满足CLM 假定。我们知道,OLS 得到风的无偏估计量。在本节中.我们研究如何检验那些有关某个特定几的假设。为了充分了解假设俭验• 就必须记得,月是总休的未知特征,而且拢们将永远不会确定地知道它们。尽管如此,找们还是可以对几的值作出假设,然后通过统计推断来检验我们的假设。 为了构造假设检验,我们需要如下结论。 2 27 厅昆恕黔黑甲丁i 式中,,瓶叠耀量’厂丢。*、协.之〕 、,2 二,+ 个斜率参数和截趾夕。) ( 4 . 3 》 一+肛。卜“中未知参数的} I , ”卜经厉科乎禅扒一 计1 经序李导论:现代观沛 此定理在某些重要方而与定理礴,1 不同。定理4 . 1 表明.在〔 ’LM 假定卜,(风一戊)今d 〔 尾卜N 〔 )m 飞a {〔 0 . 1 )。式〔 4 . 3 )中的厂分布源于如下事实,即川(凡)中的常数,己经被随机变量:所取代二证明由此导致一个自山度为冷一l 的,分布,并没有加深多少我们的见识。本质上讲,对它的证啊表明,式(4 • 3 )可写成标准止态随机变量〔 风一此)胡(汽)与云勺犷的平方根之比。可以证明二者是独立的,而丑(羚一凌一1 ) J ’肠,一义宾。一,。于是根据t 随机变量的定义,便得到这个结论(参见第B . 5 节)。 定理4 • 2 的重要性在于,它使我们能检验有关马的假设J 在多数应用中,找们主要的兴趣在于检验虚拟假设〔 :lull 帅卯thesi 、) 碱〕 :风二() ( 44 ) 式中,,为对应着壳个白变量中的任何一个。重要的是.要理解式(4 _ 4 ) 的含义,并能在一个特定的应用中用简单的语言来描述这个假设。由丁玛在控制厂所有其他自变量后,度量了孔对夕〔 的期望值)的偏效应,所以式( 4 . 4 )意味着,一旦对』 二L .二2 ,一,、几一,,几一,,一,、*都作出了解释,则娜对夕的期望值就没有任何偏效应。我们不能把虚拟假设表述成“几对-T ' 有偏效应’" .因为它对龙不为零的任何一个值都成立。经典检验适合于检验像式(4 . 4 )那样的简单假设。 作为• 个例子。考虑工资方程 109 (二a 即)=风斗月1 心。‘+召:。钾r 十声3 ‘。,。。+、 虚拟假设践;夕:二O 意味着只要对教育程度和现职任期进行了解释,工作年数(二加门对小时工资就没有影响。这是一个有经济意义的假设。如果它是正确的,那就意味着一个人在现任职之前的工作经历并不会影响工资。如果几》 () ,则以前的工作经历会提高生产力,并因此提高下资。你叫能记得,在统计学教程中,学过对不态总体的均值进行假设检验的人门知识。(附录C 复习了这部分内容。)在多元回归背景下捡验式(4 . 4 ) 的过程与此十分类似:虽然困难的邻分在于得到系数枯计值、标准误和临界值,但多数工作都可以由士