用R语言做非参数和半参数回归笔记复习课程

用R语言做非参数和半参数回归笔记

由詹鹏整理，仅供交流和学习

根据南京财经大学统计系孙瑞博副教授的课件修改，在此感谢孙老师的辛勤付出！

教材为：Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008.

-------------------------------------------------------------------------

第一章 introduction: Global versus Local Statistic

一、主要参考书目及说明

1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书

2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰

3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍，偏难

4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典

5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错

6、高铁梅（2009）. 计量经济分析方法与建模：EVIEWS应用及实例（第二版）. 清华大学出版社. （P127/143）

7、李雪松（2008）. 高级计量经济学. 中国社会科学出版社. （P45 ch3）

8、陈强（2010）. 高级计量经济学及Stata应用. 高教出版社. （ch23/24）

【其他参看原ppt第一章】

二、内容简介

方法：

——移动平均（moving average）

——核光滑（Kernel smoothing）

——K近邻光滑（K-NN）

——局部多项式回归（Local Polynormal）

——Loesss and Lowess

——样条光滑（Smoothing Spline）

——B-spline

——Friedman Supersmoother

模型：

——非参数密度估计

——非参数回归模型

——时间序列的半参数模型

——Panel data 的半参数模型

——Quantile Regression

三、不同的模型形式

1、线性模型linear models

2、Nonlinear in variables

3、Nonlinear in parameters

四、数据转换 Power transformation（对参数方法）

In the GLM framework, models are equally prone(倾向于) to some misspecification （不规范） from an incorrect functional form.

It would be prudent（谨慎的） to test that the effect of any independent variable of a model does not have a nonlinear effect. If it does have a nonlinear effect, analysts in the social science usually rely on Power Transformations to address nonlinearity. [ADD: 检验方法见Sanford Weisberg. Applied Linear Regression (Third Edition). A John Wiley & Sons, Inc., Publication.（本科的应用回归分析课教材）]

----------------------------------------------------------------------------

第二章 Nonparametric Density Estimation

非参数密度估计

一、三种方法

1、直方图 Hiatogram

2、Kernel density estimate

3、K nearest-neighbors estimate

二、Histogram 对直方图的一个数值解释

Suppose x1,…xN – f(x), the density function f(x) is unknown.

One can use the following function to estimate f(x)

【与x的距离小于h的所有点的个数】

三、Kernel density estimate

Bandwidth: h; Window width: 2h.

1、Kernel function的条件

The kernel function K(.) is a continuous function, symmetric(对称的) around zero, that integrates(积分) to unity and satisfies additional bounded conditions:

(1) K() is symmetric around 0 and is continuous;

(2) ,,;

(3) Either

(a) K(z)=0 if |z|>=z0 for z0

(b) |z|K(z) à0 as ;

(4) , where is a constant.

2、主要函数形式

3、置信区间

其中，

4、窗宽的选择

实际应用中，。其中，s是样本标准差，iqr 是样本分位数级差（interquartile range）

四、K nearest-neighbors estimate

五、R语言部分

----------------------------------------------------------------------------

第三章 smoothing and local regression

一、简单光滑估计法 Simple Smoothing

1、Local Averaging 局部均值

按照x排序，将样本分成若干部分（intervals or “bins”）；将每部分x对应的y 值的均值作为f(x)的估计。

三种不同方法：

（1）相同的宽度（equal width bins）：uniformly distributed.

（2）相同的观察值个数（equal no. of observations bins）：k-nearest neighbor.

（3）移动平均（moving average）

K-NN：

等窗宽：

2、kernel smoothing 核光滑

其中，

二、局部多项式估计Local Polynomial Regression

1、主要结构

局部多项式估计是核光滑的扩展，也是基于局部加权均值构造。

——local constant regression

——local linear regression

——lowess (Cleveland, 1979)

——loess (Cleveland, 1988)

【本部分可参考：

Takezana(2006). Introduction to Nonparametric Regression.(P185 3.7 and P195 3.9)

Chambers and Hastie(1993). Statistical models in S. (P312 ch8)】

2、方法思路

（1）对于每个xi，以该点为中心，按照预定宽度构造一个区间；

（2）在每个结点区域内，采用加权最小二乘法（WLS）估计其参数，并用得到的模型估计该结点对应的x值对应y值，作为y|xi的估计值（只要这一个点的估计值）；

（3）估计下一个点xj；

（4）将每个y|xi的估计值连接起来。

【R操作

library(KernSmooth) #函数locpoly()

library(locpol) #locpol(); locCteSmootherC()

library(locfit) #locfit()

#weight funciton: kernel=”tcub”. And “rect”, “trwt”, “tria”, “epan”, “bisq”, “gauss”

】

3、每个方法对应的估计形式

（1）变量个数p=0, local constant regression (kernel smoothing)

min

（2）变量个数p=1, local linear regression

min

（3）Lowess (Local Weighted scatterplot smoothing)

p=1:

min

【还有个加权修正的过程，这里略，详见原书或者PPT】

（4）Loess (Local regression)

p=1,2:

min

【还有个加权修正的过程，这里略，详见原书或者PPT】

（5）Friedman supersmoother

symmetric k-NN, using local linear fit,

varying span, which is determined by local CV,

not robust to outliers, fast to compute

supsmu( ) in R

三、模型选择

需要选择的内容：（1）窗宽the span；（2）多项式的度the degree of polynomial for the local regression models；（3）权重函数the weight functions。

【其他略】

四、R语言部分

---------------------------------------------------------------------------- 第四章样条估计spline

一、基本思想

按照x将样本分成多个区间，对每个区间分别进行估计。不同于核估计，这里不用移动计算，从而减小了计算量。

二、最简单的形式

Linear Spline with k knots:

其中，，

三、其他样条模型

1、p次样条估计

——二次样条Quadratic Spline (basis functions with k knots)

——三次样条Cubic Spline (with k knots, use quadratic basis functions)

——p-order spline (with k knots)

2、B-splines (with k knots cubic B-spline basis)

其中，

3、Natural Splines

以上估计方法对结点（knots）之间的估计比较准确，但对边界的拟合效果较差。自然样条的思想是，在自变量最小值和最大值处各增加一个结点，用线性模型拟合边界位置的样本点。

4、k的选择和模型比较

采用AIC准则

四、光滑样条smoothing spline

基于如果目标得到参数估计值

min

五、模型比较的F检验

六、R语言部分

----------------------------------------------------------------------------

第五章 Automated Smoothing Techniques自动光滑技术

一、Span by Cross-Validation

其中s指窗宽span。

【CV和GCV在LPR中表现不佳】

二、自动光滑技术

两种方法：1、采用MLE（极大似然估计）；2、采用CV选择。

1、MLE方法

得到。其中，是随机效应（the random effect）的方差估计，是随机误差项（the error term）的方差估计

2、最小化CV或GCV

三、R语言部分

---------------------------------------------------------------------------- 第六章 Additive and Semiparametric Regression Models

可加回归模型和半参数回归模型

R语言部分

---------------------------------------------------------------------------- 第七章 Generalized Additive Models

广义可加模型

一、广义线性模型GLM

用R语言做非参数和半参数回归笔记学习资料

用R语言做非参数和半参数回归笔记

由詹鹏整理，仅供交流和学习根据南京财经大学统计系孙瑞博副教授的课件修改，在此感谢孙老师的辛勤付出！教材为：Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍，偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅（2009）. 计量经济分析方法与建模：EVIEWS应用及实例（第二版）. 清华大学出版社. （P127/143） 7、李雪松（2008）. 高级计量经济学. 中国社会科学出版社. （P45 ch3） 8、陈强（2010）. 高级计量经济学及Stata应用. 高教出版社. （ch23/24）【其他参看原ppt第一章】二、内容简介方法： ——移动平均（moving average） ——核光滑（Kernel smoothing） ——K近邻光滑（K-NN） ——局部多项式回归（Local Polynormal） ——Loesss and Lowess ——样条光滑（Smoothing Spline） ——B-spline ——Friedman Supersmoother 模型： ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

非参数回归模型与半参数回归模型

第七章非参数回归模型与半参数回归模型第一节非参数回归与权函数法一、非参数回归概念前面介绍的回归模型，无论是线性回归还是非线性回归，其回归函数形式都是已知的，只是其中参数待定，所以可称为参数回归。参数回归的最大优点是回归结果可以外延，但其缺点也不可忽视，就是回归形式一旦固定，就比较呆板，往往拟合效果较差。另一类回归，非参数回归，则与参数回归正好相反。它的回归函数形式是不确定的，其结果外延困难，但拟合效果却比较好。设Y 是一维观测随机向量，X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数，即称 g (X ) = E (Y |X ) （7.1.1）为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小，即 22)]([min )]|([X L Y E X Y E Y E L -=- （7.1.2）这里L 是关于X 的一切函数类。当然，如果限定L 是线性函数类，那么g (X )就是线性回归函数了。细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制，那么可以使误差平方和等于0。实际上，你只要作一条折线(曲面)通过所有观测点(Y i ，X i )就可以了是的，对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样，我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法，不管是核函数法，最近邻法，样条法，小波法，实际都有参数选择问题(比如窗宽选择，平滑参数选择)。所以我们知道，参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ，X i )，属于参数回归；用多个低次多项式去分段拟合(Y i ，X i )，叫样条回归，属于非参数回归。二、权函数方法非参数回归的基本方法有核函数法，最近邻函数法，样条函数法，小波函数法。这些方法尽管起源不一样，数学形式相距甚远，但都可以视为关于Y i 的线性组合的某种权函数。也就是说，回归函数g (X )的估计g n (X )总可以表为下述形式： ∑==n i i i n Y X W X g 1 )()( （7.1.3）

用R语言做非参数和半参数回归笔记

由詹鹏整理，仅供交流和学习根据南京财经大学统计系孙瑞博副教授的课件修改，在此感谢孙老师的辛勤付出！教材为：Luke Keele:Semiparametric Regression for the Social Sciences.John Wiley &Sons,Ltd.2008. ------------------------------------------------------------------------- 第一章introduction:Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994).Applied Nonparametic Regresstion.较早的经典书 2、Hardle etc(2004).Nonparametric and semiparametric models:an introduction. Springer.结构清晰 3、Li and Racine(2007).Nonparametric econometrics:Theory and Practice.Princeton.较全面和深入的介绍，偏难 4、Pagan and Ullah(1999).Nonparametric Econometrics.经典 5、Yatchew(2003).Semiparametric Regression for the Applied Econometrician.例子不错 6、高铁梅（2009）.计量经济分析方法与建模：EVIEWS应用及实例（第二版）.清华大学出版社.（P127/143） 7、李雪松（2008）.高级计量经济学.中国社会科学出版社.（P45ch3） 8、陈强（2010）.高级计量经济学及Stata应用.高教出版社.（ch23/24）【其他参看原ppt第一章】二、内容简介方法： ——移动平均（moving average） ——核光滑（Kernel smoothing） ——K近邻光滑（K-NN） ——局部多项式回归（Local Polynormal） ——Loesss and Lowess ——样条光滑（Smoothing Spline） ——B-spline ——Friedman Supersmoother 模型： ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

非参数回归模型与半参数回归模型

用R语言做非参数和半参数回归笔记.docx

由詹鹏整理 ,仅供交流和学习根据南京财经大学统计系孙瑞博副教授的课件修改 ,在此感谢孙老师的辛勤付出！教材为：Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍 ,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅（2009）. 计量经济分析方法与建模：EVIEWS应用及实例（第二版）. 清华大学出版社. （P127/143） 7、李雪松（2008）. 高级计量经济学. 中国社会科学出版社. （P45 ch3） 8、陈强（2010）. 高级计量经济学及Stata应用. 高教出版社. （ch23/24）【其他参看原ppt第一章】二、内容简介方法： ——移动平均（moving average） ——核光滑（Kernel smoothing） ——K近邻光滑（K-NN） ——局部多项式回归（Local Polynormal） ——Loesss and Lowess ——样条光滑（Smoothing Spline） ——B-spline ——Friedman Supersmoother 模型： ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

第11章非参数回归(非参数统计,西南财大)范文

第十二章非参数回归及其相关问题第一节参数回归问题的回顾在线性回归模型中，我们总是假定总体回归函数是线性的，即多元线性回归模型一般形式为： i Ki K i i i X X X Y μββββ+++++= 33221 总体回归函数（PRF ） Ki K i i ki i i i X X X X X X Y E X m ββββ++++== 3322132),,,()( 但是，经验和理论都证明，当)(X m 不是线性函数时，基于最小二乘的回归效果不好，非参数回归就是在对)(X m 的形式不作任何假定的前提下研究估计)(X μ。例设二维随机变量，其密度函数为 ?? ?≤≤≤≤+=其它 10,10),(y x y x y x f ，求)/(x X Y E =. 解：1 02 1),()(1 ≤≤+ == ? x x dy y x f x f x ?==1 ) () ,()/(dy x f y x f y x X Y E x ?++=1 021dy x y x y ?++=1 )(2 11 dy y x y x )()321(122x m x x =++= 从例可知，)/(x X Y E =仅与x 有关，条件期望)/()(x X Y E x m y ===表明Y 与X 在条件期望的意义下相关。由样本均值估计总体均值的思想出发，假设样本),(11Y X ，),(22Y X ，…，),(n n Y X 中有相当i X 恰好等于x ，()(/)m x E Y x =，不妨记为1i X ，2i X ，…，k i X ，自然可取相应的Y 的样本1i Y ，2i Y ，…，k i Y ，用他们的平均数∑=k j i j Y k 1 1去估计)/()(X Y E X m =。可是

非参数统计学讲义相关与回归

非参数统计学讲义主讲：统计系袁靖第五章相关和回归 §1 引言所谓相关，是指两组或两组以上观察结果之间的连带性或联系。换句话说，也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系，受教育程度与性别有关系，出生率X 和文盲率Y 之间的关系等等。在实际问题的研究中，人们常常想知道两组或两组以上的观察结果是否有联系，同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上，确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度，是回归分析的基础。在数理统计学中，我们使用相关系数定义变量X 和变量Y 之间的相关性。 ) var()var(),cov(),(Y X Y X Y X corr = =ρ1 (0.1>对于样本),(11Y X ，),(22Y X ，……，),(n n Y X 来说，Pearson 相关系数为 ∑∑∑∑∑∑----= ----= 2 2 2 2 11) ()())(() ()() )((Y Y X X Y Y X X Y Y X X Y Y X X r i i i i i i n i i n (0.2>如果在这个样本中的n 个观察值独立，则r 是ρ的渐近无偏估计；如果它又是二元正态分布，则r 是 ρ的ML 估计。为了检验0:0=ρH ，0:1≠ρH ，可以选取统计量)2(~122 ---=n t r n r t 结论：Pearson 相关系数度量的是一种线性关系，而我们所要介绍的非参数的Spearman 秩相关系数s r 和Kendall τ相关系数实际上度量的是一种形式的相依联系，或是更广义的单调关系。因此相关的概念被推广，不仅指线性相关，而泛指相依或联系。§2 两个样本的相关分析一、等级相关等级相关(Rank Correlation>也称作级序相关，用于两个至少是定序尺度测量的样本问相关程度的测定研究背景 1 ρ度量了总体样本点在标准差线周围的聚集程度，详见笔记P38。

用R语言做非参数

用R语言做非参数&半参数回归笔记由詹鹏整理，仅供交流和学习根据南京财经大学统计系孙瑞博副教授的课件修改，在此感谢孙老师的辛勤付出！教材为：Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍，偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅（2009）. 计量经济分析方法与建模：EVIEWS应用及实例（第二版）. 清华大学出版社. （P127/143） 7、李雪松（2008）. 高级计量经济学. 中国社会科学出版社. （P45 ch3） 8、陈强（2010）. 高级计量经济学及Stata应用. 高教出版社. （ch23/24）【其他参看原ppt第一章】二、内容简介方法： ——移动平均（moving average） ——核光滑（Kernel smoothing） ——K近邻光滑（K-NN） ——局部多项式回归（Local Polynormal） ——Loesss and Lowess ——样条光滑（Smoothing Spline） ——B-spline ——Friedman Supersmoother 模型： ——非参数密度估计 ——非参数回归模型

用R语言做非参数

用R语言做非参数&半参数回归笔记由詹鹏整理，仅供交流和学习根据南京财经大学统计系孙瑞博副教授的课件修改，在此感谢孙老师的辛勤付出！教材为：Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. --------------------------------------------------------- ---------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍，偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅（2009）. 计量经济分析方法与建模：EVIEWS应用及实例（第二版）. 清华大学出版社. （P127/143） 7、李雪松（2008）. 高级计量经济学. 中国社会科学出版社. （P45 ch3） 8、陈强（2010）. 高级计量经济学及Stata应用. 高教出版社. （ch23/24）【其他参看原ppt第一章】二、内容简介方法： ——移动平均（moving average） ——核光滑（Kernel smoothing） ——K近邻光滑（K-NN） ——局部多项式回归（Local Polynormal） ——Loesss and Lowess ——样条光滑（Smoothing Spline） ——B-spline ——Friedman Supersmoother 模型： ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型

用R语言做非参数和半参数回归笔记复习课程

用R语言做非参数和半参数回归笔记学习资料

非参数回归模型与半参数回归模型

用R语言做非参数和半参数回归笔记

非参数回归模型与半参数回归模型

用R语言做非参数和半参数回归笔记.docx

第11章 非参数回归(非参数统计,西南财大)范文

非参数统计学讲义相关与回归

用R语言做非参数

用R语言做非参数

第11章非参数回归(非参数统计,西南财大)范文