波士顿修正房价数据集(boston_corrected dataset)_

合集下载

深度学习3:波士顿房价预测(1)

深度学习3:波士顿房价预测(1)

深度学习3:波⼠顿房价预测(1)转载:波⼠顿房价问题房价的预测和前两期的问题是不同的,最⼤的区别就是这个问题不是离散的分类,他是⼀个连续值,那么在搭建⽹络时候的技巧就有所区别。

代码实例分析from keras.datasets import boston_housing(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()12导⼊数据train_data.shapetest_data.shape看⼀下数据的尺⼨,发现训练集的尺⼨是404,13;测试集的尺⼨是102,13;说明这些数据不多,这⼗三个数据特征是各种数值,包括犯罪率,住宅平均房间数,道路的通畅程度等。

很明显,这些数据都看起来没什么关系,相互之间⽆法联系,还有⼀个最要命的就是我们⽆法确定那个数据更加的重要。

另外,这些数据的范围也不同,想要使⽤,必须要做⼀些处理。

train_targets看⼀下targets,就可以看到当时房⼦的房价了,这就是训练集中对应的结果集,类似于上两个例⼦中的标签集。

mean = train_data.mean(axis=0)train_data -= meanstd = train_data.std(axis=0)train_data /= stdtest_data -= meantest_data /= std这⾥就是应对数据范围不同的办法,⽅法叫标准化,含义就是加⼯每个特征,使他们的数据满⾜平均值为0,标准差为1.具体的⽅法就是每列取平均值,减去平均值,再除以减掉之后的标准差。

这⾥要注意标准化所⽤的数据必须是在训练集上得到,实际操作中不能让任何数据从验证集上得到,不然会导致模型过拟合的问题。

from keras import modelsfrom keras import layersdef build_model():model = models.Sequential()model.add(layers.Dense(64, activation='relu',input_shape=(train_data.shape[1],)))model.add(layers.Dense(64, activation='relu'))model.add(layers.Dense(1))pile(optimizer='rmsprop', loss='mse', metrics=['mae'])return model这⾥就是搭建学习模型的步骤,因为这个模型要重复使⽤,所以我们把它写成函数的形式。

数据挖掘_Boston house-price data(波士顿房价数据)

数据挖掘_Boston house-price data(波士顿房价数据)

Boston house-price data(波士顿房价数据)数据摘要:This data set contains the Boston house-price data of Harrison, D. and Rubinfeld, D.L.中文关键词:数据挖掘,经济,管理,房价,波士顿,英文关键词:Data mining,Economics,Management,House-price,Boston,数据格式:TEXT数据用途:The data can be used for regression and analysis.数据详细介绍:Boston house-price data AbstractThe Boston house-price data of Harrison, D. and Rubinfeld, D.L.'Hedonic prices and the demand for clean air', J. Environ. Economics & Management, vol.5, 81-102, 1978.Data DescriptionVariables in order:CRIM per capita crime rate by townZN proportion of residential land zoned for lots over 25,000 sq.ft.INDUS proportion of non-retail business acres per townCHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)NOX nitric oxides concentration (parts per 10 million)RM average number of rooms per dwellingAGE proportion of owner-occupied units built prior to 1940DIS weighted distances to five Boston employment centresRAD index of accessibility to radial highwaysTAX full-value property-tax rate per $10,000PTRATIO pupil-teacher ratio by townB 1000(Bk - 0.63)^2 where Bk is the proportion of blacks bytownLSTAT % lower status of the populationMEDV Median value of owner-occupied homes in $1000'sReferenceUsed in Belsley, Kuh & Welsch, 'Regression diagnostics ...', Wiley, 1980.N.B. Various transformations are used in the table on pages 244-261 of the latter.数据预览:点此下载完整数据集。

回归算法波士顿房价预测PPT课件

回归算法波士顿房价预测PPT课件
合效果不错。
1
任务实施
我们采用了几种不同的回归算法对波士顿房价问题进行拟合:
• 首先,使用sklearn.model_selection模块的train_test_split()方法来划分测试集和训练集。
• 接着,我们需要定义R2函数,用于衡量回归模型对观测值的拟合程度。它的定义是R2 = 1“回归平方和在总平方和中所占的比率”,可见回归平方和(即预测值与实际值的误差平
1
一、单变量线性回归
1.模型定义
一般用来表示参数集合,即通用公式为:
其中的x是数据的特征属性值,例如上面例子中房子的面积;y是目标值,即房子的价格。
这就是我们常说的线性回归方程。和是模型的参数,参数的学习过程就是根据训练集来确
定,学习任务就是用一条直线来拟合训练数据,也就是通过学习找到合适的参数值。
方和)越小,则R2越接近于1,预测越准确,模型的拟合效果越好。
1.多项式回归
如果训练集的散点图没有呈现出明显的线性关系,而是类
似于一条曲线的样子,就像图中这样。我们尝试用多项式
回归对它进行拟合。
我们先看一下二次曲线的方程y=ax^2+bx+c,如果将
x^2理解为一个特征,将x理解为另外一个特征,那么就
可以看成有两个特征的一个数据集,这个式子依旧是一个
线性回归的式子。这样就将多项式回归问题,转化为多变
对应的真实结果y(即真实房价),那么可以将模型用矩阵形式表达为:
1
二、多变量线性回归
2.损失函数
3.最小二乘法求解
对损失函数求偏导并令其等于0,得到的θ就是模型参数的值。
1
二、多变量线性回归
4.梯度下降法求解
梯度下降法的基本思想可以类比为一个下山的过程。一个

波士顿房价数据统计分析报告

波士顿房价数据统计分析报告

波士顿房价数据统计分析报告作者:米纯来源:《经营管理者·中旬刊》2016年第07期摘要:该报告以波士顿房价数据样本为研究对象,目的是通过统计学方法分析各变量与波士顿郊区房价之间的关系,选出对房价影响较大的几个变量,并确定各变量之间的数学关系。

分析采用的软件是SPSS,分析方法为因子分析、相关分析、回归分析方法。

首先,鉴于样本变量较多,因此通过因子分析检验是否可以对变量进行降维处理。

然后,对数据进行相关性分析,先找出5个与房价相关性较强的变量,并针对变量建立多元回归模型,在对该模型评价之后,确认了其中三个变量的强相关关系;在剔除相关性较弱的两个变量之后,又建立了新的回归模型,经评价,该模型对变量的解释较贴切,检验效果显著。

通过以上分析,得出影响房价的主要因素为:房间数量、居民社会地位、教育程度,并构建了多元线性方程。

关键词:因子分析相关多元回归一、统计前估计及变量的选择处理1.预先估计。

初步判断14个变量,根据个人先验知识做出房价影响因素的估计:预计空气质量和距离就业中心的距离将在很大程度上影响房价,即,NOX和DIS两个变量将显示出与价变量MEDV之间的强相关关系。

2.变量选择。

波士顿房价数据样本共14个变量,包括13个定量变量和1个定性变量,共计506个数据。

定性变量为,是否临近河边——CHAS。

除此之外其余都为定量变量。

鉴于数据量较大,且为了统计方便,在接下来的分析中,将剔除该定性变量。

对剩下的13个变量进行统计分析。

二、因子分析该样本数据14个属性,共计506个数据。

数据样本较大,维数较高。

考虑到更加便捷地提高分析效率,要分析各因素对波士顿房价的影响,首先对变量进行降维处理,考虑14个变量中是否可由一两个综合变量来进行概括。

因此,首先对样本数据进行主成分和因子分析。

设置因子数量为3.1.主成分选取。

数据结果显示,前三个成分特征值累计占了总方差的72.341%,后面的特征值贡献低于10%,且越来越小。

《用Python玩转数据》项目—线性回归分析入门之波士顿房价预测(一)

《用Python玩转数据》项目—线性回归分析入门之波士顿房价预测(一)

《⽤Python玩转数据》项⽬—线性回归分析⼊门之波⼠顿房价预测(⼀)sklearn的波⼠顿房价数据是经典的回归数据集。

在MOOC的课程《⽤Python玩转数据》最终的实践课程中就⽤它来进⾏简单的数据分析,以及模型拟合。

⽂章将主要分为2部分:1、使⽤sklearn的linear_model进⾏多元线性回归拟合;同时使⽤⾮线性回归模型来拟合(暂时还没想好⽤哪个?xgboost,还是SVM?)。

2、使⽤tensorflow建⽴回归模型拟合。

⼀、使⽤sklearn linear_regression 模型拟合boston房价datasetsfrom sklearn import datasetsfrom sklearn import linear_modelfrom sklearn.cross_validation import train_test_splitfrom sklearn import metricsimport osimport matplotlib.pyplot as pltimport pandas as pdimport numpy as np'''----------load 数据集-----------'''dataset = datasets.load_boston()# x 训练特征:['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS','RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']x = dataset.datatarget = dataset.target#把label变为(?, 1)维度,为了使⽤下⾯的数据集合分割y = np.reshape(target,(len(target), 1))#讲数据集1:3⽐例分割为测试集:训练集x_train, x_verify, y_train, y_verify = train_test_split(x, y, random_state=1)'''x_train的shape:(379, 13)y_train的shape:(379, 1)x_verify的shape:(127, 13)y_verify 的shape:(127, 1)''''''----------定义线性回归模型,进⾏训练、预测-----------'''lr = linear_model.LinearRegression()lr.fit(x_train,y_train)y_pred = lr.predict(x_verify)'''----------图形化预测结果-----------'''#只显⽰前50个预测结果,太多的话看起来不直观plt.xlim([0,50])plt.plot( range(len(y_verify)), y_verify, 'r', label='y_verify')plt.plot( range(len(y_pred)), y_pred, 'g--', label='y_predict' )plt.title('sklearn: Linear Regression')plt.legend()plt.savefig('lr/lr-13.png')plt.show()'''----------输出模型参数、评价模型-----------'''print(lr.coef_)print(lr.intercept_)print("MSE:",metrics.mean_squared_error(y_verify,y_pred))print("RMSE:",np.sqrt(metrics.mean_squared_error(y_verify,y_pred)))#输出模型对应R-Squareprint(lr.score(x_train,y_train))print(lr.score(x_verify,y_verify)) 结果如下:[[-1.13256952e-01 5.70869807e-02 3.87621062e-02 2.43279795e+00-2.12706290e+01 2.86930027e+00 7.02105327e-03 -1.47118312e+003.05187368e-01 -1.06649888e-02 -9.97404179e-01 6.39833822e-03-5.58425480e-01]]-----------权重参数W[45.23641585]----------偏置biasMSE: 21.88936943247483RMSE: 4.678607638226872----------MSE和RMSE都是表⽰衡量同之间的偏差0.7167286808673383----------训练集的R-Square0.7790257749137334-----------测试集的R-Square从图看,部分数据结果偏差不⼤,部分预测结果还有⼀定差距,从r-square来看拟合效果凑合。

机器学习》20-实验三 波士顿房价预测参考代码[3页]

机器学习》20-实验三 波士顿房价预测参考代码[3页]

# 从sklearn.datasets导入波士顿房价数据from sklearn.datasets import load_boston# 读取房价数据存储在变量X,y中X,y = load_boston(return_X_y=True)print(X.shape)print(y.shape)# 数据分割from sklearn.model_selection import train_test_split# 70%作为训练样本,30%数据作为测试样本X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)print(X_train.shape)print(X_test.shape)print(y_train.shape)print(y_test.shape)# 数据标准化from sklearn.preprocessing import StandardScalerscaler_X = StandardScaler()scaler_y = StandardScaler()# 分别对训练和测试数据的特征以及目标值进行标准化处理X_train = scaler_X.fit_transform(X_train)y_train = scaler_y.fit_transform(y_train.reshape(-1, 1))X_test = scaler_X.transform(X_test)y_test = scaler_y.transform(y_test.reshape(-1, 1))# 从sklearn.linear_model导入LinearRegressionfrom sklearn.linear_model import LinearRegression# 使用默认参数值实例化线性回归器LinearRegressionlr = LinearRegression()# 使用训练数据进行训练lr.fit(X_train, y_train)# 对测试数据进行回归预测lr_y = lr.predict(X_test)# 导入r2_score、mean_squared_error以及mean_absolute_error from sklearn.metrics import r2_scoreprint("LinearRegression的R_squared:",r2_score(y_test, lr_y))from sklearn.metrics import mean_squared_errorprint("LinearRegression均方误差:",mean_squared_error(scaler_y.inverse_transform(y_test), scaler_y.inverse_transform(lr_y))) from sklearn.metrics import mean_absolute_errorprint("LinearRegression绝对值误差:",mean_absolute_error(scaler_y.inverse_transform(y_test),scaler_y.inverse_transform(lr_y)))# 使用LinearRegression 自带的评估函数print("LinearRegression自带的评估函数",lr.score(X_test, y_test))print("---" * 20)# 从sklearn.linear_model导入SGDRegressorfrom sklearn.linear_model import SGDRegressorsgdr = SGDRegressor(max_iter=5, tol=None)# 使用训练数据进行训练sgdr.fit(X_train, y_train.ravel())# 使用SGDRegressor模型自带的评估函数print("SGDRegressor自带的评估函数:",sgdr.score(X_test, y_test))# 从sklearn.neighbors导入KNeighborsRegressorfrom sklearn.neighbors import KNeighborsRegressor# 初始化K近邻回归knr_uni = KNeighborsRegressor(weights="uniform")knr_uni.fit(X_train, y_train.ravel())print('KNeighorRegression(weights="uniform")自带的评估函数:', knr_uni.score(X_test, y_test))knr_dis = KNeighborsRegressor(weights='distance')# 使用训练数据进行训练knr_dis.fit(X_train, y_train.ravel())print('KNeighorRegression(weights="distance")自带的评估函数:', knr_dis.score(X_test, y_test))# 房价预测—支持向量回归from sklearn.svm import SVR# 使用SVR训练模型,并对测试数据做出预测svr_linear = SVR(kernel='linear')svr_linear.fit(X_train, y_train.ravel())print('SVR(kernel="linear")自带的评估函数:',svr_linear.score(X_test, y_test))svr_poly = SVR(kernel='poly')svr_poly.fit(X_train, y_train.ravel())print('SVR(kernel="poly")自带的评估函数:',svr_poly.score(X_test, y_test))svr_rbf = SVR(kernel='rbf')svr_rbf.fit(X_train, y_train.ravel())print('SVR(kernel="rbf")自带的评估函数:',svr_rbf.score(X_test, y_test))# 从sklearn.tree中导入DecisionTreeRegressor。

基于回归方法分析波士顿房价数据间的相关关系

基于回归方法分析波士顿房价数据间的相关关系

DOI: 10.12677/sa.2020.93036
336
统计学与应用
赵冉
本例是属于回归模型的案例,在数据集中包含 506 组数据。通过对波士顿房地产数据进行初步的观 察并分析找出影响房价中位数的因素,希望建立一个能够预测房屋价值的多元线性回归模型。
2.1.2. 多元线性回归模型的一般形式 设随机变量 y 与一般变量 x1, x2 ,, xp 的线性回归模型为 y = β0 + β1x1 + β2 x2 + + β p xp + ε
yˆ *=
βˆ1* x1*
+
βˆ2* x2*
+ +
βˆ
* p
x*p
式中,
βˆ1*
,
βˆ2*
,,
βˆ
* p

y
对自变量
x1 ,
x2
,,
xp
的标准化回归系数。
2.2.2. 回归参数的普通最小二乘估计
( ) ( ) ∑ Q
即寻找参数 β0 , β1,, β p=
β0
,nβ1
,, yi −
βp β0
的估计值 βˆ1 − β1xi1 − −
, βˆ2 ,, β p xip 2
βˆp ,使离差平方和 达到极小。
当 ( X ′X )−1 存在i=时1 ,即得回归参数的最小二乘估计为:
βˆ = ( X ′X )−1 X ′y
2.2.3. 回归方程、回归系数的检验 1) F 检验 对多元线性回归方程的显著性检验就是要看自变量 x1, x2 ,, xp 从整体上对随机变量 y 是否有明显的影响。 原假设 H0 : β=1 β=2 = β=p 0

sklearn提供的自带的数据集

sklearn提供的自带的数据集

sklearn提供的⾃带的数据集sklearn 的数据集有好多个种⾃带的⼩数据集(packaged dataset):sklearn.datasets.load_<name>可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name>计算机⽣成的数据集(Generated Dataset):sklearn.datasets.make_<name>svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)从买了在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)①⾃带的数据集其中的⾃带的⼩的数据集为:sklearn.datasets.load_<name>这些数据集都可以在官⽹上查到,以鸢尾花为例,可以在官⽹上找到demo,from sklearn.datasets import load_iris#加载数据集iris=load_iris()iris.keys() #dict_keys(['target', 'DESCR', 'data', 'target_names', 'feature_names'])#数据的条数和维数n_samples,n_features=iris.data.shapeprint("Number of sample:",n_samples) #Number of sample: 150print("Number of feature",n_features) #Number of feature 4#第⼀个样例print(iris.data[0]) #[ 5.1 3.5 1.4 0.2]print(iris.data.shape) #(150, 4)print(iris.target.shape) #(150,)print(iris.target)""" [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 12 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]"""import numpy as npprint(iris.target_names) #['setosa' 'versicolor' 'virginica']np.bincount(iris.target) #[50 50 50]import matplotlib.pyplot as plt#以第3个索引为划分依据,x_index的值可以为0,1,2,3x_index=3color=['blue','red','green']for label,color in zip(range(len(iris.target_names)),color):plt.hist(iris.data[iris.target==label,x_index],label=iris.target_names[label],color=color)plt.xlabel(iris.feature_names[x_index])plt.legend(loc="Upper right")plt.show()#画散点图,第⼀维的数据作为x轴和第⼆维的数据作为y轴x_index=0y_index=1colors=['blue','red','green']for label,color in zip(range(len(iris.target_names)),colors):plt.scatter(iris.data[iris.target==label,x_index],iris.data[iris.target==label,y_index],label=iris.target_names[label],c=color)plt.xlabel(iris.feature_names[x_index])plt.ylabel(iris.feature_names[y_index])plt.legend(loc='upper left')plt.show()⼿写数字数据集load_digits():⽤于多分类任务的数据集from sklearn.datasets import load_digitsdigits=load_digits()print(digits.data.shape)import matplotlib.pyplot as pltplt.gray()plt.matshow(digits.images[0])plt.show()from sklearn.datasets import load_digitsdigits=load_digits()digits.keys()n_samples,n_features=digits.data.shapeprint((n_samples,n_features))print(digits.data.shape)print(digits.images.shape)import numpy as npprint(np.all(digits.images.reshape((1797,64))==digits.data))fig=plt.figure(figsize=(6,6))fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05) #绘制数字:每张图像8*8像素点for i in range(64):ax=fig.add_subplot(8,8,i+1,xticks=[],yticks=[])ax.imshow(digits.images[i],cmap=plt.cm.binary,interpolation='nearest')#⽤⽬标值标记图像ax.text(0,7,str(digits.target[i]))plt.show()乳腺癌数据集load-barest-cancer():简单经典的⽤于⼆分类任务的数据集糖尿病数据集:load-diabetes():经典的⽤于回归认为的数据集,值得注意的是,这10个特征中的每个特征都已经被处理成0均值,⽅差归⼀化的特征值,波⼠顿房价数据集:load-boston():经典的⽤于回归任务的数据集体能训练数据集:load-linnerud():经典的⽤于多变量回归任务的数据集,其内部包含两个⼩数据集:Excise是对3个训练变量的20次观测(体重,腰围,脉搏),physiological是对3个⽣理学变量的20次观测(引体向上,仰卧起坐,⽴定跳远)svmlight/libsvm的每⼀⾏样本的存放格式:<label><feature-id>:<feature-value> <feature-id>:<feature-value> ....这种格式⽐较适合⽤来存放稀疏数据,在sklearn中,⽤scipy sparse CSR矩阵来存放X,⽤numpy数组来存放Yfrom sklearn.datasets import load_svmlight_filex_train,y_train=load_svmlight_file("/path/to/train_dataset.txt","")#如果要加在多个数据的时候,可以⽤逗号隔开②⽣成数据集⽣成数据集:可以⽤来分类任务,可以⽤来回归任务,可以⽤来聚类任务,⽤于流形学习的,⽤于因⼦分解任务的⽤于分类任务和聚类任务的:这些函数产⽣样本特征向量矩阵以及对应的类别标签集合make_blobs:多类单标签数据集,为每个类分配⼀个或多个正太分布的点集make_classification:多类单标签数据集,为每个类分配⼀个或多个正太分布的点集,提供了为数据添加噪声的⽅式,包括维度相关性,⽆效特征以及冗余特征等make_gaussian-quantiles:将⼀个单⾼斯分布的点集划分为两个数量均等的点集,作为两类make_hastie-10-2:产⽣⼀个相似的⼆元分类数据集,有10个维度make_circle和make_moom产⽣⼆维⼆元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为⼆元分类器产⽣⼀些球形判决界⾯的数据#⽣成多类单标签数据集import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets.samples_generator import make_blobscenter=[[1,1],[-1,-1],[1,-1]]cluster_std=0.3X,labels=make_blobs(n_samples=200,centers=center,n_features=2,cluster_std=cluster_std,random_state=0)print('X.shape',X.shape)print("labels",set(labels))unique_lables=set(labels)colors=plt.cm.Spectral(np.linspace(0,1,len(unique_lables)))for k,col in zip(unique_lables,colors):x_k=X[labels==k]plt.plot(x_k[:,0],x_k[:,1],'o',markerfacecolor=col,markeredgecolor="k",markersize=14)plt.title('data by make_blob()')plt.show()#⽣成⽤于分类的数据集from sklearn.datasets.samples_generator import make_classificationX,labels=make_classification(n_samples=200,n_features=2,n_redundant=0,n_informative=2,random_state=1,n_clusters_per_class=2)rng=np.random.RandomState(2)X+=2*rng.uniform(size=X.shape)unique_lables=set(labels)colors=plt.cm.Spectral(np.linspace(0,1,len(unique_lables)))for k,col in zip(unique_lables,colors):x_k=X[labels==k]plt.plot(x_k[:,0],x_k[:,1],'o',markerfacecolor=col,markeredgecolor="k",markersize=14)plt.title('data by make_classification()')plt.show()#⽣成球形判决界⾯的数据from sklearn.datasets.samples_generator import make_circlesX,labels=make_circles(n_samples=200,noise=0.2,factor=0.2,random_state=1) print("X.shape:",X.shape)print("labels:",set(labels))unique_lables=set(labels)colors=plt.cm.Spectral(np.linspace(0,1,len(unique_lables)))for k,col in zip(unique_lables,colors):x_k=X[labels==k]plt.plot(x_k[:,0],x_k[:,1],'o',markerfacecolor=col,markeredgecolor="k",markersize=14)plt.title('data by make_moons()')plt.show()。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

波士顿修正房价数据集(boston_corrected dataset)
数据介绍:
This consists of the Boston house price data of Harrison and Rubinfeld (1978) JEEM with corrections and augmentation of the data with the latitude and longitude of each observation. Submitted by Kelley Pace (kpace@).
关键词:
波士顿,房价,校正,增强,纬度,经度, Boston,house
price,correction,augmentation,latitude,longitude,
数据格式:
TEXT
数据详细介绍:
boston_corrected dataset
This file contains the Harrison and Rubinfeld (1978) data corrected for a few minor errors and augmented with the latitude and longitude of the observations. This file appears under boston in the statlib index. One can obtain matlab and spreadsheet versions of the information below from www.finance.lsu/re under spatial statistics links.
Harrison, David, and Daniel L. Rubinfeld, Hedonic Housing Prices and the Demand for Clean Air,?Journal of Environmental Economics and Management, Volume 5, (1978), 81-102. Original data.
Gilley, O.W., and R. Kelley Pace, On the Harrison and Rubinfeld
Data,?Journal of Environmental Economics and Management, 31 (1996),
403-405. Provided corrections and examined censoring.
Pace, R. Kelley, and O.W. Gilley, Using the Spatial Configuration of the Data to Improve Estimation,? Journal of the Real Estate Finance and Economics 14 (1997), 333-340. Added georeferencing and spatial estimation.
数据预览:
点此下载完整数据集。

相关文档
最新文档