收入核对模型-家庭人均收入预测模型

收入核对模型-家庭人均收入预测模型
收入核对模型-家庭人均收入预测模型

收入核对模型

--家庭人均收入预测模型

“数据挖掘与数学模型小组”

摘要

我们认为申请家庭的人员从业状态和家庭的人均月收入之间存在函数关系,为了建立一个人员从业状态和家庭的人均月收入的函数关系模型,我们对现有数据库中的申请家庭进行分析,分析出各种不同的从业状况对家庭的人均月收入的影响。

根据分析得出的结论,选取几种和家庭人均月收入存在线性关系的从业状态,建立家庭人均月收入预测公式

12......

i

y ax bx nxξ

=++++,其中自变量就是我们分析出的和家庭人均月收入存在线性关系的各种从业状态。利用线性拟合的方法求解预测模型中的各项系数并检验,我们可以得到一个或是数个预测公式,将真实数据代入预测公式我们便能得到一个家庭人均月收入的预测值或者一个预测区间。

这样我们就可以对于一些偏离预测值较远的家庭,进行重点关注或在今后的复查时重点检查,达到减少工作量,提高工作效率的作用。

一、定义自变量

定义自变量,即分析每一个从业状态对家庭人均月收入的影响,选择其中影响较大的一些从业状态如在职、退休、学生等,

将家庭中属于以上各从业状态的人数作为自变量,建立一个预测家庭人均收入的模型

以在职状态为例,我们从数据库中选择满足一定条件的数据,通过以下方式,运用统计软件分析在职状态对家庭人均月收入的影响

例:分析在职状态对家庭人均月收入的影响

我们选取家庭人数为2人的40组数据,其中,在职和无业各1人的20户,2人均为无业的20户。

Descriptive Statistics(a)

a 无业人数= 1.00

Descriptive Statistics(a)

a 无业人数 = 2.00

由图表,我们发现家中有在职人员的家庭,其人均月收入的均值为465.9855,略高于家中没有在职人员的家庭。

为了进一步证明两种家庭的人均收入有显著差异,我们对两者的均值进行假设检验的分析:假设有在职人员的家庭,其人均收入为0μ,没有在职人员的家庭,其人均收入为1μ,于是,我们有假设0H :01μμ=;1H :01μμ≠。我们利用统计软件对两组数据进行t 检验分析:

Group Statistics

图表中,我们得到t=2.135,查表得检验数0.95(38)

t=1.686

0.95(38)

t t

因此,我们拒绝0H,认为有在职人员的家庭和没有在职人员的家庭,他们的人均月收入是完全不同的。

于是,我们得出结论,家庭中是否有人的从业状态为在职,对家庭的人均月收入是有显著影响的。

二、确定自变量的函数关系

在确定了预测模型的自变量之后,我们要对每一个自变量进行分析,确定该自变量和因变量直接的函数关系

以在职状态为例:选取家庭人数为3且满足下列条件之一的几户家庭作为观察样本:

(1)家庭成员中有2人在职;

(2)家庭成员中有1人在职;

(3)家庭成员中无人在职;

用这些样本在坐标轴中绘制散点图:

由图表,我们可以发现在职人员人数和家庭人均月收入的关系成正比,且各点所形成的线段基本可视作一直线。因此,我们可以认为在职状态和家庭人均月收入之间的关系是线性的,即,

=+的函数关系,其在职状态和家庭人均月收入之间存在y axξ

中,y为家庭人均月收入,x为家庭在职人员人数。

三、模型的求解

利用数据库中的数据,通过统计软件对预测公式进行线性拟合来求解预测模型中的各项系数,对求解出的各项系数进行假设检验分析,通过假设检验分析的结论来拆分、合并或者删除某些变量,或者增加某些限定条件,使得原先的预测公式可以拆分为数个不同的公式。将这些变化导入最初的预测模型并重新进行线性拟合来求解新的各项系数,直到求解出的各项系数均能通过假设检验的分析,我们可以得到最终的一个或是数个预测公式。

四、模型的结论及其运用

通过求解模型并得到最终的预测公式之后,我们可以将实际数据代入预测公式。我们便能得到一个家庭人均月收入的预测值,或者根据检验过程中所使用的不同的置信区间来确定该预测值的可信度区间,即该家庭人均月收入的预测区间。对于一些偏离预测值较远的家庭,我们可以予以重点关注。

相关主题
相关文档
最新文档