CHFS抽样方法简介

合集下载

统计学-抽样分布与抽样方法

统计学-抽样分布与抽样方法
重复抽样的特点: ①在重复抽样的过程中,被抽取的总体单位总数始终
保持不变,每一次抽样中各总体单位被抽到的机会 都相同,每次抽样结果相互独立。 ②每一总体单位都有被重复抽取的可能。
5.2 抽样调查的方法
一、两种抽样方式(续):
(2)不重复抽样 ——也称不放回抽样,指被抽到的单位不再放回总
体,每次仅在余下的总体单位中抽取下一个样本的 抽样方法。 特点: ①任一总体单位都不会被重复抽到; ②每次抽样结果都受到以前各次抽取结果的影响,因 此各次抽取结果是不独立的; ③可以一次抽取所需要的样本单位数。 ❖ 在实际应用中通常采用的都是不重复抽样方法。
总体
群1
群2
…… 群k
个体1 个体2 个体3 个体4 个体5 个体6
5.2 抽样调查的方法
3.整群抽样
❖特点:
▪ 抽样时只需群的抽样框,可简化工作量 ▪ 调查的地点相对集中,节省调查费用,方便
调查的实施 ▪ 当群中的元素差异性大时,整群抽样得到的
结果比较好。在理想状态下,每一群是整个 总体小范围内的代表。如对人口普查资料进 行复查,就采用整群抽样的方式。
5.1 抽样调查的概念、特点和作用
五、全及总体和抽样总体 ❖全及总体,简称总体,是指所要认识对象的全
体,是许多同质性单位的集合。通常用大写字 母N来表示(容量)。 ❖抽样总体,简称样本,是从全及总体中随机抽 取出来,代表全及总体部分单位的集合。通常 用小写字母n来表示(容量) 。
▪ 样本容量(Sample size):样本中所含个体的数量。分为 大样本(>30)、小样本(<30)。
▪ 样本个数:又称为样本可能数目。是指从一个总体中可以 抽取的样本个数。
5.2 抽样调查的方法

2015中国家庭金融调查报告

2015中国家庭金融调查报告

2015中国家庭金融调查报告第1篇:中国家庭金融调查报告1、调查设计(1)CHFS抽样设计:经济富裕地区(东部地区)的样本比重相对较大(样本市县中东中西部省份的比例为32:27:21,全国为34:27:38),城镇地区(相对于农村地区)的样本比重相对较大(样本中城镇居委会与农村村委会比例为181:139),城镇富裕家庭占比较大,样本的地理分布比较均匀。

(2)数据核查:事后对所有受访者进行(电话)回访。

(3)拒访率:CHFS的拒访率低于国内外相似或同类调查的拒访率。

(4)数据代表性:人口统计学方面,CHFS调查数据在家庭规模、人口年龄结构和性别比例方面与国家统计局的数据比较一致,其中城市人口比例数据与国家统计局有差异(2015年CHFS数据按户口计算为0、369,国家统计局公布的数据为0、513,但是国家统计局公布的城镇人口是指居住在城镇范围内的全部常住人口,不是户籍概念)。

在居民收入总额上,CHFS和国家统计局公布的全国居民收入总额、城市和农村居民收入总额、人均收入方面比较一致,在农村和城市人均收入内部构成上二者差距比较大。

(5)国内有影响力的家庭调查数据:中国健康与营养调查(CHNS),中国家庭收入项目调查(CHIP),中国综合社会调查(CGSS),中国健康与养老跟踪调查(CHARLS)。

PPS(probabilityproportionatetosizesampling):按规模大小成比例的抽样,它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。

PPS抽样是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。

2、家庭人口和工作特征(1)20XX年CHFS样本数据显示平均家庭规模为2、94人。

少儿(15周岁以下)人口男女性别比为123:100,劳动年龄人口男女性别比为100、5:100,老年(60周岁以上)人口的男女性别小于1、(2)无论是根据人口老龄化指标1(60周岁以上人口占总人口比例为10%,根据CHFS 我国2015年该数据为16、34%)还是指标2(65周岁以上人口占总人口比例为7%,我国为10、65%)都表明我国人口老龄化现象严重。

数字普惠金融发展对农户家庭金融资产配置的影响

数字普惠金融发展对农户家庭金融资产配置的影响

数字普惠金融发展对农户家庭金融资产配置的影响作者:周雨晴何广文来源:《当代经济科学》2020年第03期摘要:通过建立及推导跨期投资决策模型证明了数字普惠金融发展对农户家庭金融资产配置的影响及其异质性,并进一步运用中国家庭金融调查(CHFS)和北京大学数字金融研究中心的数据进行了实证检验。

研究表明,数字普惠金融发展促进了农户家庭参与金融市场的概率和配置风险金融资产的比例,而且当农户金融素养或智能化素养更高时,数字普惠金融发展对其金融市场参与和风险金融资产配置的影响更为强烈。

研究结论有助于解释数字普惠金融发展对缓解农村金融排斥和农村金融市场“有限参与”的重要现实作用,从宏观上说明推动数字普惠金融发展对深化农村金融服务的必要性,从微观上启示提高农户家庭金融素养和智能化素养有助于优化其家庭金融资产配置决策。

关键词:数字普惠金融;农村金融排斥;金融资产配置;金融市场参与;金融素养;智能化素养文献标识码:A文章编号:1002-2848-2020(03)-0092-14一、引言与文献综述我国社会经济发展存在显著的城乡差异,金融资源作为社会经济的重要构成部分,长期以来过度向城市集中,造成城乡金融的非均衡发展。

相对于城市而言,农村地区的金融组织、金融工具、金融制度结构、金融创新能力和金融业务种类,都是残缺不全的[1]。

可以说,中国工业和城市发展战略及二元金融结构必然会以农村金融排斥为代价。

农村金融排斥使得农村居民被直接或间接排斥在正规金融服务之外,难以获得和使用金融服务[2]。

农村金融排斥一个重要的体现就是城乡居民家庭金融资产配置差异。

改革开放后,我国历经40年市场化进程,金融体系作为社会经济重要构成部分,得到了长足发展,金融产品和服务不断丰富。

2019年《全球财富迁移评估报告》显示,2018年中国私人财富总额达23.6万亿美元,全球排名第二,过去十年内增长率达130%,中国是私人财富增长最快的国家。

随着居民家庭财富水平不断提高,股票、基金、理财产品等金融资产逐渐走近人们的生活,成为重要的财富管理工具。

中国家庭金融调查(CHFS):数据库介绍及应用问题说明

中国家庭金融调查(CHFS):数据库介绍及应用问题说明

中国家庭金融调查(CHFS):数据库介绍及应用问题说明“中国家庭金融调查”项目组;甘犁;刘洋赫;曾惜
【期刊名称】《调研世界》
【年(卷),期】2024()5
【摘要】中国家庭金融调查(CHFS)数据库由西南财经大学中国家庭金融调查与研究中心建立,是国内高质量的家庭金融状况数据库。

该数据库每两年进行一次全国性入户追踪调查,覆盖全国29个省(区、市)的40011户家庭,样本在全国和省级层面都具有代表性。

调查内容涵盖金融资产、负债、收入、消费、社会保障等,为学术研究和政府决策提供支持。

CHFS调查采用分层、三阶段与规模度量成比例的抽样设计方案,确保样本的随机性和代表性。

为确保CHFS数据用户能够更好地理解数据和使用数据,本文将分别介绍CHFS项目设计及数据库基本情况,并对CHFS数据库用户在使用数据做研究中的常见问题及使用规范进行说明。

【总页数】5页(P12-16)
【作者】“中国家庭金融调查”项目组;甘犁;刘洋赫;曾惜
【作者单位】不详;西南财经大学
【正文语种】中文
【中图分类】C31
【相关文献】
1.中国居民家庭金融资产配置现状及对策分析——基于中国家庭金融调查(CHFS)数据
2.家庭金融文化、社会互动与家庭金融市场参与——基于中国家庭金融调查
数据(CHFS)的实证分析3.金融知识、金融资产结构与家庭消费
——基于中国家庭金融调查(CHFS)数据的实证分析4.家庭人口指标对家庭金融资产配置程度的影响——基于CHFS中国家庭金融调查数据的研究5.数字金融发展缓解了家庭金融排斥吗? 基于中国家庭金融调查(CHFS)数据的分析
因版权原因,仅展示原文概要,查看原文内容请购买。

谈谈几种典型的抽样方法

谈谈几种典型的抽样方法

谈谈几种典型的抽样方法抽样是一种统计学中常用的数据收集方法,通过在总体中选择一部分代表性的样本进行研究和分析,以得出总体的特征和规律。

下面将介绍几种典型的抽样方法。

1. 简单随机抽样(Simple Random Sampling)简单随机抽样是最基本、最常见的一种抽样方法。

其思想是从总体中随机选择n个个体作为样本,每个个体被选中的概率是相等且独立的。

简单随机抽样可以保证样本具有代表性,但在总体容量较大时,实施起来可能不太方便。

2. 系统抽样(Systematic Sampling)系统抽样是在总体中随机选择一个起始点,然后按照事先规定的间隔选择个体作为样本。

例如,如果总体容量为N,需要选择n个样本,那么每隔N/n个个体选择一个,即可得到n个样本。

系统抽样比简单随机抽样实施起来更方便,但需要保证总体中个体的排列顺序是随机的。

3. 分层抽样(Stratified Sampling)分层抽样是将总体划分为若干层,然后从每一层中分别随机选择样本。

分层抽样可以确保每一层都有代表性的样本,从而减小估计误差。

例如,对于一个城市人口总体,可以按照年龄、性别等因素进行分层抽样,从每一层中随机选择一定数量的样本。

4. 整群抽样(Cluster Sampling)整群抽样是将总体划分为若干个相互独立的群或区域,然后从其中随机选择若干个群作为样本,并对选择的群内的所有个体进行调查。

整群抽样适用于总体分布不均匀或者在随机单元内调查成本较低的情况。

例如,对于一个大学,可以将各个学院看作是群,然后从中随机选择若干个学院进行调查。

5. 效应抽样(Stratified Cluster Sampling)效应抽样是将分层抽样和整群抽样相结合的一种方法。

总体首先按照一些特征进行分层,然后从每一层中随机选择若干个群或区域,再在选择的群或区域中进行个体抽样。

效应抽样可以同时考虑个体和群体的特征,提高样本的代表性和效率。

以上是几种典型的抽样方法的简要介绍。

2019中国家庭金融调查报告 (2)

2019中国家庭金融调查报告 (2)

中国家庭金融调查报告1.调查设计(1)chfs抽样设计:经济富裕地区(东部地区)的样本比重相对较大(样本市县中东中西部省份的比例为32:27:21,全国为34:27:38),城镇地区(相对于农村地区)的样本比重相对较大(样本中城镇居委会与农村村委会比例为181:139),城镇富裕家庭占比较大,样本的地理分布比较均匀。

(2)数据核查:事后对所有受访者进行(电话)回访。

(3)拒访率:chfs的拒访率低于国内外相似或同类调查的拒访率。

(4)数据代表性:人口统计学方面,chfs调查数据在家庭规模、人口年龄结构和性别比例方面与国家统计局的数据比较一致,其中城市人口比例数据与国家统计局有差异(XX年chfs数据按户口计算为0.369,国家统计局公布的数据为0.513,但是国家统计局公布的城镇人口是指居住在城镇范围内的全部常住人口,不是户籍概念)。

在居民收入总额上,chfs和国家统计局公布的全国居民收入总额、城市和农村居民收入总额、人均收入方面比较一致,在农村和城市人均收入内部构成上二者差距比较大。

(5)国内有影响力的家庭调查数据:中国健康与营养调查(chns),中国家庭收入项目调查(chip),中国综合社会调查(cgss),中国健康与养老跟踪调查(charls)。

pps(probabilityproportionatetosizesampling):按规模大小成比例的抽样,它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。

pps抽样是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。

2.家庭人口和工作特征(1)XX年chfs样本数据显示平均家庭规模为2.94人。

少儿(15周岁以下)人口男女性别比为123:100,劳动年龄人口男女性别比为100.5:100,老年(60周岁以上)人口的男女性别小于1。

常用的抽样方法总结

常用的抽样方法总结1.非概率抽样(Non-probability sampling)又称非随机抽样,指根据一定主观标准抽取样本,令总体中每个个体的被抽取不是依据其本身的机会,而是完全决定于调研者的意愿。

其特点为不具有从样本推断总体的功能,但能反映某类群体的特征,是一种快速、简易且节省的数据收集方法。

当研究者对总体具有较好的了解时可以采用此方法,或是总体过于庞大、复杂,采用概率方法有困难时,可以采用非概率抽样来避免概率抽样中容易抽到实际无法实施或“差”的样本,从而避免影响对总体的代表度。

常用的非概率抽样方法有以下四类:①方便抽样(Convenience sampling)指根据调查者的方便选取的样本,以无目标、随意的方式进行。

例如:街头拦截访问(看到谁就访问谁);个别入户项目谁开门就访问谁。

优点:适用于总体中每个个体都是“同质”的,最方便、最省钱;可以在探索性研究中使用,另外还可用于小组座谈会、预测问卷等方面的样本选取工作。

缺点:抽样偏差较大,不适用于要做总体推断的任何民意项目,对描述性或因果性研究最好不要采用方便抽样。

②判断抽样(Judgment sampling)指由专家判断而有目的地抽取他认为“有代表性的样本”。

例如:社会学家研究某国家的一般家庭情况时,常以专家判断方法挑选“中型城镇”进行;也有家庭研究专家选取某类家庭进行研究,如选三口之家(子女正在上学的);在探索性研究中,如抽取深度访问的样本时,可以使用这种方法。

优点:适用于总体的构成单位极不相同而样本数很小,同时设计调查者对总体的有关特征具有相当的了解(明白研究的具体指向)的情况下,适合特殊类型的研究(如产品口味测试等);操作成本低,方便快捷,在商业性调研中较多用。

缺点:该类抽样结果受研究人员的倾向性影响大,一旦主观判断偏差,则根易引起抽样偏差;不能直接对研究总体进行推断。

③配额抽样(Quota sampling)指先将总体元素按某些控制的指标或特性分类,然后按方便抽样或判断抽样选取样本元素。

抽样方法全面介绍

抽样方法全面介绍抽样方法是将研究对象中的一部分作为样本进行观察或调查的方法,旨在通过对样本的研究,来推断全体研究对象的特征和规律。

在统计学和社会科学等领域中,抽样方法是进行科学研究的基础工具之一、本文将对抽样方法进行全面介绍。

一、简单随机抽样简单随机抽样是指在样本容量确定的情况下,每一个样本都有相同的机会被选中。

简单随机抽样的步骤包括:确定样本容量,将研究对象编号,使用随机数表或随机数发生器随机选择样本。

二、系统抽样系统抽样是在研究对象有序排列的情况下,按照一定的间隔选取样本。

例如,有1000个员工,研究者想要选取100个样本,那么就可以每隔10个员工选取一个样本。

三、分层抽样分层抽样是将研究对象根据一些特征划分成不同的层次,在每个层次中再进行简单随机抽样。

该方法可以确保每个层次的特征都得到了充分代表。

四、整群抽样整群抽样是将研究对象按照一定的特征划分成若干个群体,然后从这些群体中随机选择一部分进行研究。

通常,整群抽样用于群体间差异较大的情况,以确保样本具有代表性。

五、分级抽样分级抽样是在已知的层次结构中,按照一定的比例从每个层次中抽取样本。

例如,研究者想要研究全国各省市居民的收入情况,可以先从每个省抽取若干个市,然后从每个市抽取若干个区,最后从每个区抽取若干个家庭。

六、多阶段抽样多阶段抽样是将样本的选择分为多个阶段,每个阶段按照不同的方式选择样本。

例如,研究人员想要研究全国中小学生的学习情况,可以先从各个省市抽取若干个学校,然后从每个学校抽取若干个班级,最后从每个班级抽取若干个学生。

七、整比例抽样整比例抽样是按照研究对象的比例在不同的群体中选择样本。

例如,研究人员想要研究全国男女比例,可以按照男女比例在各个省市选择样本,以保证样本具有代表性。

八、方便抽样方便抽样是指研究人员根据方便性选择样本,这种抽样方法常用于预测性研究或初步调查,但样本的代表性不能得到保证。

九、判断抽样判断抽样是根据研究人员的主观判断选择样本。

2020年中国家庭金融调查报告参考

2020年中国家庭金融调查报告参考本文是关于2020年中国家庭金融调查报告参考,仅供参考,希望对您有所帮助,感谢阅读。

1、调查设计(1)chfs抽样设计:经济富裕地区(东部地区)的样本比重相对较大(样本市县中东中西部省份的比例为32:27:21,全国为34:27:38),城镇地区(相对于农村地区)的样本比重相对较大(样本中城镇居委会与农村村委会比例为181:139),城镇富裕家庭占比较大,样本的地理分布比较均匀。

(2)数据核查:事后对所有受访者进行(电话)回访。

(3)拒访率:chfs的拒访率低于国内外相似或同类调查的拒访率。

(4)数据代表性:人口统计学方面,chfs调查数据在家庭规模、人口年龄结构和性别比例方面与国家统计局的数据比较一致,其中城市人口比例数据与国家统计局有差异(2020年chfs数据按户口计算为0、369,国家统计局公布的数据为0、513,但是国家统计局公布的城镇人口是指居住在城镇范围内的全部常住人口,不是户籍概念)。

在居民收入总额上,chfs和国家统计局公布的全国居民收入总额、城市和农村居民收入总额、人均收入方面比较一致,在农村和城市人均收入内部构成上二者差距比较大。

(5)国内有影响力的家庭调查数据:中国健康与营养调查(chns),中国家庭收入项目调查(chip),中国综合社会调查(cgss),中国健康与养老跟踪调查(charls)。

pps(probabilityproportionatetosizesampling):按规模大小成比例的抽样,它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。

pps抽样是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。

2、家庭人口和工作特征(1)20xx年chfs样本数据显示平均家庭规模为2、94人。

中国家庭金融调查报告

中国家庭金融调查报告各位读友大家好,此文档由网络收集而来,欢迎您下载,谢谢第1篇:中国家庭金融调查报告1、调查设计CHFS抽样设计:经济富裕地区的样本比重相对较大,城镇地区的样本比重相对较大,城镇富裕家庭占比较大,样本的地理分布比较均匀。

数据核查:事后对所有受访者进行回访。

拒访率:CHFS的拒访率低于国内外相似或同类调查的拒访率。

数据代表性:人口统计学方面,CHFS调查数据在家庭规模、人口年龄结构和性别比例方面与国家统计局的数据比较一致,其中城市人口比例数据与国家统计局有差异。

在居民收入总额上,CHFS和国家统计局公布的全国居民收入总额、城市和农村居民收入总额、人均收入方面比较一致,在农村和城市人均收入内部构成上二者差距比较大。

国内有影响力的家庭调查数据:中国健康与营养调查,中国家庭收入项目调查,中国综合社会调查,中国健康与养老跟踪调查。

PPS:按规模大小成比例的抽样,它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。

PPS抽样是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。

2、家庭人口和工作特征20XX年CHFS样本数据显示平均家庭规模为2、94人。

少儿人口男女性别比为123:100,劳动年龄人口男女性别比为100、5:100,老年人口的男女性别小于1、无论是根据人口老龄化指标1还是指标2都表明我国人口老龄化现象严重。

少儿抚养比低于老年抚养比,且城市人口老龄化趋势高于农村。

根据CHFS数据,我国初中及以下学历的比例高达63、58%,年龄组越低的人群高学历的比例越高。

根据CHFS我国城市剩男、剩女的比例41:62,农村为59:38、企业雇佣的劳动力占从业人员的比例高达62%,其中38、44%在私营或个体企业工作,大力发展工商业可能是解决中国劳动力就业的主要途径,大力支持私营或个体企业的发展,中国劳动力就业压力将可能得到缓解。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国家庭金融抽样方法简介2013年1月19日一、调查样本框和样本量为了保证样本的随机性和代表性,同时达到CHFS着眼于研究家庭资产配置、消费储蓄等行为的目的,抽样设计力求满足如下四个方面的要求:一是经济富裕地区的样本比重相对较大;二是城镇地区的样本比重相对较大;三是样本的地理分布比较均匀;四是尽可能节约成本。

总体而言,本项目的整体抽样方案采用了分层、三阶段与规模度量成比例(PPS)的抽样设计。

初级抽样单元(PSU)为全国除西藏、新疆、内蒙和港澳地区外的2585个市/县。

第二阶段抽样将直接从市/县中抽取居委会/村委会;最后在居委会/村委会中抽取住户。

每个阶段抽样的实施都采用了PPS抽样方法,其权重为该抽样单位的人口数(或户数)。

为控制成本,本项目首轮调查的户数设定为8438户。

从可操作性以及成本的角度出发,各阶段样本数设定如下:首先,根据城乡以及地区经济发展水平,末端抽样的户数(即从每个居委会/村委会抽取的户数)设定在20—50户之间,其平均户数约为25户;其次,在每个市/县中抽取的居委会/村委会数量为4;最后可以计算得到抽取的市/县个数约为8000÷(4×25)=80。

二、抽样设计总体而言,本项目的整体抽样方案采用了分层、三阶段与规模度量成比例(PPS)的抽样设计。

初级抽样单元(PSU)为全国除西藏、新疆、内蒙和港澳地区外的2585个市/县。

第二阶段抽样将直接从市/县中抽取居委会/村委会;最后在居委会/村委会中抽取住户。

每个阶段抽样的实施都采用了PPS抽样方法,其权重为该抽样单位的人口数(或户数)。

为控制成本,本项目首轮调查的户数设定为8000—8500户。

从可操作性角度出发,各阶段样本数设定如下:首先,根据城乡以及地区经济发展水平,末端抽样的户数(即从每个居委会/村委会抽取的户数)设定在20—50户之间,其平均户数约为25户;其次,在每个市/县中抽取的居委会/村委会数量为4;最后可以计算得到抽取的市/县个数约为8000÷(4×25)=80。

1. 第一阶段抽样第一阶段抽样的目标是从2585个市县中抽取80个市县。

同时,要求80个市县的地理分布相对均匀,并且富裕地区的样本不能过少。

为达到该目的,我们将2585个市县按照人均GDP分成十层,在每个层内以市县人口数为权重,采用PPS抽样抽取8个市县,共抽得80个市县,样本涵盖全国25 个省。

表1列出了抽取的80个市县样本与总体的人均GDP描述统计。

可以看出,样本与总体在人均GDP的分布上是非常接近的。

表1:总体和80个市县样本人均GDP分布人均均值标准差中位数Q25Q75峰度偏度GDP总体17334.817736.911370717320263 3.217.64样本17809.219336.311349723221143 3.520.41注:Q25和Q75分别表示25%和75%的分位数上述抽样过程并没有考虑到抽取出的市县样本的地理分布情况。

为了评估在上述抽样方案下样本的地理分布情况,我们通过随机模拟的方式将上述分层PPS 抽样过程重复1000次,得到样本的平均地理分布情况(以东部、中部和西部城市占样本总体的比例衡量)。

模拟结果如表2所示。

表2:总体和样本的地理分布总体样本平均(模拟1000次)东部中部西部东部中部西部均值0.3430.2720.3840.3670.3060.327标准差———0.0230.0230.023由表2可以看出,在该抽样方案下,样本中东部、中部和西部市县占样本总体的比例十分稳定(其模拟的标准差很小),约为37:30:33。

与总体相比,样本中东部城市的比例更大。

但由于我们的抽样方案仅要求样本分布相对均匀,而无需与总体一致,因此该抽样方案能满足第一阶段的抽样要求。

在最终抽取出的涵盖25个省份80个市县的样本中,东、中、西部省份的比例为32:27:21。

2. 第二阶段抽样第二阶段抽样的目标是从市县中抽取居委会/村委会样本。

抽样的关键在合理分配城镇样本和农村样本的比例。

由于我国非农人口众多,若按照非农人口比例等比例分配城乡样本,则会出现城镇样本过少的情况。

考虑到CHFS项目的研究主题是居民资产配置等家庭金融行为,必须按一定的原则分配样本,以达到多抽取城镇样本的目的。

其具体实施方法如下:第一,按照各市县的非农人口比例的分位数,将各市县分成5个组。

分组的依据是各市县非农人口比重20%、40%、60%和80%的分位数。

第二,在非农人口比例最大的市县组中,居委会和村委会分配的样本比例是4:0。

第三,在非农人口比例次大的市县组中,居委会和村委会分配的样本比例是3:1。

第四,以此类推,在非农人口比例最低的市县组中,居委会和村委会分配的样本比例是0:4基于上述样本分配方式,在既定市/县内形成了城镇和农村两个抽样框。

在城镇和农村抽样框内,其抽取的居委会和村委会样本数量是已知的。

因此可以分别按照各居委会(村委会)的居民户数进行PPS抽样。

80个市县的城乡样本分配如表3所示。

表3:城乡样本分配城镇样本数频数比重(%)01518.7511012.2521518.7531518.7542531.25从表3可以看出,在我们的城乡样本分配方案下,城镇样本数(居委会数量)为0的市县个数为15,占80个市县的18.75%;而农村样本数(村委会数量)为零的市县为25个,占80个市县样本的31.25%。

上述统计数据表明该样本分配方案达到了多抽取城市样本的目的。

按照上述方案,在第二阶段抽取出的320个居委会/村委会中,城镇样本与农村样本比例为:181:139。

3. 第三阶段抽样第三阶段抽样是CHFS项目的末端抽样阶段。

其目的是从给定居委会/村委会的住户清单列表中抽取访问的住户。

在这一阶段的抽样中,农村地区抽取的户数统一设定为20户。

而在城市地区,我们收集了各社区的平均住房价格信息,并以此作为社区富裕程度的衡量指标。

在此基础上,我们根据住房价格由高到低将各社区分成四个组,在住房价格最高的组分配50户样本;而在住房价格最低的组分配25个样本,以达到进一步抽取富裕家庭的目的。

各城市社区的住户样本分配情况如表4所示。

表4:城市社区户数分配分配户数社区数量社区百分比(%)社区累计百分比(%) 255332.7232.72305232.1064.81352817.2882.10502917.90100.00三、抽样实施1. 绘制住宅分布图本项目的末端抽样建立在绘制住宅分布图以及制作住户清单列表的基础上,借助“住宅分布地理信息”作为抽样框来进行末端抽样。

末端抽样框的精度很大程度上取决于实地绘图的精度,因此,如何有效的提高绘图精度成为关键。

CHFS的绘图采用项目组自行研发的地理信息抽样系统,借助3G(遥感、GPS、GIS)技术解决了目标区域空间地理信息的采集问题。

借助地理信息研究所提供的高精度数字化影像图和矢量地图,绘图员在野外通过电子平板仪加上GPS定位获取高精度的测量电子数据,并直接输入到计算机系统中,从而获得高质量矢量底图。

考虑到地图数据的时效性,通过后期实地核查人工修正的方式对空间地理数字模型进行修正,建立起与现实地理空间对应的虚拟地理信息空间。

该系统除了使绘图工作人员能直接在电子地图上绘制住宅分布图外,还能储存住户分布信息,并辅助完成末端抽样工作,从而在最大程度上提高工作效率,减少绘图和末端抽样误差。

此外,使用电子地理信息抽样系统也有利于保存住户信息资料,为进一步深化和改进项目的工作奠定了基础。

该部分核心流程如下图1所示:图1:绘图核心处理流程2. 末端抽样末端抽样基于绘图工作生成的住户清单列表采用等距抽样的方式进行。

具体步骤如下:第一,计算抽样间距,即每隔多少户抽选一个家庭。

抽样间距的计算公式为:抽样间距= 住户清单总户数÷ 设计抽取户数(向上取整)若某社区共有住户100户,计划抽取30户,100/30=3.33。

则抽样间距为4。

第二,确定随机起点。

随机起点的确定为抽样开始时,钟表上分针所处位置的个体数值。

如此时时间为15时34分,则随机起点为4;如此时时间为12:03,则随机起点为3。

第三,确定抽中住户。

随机起点所指示的住户为第一个被抽中的住户。

在上述例子中,假定随机起点为3,则第一个被抽中的住户是编号为3的住户。

则其他被抽中的住户依次为7,11,15,19,…,依次类推,直至抽满30户为止。

我们的抽样中对家庭的定义如下:家庭可分为多人家庭和单人家庭两种情况。

多人家庭由夫妻、父母、子女、兄弟姐妹等构成,可以直接访问;单人家庭又分为几种情况:没有其他家人,可以直接访问;而如果在其他地方有家人,但经济独立,则不算作本地区的家庭成员。

同时,必须至少有一个人是中国国籍,至少在本地居住6个月以上。

识别家庭总的原则是满足下列条件之一:共享收入,共担支出。

图2 绘图员手绘地图图3 绘图员电子绘图四、样本分布与加权汇总1. 样本分布在上述抽样方法下,最终抽取出的涵盖25个省份80个市县的样本中,东、中、西部省份的比例为32:27:21。

城镇样本数(居委会数量)为0的市县个数为15,占80个市县的18.75%;而农村样本数(村委会数量)为零的市县为25个,占80个市县样本的31.25%。

在第二阶段抽取出的320个居委会/村委会中,城镇样本与农村样本比例为162:158。

图4 样本分布2. 加权汇总在我们的抽样设计下,由于每户家庭被抽中的概率不同,因此每户家庭代表的中国家庭数量也就不同。

在推断总体的时候,需要通过权重的调整来真实准确的反映每户样本家庭代表的家庭数量,以获得对总体的正确推断。

中国家庭金融调查的所有计算结果都经过抽样权重的调整。

抽样权重的计算方法如下,根据每阶段的抽样分别计算出调查市县被抽中的概率P1、调查社区(村)在所属区县被抽中的概率P2以及调查样本在所属社区(村)被抽中的概率P3,分别计算出三阶段的抽样权重W1=1/P1、W2=1/P2、W3=1/P3,最后得到该样本的抽样权重为W=W1×W2×W3 。

相关文档
最新文档