社会统计学复习整理
社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的内容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
cf↑表示低于某个等级的频数有多少cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
社会统计学-复习资料

社会统计学第一章导论一.社会统计学的产生与发展1。
国势学派:(又称记录学派或历史学派)对国家显著事迹的记录和比较。
“有名无实”代表人物:阿享瓦尔(1719—1772)“统计学之父"、康令(1606—1681)2.政治算术学派:对国家事项首创数字对比、分析。
“有实无名”代表人物:威廉 配第(1623-1687)“政治经济学之父”、格朗特(1620—1674)3。
数理统计学派:将法国古典概率论引入统计学,用纯数学的方法对社会现象进行研究。
代表人物:凯特勒(1796—1874)“现代统计学之父”4。
社会统计学派:研究社会现象代表人物:克尼斯(1821—1898)、梅尔(1841—1925)、恩格尔(1821—1896)二.社会统计学的对象和特点社会统计学:用于统计的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种方法与技术。
研究对象概括而言是指社会现象的数量方面。
社会统计学特点:就研究对象而言,社会统计学主要是从研究和反映一定经济基础之上的上层建筑方面去认识社会;就研究内容而言,社会统计需要对人们的态度、观念、行为进行度量,测量这些社会现象目前还没有一个精确而统一的尺度,只能以近似估算或词语表达等方式来代替;就调查方法而言,社会统计中,由于其研究对象所具有的特征,抽样调查更为常用。
三.社会统计学的方法1.大量观察法:就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征.2.大数定理:是随机现象出现的基本规律,一般意义为:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。
3。
综合指标法4.统计推断法四.社会统计学的几个基本概念1.总体与单位总体:作为统计研究对象的,由许多具有共性的单位构成的整体。
单位:构成整体的每一个个体。
2.标志与变量,标志:总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。
社会统计学期末复习提纲

《社会统计学》课程期末复习提纲·考试题型:一、填空题(10×1分=10分)二、判断题(10×1分=10分)三、单项选择题(20×1分=20分)四、简答题(2×6分=12分)五、计算题(4题共48分)·各章复习要点第一章总论P.2 统计的含义:统计工作·统计资料·统计学。
其中:统计工作和统计资料是活动过程和成果的关系;统计学和统计工作是理论和实践的关系。
“统计”一词包含三种涵义,并且具有密切的联系。
其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。
(y )P.11—P.13 定类尺度;定序尺度;定距尺度;定比尺度(结合课件相关内容)量化尺度特征功能举例1、定类尺度确定类别分类民族的测量2、定序尺度确定类别排列顺序分类排序考试成绩等级的测量3、定距尺度确定类别排列顺序测数量差别和间隔距离无绝对零点分类排序加减智商的测量4、定比尺度确定类别有序排序测数量差别和间隔距离有绝对零点分类排序加减乘除体重的测量何谓定类尺度和定序尺度?两者有何区别?1定类尺度是确定事物类别的计量尺度---高一个层次2定类只能区分不同性质的现象并予以归类---可将所区分的类别按高低,大小,好坏,强弱,优劣等顺序做有序排列。
3定类不能进行数的比较和数学运算--能进行大小比较。
何谓定距尺度和定比尺度?两者区别定距尺度是确定研究对象之间某些数值相差的距离的尺度---最高的数据计量尺度缺乏绝对零点---有,0 2. 0只表示一个值,即0值---0是绝对零点,表示没有3.只能加减,不能乘除---加减乘除,高层次的各种统计分析。
P.13—P.14 总体和总体单位一、总体和总体单位(一)总体1、概念总体(也称为统计总体)是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体(同质个体的集团)。
2、特点·客观性·大量性同质性·差异性1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则就没有必要对总体进行统计分析研究了,即该性质是对总体进行统计研究的前提条件。
社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的内容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
社会统计学重点归纳

社会统计学重点归纳
社会统计学是研究人口、经济、社会、文化等方面的统计数据的科学。
以下是社会统计学的重点归纳:
1. 人口统计学:主要研究人口的数量、分布、组成和变动等方面的统计数据,包括人口普查、人口出生率、死亡率、迁移率等指标。
2. 经济统计学:主要研究经济活动的统计数据,包括国内生产总值(GDP)、劳动力参与率、失业率、消费指数、投资指数等指标。
3. 社会统计学:主要研究社会现象的统计数据,包括教育水平、就业率、犯罪率、健康状况、贫困率等指标。
4. 文化统计学:主要研究文化领域的统计数据,包括文化产业的规模、文化消费的情况、文化活动的参与度等指标。
5. 社会调查方法:研究如何设计和实施社会调查,包括问卷设计、样本选择、数据收集和分析等方法和技巧。
6. 数据分析方法:研究如何对收集到的统计数据进行分析和解释,包括描述统计分析、推断统计分析、多元统计分析等方法。
7. 统计模型和预测:研究如何建立和应用统计模型来预测社会现象的变化趋势,包括时间序列分析、回归分析、因子分析等方法。
8. 社会统计学的应用:研究如何将社会统计学的方法和理论应用到
实际问题中,包括政策制定、社会规划、市场调研等领域。
这些是社会统计学的重点内容,通过对社会现象的统计数据进行研究和分析,可以揭示社会规律和趋势,为社会发展和政策决策提供科学依据。
最新社会统计学期末复习题与答案整理

社会统计学期末复习训练一、单项选择题(20=2×10)1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。
此处800人是.样本2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。
这项研究的总体是 332.1户家庭的年均收入3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。
这项研究的总体是 22000名学生的每月生活费用4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。
此处5000户是样本5.从变量分类看,下列变量属于定序变量的是产品等级6.下列变量属于数值型变量的是工资收入7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为.简单随机抽样8.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。
这种调查方法属于分层抽样9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,这样的抽样方式称为分层抽样10.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。
这种调查方法属于系统抽样11.在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率12.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率13.在频数分布表中,频率是指各组频数与总频数之比14.在频数分布表中,比率是指不同小组的频数之比15.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图16.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据线图17.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图18.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19 19.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 8920.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元21.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.222.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是8823.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为5.5小时24.对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数25.对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数26.离散系数的主要目的是比较多组数据的离散程度27.两组数据的平均数不相等,但是标准差相等。
云南省考研社会学复习资料社会统计学重要内容梳理

云南省考研社会学复习资料社会统计学重要内容梳理社会统计学是社会学中的一个重要分支,通过对社会现象进行数据的收集、整理和分析,以揭示社会规律和进行社会研究。
在云南省考研社会学复习中,社会统计学是一个必不可少的考点。
本文将对社会统计学的重要内容进行梳理。
一、社会统计学的基本概念社会统计学是指以社会或群体为对象,运用数理统计学的方法和技术,对社会现象进行系统测量、分析和研究的学科。
社会统计学的基本概念包括:“数据收集”、“数据整理”、“数据分析”和“数据解释”。
其中,“数据收集”是通过不同的调查方法,如问卷调查、抽样调查等,收集社会现象的数据;“数据整理”是对收集到的数据进行分类、整理和编码,为后续的分析做准备;“数据分析”是运用数理统计学的方法对数据进行描述、统计和推断;最后是“数据解释”,通过对数据的分析和解释,揭示社会现象的规律。
二、社会统计学的研究对象1. 人口统计学:研究人口数量、结构、分布和变动等问题。
人口统计学的重要指标有人口总量、出生率、死亡率、婚姻率、离婚率等。
2. 劳动力统计学:研究劳动力的数量、结构、动态变动和就业形势等问题。
劳动力统计学的重要指标有劳动参与率、就业率、失业率等。
3. 教育统计学:研究教育的发展水平、资源配置与利用、优质教育资源的均衡布局等问题。
教育统计学的重要指标有教育总体预算占国民生产总值的比重、教育财政支出等。
4. 经济统计学:研究经济的总量、结构、发展趋势和效益等问题。
经济统计学的重要指标有国内生产总值、人均国内生产总值、固定资产投资等。
三、社会统计学的研究方法1. 问卷调查:通过编制问题清单,并向受访者发布,收集到的数据可进行统计和分析。
问卷调查能够收集到大量的数据,但受访者对问题的回答可能存在主观性和不准确性。
2. 抽样调查:通过合理地从总体中选取一部分样本进行调查和研究,然后用样本数据推断总体特征。
抽样调查具有代表性和经济性的特点,但样本的选择和调查过程可能会引入偏差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比拟大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比拟大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比拟定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次〔或频率〕分布的一种工具。
2.统计表必备的容:(1)表号、标题(2)标识行:变量名、对应数据说明〔频次、频率〕(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数〔cf↑〕和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组适宜,分为等距分组和非等距分组。
(2)组限:包括上限〔up〕和下限〔low〕(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
一、定类变量1.众值〔Mode〕Mo:用具有频数最多的变量的取值来表示变量的集中值。
2.众值的特征:〔1〕:众值理论上可以用于定类、定序和定距三个层次的变量来描述集中趋势,但是由于众指不准确,一般只用于定类层次的变量。
〔2〕:众值最好找,是最容易求出的值,但它准确度也是最差的。
二、定序变量1.中位值〔Md〕。
2.分组数据求中位值公式:Md=L+(n/2- cf↑/n)(U-L)L:中位值的真实下界值U:中位值的真实上界值n:中位值组的频数cf↑:低于中位值所在组的累加〔向上〕频次N:调查总数Md位值:N/2二、定距变量1.均值〔Mean〕:将变量的各个数值相加起来,除以总个数,求取一个平均值的数值,一般用¯x来表示。
2.均值的特征:●仅适合定距层次的变量●它最灵敏,预测的准确度最高●对资料所提供的信息运用得最充分3.均值的求法(一)原始数据求均值:X=∑X1/N(X表示变量x的均值;∑X1表示变量观察值的总和。
)(二)根据频次分布求均值:¯x=(¯x表示变量X的均值;表示变量的每一个取值和该变量频数相乘的和;表示把变量的每个取值下的频次都加起来,即调查总数N)(三) 分组数据求均值:¯x=(n1表示每组次数,b表示每组的组中值,表示个案数目)第四节离散趋势测量法●离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。
●离散趋势或离散特征可以告诉我们估计值误差的大小。
一、定类变量〔异众比率V〕V就是非众值的次数与全部个案数目的比率。
V=(N-全部个案数目;/___ V值越小,众值代表性越好。
二、定序变量1.极差(R)—观察的最大值与最小值之差。
2.四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三个四分位置的值的差异。
四分位差Q=Q75-Q25(一)未分组数据:2 2 3 4 6 9 10 10 11 13 15Md的位置=N+1/2=11+1/2=6Q25的位置=N+1/4=11+1/4=3〔第三位数〕Q75的位置=〔N+1〕=〔11+1〕=9〔第九位数〕所以,四分位差Q= Q75-Q25=11-3=8(二)分组数据1.中位值公式=Md=L+(-cf↑)/n(U-L)2.Q25=L+(-cf↑)/n(U-L)L:四分之一位值组的真实下界值U:四分之一位值组的真实上界值n:四分之一位值组的频数cf↑:低于四分之一位值组的向上累加频次N:调查总数Q25位置=N/4;3.Q75=L+(- cf↑)/n(U-L)L:四分之三位值组的真实下界值U:四分之三位值组的真实上界值n:四分之三位值组的频数cf↑:低于四分之三位值组的向上累加频次N:调查总数Q75位置=3N/4;三、定距变量(一)标准差σ与方差σ²σ=(δ即对均值的偏差平方均值的平方根)σ²=(二)根据未分组的频次分布求方差σ=N-调查总数;Xi-表示变量的每个取值;ni-表示每个取值的频次(三)分组数据求方差——用组中值代替bi代替xi代入公式中σ=第三章概率一、概率1.不可能事件的概率:P(O)=02.必然事件的概率:P(S)=13.随机事件的概率:0≦P(E)≦1二、两个重要概念1.普查:对统计总体的全部单位进展调查以搜集资料统计资料的工作。
2.抽查:按照某种方法以总体中抽取一局部样本进展调查,以搜集统计资料的工作。
三、频率分布于概率分布的关系1.频率分布是实验值,是可以变化的,称之为统计分布或经历分布。
2.概率分布是理论值,是唯一的,称之为理论分布。
3.当观测次数很大时,随机变量取值的频率接近于其概率,这时随机变量的统计分布与理论分布将大致相符。
四、总体均值和方差1.总体均值〔E〕:随机变量各取值分别乘取值的概率的总和。
E(ξ)=µ=∑PiXi2.总体方差〔D〕:就是随机变量偏离总体均值的程度。
D=S²=E(X²)-[E(x)]²3.总体均值和样本均值的区别:●总体均值是对研究对象进展普查后得出的均值。
●样本均值是对从总体中抽取的样本数据计算出来的均值。
4.总体方差与样本方差的区别:●总体方差是对研究对象进展普查后,利用数据算出来的方差。
●样本方差是根据从总体中抽取出的样本的调查总数据,计算出来的方差。
5.总体均值方差和样本均值方差表示法1.总体均值E=µ,总体方差D=σ²,总体标准差=σ2.样本均值=¯x,样本方差=s²,样本标准差=S6.结论1.通过普查,可以得出概率、总体均值E(µ)、总体方差D(σ²),这些值我们称为参数值。
2.通过抽查,可以得出频率、样本均值¯x、样本方差s²,这些值我们称为统计值。
3.当样本为大样本(N≧30),频率≈概率、样本均值≈总体均值、样本方差≈总体方差。
4.当样本数无穷接近总体数的时候,频率=概率、样本均值=总体均值、样本方差=总体方差。
5.统计学的任务就是如何利用统计值来推论参数值〔统计推论〕,实现我们的研究目的。
第四章常见统计分布第一节二点分布一、二点分布〔0-1分布〕:就是变量的取值只有两类的分布。
如:性别。
二、二分变量的分布律:随机变量如果满足二点分布,那么其概率分布为——P(ξ=0)=q;P(ξ=1)=P;P+q=1第二节二项分布一、二项分布:在一样条件下进展n次独立试验,每次试验只有两种可能的结果,事件A出现的概率P(A)=P,事件A不出现的概率P(A)=1-p=q.第三节正态分布一、什么是正态分布?中心极限定理:对于任何变量,不管其原有分布如何,如果把它们n个加在一起,当n大于一定数之后〔n>30〕,那么其和的分布必然接近正态分布。
二、正态分布密度曲线的特点1.一个顶峰2.一个对称轴——X=µ3.一个渐近线——X轴4.正态分布曲线是单峰值对称的,因此这种分布的变量,其众值、中位值和均值是重叠的。
5.正态分布下的面积为1.三、正态曲线的参数意义1.正态分布的两个参数是µ〔总体均值〕和σ〔总体方差〕。
2.两个参数对曲线形状的影响:(1)φ〔X〕在x=μ处到达峰值,以直线x=μ为对称轴。
在σ一定的情况下,假设μ增大,图形右移;假设μ减小,那么左移,但形状不变。
(2)当μ值一定时,值越小,那么对应的图形越尖越瘦。
第四节标准正态分布标准正态分布:标准正态分布就是通过公式把一般正态分布转化而来,这样把不同的正态分布都统一为〔0,1〕的正态分布,然后再通过查表求出两点之间的概率。
公式:Ζ=1.标准正态分布的μ=0,σ=1,其图形以Ζ=0为对称轴。
2.标准正态分布记作X~N(0,1),一般正态分布记作X~N〔μ~σ²〕3.标准正态分布的图形唯一的,其值可以通过查表〔附表4〕求得。
〔只有标准正态分布才能查表,如果是一般正态分布那么先用公式转化为标准正态分布〕4.正态分布N(μ~σ²)和标准正态分布N(0,1)面积之间的对应关系:当X=μ+σ时,Ζ==1当X=μ-σ时,Ζ==-1第五节常用统计分布一、X²分布〔卡方分布〕设变量ξ1、ξ2,、、、、、、ξk相互独立,且都服从N(0,1),那么X²=〔ξ1〕²+(ξ2)²+…+(ξk)²称为自由度为K的X²分布。
记作:ξ~X²〔k〕二、t分布设随机变量ξ和η独立,且ξ~N(0,1),η~X²〔k〕,那么随机变量t (t=)服从自由度为k的t分布,记作t~t(k)。
三、F分布设随机变量ξ和η独立,且ξ~X²〔k1〕η~X²〔k2〕,那么随机变量F (F=) 服从自由度〔k1,k2〕的分布记作F~F〔k1,k2〕。
第五章参数估计一、关于抽样的一些概念1.总体:构成总体的所有元素的集合,元素那么是构成总体的最根本的单位。
2.样本:从总体中按一定方式抽取出来的一局部元素的集合。
3.抽样:从总体中,按一定的方式选择或抽取样本的过程。
4.抽样单位:一次直接抽样所使用的根本单位。
二、统计推论1.统计推论:根据局部资料〔样本资料〕对总体进展推断的过程。
2.样本资料的特点:〔1〕样本资料来源于总体,因此局部资料的特性在某种程度上能反映总体的特征。
〔2〕由于抽样的随机性,那么抽样的结果有可能不等于总体的结果。
〔3〕当样本到达一定规模的时候(大样本),呈现规律性。
3.统计值:从样本中计算出来的数值。
4.参数值:总体的数值。
5.统计推论的容分为两个局部:〔1〕通过样本的统计值对总体的未知参数进展估计,称为参数估计。
〔2〕通过样本对总体的某种假设进展检验,称为假设检验。
三、抽样分布1.样本均值的分布:我们按照简单随机抽样的方法,从总体中抽取样本,因为每一个个体被抽中的时机具有随机性,所以每一次抽出的样本其均值都不同,那么在同一个总体中,抽取n 次就有n个样本均值〔〕,而样本均值的分布就是这n 个样本均值的分布。