(完整版)社会统计学简答题与计算题复习资料
社会统计学期末复习提纲

《社会统计学》课程期末复习提纲·考试题型:一、填空题(10×1分=10分)二、判断题(10×1分=10分)三、单项选择题(20×1分=20分)四、简答题(2×6分=12分)五、计算题(4题共48分)·各章复习要点第一章总论P.2 统计的含义:统计工作·统计资料·统计学。
其中:统计工作和统计资料是活动过程和成果的关系;统计学和统计工作是理论和实践的关系。
“统计”一词包含三种涵义,并且具有密切的联系。
其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。
(y )P.11—P.13 定类尺度;定序尺度;定距尺度;定比尺度(结合课件相关内容)量化尺度特征功能举例1、定类尺度确定类别分类民族的测量2、定序尺度确定类别排列顺序分类排序考试成绩等级的测量3、定距尺度确定类别排列顺序测数量差别和间隔距离无绝对零点分类排序加减智商的测量4、定比尺度确定类别有序排序测数量差别和间隔距离有绝对零点分类排序加减乘除体重的测量何谓定类尺度和定序尺度?两者有何区别?1定类尺度是确定事物类别的计量尺度---高一个层次2定类只能区分不同性质的现象并予以归类---可将所区分的类别按高低,大小,好坏,强弱,优劣等顺序做有序排列。
3定类不能进行数的比较和数学运算--能进行大小比较。
何谓定距尺度和定比尺度?两者区别定距尺度是确定研究对象之间某些数值相差的距离的尺度---最高的数据计量尺度缺乏绝对零点---有,0 2. 0只表示一个值,即0值---0是绝对零点,表示没有3.只能加减,不能乘除---加减乘除,高层次的各种统计分析。
P.13—P.14 总体和总体单位一、总体和总体单位(一)总体1、概念总体(也称为统计总体)是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体(同质个体的集团)。
2、特点·客观性·大量性同质性·差异性1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则就没有必要对总体进行统计分析研究了,即该性质是对总体进行统计研究的前提条件。
社会统计学基本公式及社会统计学复习整理及社会统计学复习题(有答案)

12231 3.322log 4×6i i i i i i i i i i i i u l u l u l u ll Rh N h R N AA B =-+-==+=+=====+第三章、组距 h (上限 下限)2、组中值 m 或 m 、斯特奇斯公式 (:组距 :全距 :总体单位)频数频率、频数密度 频率密度组距组距标准组距5、折合系数实际组距标准组距频数实际频数折合系数、基尼系数 G 111111n n i i i ii i PI P I --++===-∑∑ 或 G(i i P 是横轴上的累积百分数;I 是纵轴上的累计百分数)洛仑兹曲线P iI iAB1(2))(1)1221222d d X X X N fXX fN NN NN F L ==++-=+∑∑∑第四章1、算术平均数()()未分组资料 分组资料 注:对于单项数列分组,X即为变量值,若为组距式分组,则X为组中值 f:各组频数2、中位数(M 未分组资料 若N为奇数,则取第位上的变量值为中位数,若为偶数,则取第 位和第位上的两个变量值的平均数作为中位数()分组资料 M 112h h L : 2m m d m m m m m N F U f f f F F N---⨯=-⨯或 M 中位数所在组的下限: 中位数所在组的频数: 小于中位数所在组的各组频数之和(向上累计) h : 中位数所在组的组距 U: 中位数所在组的上限: 包括中位数所在组的各组频数之和(向上累计) 注: 中位数所在组由确定11111111133333334h :h 34h :N F l f F l f NF l f F l -=+⨯-=+⨯3、四分位数(1)第一四分位数 Q :小于第一四分位数所在组的各组累计频数(向上累计) 第一四分位数所在组的下限 :第一四分位数所在组的组距 :第一四分位数所在组的组距(2)第三四分位数 Q :小于第三四分位数所在组的各组累计频数(向上累计) 第三四分位数所在组的3311212h 1h :h 5o o o oo o f L L ∆=+⨯∆+∆∆∆下限 :第三四分位数所在组的组距 :第三四分位数所在组的组距4、众数(M )()未分组资料 先将所有数据顺序排列,观察某些变量值出现的次数最多,这些变量值就 是众数(2)分组资料 M 众数所在组的下限:众数所在组频数与前一组频数之差 :众数所在组频数与后一组频数之差 :众数所在组的组距、几何平均数11lg lg anti(lg )(2)1lg lg anti(lg )g g g g g gg g g X Nf X NX ========∑∑(M )()简单几何平均数 M 或 M M M 加权几何平均数M 或 M M M 注:若为组距式分组,则为组中值3112316)(1)111111...(2):312=23h h N h d o g h N Q Q NX X X X XNNf XX f X X -==++++==-≥≥-⋅∑∑、调和平均数(M 简单调和平均数(未分组) M 加权调和平均数(分组)M 注:若为组距式分组,为组中值 各组频数7、各种平均数的关系2M M M M 第五章、全距 R=X X 、四分位差 Q D、平均差=2=::X X Nf X XfX f X f -⋅-⋅∑∑(1)未分组资料 A D ()分组资料 A D 注:若为组距式分组,为组中值 各组频数4、标准差(S)(1)未分组资料(2)分组资料 注:若为组距式分组,为组中值 各组X X S-频数5、标准分 Z=社会统计学复习整理一、变量的测量层次61(2)37=1:83(o o oR R M M M o d o R X X SXN f f NNf X M X M X M S Sαα⋅⋅=-⋅=----==A D 、变异系数()全距系数 V =A D平均差系数 V =()标准差系数 V 、异众比率(非众数的频数与总体单位数的比值) V R 众数的频数、偏态系数())偏态=二、判断变量层次的技巧1.首先所有的变量都是定类变量。
社会统计学复习题.(DOC)

《社会统计学》复习题考试题型:一、填空(1*20=20)二、单选(1*10=10)三、多选(2*5=10)四、判断(2*5=10)五、计算题(5*8=40)六、分析题(1*10=10)一、填空题1、大量观察法之所以称为统计上特有的方法,是与()的作用分不开的。
2、大数定律的一般意义是:在综合大量社会现象的数量特征时,个别单位偶然的数量差异会(),使大量社会现象的数量特征借助于()形式,接近用确定的数值显示出必然的规律性。
3、要了解有个班级学生的学习情况,则总体是(),总体单位是()。
4、凡是相邻的两个变量值之间可以连续不断分割的变量,称为()。
凡是各变量值之间是以整数断开的变量,称为()。
5、统计按其内容主要包括两个方面:描述统计和()。
6、推论统计有两个基本内容:参数估计和()。
7、通过抽样得到的用以推断总体特征的那个“部分”,在统计学上称为()。
样本中所含的单位数,在统计学上称为样本大小,也叫做()。
8、()是指由调查者直接搜集的、未经加工整理而保持其原本状态的资料。
()是指经他人加工整理,可以在一定程度上被引用来说明总体特征的资料。
9、()误差,是指在调查和统计过程中由于各种主客观因素而引起的技术性、操作性误差以及由于责任心缘故而造成的误差等。
()误差,是指由调查方式本身所决定的统计指标和总体指标之间存在的差数。
10、统计调查从调查范围上分,可分为()和()。
11.()误差是在遵守随机原则的条件下,用样本指标代表总体指标不可避免存在的误差,它表示抽样估计的精度。
12基尼系数为(),表示收入绝对不平均;基尼系数为(),表示收入绝对平均。
13、统计表通常有一定格式,统计表各部位的名称分别是()、横行标题、纵栏标题、()。
14、实际收入分配情况则由洛仑兹曲线表示,一般表现为一条下凹的弧线,下凹程度愈大,收入分配(),反之,则收入分配()。
相关:洛仑兹曲线是一种用来反映社会收入分配平均程度的累计百分数曲线。
社会统计学试题及答案

社会统计学试题及答案社会统计学是一门研究社会现象数量特征和规律性的科学,它在社会科学领域中占有重要的地位。
以下是一套社会统计学的模拟试题及答案,供学生参考和练习。
社会统计学模拟试题一、选择题(每题2分,共20分)1. 社会统计学研究的主要对象是:A. 个体行为B. 社会现象的数量特征C. 社会现象的质的属性D. 社会现象的因果关系答案:B2. 下列哪一项不是统计数据的类型?A. 定类数据B. 定序数据C. 定距数据D. 定性数据答案:D3. 在统计分析中,中位数是:A. 数据集中的最小值B. 数据集中的中间值C. 数据集中的平均值D. 数据集中的最大值答案:B4. 标准差是衡量数据:A. 中心趋势的指标B. 离散程度的指标C. 相关程度的指标D. 偏态的指标答案:B5. 以下哪个是参数估计的步骤?A. 收集数据B. 计算样本统计量C. 确定置信区间D. 所有以上答案:D二、简答题(每题10分,共30分)6. 简述社会统计学与数理统计学的区别。
答案:社会统计学与数理统计学的主要区别在于研究对象和应用领域。
数理统计学主要研究的是概率论在统计推断中的应用,它更侧重于数学理论和方法。
而社会统计学则侧重于社会现象的量化分析,它将数理统计的方法应用于社会科学研究中,以揭示社会现象的数量特征和规律。
7. 解释什么是抽样误差,并举例说明。
答案:抽样误差是指由于从总体中随机抽取样本进行研究,而导致样本统计量与总体参数之间存在差异的情况。
例如,在一项关于城市居民收入水平的研究中,如果只抽取了高收入区域的居民作为样本,那么得到的样本均值可能会高于整个城市居民的实际平均收入,这就是抽样误差的一个例子。
8. 描述相关系数的计算方法及其意义。
答案:相关系数是用来衡量两个变量之间线性关系强度和方向的统计量。
最常用的相关系数是皮尔逊相关系数,其计算公式为:\[ r =\frac{\sum (X_i - \overline{X})(Y_i -\overline{Y})}{\sqrt{\sum (X_i - \overline{X})^2 \sum (Y_i - \overline{Y})^2}} \] 其中,\( X_i \) 和 \( Y_i \) 分别是变量X 和Y的观测值,\( \overline{X} \) 和 \( \overline{Y} \) 是它们的平均值。
社会统计学复习题答案

社会统计学复习题答案社会统计学是一门应用广泛的学科,它涉及到数据的收集、处理、分析和解释,以帮助我们更好地理解社会现象。
以下是一些社会统计学的复习题及其答案,供参考:一、选择题1. 社会统计学的主要研究对象是什么?A. 个体行为B. 社会现象C. 经济活动D. 政治事件答案:B2. 以下哪个是描述性统计的主要内容?A. 推断总体参数B. 描述数据分布C. 预测未来趋势D. 建立因果关系答案:B3. 抽样调查与普查的主要区别是什么?A. 抽样调查成本高B. 普查不具有代表性C. 抽样调查结果不可靠D. 普查可以得到全面数据答案:D二、填空题4. 社会统计学中,________是用来衡量数据集中趋势的指标。
答案:均值5. 标准差是衡量数据________的指标。
答案:离散程度6. 相关系数的取值范围在________之间。
答案:-1到1三、简答题7. 简述抽样误差和非抽样误差的区别。
答案:抽样误差是指由于样本不能完美代表总体而产生的误差,它可以通过增大样本量来减少。
非抽样误差则包括测量误差、非响应误差等,这些误差与抽样方法无关,通常与数据收集和处理过程中的偏差有关。
8. 描述统计与推断统计的区别。
答案:描述统计主要关注对数据集的描述,如计算均值、中位数、方差等,它不涉及对总体的推断。
推断统计则是基于样本数据来推断总体特征,如估计总体均值、进行假设检验等。
四、计算题9. 给定一组数据:10, 12, 14, 16, 18, 20,计算其均值和标准差。
答案:均值 = (10+12+14+16+18+20)/6 = 15;标准差 =√[(Σ(xi - 均值)^2) / (n-1)] = √[(10+4+0+4+0+5)/5] ≈ 3.0310. 如果一个总体的均值为50,标准差为10,样本均值为55,样本量为100,进行单样本t检验,假设总体方差未知,计算t值。
答案:首先计算样本标准差,然后使用t检验公式:t = (样本均值 - 总体均值) / (样本标准差/ √样本量)。
最新社会统计学期末复习题与答案整理

社会统计学期末复习训练一、单项选择题(20=2×10)1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。
此处800人是.样本2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。
这项研究的总体是 332.1户家庭的年均收入3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。
这项研究的总体是 22000名学生的每月生活费用4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。
此处5000户是样本5.从变量分类看,下列变量属于定序变量的是产品等级6.下列变量属于数值型变量的是工资收入7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为.简单随机抽样8.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。
这种调查方法属于分层抽样9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,这样的抽样方式称为分层抽样10.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。
这种调查方法属于系统抽样11.在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率12.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率13.在频数分布表中,频率是指各组频数与总频数之比14.在频数分布表中,比率是指不同小组的频数之比15.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图16.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据线图17.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图18.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19 19.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 8920.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元21.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.222.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是8823.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为5.5小时24.对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数25.对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数26.离散系数的主要目的是比较多组数据的离散程度27.两组数据的平均数不相等,但是标准差相等。
(完整word版)社会统计学简答题与计算题复习资料

社会统计学复习材料简答题1、统计数据的质量要求:1、精度:最低的抽样误差或随机误差;2、准确性:最小的非抽样误差或偏差;3、关联性:满足用户决策、管理和研究的需要;4、及时性:在最短的时间里取得并公布数据;5、一致性:保持时间序列的可比性;6、最低成本:以最经济的方式取得数据。
2、抽样误差及其影响因素:1、由于抽样的随机性所带来的误差;2、所有样本可能的结果与总体真值之间的平均性差异;3、影响抽样误差的大小的因素:样本量的大小,总体的变异性。
3、判断计量优劣的评判标准:用样本的估计量直接作为总体参数的估计值,无偏性:估计量抽样分布的数学期望等于被估计的总体参数;有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。
4、假设检验的一般步骤:(1)陈述原假设和备择假设;(2)从所研究的总体中抽出一个随机样本;(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值;(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域;(5)将统计量的值与临界值进行比较,作出决策;(6)统计量的值落在拒绝域,拒绝H0,否则不拒绝H0。
5、假设检验中的两类错误及其之间的关系错误:1、第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设,第Ⅰ类错误的概率记为a,即显著性水平;2、第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为b。
a和b的关系就像翘翘板,a小b就大,a大b就小。
因此,在样本容量n固定情况下,不能同时减少两类错误!一般采用增加样本容量的办法来解决。
关系:当显著性水平a减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是接受域增大了,因此纳伪的概率b要增大。
反之亦然(P235)。
也就是说如果要减小b,就增大显著性水平a。
6、置信区间与置信度的关系表达式:称作置信区间。
称作置信度,可信度,或置信水平。
社会统计学复习题

社会统计学复习题社会统计学复习题⼀、名词解释1、社会统计学2、中位数3、众数4、点估计:所谓点估计,就是根据样本数据算出⼀个单⼀的估计值,⽤它来估计总体的参数值。
5、区间估计:所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进⽽在点估计的基础上,确定总体参数的所在范围或区间。
6、置信区间:置信区间就是我们为了增加参数被估计到的信⼼⽽在点估计两边设置的估计区间。
7、消减误差⽐例:变量间的相关程度,可以⽤不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关系时预测Y 的误差1E ,再将其化为⽐例来度量。
将削减误差⽐例记为PRE 。
8、因果关系:变量之间的关系满⾜三个条件,才能断定是因果关系。
1)连个变量有共变关系,即⼀个变量的变化会伴随着另⼀个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由⾃变量的变化引起的;3)两个变量的产⽣和变化有明确的时间顺序,即⼀个在前,另⼀个在后,前者称为⾃变量,后者称为因变量。
9、正相关与负相关:正相关是指⼀个变量的值增加时,另⼀变量的值也增加;负相关是指⼀个变量的值增加时,另⼀变量的值却减少。
10、散点图:将相关表所⽰的各个有对应关系的数据在直⾓坐标系上画出来,以直观地观察X 与Y 的相互关系,即得相关图,⼜称散点图。
11、同序对:在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y Y <,则称这⼀配对是同序对。
12、异序对:在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y >Y ,则称这⼀配对是异序对。
13、⼤数定理:当我们的观察次数n 趋向⽆限时,随机事件可能转换为不可能事件或必然事件。
即,在⼤量观察的前提下,观察结果具有稳定性。
⼆、选择题6.下⾯能进⾏除法运算的测量尺度是()A 定⽐尺度B 定类尺度C 定距尺度7.教育程度是()的测量。
A 定⽐尺度B 定类尺度C 定距尺度D 定序尺度8.智商是()的测量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会统计学复习材料
简答题
1、统计数据的质量要求:
1、精度:最低的抽样误差或随机误差;
2、准确性:最小的非抽样误差或偏差;
3、关联性:满足用户决策、管理和研究的需要;
4、及时性:在最短的时间里取得并公布数据;
5、一致性:保持时间序列的可比性;
6、最低成本:以最经济的方式取得数据。
2、抽样误差及其影响因素:
1、由于抽样的随机性所带来的误差;
2、所有样本可能的结果与总体真值之间的平均性差异;
3、影响抽样误差的大小的因素:样本量的大小,总体的变异性。
3、判断计量优劣的评判标准:
用样本的估计量直接作为总体参数的估计值,
无偏性:估计量抽样分布的数学期望等于被估计的总体参数;
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。
4、假设检验的一般步骤:
(1)陈述原假设和备择假设;
(2)从所研究的总体中抽出一个随机样本;
(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值;
(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域;
(5)将统计量的值与临界值进行比较,作出决策;
(6)统计量的值落在拒绝域,拒绝H0,否则不拒绝H0。
5、假设检验中的两类错误及其之间的关系
错误:
1、第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设,第Ⅰ类错误的概率记为a ,即显著性
水平;
2、第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为b 。
a 和
b 的关系就像翘翘板,a 小b 就大,a 大b 就小。
因此,在样本容量n 固定情况下,
不能同时减少两类错误!一般采用增加样本容量的办法来解决。
关系:当显著性水平a 减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是
接受域增大了,因此纳伪的概率b 要增大。
反之亦然(P235)。
也就是说如果要减小b ,就
增大显著性水平a 。
6、置信区间与置信度的关系表达式:
()αεθθεθ
-=+≤≤-1ˆˆP []εθεθ+-ˆ,ˆ称作置信区间。
α-1称作置信度,可信度,或置信水平。
α称置信水平。
在样本容量一定的情况下,置信区间和置信度是相互制约的。
置
信度愈大,则相应的置信区间也域宽。
当把区间估计得小一些,估计的精确程度提高了,但换取的代价将是估错的可能性增加了,也就是可靠性或置信度
α-1下降了。
(P201)
7、正态分布曲线的特征:
(1)一个高峰:曲线是单峰,有一个最高点。
(2)一个对称轴。
曲线的高峰处有一个对称轴,在轴的左右两边是对称的。
(3)一个渐近线。
曲线无论向左或向右延伸,都愈来愈接近横轴,但不会和横轴相交,以
横轴为渐近线。
4.正态分布一般用()2,σμN 表示。
(P139)
8、方差分析的基本假定:
2222121m
i m y A A A σσσΛΛ=:
的分布具有相同的方差对应因变量,,变量的每一个取值:
等方差性要求总体中自(一)等方差性
体等方差性的标准。
的二三倍,作为检验总最小值
的最大值不应超过一般情况下,技术员勤杂工技术工人对样本而言,要求
2223322221122221252
.3902
.1408
.2i i m
S S S A S A S A S S S =======Λ
(二)e 的分布为正态分布
要求每一个Ai 所对应yi 的分布都呈正态。
总结起来,进行方差分析,要求总体中每一个自变量的取值对应的因变量yi 满足正态分布
()2,σμN
关系的。
明两者是有
没有关系,否则,则表与因变量自变量相等,则说明
,是否相等。
如果,就是研究
量与因变量是否有关,方差分析所研究的自变y x m m μμμμμμΛΛ2121
9、方差分析的基本原理和逻辑:
基本原理:变异的可加性。
根据这一原理,将数据的总变异分解为不同来源的变异(组间、组内),根据不同来源的变
异在总变异中所占的比重对造成数据变异的原因作出解释。
10、非参数检验的优缺点:
优点:没有严格的前提假设,对总体分布无需加以限制,计算量也比较少。
缺点:在同等情况下,检验的效率较差。
未能充分利用资料的全部信息,目前还不能处理交互作用。
(整理人:燕梅我会整理小组工作,其他科目有同学整理的请大家一起分享下哈这样大家备考都会更有效)。
其他知识点
◆随机现象:事先无法确定会出现那种结果的现象
总体:所研究的全部元素的集合,其中的每一个元素称为个体,分为有限总体和无限总体。
样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。
参数:研究者想要了解的总体的某种特征值。
统计量:根据样本数据计算出来的一个量。
◆变量:说明现象某种特征的概念。
分类变量:说明事物类别的一个名称。
顺序变量:说明事物有序类别的一个名称。
数值型变量:说明事物数字特征的一个名称。
离散变量:取有限个值;连续变量:可以去无穷多个值。
◆普查:为特定目的专门组织的非经常性全面调查。
典型调查:从调查对象的全部单位中选择少数典型单位进行调查。
重点调查:从调查对象的全部单位中选择少数重点单位进行调查。
◆数据质量的要求
误差:测量值与真实值之间的差异。
随机误差:在同一条件下,对同一量值进行多次测量时,其数值和符号以不可预见的方式而变化的那部分误差。
系统误差:在一定的测量条件下,对同一被测物进行多次重复测量时,误差值的大小和符号保持不变,或者在条件变化时,按一定规律变化的误差。
抽样误差:由于抽样的随机性所带来的误差。
非抽样误差:除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异。
◆分类数据的整理(指标)与图形
频数:落在各类别中的数据个数。
比例:某一类别数据占全部数据的比值,可以比较不同样本。
百分比:将对比的基数作为100而计算的比值。
比率:把计算比例时所用的基数变大,如100、1000、10000等,最常用的是百分比率。
对比值:不同类别数值的比值。
顺序数据的整理与显示:累积频数、累积频率
数值型数据的整理组限
统计表设计的要求:3W要求which when what 、集中趋势测量及计算、三者的比
较及应用。
◆离散程度的测量及运用计算:
题1:甲乙两同学分别来自一年级某班和二年级某班,某次期末考试,两同学均考了80分,一班的平均分为80分,标准差为10,二班的平均分为70分,标准差为10,这两个同学在班级上的成绩是否一样?
题2:
政治平均分为70,标准差为10,物理平均分为50,标准差为10。
甲乙两人的总成绩是否相同?
◆标准正态分布(表)的应用:(见P151)
◆抽样调查的方法:简单随机抽样,分为重复抽样、不重复抽样;等距抽样(机械抽样、
系统抽样);分层抽样(类型抽样、分类抽样),根据各层抽取比例是否相等,可分作定比抽样和异比抽样。
◆抽样误差:即指样本估计值与总体参数之间的差异,例如样本平均值X与总体均值u
之差。
◆参数估计:(见PPT)
◆回归、相关与假设检验:(见P333或PPT)
◆方差分析:是分析或检验总体间的均值是否有所不同,而不是方差是否有所不同,但其
检验所用的方法或手段则是通过方差来进行的。
方差分析分一元方差分析、二元方差分析以及多元方差分析。
◆非参数检验(P416):就是指“对分布类型已知总体、进行参数检验”之外,所有检验
方法的总称。
优点:对总体分布无须加以限制,计算量也比较少,简单易行;
缺点:检验的效率较差(费参数检验法一般要比用相应的参数检验需要较大的样本)。