统计学思考题
统计学思考题答案

统计学思考题一、名词解释1.参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。
所关心的参数主要有总体均值、标准差、总体比例等。
总体参数通常用希腊字母表示2.残差:因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示。
反映了用估计的回归方程去预测而引起的误差,可用于确定有关误差项ε的假定是否成立3.标准分数:变量值与其平均数离差除以标准差后的值就是标准分数也称标准化值或z分数。
P874.次序统计量:一组样本观测值X1,X2,…,X n由小到大的排序X(1)≤X(2)≤…≤ X (i)≤…≤ X(n)后,称X(1),X(2),…,X(n)为次序统计量。
中位数、分位数、四分位数等都是次序统计量5.β错误:原假设为伪是没有拒绝,犯这种错误的概率用表示,所以也称β错误或取伪错误6.α错误:原假设为真时拒绝原假设,犯这种错误的概率用α表示,所以也被称为α错误或弃真错误。
7.多元回归方程:描述因变量y 的平均值或期望值如何依赖于自变量x1,x2,…,x k的方程。
多元线性回归方程的形式为E( y ) = β+ β1 x1+ β2 x2+…+ βk x k8.多元回归模型:描述因变量y 如何依赖于自变量x1, x2,…, x k和误差项ε的方程,称为多元回归模型。
其一般形式为:E( y ) = β+ β1 x1+ β2 x2+…+ βk x k + ε9.多重判定系数:是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。
10.F分布:设随机变量Y与Z相互独立,且Y与Z分别服从于自由度为m和n的2χ分布,随机变量X有如下表达式:F=nY/mZ,则称X服从于第一自由度为m,第二自由度为n的F分布,记作X~F(m,n)11.方差分析:检验各个总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
统计学课后思考题答案

统计学课后思考题答案统计学课后思考题答案统计学课后思考题答案~~ 来源: 张倩倩Orange的日志在百度文库上下载下来的,奉献给同胞们~统计课后思考题答案第一章思考题1.1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。
1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。
1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。
它也是有类别的,但这些类别是有序的。
(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
统计学思考题最新版本

思考题(仅供参考)部分题目超出范围。
同学们仅作上课讲授过的题目即可二、判断题1、对于定性变量不能确定平均数.( )2、根据组距式数列计算的平均数、标准差等都是近似值.( )3、任何平均数都受变量数列中的极端值的影响.( )4、中位数把变量数列分成了两半,一半数值比它大,一半数值比它小.( )5、任何变量数列都存在众数.( )6、如果x <Me<M0,则变量分布存在右偏.( )7、若比较两个变量分布平均数代表性的高低,则方差或标准差大的平均数的代表性差.( )8、只要变量分布具有相同的标准差就会有相同的分布形状.( )9、在统计学实际应用中,调和平均数与算术平均数的计算形式虽然不同,但计算结果及其意义是一样的.( )10.各标志值平方和的算术平均数公式为 ( )11.各个变量值对其算术平均数的离差绝对值之和等于零。
( )12.计算加权算术平均数时,其权数必须是各组的次数或比率。
( )13.计算数值平均数时,要求资料中的各项数值必须大于零。
( )14.根据分组资料计算的算术平均数,只是一个近似值。
( )15.权数的绝对数越大,对算术平均数的影响也就越大。
( )16.组距数列条件下,众数的大小主要取决于众数组相邻两小次数多少的影响。
( )17.两个企业比较,若B A B A x x σσ>>,”,由此可以肯定B 企业生产的均衡性比A 企业好。
( )18.对于分组资料,若不同时期相比,各组平均数均程度不同地上升,则总平均数一定上升。
( )19.n 个同性质独立变量和的方差等于各个变量方差之和。
( )20.n 个同性质独立变量平均数的方差等于各变量方差的平均数。
( )21.变量的方差等于变量平均数的平方减变量平方的平均数。
( )22、峰态一词是由统计学家Galton 于1905年首次提出的。
它是对数据分布平峰或尖峰程度的测度。
( )三、选择题1、某工厂新工人月工资400元,工资总额为200000元,老工人月工资800元,工资总额80000元,则总平均工资为( )A 、 600元B 、 533.33元C 、466.67元D 、 500元2、标志变异指标是反映同质总体的( ).A 、集中程度B 、离中程度C 、一般水平D 、变动程度3、权数对算术平均数的影响作用,实质上取决于( )A 、作为权数的各组单位数占总体单位数比重的大小B 、各组标志值占总体标志总量比重的大小C 、标志值本身的大小D 、标志值数量的多少4、对于不同水平的总体不能直接用标准差比较其标志变动度,这时需分别计算各自的( )来比较A.标准差系数B.平均差C.全距D.均方差5、统计学中最重要的离散指标是( ).A 、平均差B 、全距C 、标准差D 、变异系数6、离散指标中受极端值影响最大的是( )A 、平均差B 、全距C 、标准差D 、方差7、假如学生的考试成绩用优秀、良好、中等、及格和不及格来表示,则全班考试成绩的水平高低应该用什么平均数来说明?( )A 、算术平均数B 、众数C 、众数或中位数D 、中位数8、若两个变量数列的标准差相等且计量单位相同,但平均数不相等,则( )A 、平均数大者代表性强B 、平均数小者代表性强C 、两个平均数的代表性一样D 、无法判断哪个平均数的代表性强9、某企业有A 、B 两个车间,去年A 车间人均产量3.6万件,B 车间人均产量3.5万件.今年A 车间人数增加6%,B 车间增加8%.如果两个车间的人均产量都保持不变,则该企业今年总的人均产量与去年相比( )A 、上升B 、下降C 、不变D 、不能确定如何变化10、已知某变量分布属于钟形分布且M0=900,Me=930,则( )A 、x <900B 、900<x < 930C 、x >930D 、x =91511.受极大值影响较大的平均数是( )。
《统计学》课后思考题

《统计学》课后思考题《统计学》课后思考题第⼀章导论1、解释描述统计和推断统计描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计⽅法。
推断统计:研究如何利⽤样本数据来推断总体特征的统计⽅法。
2、统计数据可分为哪⼏个类型?不同类型的数据各有什么特点?3、举例说明总体、样本、参数、统计量、变量这⼏个概念总体:所研究的全部元素的集合,其中的每⼀个元素称为个体。
eg.要检验⼀批灯泡的使⽤寿命,这批灯泡构成的集合就是总体。
样本:从总体中抽取的⼀部分元素的集合。
eg.从⼀批灯泡中随机抽取100个,这100个灯泡就构成了⼀个样本。
参数:研究者想要了解的总体的某种特征值。
eg.总体平均数⽤µ表⽰,总体标准差⽤σ表⽰。
统计量:根据样本数据计算出来的⼀个量。
eg.样本标准差⽤s表⽰变量:说明现象某种特征的概念。
eg.商品销售额、受教育程度等第三章数据的图表展⽰1、分类数据和顺序数据的整理和图⽰⽅法各有哪些分类数据整理:频数、⽐例、百分⽐、⽐率图⽰:条形图、帕累托图、饼图、环形图顺序数据整理:累计频数、累计频率(累计百分⽐)图⽰:累计频数分布图和累计频率分布图分类数据的整理和图⽰⽅法同样适⽤于顺序数据2、茎叶图与直⽅图相⽐有什么优点?它们的应⽤场合是什么?茎叶图是由“茎”和“叶”两部分组成的、反映原始数据分布的图形,其图形是由数字组成的。
通过茎叶图,可以看数据的分布形状及数据的离散状况。
与直⽅图相⽐,茎叶图既能给出数据的分布状况,⼜能给出⼀个原始数值,即保留了原始数据的信息。
⽽直⽅图不能给出原始数值。
在应⽤⽅⾯,直⽅图⼀般适⽤于⼤批量数据,茎叶图通常适⽤于⼩批量数据。
第四章数据的概括性度量1、⼀组数据的分布特征可以从哪⼏个⽅⾯进⾏测度?⼀是分布的集中趋势,反映各数据向其中⼼值靠拢或聚集的程度;⼆是分布的离散程度,反映各数据远离其中⼼值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2、简述众数、中位数和平均数的特点和应⽤场合(1)众数特点:是⼀组数据分布的峰值,不受极端值影响。
(完整版)统计学思考题

1.1请举出统计应用的几个例子:1。
用统计识别作者:对于存在争议的论文,通过统计量推出作者 2.用统计量得到一个重要发现:在不同海域鳗鱼脊椎骨数量变化不大,推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的3。
挑战者航天飞机失事预测1。
2请举出应用统计的几个领域:1.在企业发展战略中的应用2。
在产品质量管理中的应用3。
在市场研究中的应用 4.在财务分析中的应用 5.在经济预测中的应用1.3你怎么理解统计的研究内容:1。
统计学研究的基本内容包括统计对象、统计方法和统计规律. 2 .统计对象就是统计研究的课题,称谓统计总体。
3。
统计研究方法主要有大量观察法、数量分析法、抽样推断法、实验法等。
4.统计规律就是通过大量观察和综合分析所揭示的用数量指标反映的客观现象的本质特征和发展规律。
1.4举例说明分类变量、顺序变量和数值变量:1.分类变量:表现为不同类别的变量称为分类变量,如“性别”表现为“男”或“女”,“企业所属的行业”表现为“制造业”、“零售业"、“旅游业"等,“学生所在的学院”可能是“商学院"、“法学院"等2。
顺序变量:如果类别有一定的顺序,这样的分类变量称为顺序变量,如考试成绩按等级分为优、良、中、及格、不及格,一个人对事物的态度分为赞成、中立、反对。
这里的“考试成绩等级”、“态度"等就是顺序变量。
3。
数值变量:可以用数字记录其观察结果,这样的变量称为数值变量,如“企业销售额"、“生活费支出”、“掷一枚骰子出现的点数”。
1。
5获得数据的概率抽样方法有哪些?(1)简单随机抽样,简单随机抽样又称纯随机抽样,是指在特定总体的所有单位中直接抽取n个组成样本。
它最直观地体现了抽样的基本原理,是最基本的概率抽样。
(2)系统抽样,系统抽样也称等距抽样或机械抽样,是按一定的间隔距离抽取样本的方法.(3)分层抽样,分层抽样也叫分类抽样,就是先将总体的所有单位依照一种或几种特征分为若干个子总体,每一个子总体即为一类,然后从每一类中按简单随机抽样或系统随机抽样的办法抽取一个子样本,称为分类样本,它们的集合即为总体样本。
统计学第一章思考题及习题

统计学第一章思考题及习题第一章思考题及习题:?单选题:?1.在统计学的形成和发展过程中,首先将古典概率论引入社会经济现象研究的学者是( A)。
?A.阿道夫・凯特勒B.威廉・配第C.约翰・格朗特D.赫尔曼・康令B.构成总体的单位,必须是不同的?2. 在确定统计总体时必须注意()A。
?A. 构成总体的单位,必须是同质的?C.构成总体的单位,不能有差异D.构成总体的单位,必须是不相干的单位?3.一个统计总体(D)。
?A.只能有一个标志 B.只能有一个指标 C.可以有多个标志D.可以有多个指标?4.在某地区2021年GDP和人均GDP资料中,属于下面哪一种类统计指标(B)。
?A.客观指标和主观指标 B.数量指标和质量指标?C.时期指标和时点指标 D.实体指标和行为指标?5.对某市高等学校科研所进行调查,统计总体是(D)。
?A.某市所有的高等学校B.某一高等学校科研所?C.某一高等学校D. 某市所有高等学校科研所?6.要了解某市国有工业企业设备情况,则统计总体是(?)。
?A.该市全部国有工业企业B.该市每一个国有工业企业?C.该市国有工业企业的全部设备D.该市国有工业企业的每一台设备?7.有200个公司全部职工每个人的工资资料,如要调查这200个公司职工的工资水平情况,则统计总体为(A)。
?A.200个公司的全部职工工资 B.200个公司 C.200个公司职工的全部工资 D.200个公司每个职工的工资?8.下列标志中属品质标志的是(A)?A.性别B.年龄C.商品价格D.工业企业的总产值?9.某企业职工人数为1200人,这里的“职工人数1200人”是(C)。
?A.标志B.变量C.指标D.标志值?10.某班四名学生统计学考试成绩分别为70分、80分、86分和95分,这四个数字是(B)。
?A.标志B.标志值C.指标D.变量?11.工业企业的职工人数、职工工资是(D)。
?D.前者是离散型变量,后者是连续型变量?A.连续型变量B.离散型变量C.前者是连续型变量,后者是离散型变量?多选题:?1.对某市工业生产进行调查,得到以下资料,其中的统计指标是(BCE)。
统计学统计学思考题4时间序列414思考题4

f l f 2…仁45.用水平法计算的平均发展速度推算,可使 ()A. 推算的期末水平等于实际期末水平B. 推算的各期水平等于实际各期水平C. 推算的各期实际水平之和等于实际各期水平之和D. 推算的各期定基发展速度等于实际的各期定基发展速度 6•增长量( )第4章时间序列一、单项选择题: 1.动态数列中,每项指标数值可以相加的是 () A.时期数列 B. 时点数列 C.相对数动态数列 D. 平均数动态数列 2. 序时平均数与一般平均数的共同点是 ( )A. 两者均反映同一总体的一般水平B. 都反映现象的一般水平 C •两者均可消除现象波动的影响 D.共同反映同质总体在不同时间上的一般水平 3. 为便于对比分析,要求时点数列指标数值间的时间间隔 () A.必须连续 B. 最好连续C. 必须相等D. 最好相等4.已知某银行1999年上半年现金库存额如下:求该银行上半年平均现金库存额应采用的公式是 ()A. aB.C. a a 2 ■...引2 2n -1 a ia 2f la 2a 3n -4a nD. aC.可以是正数,也可以是负数D.以上说法都不正确7. 在统计分析中,通常将所研究的那一时期的指标水平称为 ( ) A. 报告期水平 B. 基期水平 C. 计划期水平 D. 核算期水平 8. 动态数列中的各期指标 ( )A. 计算方法和计量单位应该一致B. 计算方法应该一致,计量单位可以不一致C. 计算方法不一定一致,但计量单位必须一致D. 计算方法和计量单位都不一定一致9. 当时期数列分析的目的侧重于研究某现象在各时期发展水平的累计总和时, 应采用( )A. 算术平均法计算平均发展速度B. 调和平均法计算平均发展速度C. 累计法计算平均发展速度 D •水平法计算平均发展速度10. 将某一项指标在不同时间上的数值,按其时间先后顺序排列成的数列,11. 绝对数动态数列是动态数列的14. 用来进行比较的基础时期的发展水平称为 A.只能是正数B. 只能是负数称为A. 分配数列B. 次数数列C. 变量数列D. 动态数列A. 派生数列B.般数列C.基础数列D.品质数列12. 序时平均数是根据( )计算的。
统计学 教材习题解答(09-12-16)

第一章总论思考题:1.什么是统计,一般有几种理解?2.什么是标志和指标,两者之间有何区别与联系?3.为什么说统计是认识社会的有力武器?4.统计工作包括几个步骤,它们各是什么?5.什么是统计指标,它具有哪些特点?6.举例说明总体、总体单位、标志、指标、指标体系、变异、变量。
第二章统计调查思考题1.什么是统计调查方案?统计调查方案包括哪些内容?2.什么是普查?什么是统计报表?两者有何区别?3.什么是重点调查?如何选择重点单位?第三章统计整理思考题1、什么是统计整理?应按怎样的步骤进行?2、什么是统计分组?它有什么作用?以一实例说明统计分组应遵循的原则。
3、什么是分布数列?它有哪几种?怎样编制分布数列?它有哪些表示方法?4、什么是统计汇总?它有哪几种组织形式和具体技术方法?5、统计表是怎样构成的?编制统计表时应注意哪些问题?习题(51页)6、某班组20名工人的资料如下:要求:(1)按性别、文化程度和技术等级分别编制分布数列;(2)按组距20—30,30—40,40—50,50岁以上分组编制组距数列解:(1)某班组工人性别情况表某班组工人文化程度情况表某班组工人技术等级情况表(2)某班组工人年龄分布表7、某车间50名工人工资如下:(单位:元)380 390 400 410 420 460 470 910 600 960 560 560 570 570 580 430 480 690 590 590 560 550 550 530 520 520 490 600 620 620 860 790 780 680 700 720 650 630 640 630 830 810 750 680 680 750 650 660 660 880 要求:(1)按组距50元编制变量数列(2)按组距100元编制变量数列(3)比较上述两种分组哪种更合适解:(1)按组距50元编制变量数列某车间工人工资分布表(2)按组距100元编制变量数列某车间工人工资分布表(3)按100元分组更合适8、设有甲、乙两个企业某年末有关资料如下:要求:设计一张主词按甲、乙企业分组,宾词作复合设计的统计表,表明甲、乙企业的职工总数和不同工龄中的男、女人数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章导论1、统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照所采用的计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
按照统计数据的收集方法,可以将其分为观测数据和实验数据。
按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。
分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据是只能归于某一有序类别的非数字型数据。
顺序数据虽然也是类别,但这些类别是有序的,是用文字来表述的。
数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。
现实中处理的大多数都是数值型数据。
2、解释分类数据、顺序数据和数值数据的意义。
对分类数据,我们通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对顺序数据,可以计算其中位数和四分位差,计算等级相关系数等;对数值型数据,可以用更多的统计方法进行分析,如计算各种统计量,进行参数估计和检验等3、举例说明总体、样本、参数、统计量、变量这几个概念。
总体:是包含所研究的全部个体的集合,它通常由所研究的一些个体组成。
如多个企业构成的集合,多个居民户构成的集合,多个人构成的集合样本:是从总体中抽出的一部分元素的集合。
如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。
参数:是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。
在统计中,总体参数通常用希腊字母表示,如,总体平均数用u(miu)表示,总体标准差用(sigma)表示,总体比例用(pai)表示,等。
统计量:是用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。
样本统计量通常用英文字母来表示。
如,样本平均数用(x-bar)表示,样本标准车用s表示,样本比例用p表示,等。
变量:是说明现象某种特征的概念。
如,商品销售额,受教育程度,产品的质量等级等。
4、变量可分为哪几类?变量可以分为分类变量、顺序变量、数值型变量,数值型变量根据其取值的不同,又可分为离散型变量和连续型变量。
分类变量是说明事物类别的一个名称,顺序变量是说明事物有序类别的一个名称,数值型变量是说明事物数字特征的一个名称。
5、举例说明离散型变量和连续性变量。
离散型变量是只能取可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举,如,企业量,产品数量;连续型变量是可以在一个或多个区间中取任何值的变量。
它的取值是连续不断的,不能一一列举,如,年龄,温度,零件尺寸的误差等。
第二章数据的搜集1、比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样也称随机抽样,是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
它具有以下几个特点:首先,抽样时是按一定的概率以随机抽样原则抽取样本;其次,每个单位被抽中的概率是已知的,或是可以计算出来的;最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
如果调查的目的在于掌握研究对象总体的数量特征,根据调查的结果对总体参数进行评估,得到总体参数的置信区间,就应当采用概率抽样的方法。
非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做好准备。
非抽样调查也适合市场调查中概念测试,如产品包装测试、广告测试等。
第三章数据的图表表示1、分类数据和顺序数据的整理和图示方法各有那些?分类数据的整理方法有频数和频数分布,图示方法有条形图、帕累托图、饼图、环形图;顺序数据的整理方法有累积频数和累积频率,图示方法有累积频数分布和频率图。
2、数值型数据的分组方法有哪些?简述组距分组的步骤。
数据分组的方法有单变量值分组和组距分组。
组距分组的步骤:(1)确定组数,一般数据所分组数不应少于5组且不多于15组;(2)确定各组的组距,组距=(最大值-最小值)/组数,组距宜取5或10的倍数;(3)确定上下限,第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。
3、直方图与条形图有何区别?直方图与条形图不同。
首先,条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
第四章数据的概括性变量1、一组数据的分布特征可以从那几个方面进行测度?一组数据的分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2、对于比率数据的平均为什么采用几何平均?3、简述众数、中位数、和平均数的特点和应用场合。
众数是一组数据分布的峰值,不受极端值的影响。
其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。
众数只有在数据量较多时才有意义,当数据量较少时,不宜采用众数。
众数主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受数据极端值的影响。
当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。
中位数主要适合作为顺序数据的集中趋势测度值。
平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。
当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等时,这时则应选择平均数作为集中趋势的测度值。
但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。
因此,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数或众数,这时它们的代表性要比平均数好。
4、为什么要计算离散系数?方差和标准差是反映数据离散程度的绝对值,其数值的大小一方面受原变量值自身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平低的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。
因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
离散系数也成为变异系数,它是一组数据的标准差与其相应的平均数之比,其计算公式为:v s=s/(x-bar),离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。
离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
第五章参数估计1、怎样理解置信区间?在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限,由于统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。
2、解释95%的置信区间如果抽取了许多不同的样本,比如说抽取了100个样本,根据每一个样本构造一个置信区间,这样,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真值,而5%则没包含,则95%这个值称为置信水平。
一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例成为置信水平,也称为置信度或置信系数。
第六章假设检验1、什么是假设检验中的显著性水平?统计显著是什么意思?通常把(a-er-fa)称为显著性水平,显著性水平是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05或0.01.2、什么是假设检验中的两类错误?对于原假设提出的命题,我们需要做出判断,这种判断可以用“原假设正确”或“原假设错误”来表述。
当然,这是依据样本提供的信息进行判断的,也就是由部分来推断,总体。
因而判断有可能正确,也有可能错误,也就是说,我们面临着犯错误的可能。
所犯的错误有两种类型,第一类错误是原假设H0为真却被我们拒绝了,犯这种错误的概率用(a-er-fa)表示所以成为其真错误;第二类错误是原假设为伪我们却没有拒绝,犯这类错误的概率用(bei-ta)表示,所以成为取伪错误。
3、解释假设检验中的P值。
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。
第七章方差分析1、什么是方差分析?它研究的是什么?方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型隐变量是否有显著影响。
方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。
2、简述方差分析的基本思想。
为了研究分类型自变量对对数值型因变量的影响,需要从对数据误差来源的分析入手,误差主要分为组内误差和组间误差,组内误差只包含随机误差,而组间误差除了包含随机误差,还会包含系统误差。
3、解释组内误差和组间误差的含义。
组内误差(SSE):反映组内误差大小的平方和,也称为残差平方和,是由于抽样的随机性所造成的随机误差。
它反映了每个样本内各观测值之间的离散状况。
组间误差(SSA):反映组间误差大小的平方和,也称为因素平方和,是随机误差和系统误差的总和。
它反映了样本均值之间的差异程度。
4、解释则内方差和组间方差的含义。
组间误差和组内误差经过平均后的数值称为均方或方差。
组间方差(MSA)=组间平方和/自由度(SSA/k-1)组内误差(MSE)=组内平方和/自由度(SSE/n-k)5、简述方差分析的基本步骤。
1、提出假设;2、构造检验的统计量;(1)计算各样本的均值(2)计算全部观测值的总均值(3)计算各误差平方和(4)计算统计量3、统计决策;4、方差分析表;5、用Excel进行方差分析。
第八章一元线性回归1、解释相关关系的含义,说明相关系的特点。
相关关系1)变量间关系不能用函数关系精确表达;2)一个变量的取值不能由另一个变量唯一确定;3)当变量x 取某个值时,变量y 的取值可能有几个。
2、相关分析主要解决那些问题?相关分析就是对两个变量之间线性关系的描述和度量,它要解决的问题包括:(1)变量之间是否存在关系;(2)如果存在关系,它们之间是什么样的关系;(3)变量之间的关系强度如何;(4)样本之间的变量关系是否能代表总体变量之间的关系?3、解释回归模型、回归方程、估计的回归方程的含义。