统计思想有统计数据的类型
统计学(第六版)期末考试考点梳理

统计学(第六版)期末考试考点梳理统计学(第六版)期末考试考点梳理第⼀章导论1.1.1 什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所⽤的⽅法分为描述统计⽅法和推断统计⽅法。
1.2 统计数据的类型1.2.1 分类数据、顺序数据、数值型数据按照所采⽤的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。
分类数据:只能归于某⼀类别的⾮数字型数据,它是对事物进⾏分类的结果,数据表现为类别,是⽤⽂字来表⽰。
例如:⽀付⽅式、性别、企业类型等。
顺序数据:只能归于某⼀有序类别的⾮数字型数据。
例如:员⼯对改⾰措施的态度、产品等级、受教育程度等。
数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。
例如:年龄、⼯资、产量等。
统计数据⼤体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。
1.2.2 观测数据和实验数据按照统计数据的收集⽅法,可以分为观测数据和实验数据。
观测数据:通过调查或观测⽽收集的数据。
例如:降⾬量、GDP、家庭收⼊等。
实验数据:在实验中控制实验对象⽽收集到的数据。
例如:医药实验数据、化学实验数据等。
1.2.3 截⾯数据和时间序列数据按照被描述的现象与时间的关系,可分类截⾯数据和时间序列数据。
截⾯数据:在相同或近似相同的时间点上收集的数据。
例如:2012年我国各省市的GDP。
时间序列数据:同⼀现象在不同的时间收集的数据。
例如:2000-2012年湖北省的GDP。
1.3.1 总体和样本总体:包含所研究的全部个体(数据)的集合。
样本:从总体中抽取的⼀部分元素的集合。
1.3.2 参数和统计量参数:⽤来描述总体特征的概括性数字度量。
统计量:⽤类描述样本特征的概括性数字度量。
例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭⽤于推断该乡镇所有农村居民家庭的年⼈均纯收⼊。
这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的⼈均纯收⼊;统计量是1000个家庭的⼈均纯收⼊。
初中数学统计数据的方法

初中数学统计数据的方法
初中数学中,统计数据的方法是重要的知识点之一。
统计数据是数学中常见的一部分,它涉及到数据的收集、整理、分析和解释。
掌握正确的统计数据方法可以帮助学生们更好地理解和运用数据,也为以后的数学学习奠定了基础。
一、统计数据的类型和重要性
统计数据可以分为许多不同的类型,如数值数据、图像数据、饼图、柱状图等。
这些数据可以帮助我们理解数据的分布、趋势和关系。
在现实生活中,我们经常需要分析和解释各种类型的数据,因此掌握统计数据的处理方法是非常重要的。
二、如何收集和整理数据
收集和整理数据是统计数据方法的基本步骤。
学生们应该学会如何从不同的来源获取数据,如何将数据分类和排序,以及如何将数据以表格或图形的方式呈现出来。
这些步骤可以帮助学生们更好地理解数据的结构和关系。
三、如何分析数据
分析数据是统计数据方法的另一个重要步骤。
学生们应该学会如何使用不同的统计工具和技术来分析和解释数据。
例如,他们应该学会如何计算平均值、标准差、趋势等,如何识别数据中的异常值和离群点,以及如何使用图表来解释数据。
四、如何解释数据
解释数据是统计数据方法的最后一步。
学生们应该学会如何将统计数据与实际生活联系起来,如何用简单明了的语言向其他人解释数
据的重要性和意义。
通过这些步骤,学生们可以更好地理解和应用统计数据的方法。
总的来说,初中数学中的统计数据方法是一个重要的知识点,需要学生们认真学习和掌握。
通过正确的步骤和方法,学生们可以更好地理解和运用数据,为以后的数学学习奠定坚实的基础。
新版南京信息工程大学应用统计专硕考研真题考研经验考研参考书

回首过去一年的各种疲惫,困顿,不安,怀疑,期待等等全部都可以告一段落了,我真的是如释重负,终于可以安稳的让自己休息一段时间了。
虽然时间如此之漫长,但是回想起来还是历历在目,这可真是血与泪坚坚实实一步步走来的。
相信所有跟我一样考研的朋友大概都有如此体会。
不过,这切实的果实也是最好的回报。
在我备考之初也是看尽了网上所有相关的资料讯息,如大海捞针一般去找寻对自己有用的资料,所幸的是遇到了几个比较靠谱的战友和前辈,大家共享了资料和经验。
他们这些家底对我来讲还是非常有帮助的。
而现如今,我也终于可以以一个前人的姿态,把自己的经验下下来,供大家翻阅,内心还是比较欣喜的。
首先当你下定决心准备备考的时候,要根据自己的实际情况、知识准备、心理准备、学习习惯做好学习计划,学习计划要细致到每日、每周、每日都要规划好,这样就可以很好的掌握自己的学习进度,稳扎稳打步步为营。
另外,复试备考计划融合在初试复习中。
在进入复习之后,自己也可以根据自己学习情况灵活调整我们的计划。
总之,定好计划之后,一定要坚持下去。
由于篇幅较长,还望各位同学能够耐心看完,在结尾处附上我的学习资料供大家下载。
南京信息工程大学应用统计的初试科目为:(101)思想政治理论(204)英语二(303)数学三和(432)统计学。
参考书目为:1.《概率论与数理统计》,茆诗松,第二版,高等教育出版社。
2.《统计学》贾俊平第5版。
南京信息工程大学硕士研究生招生入学考试考试大纲科目代码:432科目名称:统计学第一部分大纲内容一、绪论1. 统计数据的类型2. 统计中的几个基本概念二、统计数据的收集、整理与显示1. 调查的组织和实施2. 概率抽样与非概率抽样3. 数据预处理4. 利用图形显示统计数据5. 统计表的构成内容和设计方法三、统计数据的描述1. 用分布特征概括描述数据分布的特征和规律2. 集中趋势的度量3. 离散程度的度量4. 偏态和峰态的度量四、概率基础1. 随机现象与随机事件2. 概率的性质及其计算3. 随机变量及其分布4. 几种常用的概率分布五、抽样分布与参数估计1. 抽样的基本概念,大数定理与中心极限定理,2. 抽样平均数的抽样分布,样本比例的抽样分布,两样本平均值之差的分布,样本方差的分布3. 参数估计的基本原理4. 一个总体参数的区间估计5. 样本容量的确定六、假设检验1. 假设检验的基本概念,检验统计量,显著性水平,P值与临界值,双侧检验与单侧检验,假设检验的两类错误2. 总体均值的假设检验,总体比例的假设检验,总体方差的检验七、分类数据分析1. 分类数据与卡方统计量2. 拟合优度检验,独立性检验3. 列联表中的相关测量八、方差分析1. 方差分析的基本原理、基本假定、问题提法2. 单因素和双因素方差分析的实现和结果解释九、相关与回归分析1. 变量间的关系,相关关系的种类,相关图2. 相关系数及其检验,一元线性回归模型及其估计、检验、预测3. 多元线性回归模型,多元线性回归模型的检验与预测,复相关系数与偏相关系数4. 多重共线性现象、判别、处理5. 变量选择与逐步回归十、时间序列分析1. 时间序列的概念,种类,时间序列的构成与分解2. 长期趋势的测定方法,季节成分的确定3. 时间序列的类型和预测方法的选择4. 平稳序列的预测第二部分说明1、基本要求:掌握统计学基本概念,理解考试范围内的各种统计方法的统计思想,掌握数据收集、处理和分析的基本方法、基本原理,掌握概率论基本知识,具有运用统计方法解决实际问题的基本能力。
数学的数学统计

数学的数学统计数学是一门研究数量、结构、变化以及空间等概念的学科。
它涵盖了许多不同的分支,其中之一就是数学统计。
数学统计是一种通过收集、整理、分析和解释数据来研究和描述现象的方法。
在各个领域中,数学统计起着重要的作用,为决策和预测提供支持。
数据是数学统计的基础。
数据可以是数值、观察结果、调查结果等,它们被收集和整理,以便进行进一步的分析。
数据的收集可以通过实验、观察、调查和抽样等方法进行。
在数学统计中,数据一般分为两类:定量数据和定性数据。
定量数据以数字形式表示,可以进行计算和比较。
定性数据则是描述性的,以文字或符号形式表达。
统计学是数学统计的重要分支,它包括了描述统计和推断统计两个方面。
描述统计是对已有数据的整理、概括和分析,它通过获得数据的中心趋势、离散程度以及相关关系等指标来揭示数据的特征。
常用的描述统计方法有均值、中位数、众数、方差和标准差等。
推断统计则通过对样本数据进行推断,来对总体的特征进行估计和推测,以及对假设进行检验。
数学统计的应用广泛存在于各个领域中。
在经济学中,数学统计用于分析市场趋势、预测经济发展和制定经济政策。
在医学领域,数学统计可以帮助研究人员分析患者的健康状况、评估治疗效果以及探索疾病的发病原因。
在社会科学中,数学统计用于研究人口统计、社会调查和心理测量。
此外,在工程、物理、生物学等领域中,数学统计都扮演着重要的角色。
为了进行正确的数学统计分析,必须遵循一定的原则和方法。
首先,数据的收集需要尽可能具有代表性,以确保结果的准确性。
其次,数据的处理和分析要科学严谨,依据正确的统计原理和模型。
同时,数据解释和结果的推断要考虑到潜在的误差和随机性。
最后,数据结果的呈现要清晰易懂,以便读者理解和应用。
总而言之,数学统计是数学的一个重要分支,通过收集、整理、分析和解释数据来研究和描述现象。
它在各个领域中具有广泛的应用,为决策和预测提供支持。
对于进行数学统计分析的人士来说,合理收集和处理数据,正确应用统计方法和模型,以及清晰呈现结果是非常重要的。
统计学中的统计思想

刘 丽娟 ’ 唐 山 陶 瓷股 份 有 限 公 司研 究 院 张 鹏 唐 山 学 院
【 摘 要 】 我 们平 时 所 说 的 统 计 思 想 是 在 我 们 的 实 际 工 作 所 必 须 遵 循 的 基 本理 念 和 指 导 思 想 。 ,其 主 要 包括 值 思 想 、 变异 思 想 、估 计 思 想 、 相 关 思 想 、拟 合 思 想 、检 验 思 想 等 思 想。 文 q 通 过 作 者 自身 多年 的 工 作 经 验 总 结 和 对 统 计 思 想 的 理 解 和 认 识 ,提 出 了对 于 -
计思 想 、 关 思 想 、 合思 想 、 验 思 想 。 这几 种 思 想 我 们简 单 的 现 分述 相 拟 检 就
如下 : 均值 思 想 是对 所要 研 究 对象 的 简 明 而重 要 的代 表 。 均值 概 念几 乎 涉及
所 有 统计 学 理论 , 统计 学 的 基本 思 想 。 是 均值 思 想 也要 求 从 总体 上 看 问题 , 但要 求观 察 其一 般 发展 趋 势 , 概 率 的 干扰 , 以它 是 一种 总 体 的 思想 。 避免 所 统计 研 究 同类 现象 的总 体特 征 , 的前 提是 需 要 我们 各 个研 究 对 象 存 它 在 差异 的 。 计方 法 要求 我们 认 识事 物 的各 个方 面 差异 。 统 统计 学 当 中我 们反 映 差异 应 用 的 是方 差 , 是表 示 “ 异 ”的 “ 变 一般 水 平 ”的概 念 。平均 与 变异 都是 对 同类 事物 特 征的 抽象 和宏 观 度量 。 估 计 其实 是 我们 所 说 的 由一 个看 全 面 , 是对 同类 事物 的 由此及 彼 式 的 认识 方 法 。 估 计方 法有 一 个 预设 : 所 找 的样 本 可 以代 表总 体 。但样 使用 我们 。 本 的代表 性受 偶然 因素 影 响 , 估计理 论 对置 信程 度 的测量 就 是保 持逻 辑严 在 谨 的必要 步 骤 。 我 们 其 实认 为 事物 是 普遍 存 在 联 系 的 , 变 化 中 , 常 出 现一 些 事 物 在 经 相互 随 同变化 的情 况 , 们 所说 的总 体 又 是 由许多 个 别事 务 所组 成 , 些 而我 这 个别事 物 都是相 互 关联 的 , 我们所 研 究 的事物 总体 其 实是在 同 一个 胜质 的基 础上 形 成 的 。 因而 , 们所 研 究 的 总体 个 体 , 体 总体 是相 互联 系密 不 可分 我 个
统计知识应知应会手册

统计知识应知应会手册统计知识是一种重要的工具,它被广泛应用于医学研究、商业分析、社会科学等领域。
作为一名统计学爱好者或学习者,掌握一些基本的统计知识非常重要。
本手册将为您介绍一些应知应会的统计知识,希望能为您的学习提供帮助。
一、统计学的基本概念1. 统计学的定义和作用统计学是一门研究数据收集、处理和分析的学科,它为我们提供了理解和解释数据的工具和方法。
2. 数据的类型和测量尺度数据分为定性数据和定量数据两种类型,定性数据是以文字或符号表示的,而定量数据是用数字表示的。
测量尺度有四种:名义尺度、序数尺度、区间尺度和比例尺度。
3. 有效样本和总体在统计学中,我们经常使用样本来推断总体的特征。
一个有效的样本应当具有代表性,并能够准确反映总体的情况。
二、数据的收集与整理1. 数据的来源数据可以从实验、观察、调查等渠道获得。
在选择数据来源时,要确保数据的可靠性和准确性。
2. 数据采集方法常用的数据采集方法有问卷调查、实验、观察等。
在采集数据时,要注意问题的设计和取样的方法。
3. 数据整理和清洗在获得数据后,需要对数据进行整理和清洗,去除异常值和错误数据,以保证后续分析的准确性和可信度。
三、描述统计与推断统计1. 描述统计描述统计是通过统计指标和图表对数据进行总结和描述。
常用的描述统计指标包括均值、中位数、标准差等。
2. 推断统计推断统计是通过样本对总体进行推断。
常用的推断统计方法有假设检验、置信区间等。
四、概率与随机变量1. 概率的基本概念概率是描述事件发生可能性的数值,它的取值范围在0到1之间。
常用的概率计算方法有频率法和古典概率法。
2. 随机变量与概率分布随机变量是用于描述随机试验结果的变量,它可以是离散型的或连续型的。
概率分布是随机变量各取值的概率。
五、统计推断与假设检验1. 统计推断的基本思想统计推断是通过样本对总体进行推断,它的基本思想是根据样本所提供的信息来推断总体的特征。
2. 假设检验的基本原理假设检验是用于检验某个关于总体的假设是否成立的统计方法。
数学数据分析统计

数学数据分析统计数据分析是数学中一个重要的分支,它通过对数据的收集、整理、处理和解释,帮助我们揭示现象背后的规律和趋势。
统计学作为数据分析的一种方法论,提供了有效的工具和技术来解决现实世界中的各种问题。
本文将介绍数学数据分析统计的基本概念和应用,以及它们在各个领域中的价值。
一、数据收集数据收集是数据分析的第一步,它包括确定研究目标、制定调查计划、设计问卷和采集数据等环节。
在这个过程中,统计学提供了抽样技术和调查方法,帮助我们从整体中获取样本,以便做出对总体的推断。
例如,我们要评估某一产品的市场份额,可以通过抽取一定数量的消费者进行调查,然后利用统计学方法来估计整个市场的情况。
二、数据整理数据整理是将收集到的原始数据转换为可供分析的格式,包括数据清洗、变量构建、缺失值处理等步骤。
在这个过程中,统计学提供了描述性统计的方法,如计算均值、中位数、标准差等,帮助我们了解数据的基本特征。
此外,统计学还提供了可视化方法,如绘制直方图、散点图和箱线图等,帮助我们展现和交流数据的信息。
三、数据处理数据处理是利用数学模型和统计方法对数据进行分析和推断,从而得出结论或作出预测。
统计学提供了各种方法,如假设检验、回归分析、时间序列分析等,帮助我们研究变量之间的关系和变化趋势。
例如,在医学研究中,统计学可以帮助我们评估某种治疗方法的疗效,并判断其与其他方法的差异是否显著。
四、数据解释数据解释是将分析结果转化为易于理解和接受的形式,并对结论的可靠性进行评估。
在这个过程中,统计学提供了推论统计的方法,如置信区间、样本容量计算等,帮助我们给出结果的不确定性范围和置信水平。
此外,统计学还提供了交叉验证和模型选择的技术,帮助我们验证和改进分析模型,提高结果的准确性和可靠性。
五、数据应用数据分析统计在各个领域中都有广泛的应用。
在经济学领域,统计学可以帮助我们分析经济增长的影响因素、预测市场走势,并做出相应的政策建议。
在社会学领域,统计学可以帮助我们研究人口特征、社会关系和社会变迁等问题。
统计学ppt课件

包括Wilcoxon符号秩次检验、McNemar检验等,用于比较同一组 样本在两个不同条件下的差异。
多元线性回归模型构建
1 2
多元线性回归模型基本概念 介绍自变量、因变量、误差项等概念,以及模型 的数学表达式。
多元线性回归模型的参数估计 通过最小二乘法等方法估计模型参数,得到回归 方程。
概率可以通过古典概型、几何概型、频率等方法进行计算。古典概型适用于等可能 事件,几何概型适用于连续型随机变量,而频率则是在大量重复试验中出现的相对 频率。
02 描述性统计方法
数值型数据描述
集中趋势度量
01
平均数、中位数、众数
离散程度度量
02
极差、四分位差、方差、标准差
偏态与峰态度量
03
偏度系数、峰度系数
统计学ppt课件
目录
• 统计学基本概念与原理 • 描述性统计方法 • 推论性统计方法 • 非参数检验与多元统计分析 • 实验设计与抽样技术 • 数据可视化与报告撰写技巧
01 统计学基本概念 与原理
统计学定义及作用
统计学的定义
统计学是一门研究如何收集、整理、 分析、解释和呈现数据的科学。
统计学的作用
数据分布形态判断
正态性检验
直方图、QQ图、P-P图、Shapiro-Wilk检验等方 法
对称性检验
通过观察频数分布表或图形判断
峰度与偏度检验
通过计算峰度系数和偏度系数判断
03 推论性统计方法
参数估计原理及应用
点估计与区间估计
利用样本数据对总体参数进行估计,包括点估计和区间估计两种方 法。
估计量的评价标准
3
多元线性回归模型的假设检验 对模型参数进行显著性检验,判断自变量对因变 量的影响是否显著。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南丁格尔曾说过“若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。
”这里的上帝就是客观世界。
理、工、农、医、文,今天很难找到不使用统计的学科了,它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。
现实生活中我科也离不开统计,每天晚上我们都要收听明天的天气预报,尤其注意明天下雨或下雪的概率;投资股票时,你需要了解股票场价格的信息,了解每只股票的财务信息;黄金周时,你打算出门旅行,一定要了解旅游的目的地的价格、服务以及旅游人数等。
作为从事统计工作的专业人士,更需要了解和掌握统计学的基本理论和统计方法。
一、什么是统计统计学就是用来处理数据的,它是关于数据的一门学问。
根据大百科全书对统计学的定义:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
统计分析数据的方法大体上可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。
描述统计是研究数据收集、处理和描述的统计学方法。
其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理的展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。
二、统计的应用(一)统计的应用领域说出哪些领域应用统计,这很困难,因为几乎所有的领域都应用统计;说出哪些领域不使用统计,同样也很困难,因为几乎找不到一个不用统计的领域。
因此,统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。
这里我们不想列举统计应用在一般领域如经济、管理、理工、农医的例子,因为大家已经对这些应用耳熟能详,熟视无睹了。
我们只想举几个大家可能想不到的例子。
统计学应用一:从“女士品茶”中得到的统计实验设计①这是在2003年统计出自版社出版的一本名为《女士品茶》中所讲述的故事,事情是这样的:二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲地品茶论道。
席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大的影响。
把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。
出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成分不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假设前提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。
正当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。
此人便是在统计发展史上地位显赫、大名鼎鼎的费雪(Ronald Aylmer Fisher,1890-1962),伦敦人氏,英国统计学家。
费雪当时显得非常兴奋,好像发现了新大陆。
“让我们来检定这个命题。
”说着,在众位学者的帮助下,他开始进行实验。
他们设计并调制也很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。
费雪端给她第一杯茶时她品尝了一口,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛奶后加的茶水。
费雪记录上她的说法,再送上第二杯,……费雪设计了各种可能的实验方法,来测试美丽女士能否分辨出不同的茶。
问题是,如果美丽女士只是哗众取宠而没有真本领难分辨出不同的茶,她还是有猜出的可能;如果给她两杯调制方法不同的茶,她可能一次全部猜错或全部猜对。
如果美丽女士有真本事,确实能够分辨调制方法不同的茶,但她还是可能弄错,或是茶水和牛奶没有混合好,或茶水温度不够影响了味道,或她喝了很多以后感觉已经不太灵敏。
这就是费雪提出来的实验设计思想,1935年,费雪完成了在科学实验理论和方法上具有划时代意义的一本书《实验设计》。
在书的第二章,费雪就提到了剑桥午后的品茶和那位美丽的女士,在书里,费雪讨论了各种可能结果,描述了该准备多少茶,依照什么顺序拿给她,然后她回答的正确与否,计算出各种结果的概率。
至于剑桥午后品茶的那位女士,据说她能分辨出每一杯茶,全部答对,看来,这位女士不仅仅是美丽。
统计应用二:从《红楼梦》中给出作者的判断②众所周知,《红楼梦》一书共120回,一般认为前80回是曹雪芹所著,后40回为高鄂所续。
长期以来红学界对这个问题一直有争议。
1986年复旦大学李贤平教授带领他的学生用统计方法进行了研究,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯不同,所用的虚词是不会一样的),让学生数出每一回里虚词出现的次数,作为数据,用统计分析中的聚类分析方法进行分类。
聚类结果将120回分成两类:即前80回为一类,后40回为一类,很形象地证实了120回的《红楼梦》不是出自同一人的手笔。
之后又与曹雪芹的其他著作进行类似分析,进一步证实前80回确实为曹雪芹所著,而后40回是否为高鄂写的呢?论证结果推翻了后40回为高鄂一个人所写。
这个论证在经学界轰动很大,他们用统计分析方法支持了经学界的观点。
使经学界在为赞叹。
统计应用三:从“小概率发生”中做出有罪判决③被告Wayne Williams被指控在佐治亚州的亚特兰大谋杀了两个黑人男性青年。
另外还发生了十起类似的案件的谋杀案。
对Williams的不利证据是,在尸体上发现的大量纤维与从他周围取到的很相似,尤其是染英国橄榄色的不常见的三叶形的威尔曼181-b型地毯纤维。
原告的一名专家证明这种类型的纤维已经停止生产,根据保守推测,这种纤维制成的地毯在美国10个州的销售量仅够铺820间屋子。
假设其销售量在10个州中都相等,所有佐治亚州的地毯都卖给了亚特兰大,而且每家只有一间屋子铺上了地毯,那么有81个亚特兰大人家的屋子铺上了含有这种纤维的地毯。
根据专家所说,亚特兰大共有638992座住宅,那么随机选择一个屋子。
它铺有这种地毯的概率要小于81/638992或1/7792。
Williams的卧室就有这种地毯(虽然被告后来予以否认)。
根据这个证据,原告坚持认为,“在亚特兰大有与Williams卧室相同类型地毯的家庭的可能性公为1/8000”。
Williams被判有罪。
在上诉中,佐治亚上诉法院认为这处州的专家有权讨论小概率,允许用从证据经过推理所得的观点进行辩护,而这种推理就包括小概率。
上面介绍了统计方法在各种领域中的应用,这种应用还有很多很多,只要读者稍加留意,就会发现处处存在统计。
(二)统计的误用与滥用英国政治家本杰明·迪斯雷利(Benjamin Disraeli 1804-1881)曾有一个著名的论断:“谎言有三种:谎言、糟糕的谎言和统计数字。
”统计常常被人们有意或无意地滥用。
例如,错误的统计定义、错误的图表提示、一个不合理的样本、数据的遗漏或逻辑错误等。
这些误用有些是常识性的,有些是技术性的,些则是故意的。
作为从数据中寻找事实的统计,却被有人变成了歪曲事实的工具。
下面举例说明一个有史以来最糟的社会统计数字④。
“美国自从1950年开始,孩童遭到枪杀的人数,每年增加一倍。
”这是某期刊里1995卷里某一篇文章的句子。
这个数字荒唐在啊里?其实只要简单计算一下就知道,这个数字朋多么糟糕了。
假设1950年只有一个孩童被枪杀,那么到1951年孩童遭到枪杀的人数增加一倍,就是2人,到1954年就是4人,…,依此类推,到1960年的数字是1024人,而到1995年,将会有32768人(而1995年,美国联邦调查局查办全美国的刑事杀人案件,含成人与孩童在内的受害者,总共也才只有9960人)。
到1970年,总数将超过一百万人;1980年,总数将超过十亿人(相当于当年度美国总人口数的四倍)!我们就不再往下计算了,再往下计算不仅要超出地球上生活的总人数了,恐怕边宇宙中存在的“人”都算上也抵不上这个总数,假如宇宙中存在“人”的话。
这篇文章的作者到底是从哪里得到的这个统计数字呢?经过询问作者后了解到,统计数字来自美国儿童保护基金会发布的《美国孩童现状年度报告:一九九四》(The State of American Yearbook-1994),该报告中写道:“自从1950年以来,每年美国孩童遭到枪杀的数目,至今已增加了一倍。
”请注意措辞上的差别:儿童保护基金会所说的是,1994年的死亡人数是1950年的两倍,但这个资料经过期刊文章作者改写后,即平白无故冒出一个完全不同的意义。
其实,在该时期内(1950~1994)美国总人口数同样增加了73%,几乎成长了一倍。
因此可以想见,随着人口的增加,各种人口统计数字也会增加,其中当然包括孩童遭到枪杀的人数。
不过,假若我们判断,两倍的死亡人数是否代表情势恶化?我们还必须要有其他深入的了解,即这个数字的来源如何?是谁在计算孩童的枪杀死亡人数?又是如何计算的?还有,“孩童”的定义是什么(在统计暴利案件时,儿童保护基金会有时会将“孩童”定义为年龄在25岁以下的人)?“枪杀死亡”指的又是什么(枪杀死亡统计一般包括自杀、意外与他杀)?但是,当民众遇到统计数字时,却绝少产生疑问。
第二节数据类型统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时可从不同的角度进行采集,从而得到不同类型的数据。
下面分别从不同的角度对这些数据特征给予介绍。
一、变量与数据每天晚上收看天气预报,会发现今天的气温与明天的气温不同,今天是情天明天可能就是多云转阴;观察股票市场上的上证股指天天在变化;每个在职工作的人员从事的职业不同,月收入不相同;观察成年人,每个人所受的教育程度也不同。
这里的“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”等就是变量(variable),它们的特点是从一次观察到下一次观察会出现不同结果。
把观察到的结果记录下来就是数据(data)。
二、数据类型(一)定性变量(数据)与定量变量(数据)“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”这些变量反映现象的特点不同。
“天气形势”、“职业”和“教育程度”是从现象的属性来表现现象的特征,如“天气情”和“阴转多云”就是反映两种天气状况;“生产工人”和“公务员”就是两种不同的职业;文化程度“小学”与“大学”就反映了两种不同的教育程度。
这样的就是称为定性变量(qualitative variable),定性变量的观察结果称为定性数据(qualitative data)。
这类数据的最大特点是它只能反映现象的属性特点,而不能说明具体量的大小和差异,如“天气晴”和“阴转多云”谁大谁小?“生产工人”和“公务员”谁好谁坏?这里没有量的特征,只有分类特征;这种只能反映现象分类特征的变量又称为分类变量(categoricalvariable),分类变量的观察结果就是分类数据(categorical data)。