统计学和数据挖掘区别

数据分析微信公众号datadw——关注你想了解的，分享你需要的。

1．简介

统计学和数据挖掘有着共同的目标：发现数据中的结构。事实上，由于它们的目标相似，一些人（尤其是统计学家）认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法，尤其是计算机学科，例如数据库技术和机器学习，而且它所关注的某些领域和统计学家所关注的有很大不同。

统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上，有时候还导致了反感。统计学有着正统的理论基础（尤其是经过本世纪的发展），而现在又出现了一个新的学科，有新的主人，而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更多的是因为这门新学科有着一个吸引人的名字，势必会引发大家的兴趣和好奇。把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话，统计的最初含义是“陈述事实”，以及找出枯燥的大量数据背后的有意义的信息。当然，统计学的现代的含义已经有很大不同的事实。而且，这门新学科同商业有特殊的关联（尽管它还有科学及其它方面的应用）。

本文的目的是逐个考察这两门学科的性质，区分它们的异同，并关注与数据挖掘相关联的一些难题。首先，我们注意到“数据挖掘”对统计学家来说并不陌生。例如，Everitt定义它为：“仅仅是考察大量的数据驱动的模型，从中发现最适合的”。统计学家因而会忽略对数据进行特别的分析，因为他们知道太细致的

研究却难以发现明显的结构。尽管如此，事实上大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意，也是当前数据挖掘的任务。

2．统计学的性质

试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到，但会引来很多异议。相反，我要关注统计学不同于数据挖掘的特性。

差异之一同上节中最后一段提到的相关，即统计学是一门比较保守的学科，目前有一种趋势是越来越精确。当然，这本身并不是坏事，只有越精确才能避免错误，发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法，我是不同意这个观点的。尽管统计学确实以数学为基础（正如物理和工程也以数学为基础，但没有被认为是数学的分支），但它同其它学科还有紧密的联系。

数学背景和追求精确加强了这样一个趋势：在采用一个方法之前先要证明，而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法，但它却不能被证明（或还不能被证明）。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合，已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确，而只是说明如果方法不能产生结果的话就会被放弃。

正是统计文献显示了（或夸大了）统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于描述，但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着，由于可行性的原因，我们常常得到的只是一个样本，但是需要描述样本取自的那个大数据集。然而，数据挖掘问题常常可以得到数据总体，例如关于一个公司的所有职工数据，数据库中的所有客户资料，去年的所有业务。在这种情形下，推断就没有价值了（例如，年度业务的平均值），因为观测到的值也就是估计参数。这就意味着，建立的统计模型可能会利用一系列概率表述（例如，一些参数接近于0，则会从模型中剔除掉），但当总体数据可以获得的话，在数据挖掘中则变得毫无意义。在这里，我们可以很方便的应用评估函数：针对数据的足够的表述。事实是，常常所关注的是模型是否合适而不是它的可行性，在很多情形下，使得模型的发现很容易。例如，在寻找规则时常常会利用吻合度的单纯特性（例如，应用分支定理）。但当我们应用概率陈述时则不会得到这些特性。

统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。或许“模型”这个术语更多的含义是变化。一方面，统计学模型是基于分析变量间的联系，但另一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把收入作为一个独立的变量，因为一般认为高收入会导致大的业务。这可能是一个理论模型（尽管基于一个不牢靠的理论）。与此相反，只需在一些可能具有解释意义的变量基础上进行逐步的搜索，从而获

得一个有很大预测价值的模型，尽管不能作出合理的解释。（通过数据挖掘去发现一个模型的时候，常常关注的就是后者）。

还有其它方法可以区分统计模型，但在这里我将不作探讨。这里我想关注的是，现代统计学是以模型为主的。而计算，模型选择条件是次要的，只是如何建立一个好的模型。但在数据挖掘中，却不完全是如此。在数据挖掘中，准则起了核心的作用。（当然在统计学中有一些以准则为中心的独立的特例。Gifi的关于学校的非线性多变量分析就是其中之一。例如，Gifi说，给定一些最常用的MVA （多变量分析）问题，既可以从模型出发也可以技术出发。正如我们已经在1.1节所看到的基于模型的经典的多变量统计分析，……然而，在很多情形下，模型的选择并不都是显而易见的，选择一个合适的模型是不可能的，最合适的计算方法也是不可行的。在这种情形下，我们从另外一个角度出发，应用设计的一系列技术来回答MVA问题，暂不考虑模型和最优判别的选择。

相对于统计学而言，准则在数据挖掘中起着更为核心的作用并不奇怪，数据挖掘所继承的学科如计算机科学及相关学科也是如此。数据集的规模常常意味着传统的统计学准则不适合数据挖掘问题，不得不重新设计。部分地，当数据点被逐一应用以更新估计量，适应性和连续性的准则常常是必须的。尽管一些统计学的准则已经得到发展，但更多的应用是机器学习。（正如“学习”所示的那样）

很多情况下，数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。这和确定性的分析是不同的。（实际上，

一个人是不能完全确定一个理论的，只能提供证据和不确定的证据。）确定性分析着眼于最适合的模型－建立一个推荐模型，这个模型也许不能很好的解释观测到的数据。很多，或许是大部分统计分析提出的是确定性的分析。然而，实验性的数据分析对于统计学并不是新生事务，或许这是统计学家应该考虑作为统计学的另一个基石，而这已经是数据挖掘的基石。所有这些都是正确的，但事实上，数据挖掘所遇到的数据集按统计标准来看都是巨大的。在这种情况下，统计工具可能会失效：百万个偶然因素可能就会使其失效。

如果数据挖掘的主要目的是发现，那它就不关心统计学领域中的在回答一个特定的问题之前，如何很好的搜集数据，例如实验设计和调查设计。数据挖掘本质上假想数据已经被搜集好，关注的只是如何发现其中的秘密。

3．数据挖掘的性质

由于统计学基础的建立在计算机的发明和发展之前，所以常用的统计学工具包含很多可以手工实现的方法。因此，对于很多统计学家来说，1000个数据就已经是很大的了。但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或AT&T每天200,000,000个长途呼叫来说相差太远了。很明显，面对这么多的数据，则需要设计不同于那些“原则上可以用手工实现”的方法。这意味这计算机（正是计算机使得大数据可能实现）对于数据的分析和处理是关键的。分析者直接处理数据将变得不可行。相反，计算机在分析者和数据之间起到了必要的过滤的作用。这也是数据挖掘特别注重准则的另一原因。尽管有必要，把分析者和数据分离开很明显导致了一些关联任务。这里就有一个真正的危险：非预

期的模式可能会误导分析者，这一点我下面会讨论。

我不认为在现代统计中计算机不是一个重要的工具。它们确实是，并不是因为数据的规模。对数据的精确分析方法如bootstrap方法、随机测试，迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。计算机已经使得传统统计模型的视野大大的扩展了，还促进了新工具的飞速发展。

下面来关注一下歪曲数据的非预期的模式出现的可能性。这和数据质量相关。所有数据分析的结论依赖于数据质量。GIGO的意思是垃圾进，垃圾出，它的引用到处可见。一个数据分析者，无论他多聪明，也不可能从垃圾中发现宝石。对于大的数据集，尤其是要发现精细的小型或偏离常规的模型的时候，这个问题尤其突出。当一个人在寻找百万分之一的模型的时候，第二个小数位的偏离就会起作用。一个经验丰富的人对于此类最常见的问题会比较警觉，但出错的可能性太多了。

此类问题可能在两个层次上产生。第一个是微观层次，即个人记录。例如，特殊的属性可能丢失或输错了。我知道一个案例，由于挖掘者不知道，丢失的数据被记录为99而作为真实的数据处理。第二个是宏观层次，整个数据集被一些选择机制所歪曲。交通事故为此提供了一个好的示例。越严重的、致命的事故，其记录越精确，但小的或没有伤害的事故的记录却没有那么精确。事实上，很高比例的数据根本没有记录。这就造成了一个歪曲的映象－可能会导致错误的结论。

统计学很少会关注实时分析，然而数据挖掘问题常常需要这些。例如，银行事务每天都会发生，没有人能等三个月得到一个可能的欺诈的分析。类似的问题发生在总体随时间变化的情形。我的研究组有明确的例子显示银行债务的申请随时间、竞争环境、经济波动而变化。

至此，我们已经论述了数据分析的问题，说明了数据挖掘和统计学的差异，尽管有一定的重迭。但是，数据挖掘者也不可持完全非统计的观点。首先来看一个例子：获得数据的问题。统计学家往往把数据看成一个按变量交叉分类的平面表，存储于计算机等待分析。如果数据量较小，可以读到内存，但在许多数据挖掘问题中这是不可能的。更糟糕的是，大量的数据常常分布在不同的计算机上。或许极端的是，数据分布在全球互联网上。此类问题使得获得一个简单的样本不大可能。（先不管分析“整个数据集”的可能性，如果数据是不断变化的这一概念可能是不存在的，例如电话呼叫）

当描述数据挖掘技术的时候，我发现依据以建立模型还是模式发现为目的可以很方便的区分两类常见的工具。我已经提到了模型概念在统计学中的核心作用。在建立模型的时候，尽量要概括所有的数据，以及识别、描述分布的形状。这样的“全”模型的例子如对一系列数据的聚类分析，回归预测模型，以及基于树的分类法则。相反，在模式发现中，则是尽量识别小的（但不一定不重要）偏差，发现行为的异常模式。例如EEG轨迹中的零星波形、信用卡使用中的异常消费模式，以及不同于其它特征的对象。很多时候，这第二种实验是数据挖掘的本质－试图发现渣滓中的金块。然而，第一类实验也是重要的。当关注的是全局模型

的建立的话，样本是可取的（可以基于一个十万大小的样本发现重要的特性，这和基于一个千万大小的样本是等效的，尽管这部分的取决于我们想法的模型的特征。然而，模式发现不同于此。仅选择一个样本的话可能会忽略所希望检测的情形。

尽管统计学主要关注的是分析定量数据，数据挖掘的多来源意味着还需要处理其它形式的数据。特别的，逻辑数据越来越多－例如当要发现的模式由连接的和分离的要素组成的时候。类似的，有时候会碰到高度有序的结构。分析的要素可能是图象，文本，语言信号，或者甚至完全是（例如，在交替分析中）科学研究资料。

4．讨论

数据挖掘有时候是一次性的实验。这是一个误解。它更应该被看作是一个不断的过程（尽管数据集时确定的）。从一个角度检查数据可以解释结果，以相关的观点检查可能会更接近等等。关键是，除了极少的情形下，很少知道哪一类模式是有意义的。数据挖掘的本质是发现非预期的模式－同样非预期的模式要以非预期的方法来发现。

与把数据挖掘作为一个过程的观点相关联的是认识到结果的新颖性。许多数据挖掘的结果是我们所期望的－可以回顾。然而，可以解释这个事实并不能否定挖掘出它们的价值。没有这些实验，可能根本不会想到这些。实际上，只有那些可以依据过去经验形成的合理的解释的结构才会是有价值的。

显然在数据挖掘存在着一个潜在的机会。在大数据集中发现模式的可能性当然存在，大数据集的数量与日俱增。然而，也不应就此掩盖危险。所有真正的数据集（即使那些是以完全自动方式搜集的数据）都有产生错误的可能。关于人的数据集（例如事务和行为数据）尤其有这种可能。这很好的解释了绝大部分在数据中发现的“非预期的结构”本质上是无意义的，而是因为偏离了理想的过程。（当然，这样的结构可能会是有意义的：如果数据有问题，可能会干扰搜集数据的目的，最好还是了解它们）。与此相关联的是如何确保（和至少为事实提供支持）任何所观察到的模式是“真实的”，它们反应了一些潜在的结构和关联而不仅仅是一个特殊的数据集，由于一个随机的样本碰巧发生。在这里，记分方法可能是相关的，但需要更多的统计学家和数据挖掘工作者的研究。

统计学第三版

1统计学：统计学（statistics）是一门收集、整理、显示和分析统计数据的科学，其目的是探索数据内在的数量规律。其统计的数据不是指个别的单个数字，而是指同类的较数据，离开了数据统计方法那只统计学就失去了其存在的意义 2中心极限定理:设均值为μ、方差为δ2（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为δ2/n的正态分布。 3区间估计：是在点估计的基础上，给出总体参数估计的一个范围，总体参数的区间估计是样本的统计量加减抽样误差得到的，区间估计根据样本统计量的抽样分布能对样本统计量与总体参数的接近程度给出一个概率度量。 4置信区间：在区间估计中，由样本统计量所构造的总体参数的估计区间，称为置信区间。95%的置信区间指用某种方法构造的所有区间中，有95%的区间包含总体参数的真值，5%的区间不包含总体参数的真值，该方法构造的区间称为置信水平为95%的置信区间。5设简单线性回归方程为：(1)采用OLS估计：

回归系数经济意义：销售收入每增加1万元，销售成本会增加0.786万元。（1）可决系数为：回归标准误：（2）检验统计量为：所以是显著不为零（3）预测： 95/100的预测区间为：即（664.579 ，674.153） 6 解（1）样本容量：（2）（3） (4)，

(5)用F检验：，整体对有显著影响，但不能确定单个对y的贡献。 1．理解原假设与备择假设的含义，并归纳常见的几种建立原假设与备择假设的原则. 答：原假设通常是研究者想收集证据予以反对的假设；而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有：（1）原假设和备择假设是一个完备事件组。（2）一般先确定备择假设。再确定原假设。（3）等号“＝”总是放在原假设上。（4）假设的确定带有一定的主观色彩。（5）假设检验的目的主要是收集证据来拒绝原假设。 2．第一类错误和第二类错误分别是指什么？它们发生的概率大小之间存在怎样的关系？答：第I类错误指，当原假设为真时，作出拒绝原假设所犯的错误，其概率为。第II类错误指当原假设为假时，作出接受原假设所犯的错误，其概率为。在其他条件不变时，增大，减小；增大，减小。 3．什么是显著性水平？它对于假设检验决策的意义是什么？答：假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值，用于检验结果的可靠性度量，但确定了显著性水平等于控制了犯第一错误的概率，但犯第二类错误的概率却是不确定的，因此作出“拒绝原假设”的结论，其可靠性是确定的，但作出“不拒绝原假设”的结论，其可靠性是难以控制的。 4．什么是p值？p值检验和统计量检验有什么不同？答：p值是当原假设为真时，检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平，来控制犯第一类错误的上限，p 值可以有效地补充提供地关于检验可靠性的有限信息。值检验的优点在于，它提供了更多的信息，让人们可以选择一定的水平来评估结果是否具有统计上的显著性。 5．什么是统计上的显著性？答：一项检验在统计上是显著的（拒绝原假设），是指这样的（样本）结果不是偶然得到的，或者说，不是靠机遇能够得到的。显著性的意义在于“非偶然的 1 1．相关分析与回归分析的区别与联系是什么？

统计学原理计算题试题及答案(最新整理)

电大专科统计学原理计算题试题及答案计算题 1某单位40名职工业务考核成绩分别为 68 89 8884 86 87 75 73 72 68 75 82 9758 81 54 79 76 95 76 71 60 9065 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81 单位规定：60分以下为不及格,60 — 70分为及格,70 — 80分为中,80 — 90 分为良,90 — 100分为优。要求： (1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并编制一张考核成绩次数分配表； (2)指出分组标志及类型及采用的分组方法； (3)分析本单位职工业务考核情况。解：(1) (2)分组标志为”成绩",其类型为" 的开放组距式分组，组限表示方法是重叠组限； (3)本单位的职工考核成绩的分布呈两头小，中间大的”正态分布”的形态, 说明大多数职工对业务知识的掌握达到了该单位的要求。 2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下价格(元/斤) 甲市场成交额(万元) 乙市场成交量(万斤) 品种

试问哪一个市场农产品的平均价格较高？并说明原因解：先分别计算两个市场的平均价格如下: 甲市场平均价格 X m 5.5 1.375 （元 /斤） m/x 4 乙市场平均价格 X xf 5.3 1.325 （元 / 斤） f 4 说明：两个市场销售单价是相同的，销售总量也是相同的，影响到两个市场平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同 3. 某车间有甲、乙两个生产组，甲组平均每个工人的日产量为 36件, 标准差为9.6件；乙组工人日产量资料如下：

概率论与数理统计的发展

数理统计学前沿简介（陈希孺院士访谈）一、概率论与数理统计学的产生和发展记者：陈希孺院士，请你谈谈概率论与数理统计学学科的诞生和发展情况。陈希孺院士：我们先从数理统计学开始，数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术。数理统计学所考察的数据都带有随机性（偶然性）的误差。这给根据这种数据所作出的结论带来了一种不确定性，其量化要借助于概率论的概念和方法。数理统计学与概率论这两个学科的密切联系，正是基于这一点。统计学起源于收集数据的活动，小至个人的事情，大至治理一个国家，都有必要收集种种有关的数据，如在我国古代典籍中，就有不少关于户口、钱粮、兵役、地震、水灾和旱灾等等的记载。现今各国都设有统计局或相当的机构。当然，单是收集、记录数据这种活动本身并不能等同于统计学这门科学的建立，需要对收集来的数据进行排比、整理，用精炼和醒目的形式表达，在这个基础上对所研究的事物进行定量或定性估计、描述和解释，并预测其在未来可能的发展状况。例如根据人口普查或抽样调查的资料对我国人口状况进行描述，根据适当的抽样调查结果，对受教育年限与收入的关系，对某种生活习惯与嗜好（如吸烟）与健康的关系作定量的评估。根据以往一般时间某项或某些经济指标的变化情况，预测其在未来一般时间的走向等，做这些事情的理论与方法，才能构成一门学问——数理统计学的内容。

这样的统计学始于何时？恐怕难于找到一个明显的、大家公认的起点。一种受到某些著名学者支持的观点认为，英国学者葛朗特在1662年发表的著作《关于死亡公报的自然和政治观察》，标志着这门学科的诞生。中世纪欧洲流行黑死病，死亡的人不少。自1604年起，伦敦教会每周发表一次“死亡公报”，记录该周内死亡的人的姓名、年龄、性别、死因。以后还包括该周的出生情况——依据受洗的人的名单，这基本上可以反映出生的情况。几十年来，积累了很多资料，葛朗特是第一个对这一庞大的资料加以整理和利用的人，他原是一个小店主的儿子，后来子承父业，靠自学成才。他因这一部著作被选入当年成立的英国皇家学会，反映学术界对他这一著作的承认和重视。这是一本篇幅很小的著作，主要内容为8个表，从今天的观点看，这只是一种例行的数据整理工作，但在当时则是有原创性的科研成果，其中所提出的一些概念，在某种程度上可以说沿用至今，如数据简约（大量的、杂乱无章的数据，须注过整理、约化，才能突出其中所包含的信息）、频率稳定性（一定的事件，如“生男”、“生女”，在较长时期中有一个基本稳定的比率，这是进行统计性推断的基础）、数据纠错、生命表（反映人群中寿命分布的情况，至今仍是保险与精算的基础概念）等。葛朗特的方法被他同时代的政治经济学家佩蒂引进到社会经济问题的研究中，他提倡在这类问题的研究中不能尚空谈，要让实际数据说话，他的工作总结在他去世后于1690年出版的《政治算术》一书中。当然，也应当指出，他们的工作还停留在描述性的阶段，不是现代意义下的数理统计学，那时，概率论尚处在萌芽的阶段，不足以给数理统计学的发展提供充分的理论支持，但不能由此否定他们工作的重大意义，作为现代数理统计学发展的几个源头之一，他们以及后续学者在人口、社会、经济等

统计学计算题(有答案)

1、甲乙两班同时参加《统计学原理》课程的测试，甲班平均成绩为81分，标准差为9.5分，乙班的成绩分组资料如下：按成绩分组学生人数（人） 60以下 4 60~70 10 70~80 25 80~90 14 90~100 2 计算乙班学生的平均成绩，并比较甲乙两班，哪个班的平均成绩更有代表性？ 2、某车间有甲乙两个生产组，甲组平均每个人的日产量为36件，标准差为9.6件，乙组工人产量资料如下：日产量（件）工人数（人） 15 15 25 38 35 34 45 13 要求：（1）计算乙组平均每个工人的日产量和标准差（2）比较甲乙两生产小组的日产量更有代表性 3 月份 1 2 3 4 5 6 8 11 12

库存额60 55 48 43 40 50 45 60 68 又知1月1日商品库存额为63万元，试计算上半年，下半年和全年的平均商品库存额。 4 品名单位销售额2002比2001销售量增长（%） 2001 2002 电视台5000 8880 23 自行车辆4500 4200 -7 合计9500 13080 （2）计算由于销售量变动消费者增加或减少的支出金额 5、某商店两种商品的销售额和销售价格的变化情况如下：（万元）商品单位销售额1996比1995年销售价格提高（%） 1995 1996 甲米120 130 10 乙件40 36 12 要求：（1）计算两件商品销售价格总指标和由于价格变动对销售额的影响绝对值（2）计算销售量总指数，计算由于销售变动消费者增加或减少的支出金额

6、某企业上半年产品量和单位成本资料如下：要求：（1）计算相关系数，说明两个变量相关的密切程度（2）配合回归方程，指出产量每增加1000件时，单位成本平均变动多少？月份产量（千克）单位成本（元） 1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6 5 68

统计学的发展历程复习进程

统计学的发展历程

统计学概述 [编辑本段] 统计学是应用数学的一个分支，主要通过利用概率论建立数学模型，收集所观察系统的数据，进行量化的分析、总结，并进而进行推断和预测，为相关决策提供依据和参考。它被广泛的应用在各门学科之上，从物理和社会科学到人文科学，甚至被用来工商业及政府的情报决策之上。统计学主要又分为描述统计学和推断统计学。给定一组数据，统计学可以摘要并且描述这份数据，这个用法称作为描述统计学。另外，观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型，以之来推论研究中的步骤及母体，这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。统计学的发展历程 [编辑本段] 统计学的英文statistics最早是源于现代拉丁文statisticum collegium (国会)以及意大利文 statista (国民或政治家)。德文Statistik，最早是由Gottfried Achenwall(1749)所使用，代表对国家的资料进行分析的学问，也就是“研究国家的科学”。在十九世纪统计学在广泛的数据以及资料中探究其意义，并且由John Sinclair引进到英语世界。统计学是一门很古老的科学，一般认为其学理研究始于古希腊的亚里斯多德时代，迄今已有两千三百多年的历史。它起源于研究社会经济问题，在两千多年的发展过程中，统计学至少经历了“城邦政情”，“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科，确切地说它是统计学在第三个发展阶段所形成的所有收集和分析数据

数理统计学的起源和发展doc

统计学起源于收集数据的活动，小至个人的事情，大至治理一个国家，都有必要收集种种有关的数据，如在我国古代典籍中，就有不少关于户口、钱粮、兵役、地震、水灾和旱灾等等的记载。现今各国都设有统计局或相当的机构。当然，单是收集、记录数据这种活动本身并不能等同于统计学这门科学的建立，需要对收集来的数据进行排比、整理，用精炼和醒目的形式表达，在这个基础上对所研究的事物进行定量或定性估计、描述和解释，并预测其在未来可能的发展状况。例如根据人口普查或抽样调查的资料对我国人口状况进行描述，根据适当的抽样调查结果，对受教育年限与收入的关系，对某种生活习惯与嗜好（如吸烟）与健康的关系作定量的评估。根据以往一般时间某项或某些经济指标的变化情况，预测其在未来一般时间的走向等，做这些事情的理论与方法，才能构成一门学问——数理统计学的内容。这样的统计学始于何时？恐怕难于找到一个明显的、大家公认的起点。一种受到某些著名学者支持的观点认为，英国学者葛朗特在1662年发表的著作《关于死亡公报的自然和政治观察》，标志着这门学科的诞生。中世纪欧洲流行黑死病，死亡的人不少。自1604年起，伦敦教会每周发表一次“死亡公报”，记录该周内死亡的人的姓名、年龄、性别、死因。以后还包括该周的出生情况——依据受洗的人的名单，这基本上可以反映出生的情况。几十年来，积累了很多资料，葛朗特是第一个对这一庞大的资料加以整理和利用的人，他原是一个小店主的儿子，后来子承父业，靠自学成才。他因这一部著作被选入当年成立的英国皇家学会，反映学术界对他这一著作的承认和重视。这是一本篇幅很小的著作，主要内容为8个表，从今天的观点看，这只是一种例行的数据整理工作，但在当时则是有原创性的科研成果，其中所提出的一些概念，在某种程度上可以说沿用至今，如数据简约（大量的、杂乱无章的数据，须注过整理、约化，才能突出其中所包含的信息）、频率稳定性（一定的事件，如“生男”、“生女”，在较长时期中有一个基本稳定的比率，这是进行统计性推断的基础）、数据纠错、生命表（反映人群中寿命分布的情况，至今仍是保险与精算的基础概念）等。葛朗特的方法被他同时代的政治经济学家佩蒂引进到社会经济问题的研究中，他提倡在这类问题的研究中不能尚空谈，要让实际数据说话，他的工作总结在他去世后于1690年出版的《政治算术》一书中。当然，也应当指出，他们的工作还停留在描述性的阶段，不是现代意义下的数理统计学，那时，概率论尚处在萌芽的阶段，不足以给数理统计学的发展提供充分的理论支持，但不能由此否定他们工作的重大意义，作为现代数理统计学发展的几个源头之一，他们以及后续学者在人口、社会、经济等领域的工作，特别是比利时天文学家兼统计学家凯特勒19世纪的工作，对促成现代数理统计学的诞生起了很大的作用。数理统计学的另一个重要源头来自天文和测地学中的误差分析问题。早期，测量工具的精度不高，人们希望通过多次量测获取更多的数据，以便得到对量测对象的精度更高的估计值。量测误差有随机性，适合于用概率论即统计的方法处理，远至伽利略就做过这方面的工作，他对测量误差的性态作了一般性的描述，法国大数学家拉普拉斯曾对这个问题进行了长时间的研究，现今概率论中著名的“拉普拉斯分布”，即是他在这研究中的一个产物，这方面最著名且影响深远的研究成果有二：一是法国数学家兼天文家勒让德19世纪初（1805）

[经济学]统计学复习整理

1、统计学即统计理论，是统计工作实践经验的总结和理论概括。是研究如何对客观事物数量方面进行调查、整理和分析的原理、原则与方式、方法的科学。科学的定义：是一门关于数据资料的收集、整理、分析和推断的科学。统计学的独特之处在于，它能对不确定性进行量化，使其精确。 2、描述统计（P5）：是用图形、表格和概括性的数字对数据进行描述的统计方法 3、推断统计（P6）：是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。 4、总体：统计总体和总体单位统计总体：由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合具有大量性、同质性、变异性、等特征总体单位：构成统计总体的个体单位称总体单位。总体由总体单位构成，要认识总体必须从总体单位开始。统计总体与总体单位的相对性：在一次特定范围、目的的统计研究中，统计总体与总体单位是不容混淆的，二者的含义是确切的，是包含与被包含的关系。但是总体或总体单位的区分不是固定的，在一定条件下可以相互转化。 5、样本( P11)：是总体的一部分单位。 6、标志：是总体单位所具有的属性和特征。标志按性质可以分为品质标志和数量标志。其中品质标志是说明总体单位的属性特征，在原始状态下无法量化，而数量标志说明总体单位的数量特征，在原始状态下能够量化。统计研究是从登记标志开始，并通过对标志的综合来反映总体的数量特征，因此标志是统计研究的起点。标志表现：即标志特征在各单位的具体表现。如果说标志是统计所要调查的项目，那么标志表现是调查所得结果，标志的实际体现。标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述，因此不能转化为统计指标，但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值，也称标志值。标志按变异情况可分为可变标志和不变标志。可变标志决定总体的差异性。不变标志决定总

统计学计算题和标准答案

企业型号价格（元/台）甲专卖店销售额（万元）乙专卖店销售量（台） A 2500 50.0 340 B 3400 115.6 260 C 4100 106.6 200 合计—272.2 — 要求：分别计算两个专卖店空调的平均销售价格，并分析平均价格差异的原因。答案： 2某企业甲、乙两个生产车间,甲车间平均每个工人日加工零件数为65件，标准差为11件；乙车间工人日加工零件数资料如下表。试计算乙车间工人加工零件的平均数和标准差，并比较甲、乙两个生产车间哪个车间的平均日加工零件数更有代表性？日加工零件数（件）60以下60—70 70—80 80—90 90—100 工人数（人） 5 9 12 14 10 答案：三、某地区2009—2014年GDP资料如下表，要求： 1、计算2009—2014年GDP的年平均增长量； 2、计算2009—2014年GDP的年平均发展水平； 3、计算2009—2014年GDP的年平均发展速度和平均增长速度。

答案： x-== 年平均增长速度：100%100%22.9% 试用最小平方法配合销售额的直线趋势方程，并预测2016年的销售额将达到什么水平？答案：2010年—2014年的数据有5项，是奇数，所以取中间为0，以1递增。设定x为-2、-1、0、1、2、年份/销售额（y）x xy x2 2010 320 -2 -640 4 2011 332 -1 -332 1 2012 340 0 0 0 2013 356 1 356 1 2014 380 2 760 4 合计1728 0 144 10 b=∑xy/∑x2=144/10=14.4 a=∑y/n=1728/5=345.6 y=345.6+14.4x 预测2016年，按照设定的方法，到2016年应该是5 y=345.6+14.4*5=417.6元五、某企业生产三种产品，2013年三种产品的总生产成本分别为20万元，45万元，35万元，2014年同2013年相比，三种产品的总生产成本分别增长8%，10%，6%，产量分别增长12%，6%，4%。试计算： 1、三种产品的总生产成本增长的百分比及增加的绝对额； 2、三种产品的总产量增长的百分比，及由于产量增长而增加的总生产成本； 3、利用指数体系推算单位产品成本增长的百分比。试计算: 1、三种商品的销售额总指数； 2、三种商品的价格总指数和销售量总指数；

统计学和统计法基础知识试卷及答案

二○一一年度全国统计专业技术初级资格考试统计学和统计法基础知识试卷 1．在你拿到试卷的同时将得到一份专用答题卡，所有试题均须在专用答题卡上作答，在试卷或草稿纸上作答不得分。 2．答题时请认真阅读试题，对准题号作答。一、单项选择题（以下每小题各有四项备选答案，其中只有一项是正确的。本题共 40分，每小题1分。） 1．下列方法中，属于推断统计的是（）。 A．搜集数据的方法B．参数估计的方法 C．用图形展示数据的方法D．分析样本数据特征的方法 2．下列变量中，属于分类变量的是（）。 A．产量B．收入 C．性别D．体重 3．为了调查某校学生的购书费用支出，从男生中抽取50名学生调查，从女生中抽取40名学生调查，这种调查方法是（）。 A．简单随机抽样B．分层抽样 C．整群抽样D．系统抽样 4．下列调查方式中，属于全面调查的是（）。 A．普查B．重点调查 C．电话调查D．典型调查 5．落在某一分类数据每一类别或组中的数据个数称为（）。 A．频数B．频率 C．频数分布表D．累积频数 6．下列图形中，适合比较不同变量之间的结构差异的是（）。

A．条形图B．饼图 C．环形图D．散点图 7．适合反映两个变量的关系的统计图是（）。 A．直方图B．条形图 C．散点图D．圆形图 8．某运动中心有20个篮球场，30个羽毛球场，40个排球场，15个手球场。在上面的描述中，则运动场的众数是（）。 A．40 B．30 C．排球场D．手球场 9．下列选项中，最容易受到极端数值影响的是（）。 A．众数B．中位数 C．平均数D．四分位数 10．在一个统计样本中，标准差越大，说明（）。 A．它的各个观测值分布的越分散 B．它的集中趋势越好 C．它的离散程度低 D．它的各个观测值分布的越集中 11．一组数据的离散系数为0.5，平均数为20，则标准差为（）。 A．4 B．10 C．0.025 D．40 12．某学校男生身高的均值是175cm，标准差为2.8cm。一名男同学身高180cm，则他的身高的标准分数为（）。 A．1.43 B．3.15 C．2.32 D．1.79 13．样本均值的标准误差（）。 A．随着样本量的增大而变小B．随着样本量的增大而变大 C．与样本量的大小无关D．大于总体标准差 14．正态分布变量标准化的公式为（）。

统计学计算例题及答案

计算题例题及答案： 1、某校社会学专业同学统计课成绩如下表所示。社会学专业同学统计课成绩表学号成绩学号成绩学号成绩101023 76 101037 75 101052 70 101024 91 101038 70 101053 88 101025 87 101039 76 101054 93 101026 78 101040 90 101055 62 101027 85 101041 76 101056 95 101028 96 101042 86 101057 95 101029 87 101043 97 101058 66 101030 86 101044 93 101059 82 101031 90 101045 92 101060 79 101032 91 101046 82 101061 76 101033 80 101047 80 101062 76 101034 81 101048 90 101063 68 101035 80 101049 88 101064 94 101036 83 101050 77 101065 83 要求：（1）对考试成绩按由低到高进行排序，求出众数、中位数和平均数。

（2）对考试成绩进行适当分组，编制频数分布表，并计算累计频数和累计频率。答案：（1）考试成绩由低到高排序： 62，66，68，70，70，75，76，76，76，76，76，77，78，79， 80，80，80，81，82，82，83，83，85，86，86，87，87，88， 88，90，90，90，91，91，92，93，93，94，95，95，96，97，众数：76 中位数：83 平均数： =（62+66+……+96+97）÷42 =3490÷42 =83.095 （2）按成绩分组频数频率(%) 向上累积向下累积频数频率(%) 频数频率(%) 60-69 3 7.143 3 7.143 42 100.000 70-79 11 26.190 14 33.333 39 92.857 80-89 15 35.714 29 69.048 28 66.667

统计学的产生与发展简介

统计学的产生与发展简介人类的统计实践是随着记数活动而产生的。因此，对统计发展的历史可追溯到远古的原始社会。但是，使人类的统计实践上升到理论予以总结和概括成一门系统的科学----统计学，却是近代的事情，距今只有300多年的历史。从统计学的产生和发展过程来看，大致可以分为三个时期：萌芽期?近代期?现代期 1．萌芽期（17世纪中叶~18世纪）主要学派：国势学派（代表人物为德国的H.Conring和G.Achenwall）；政治算术学派（代表人物为英国的W.Petty）。国势学派所做的工作主要是对国家重要事项的记录，因此又称为“记述学派”。严格讲，这一学派的研究对象和研究方法都不符合统计学的要求，但国势学派对统计学的创立和发展作了不少贡献：（1）为这门新兴的学科起了一个至今仍为世界公认的名词：“统计学”（statistics）；（2）提出了至今仍为统计学者所采用的一些术语，如：“显著事项“，“统计数字资料”，“数字对比”等等。政治算术学派的代表人物W.Petty曾被马克思称为“政治经济学

之父，在某种程度上也可以说是统计学的创始人”。原因就是W.Petty 在他所著的《政治算术》一书中，对当时的英国、荷兰、法国之间的“国富和力量”进行了数量上的计算和比较，做了前人从没有做过的从数量方面来研究社会经济现象的工作。政治算术学派对统计学的主要贡献：（1）不仅满足于社会经济现象的数量登记、列表、汇总、记述等过程，还要求把这些统计经验加以全面系统地总结，并从中提炼出某些理论原则。（2）在搜集资料方面，提出了“大量观察法”、“典型调查”、“定期调查”等思想。（3）在处理资料方面，广泛运用了分类、制表以及各种指标来浓缩与显现数量资料的内涵信息。 2．近代期（18世纪末~19世纪）主要学派：数理统计学派（代表人物为法国的https://www.360docs.net/doc/303636376.html,place和比利时的A .Quetelet）；社会统计学派（代表人物为德国的K.G.A.Knies和C.L.E.Engel）。 Laplace是第一个把概率论引进统计学领域的，他是一位天文学家、数学家、统计学家，他对统计学的贡献：

数据统计在统计学中的地位

数据统计在统计学中的地位 XXX XX级X班XXXXXXXXX 一、数理统计与统计学的主要特点（一）数理统计的主要特点数理统计就是通过对随机现象有限次的观测或试验所得数据进行归纳，找出这有限数据的内在数量规律性，并据此对整体相应现象的数量规律性做出推断或判断的一门学科。概括起来有如下几方面的特点：一是随机性，就是说数理统计的研究对象应当具有随机性，确定性现象不是数理统计所要研究的内容。二是有限性，就是说数理统计据以研究的随机现象数量表现的次数是有限的。三是数量性，即数理统计以研究随机现象的数量规律性为主，而对随机现象质的研究为次。四是采用的研究方法主要为归纳法。最后，数理统计通过对小样本的研究以达到对整体的推断都具有一定的概率可靠性。用样本推断总体误差的存在是客观的，但是数理统计不仅重在研究误差的大小，还指出误差发生的可能性的大小。从数理统计的学科特征来看，数理统计是应用数学中最重要、最活跃的学科之一。由此可见!数理统计从学科划分来说，应属于数学学科，但是其重在应用!而不是纯数学理论或方法的研究，故其采用的方法也就重在归纳法，而不是数学的演绎法。综上所述，数理统计的主要特点可以用一句话概括为、数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究，并依之对总体的数量规律性做出具有一定可靠性推断的应用数学学科。（二）统计学的主要特点统计学是一门收集、整理和分析统计数据的方法论科学，其目的在于探索数据的内在数量规律性，以达到对客观事物的科学认识。统计学从其研究的范围来说有三大领域：数据的收集$数据的整理和数据的分析。首先，这三大领域随着统计学的不断发展，已很难分辨出哪个领域更重要些。也许有很多人认为数据的分析要相对重要些。在对1900 年和1910年美国两次农业普查资料进行分析时，列宁曾指出：“全部问题，任务的全部困难在于，如何综合这些资料，才能确切地从政治上经济上说明不同种类或类型的农户的整个情况。”这足见数据整理的重要性。近年来困扰我国统计研究的并不是数据的分析方法，而是缺少充分真实有效的统计数据，造成无法用数据去检验或证实相应的经济理论、经济模型和经济政策。数据收集的重要性可见一斑。其次，统计学是一门方法论科学。长期以来，人们一直认为在这众多的方法中，统计研究的基本方法是大量观察法、统计指标法、统计分组法和模型推断法。特别是大量观察法更成为统计学最重要的基本特征方法之一，也可以说这是统计学与数理统计的根本区别之一，否则，统计学也就真的成了现代西方数理统计学了。随着统计学由早期的纯粹描述统计不断拓展为描述统计与推断统计并重，直至有的学者认为现代统计学应该以推断统计为主，描述统计为辅，暂且不论这种观点是否有不妥之处，但可足见推断统计学已在现代社会生活中起到举足轻重的作用。事实上，推断统计已成为现代统计学的基本特征之一。再次，统计学从其成为一门科学的那一天起，就把对现象数量方面的研究作为自己的基本特征，但是，同时强调要以

2018年《统计学和统计法基础知识》复习资料(十五)

2018年《统计学和统计法基础知识》复习资料(十五) 不定向选择题-1/知识点：章节测试根据以下材料，回答{TSE}题某房地产开发有限公司因拒绝提供统计资料，被某市统计局依法予以统计行政处罚。该公司不服，提起了行政复议和行政诉讼。经审理，受理行政复议和行政诉讼的机关均维持了市统计局做出的行政处罚决定。请回答：{TS}市统计局依法可对该公司做出的处理有（）。 A.停业整顿 B.警告 C.通报 D.20万元以下罚款单选题-2/知识点：章节测试商品销售额实际增加400元，由于销售量增长使销售额增加420元，由于价格（）。 A.增长使销售额增加20元 B.增长使销售额增长210元 C.降低使销售额减少20元 D.降低使销售额减少210元单选题-3/知识点：章节测试按重置抽样方式从总体随机抽取样本量为n的样本。假设总体标准差σ=2，如果样本量n=16增加到n=64，则样本均值的标准差（）。

A.减少4倍 B.增加4倍 C.减少一半 D.增加一半单选题-4/知识点：章节测试统计从业资格认定工作的承办机关是（）。 A.国家统计局 B.省级人民政府 C.省级人民政府统计机构 D.县级人民政府统计机构单选题-5/知识点：章节测试首先将总体分成不同的“层(或组)”，然后在每一层内进行抽样。此种抽样方法是（） A.概率抽样 B.分层抽样 C.非概率抽样 D.整群抽样单选题-6/知识点：章节测试在时间序列加法模型中（）。 A.假定T、S、I四种变动因素相互独立

B.假定T、S、I四种变动因素相互影响 C.假定T、S、C三种变动因素相互独立 D.假定T、S、C三种变动因素相互影响单选题-7/知识点：章节测试承办机关应当将初步审查意见和全部申请材料自受理之日起___________内报送省级人民政府统计机构，由统计从业资格认定工作的实施机关进行终审。统计从业资格认定工作的实施机关进行终审的时间为___________，自收到初步审查意见和全部申请材料之日起算。（） A.二十日；二十日 B.二十日；十日 C.十日；十日 D.三十日；三十日单选题-8/知识点：章节测试产品产量与单件成本的相关系数是-0．80，单位成本与利润率的相关系数是-0．94，产量与利润率之间的相关系数是0．89，因此（） A.产量与利润率的相关程度最高 B.单位成本与利润率的相关程度最高 C.产量与单位成本的相关程度最高 D.反映不出哪对变量的相关程度最高单选题-9/知识点：章节测试

统计学原理计算题及参考答案

}

| 1、某生产车间30名工人日加工零件数（件）如下： 30 26 42 41 36 44 40 37 37 25 45 29 43 31 36 36 49 34 47 33 43 38 42 32 34 38 46 43 39 35 要求：（1）根据以上资料分成如下几组：25—30，30—35，35—40，40—45，45—50，计算各组的频数和频率，编制次数分布表；（2）根据整理表计算工人平均日产零件数。（20分）解：（1）根据以上资料编制次数分布表如下：

则工人平均劳动生产率为： 17.3830 1145 == = ∑∑f xf x # 要求：（1）建立以产量为自变量的直线回归方程，指出产量每增加1000件时单位成本的平均变动是多少、（2）当产量为10000件时，预测单位成本为多少元（15分） x bx a y n x b n y a x x n y x xy n b c 5.28080 10703 125.232105.2615 1441502520250512503210128353)(2 2 2-=+==+=?+=-=-=-=--=-??-?= --= ∑∑∑∑∑∑∑因为，5.2-=b ，所以产量每增加1000件时，即x 增加1单位时，单位成本的平均变动是：平均减少元（2）当产量为10000件时，即10=x 时，单位成本为 — 55105.280=?-=c y 元

>课程的测试,甲班平均成绩为81分,标准差为分;乙班的成绩分组资料如下: 计算乙班学生的平均成绩,并比较甲.乙两班哪个班的平均成绩更有代表性解：乙班学生的平均成绩∑∑=f xf x ，所需的计算数据见下表：

统计学历史中的学派

一、－世纪——统计学的创立和发展德国的斯勒兹曾说过：“统计是动态的历史，历史是静态的统计。”可见统计学的产生与发展是和生产的发展、社会的进步紧密相联的。（）统计学的创立时期统计学的萌芽产生在欧洲。世纪中叶至世纪中叶是统计学的创立时期。在这一时期，统计学理论初步形成了一定的学术派别，主要有国势学派和政治算术学派。、国势学派国势学派又称记述学派，产生于世纪的德国。由于该学派主要以文字记述国家的显著事项，故称记述学派。其主要代表人物是海尔曼·康令和阿亨华尔。康令第一个在德国黑尔姆斯太特大学以“国势学”为题讲授政治活动家应具备的知识。阿亨华尔在格丁根大学开设“国家学”课程，其主要著作是《近代欧洲各国国势学纲要》，书中讲述“一国或多数国家的显著事项”，主要用对比分析的方法研究了解国家组织、领土、人口、资源财富和国情国力，比较了各国实力的强弱，为德国的君主政体服务。因在外文中“国势”与“统计”词义相通，后来正式命名为“统计学”。该学派在进行国势比较分析中，偏重事物性质的解释，而不注重数量对比和数量计算，但却为统计学的发展奠定了经济理论基础。但随着资本主义市场经济的发展，对事物量的计算和分析显得越来越重要，该学派后来发生了分裂，分化为图表学派和比较学派。、政治算术学派政治算术学派产生于世纪中叶的英国，创始人是威廉·配第（），其代表作是他于年完成的《政治算术》一书。这里的“政治”是指政治经济学，“算术”是指统计方法。在这部书中，他利用实际资料，运用数字、重量和尺度等统计方法对英国、法国和荷兰三国的国情国力，作了系统的数量对比分析，从而为统计学的形成和发展奠定了方法论基础。因此马克思说：“威廉·佩第——政治经济学之父，在某种程度上也是统计学的创始人。” 政治算术学派的另一个代表人物是约翰·格朗特（）。他以年伦敦教会每周一次发表的“死亡公报”为研究资料，在年发表了《关于死亡公报的自然和政治观察》的论著。书中分析了年来伦敦居民死亡的原因及人口变动的关系，首次提出通过大量观察，可以发现新生儿性别比例具有稳定性和不同死因的比例等人口规律；并且第一次编制了“生命表”，对死亡率与人口寿命作了分析，从而引起了普遍的关注。他的研究清楚地表明了统计学作为国家管理工具的重要作用。（）统计学的发展时期

数理统计论文——统计源于生活

统计源于生活，生活演绎统计 ——《女士品茶》读书随笔在老师推荐的几本统计学著作中，我毫不犹豫地选择了这本《女士品茶——20世纪统计怎样改变了科学》，我不知道女士品茶与统计学有何关联，其中的微妙之处让我产生了好奇。同时它的名字会让我们立刻脱离冷冰冰、一大串复杂的统计学公式，而转到一个更加贴近生活和应用的角度去欣赏统计学的魅力。书中作者试图用20世纪统计学革命中的权威大师们的生平故事来向大众阐述什么是统计模型？它们是怎么来的？在现实生活中它们意味着什么？初略本书的目录，着实给人一种和某些平乏生硬的教科书不一样的感觉，一个个故事生动地演绎着统计学一个又一个突破与飞跃！本书一开头便解开读者心头的疑惑——女士品茶与统计学有何关联？故事是在20世纪20年代后期发生的，在英国剑桥一个夏日的午后，一群大学的绅士和他们的夫人们，还有来访者，正围坐在户外的桌旁，享用着下午茶。在品茶过程中，一位女士坚称：把茶加进奶里，或把奶加进茶里，不同的做法，会使茶的味道品起来不同。在场的一帮科学精英们，对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢？他们不能想象，仅仅因为加茶加奶的先后顺序不同，茶就会发生不同的化学反应。这时唯独一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生，却不这么看，他对这个问题很感兴趣，认为这种现象可以作为一个假设并做实验验证，于是设计一个实验来测试这位女士是否能喝出两种冲泡法的区别，让她在不知情的情况下尝奶茶，猜这杯是先加奶还是先加茶。为了避免蒙中，茶的杯数要足够多，但也不能无限制的喝下去，那么为了确定那个女士能猜到多准，最少该喝多少杯呢？这个实验很著名，是个似然估计问题。故事中那位蓄短胡须的先生便是在统计发展史上地位显赫、大名鼎鼎的罗纳德·艾尔默·费歇尔（Ronald Aylmer Fisher）。他是英国统计学家，近代数理统计的开创者。后来费歇尔在自己的著作中讨论了这个实验的各种可能结果，其中有关实验设计的著述是科学革命的要素之一。费歇尔在自己孜孜不倦地求索过程中得出一个结论：科学家需要从潜在实验结果的数据模型开始工作，这是一系列数据公式，其中一些符号代表实验中

2007年初级统计师考试统计学和统计法基础知识真题及答案

二○○七年度全国统计专业技术初级资格考试统计学和统计法基础知识试卷 1．在你拿到试卷的同时将得到一份专用答题卡，所有试题均须在专用答题卡上作答，在试卷或草稿纸上作答不得分。 2．答题时请认真阅读试题，对准题号作答。一、单项选择题（以下每小题各有四项备选答案，其中只有一项是正确的。本题共 40分，每小题1分。） 1．在客观事物的研究中，从总体出发对其全部单位或足够多数的单位进行观察和分析研究的方法是（）。 A．大量观察法B．统计模型法 C．综合指标法D．统计推断法 2．统计指标的两个主要特点是（）。 A．连续变量和离散变量B．同质性和差异性 C．同质事物的可量性和量的综合性D．数量性和总体性 3．下列选项中属于总量指标的有（）。 A．人口密度B．国内生产总值 C．资金利润率D．单位产品成本 4．对下述情况需要进行经常性调查的是（）。 A．农产品产量B．人口数量 C．农机具拥有量D．耕地面积 5．某地为推广先进企业的生产经营管理经验，对效益最好的几个企业进行调查，此种调查属于（）。 A．重点调查B．典型调查 C．普查D．抽样调查统计学和统计法基础知识试卷第 1 页（共13页）

6．对农作物产量进行调查时，应该运用（）。 A．典型调查B．重点调查 C．统计报表D．抽样调查 7．次数分布数列中的频率是指（）。 A．各组分布次数相互之比B．各组的频数相互之比 C．各组分布次数与总次数之比D．各组分布次数与比重之比 8．次数分布数列各组频率之和应（）。 A．等于100% B．大于100% C．小于100% D．视情况而定 9．某组距式分组，起始组是开口组，上限为100，又知相邻组的组距为50，则起始组的组距可以视为（）。 A．50 B．80 C．90 D．100 10．下列指标中属于结构相对指标的是（）。 A．产值资金占用率B．产值计划完成程度 C．男性人口占总人口的比重D．男性人口数对女性人口数之比11．加权算术平均数的大小（）。 A．主要受各组标志值大小的影响，而与各组次数的多少无关 B．主要受各组次数多少的影响，而与各组标志值的大小无关 C．既受各组标志值大小的影响，又受各组次数多少的影响 D．既与各组标志值大小无关，又与各组次数多少无关 12．变量数列中的某项变量值为0时，则无法计算（）。 A．简单算术平均数B．加权算术平均数 C．标志变异指标D．调和平均数 13．时间数列中，每项指标数值可以相加的是（）。 A．相对数时间数列B．时期数列 C．平均数时间数列D．时点数列 14．下列指标和时间构成的数列中，属于平均数时间数列的是（）。 A．年末总人口B．出勤率 C．工人劳动生产率D．人口自然增长率统计学和统计法基础知识试卷第 2 页（共13页）