统计思想有统计数据的类型

统计思想有统计数据的类型
统计思想有统计数据的类型

南丁格尔曾说过“若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。”

这里的上帝就是客观世界。

理、工、农、医、文,今天很难找到不使用统计的学科了,它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。现实生活中我科也离不开统计,每天晚上我们都要收听明天的天气预报,尤其注意明天下雨或下雪的概率;投资股票时,你需要了解股票场价格的信息,了解每只股票的财务信息;黄金周时,你打算出门旅行,一定要了解旅游的目的地的价格、服务以及旅游人数等。作为从事统计工作的专业人士,更需要了解和掌握统计学的基本理论和统计方法。

一、什么是统计

统计学就是用来处理数据的,它是关于数据的一门学问。根据大百科全书对统计学的定义:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据的方法大体上可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。

描述统计是研究数据收集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理的展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。

推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。

二、统计的应用

(一)统计的应用领域

说出哪些领域应用统计,这很困难,因为几乎所有的领域都应用统计;说出哪些领域不使用统计,同样也很困难,因为几乎找不到一个不用统计的领域。因此,统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。这里我们不想列举统计应用在一般领域如经济、管理、理工、农医的例子,因为大家已经对这些应用耳熟能详,熟视无睹了。我们只想举几个大家可能想不到的例子。

统计学应用一:从“女士品茶”中得到的统计实验设计①

这是在2003年统计出自版社出版的一本名为《女士品茶》中所讲述的故事,事情是这样的:二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲地品茶论道。席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大的影响。把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成分不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假设前提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。正当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。

此人便是在统计发展史上地位显赫、大名鼎鼎的费雪(Ronald Aylmer Fisher,1890-1962),伦敦人氏,英国统计学家。费雪当时显得非常兴奋,好像发现了新大陆。“让我们来检定这个命题。”说着,在众位学者的帮助下,他开始进行实验。他们设计并调制也很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。费雪端给她第一杯茶时她品尝了一口,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛奶后加的茶水。费雪记录上她

的说法,再送上第二杯,……费雪设计了各种可能的实验方法,来测试美丽女士能否分辨出不同的茶。问题是,如果美丽女士只是哗众取宠而没有真本领难分辨出不同的茶,她还是有猜出的可能;如果给她两杯调制方法不同的茶,她可能一次全部猜错或全部猜对。如果美丽女士有真本事,确实能够分辨调制方法不同的茶,但她还是可能弄错,或是茶水和牛奶没有混合好,或茶水温度不够影响了味道,或她喝了很多以后感觉已经不太灵敏。这就是费雪提出来的实验设计思想,1935年,费雪完成了在科学实验理论和方法上具有划时代意义的一本书《实验设计》。在书的第二章,费雪就提到了剑桥午后的品茶和那位美丽的女士,在书里,费雪讨论了各种可能结果,描述了该准备多少茶,依照什么顺序拿给她,然后她回答的正确与否,计算出各种结果的概率。至于剑桥午后品茶的那位女士,据说她能分辨出每一杯茶,全部答对,看来,这位女士不仅仅是美丽。

统计应用二:从《红楼梦》中给出作者的判断②

众所周知,《红楼梦》一书共120回,一般认为前80回是曹雪芹所著,后40回为高鄂所续。长期以来红学界对这个问题一直有争议。1986年复旦大学李贤平教授带领他的学生用统计方法进行了研究,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯不同,所用的虚词是不会一样的),让学生数出每一回里虚词出现的次数,作为数据,用统计分析中的聚类分析方法进行分类。聚类结果将120回分成两类:即前80回为一类,后40回为一类,很形象地证实了120回的《红楼梦》不是出自同一人的手笔。之后又与曹雪芹的其他著作进行类似分析,进一步证实前80回确实为曹雪芹所著,而后40回是否为高鄂写的呢?论证结果推翻了后40回为高鄂一个人所写。这个论证在经学界轰动很大,他们用统计分析方法支持了经学界的观点。使经学界在为赞叹。

统计应用三:从“小概率发生”中做出有罪判决③

被告Wayne Williams被指控在佐治亚州的亚特兰大谋杀了两个黑人男性青年。另外还发生了十起类似的案件的谋杀案。对Williams的不利证据是,在尸体上发现的大量纤维与从他周围取到的很相似,尤其是染英国橄榄色的不常见的三叶形的威尔曼181-b型地毯纤维。原告的一名专家证明这种类型的纤维已经停止生产,根据保守推测,这种纤维制成的地毯在美国10个州的销售量仅够铺820间屋子。假设其销售量在10个州中都相等,所有佐治亚州的地毯都卖给了亚特兰大,而且每家只有一间屋子铺上了地毯,那么有81个亚特兰大人家的屋子铺上了含有这种纤维的地毯。根据专家所说,亚特兰大共有638992座住宅,那么随机选择一个屋子。它铺有这种地毯的概率要小于81/638992或1/7792。Williams的卧室就有这种地毯(虽然被告后来予以否认)。

根据这个证据,原告坚持认为,“在亚特兰大有与Williams卧室相同类型地毯的家庭的可能性公为1/8000”。Williams被判有罪。在上诉中,佐治亚上诉法院认为这处州的专家有权讨论小概率,允许用从证据经过推理所得的观点进行辩护,而这种推理就包括小概率。

上面介绍了统计方法在各种领域中的应用,这种应用还有很多很多,只要读者稍加留意,就会发现处处存在统计。

(二)统计的误用与滥用

英国政治家本杰明·迪斯雷利(Benjamin Disraeli 1804-1881)曾有一个著名的论断:“谎言有三种:谎言、糟糕的谎言和统计数字。”统计常常被人们有意或无意地滥用。例如,错误的统计定义、错误的图表提示、一个不合理的样本、数据的遗漏或逻辑错误等。这些误用有些是常识性的,有些是技术性的,些则是故意的。作为从数据中寻找事实的统计,却被有人变成了歪曲事实的工具。下面举例说明一个有史以来最糟的社会统计数字④。

“美国自从1950年开始,孩童遭到枪杀的人数,每年增加一倍。”这是某期刊里1995卷里某一篇文章的句子。这个数字荒唐在啊里?其实只要简单计算一下就知道,这个数字朋

多么糟糕了。假设1950年只有一个孩童被枪杀,那么到1951年孩童遭到枪杀的人数增加一倍,就是2人,到1954年就是4人,…,依此类推,到1960年的数字是1024人,而到1995年,将会有32768人(而1995年,美国联邦调查局查办全美国的刑事杀人案件,含成人与孩童在内的受害者,总共也才只有9960人)。到1970年,总数将超过一百万人;1980年,总数将超过十亿人(相当于当年度美国总人口数的四倍)!我们就不再往下计算了,再往下计算不仅要超出地球上生活的总人数了,恐怕边宇宙中存在的“人”都算上也抵不上这个总数,假如宇宙中存在“人”的话。

这篇文章的作者到底是从哪里得到的这个统计数字呢?经过询问作者后了解到,统计数字来自美国儿童保护基金会发布的《美国孩童现状年度报告:一九九四》(The State of American Yearbook-1994),该报告中写道:“自从1950年以来,每年美国孩童遭到枪杀的数目,至今已增加了一倍。”请注意措辞上的差别:儿童保护基金会所说的是,1994年的死亡人数是1950年的两倍,但这个资料经过期刊文章作者改写后,即平白无故冒出一个完全不同的意义。

其实,在该时期内(1950~1994)美国总人口数同样增加了73%,几乎成长了一倍。因此可以想见,随着人口的增加,各种人口统计数字也会增加,其中当然包括孩童遭到枪杀的人数。不过,假若我们判断,两倍的死亡人数是否代表情势恶化?我们还必须要有其他深入的了解,即这个数字的来源如何?是谁在计算孩童的枪杀死亡人数?又是如何计算的?还有,“孩童”的定义是什么(在统计暴利案件时,儿童保护基金会有时会将“孩童”定义为年龄在25岁以下的人)?“枪杀死亡”指的又是什么(枪杀死亡统计一般包括自杀、意外与他杀)?但是,当民众遇到统计数字时,却绝少产生疑问。

第二节数据类型

统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时可从不同的角度进行采集,从而得到不同类型的数据。下面分别从不同的角度对这些数据特征给予介绍。

一、变量与数据

每天晚上收看天气预报,会发现今天的气温与明天的气温不同,今天是情天明天可能就是多云转阴;观察股票市场上的上证股指天天在变化;每个在职工作的人员从事的职业不同,月收入不相同;观察成年人,每个人所受的教育程度也不同。这里的“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”等就是变量(variable),它们的特点是从一次观察到下一次观察会出现不同结果。把观察到的结果记录下来就是数据(data)。

二、数据类型

(一)定性变量(数据)与定量变量(数据)

“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”这些变量反映现象的特点不同。“天气形势”、“职业”和“教育程度”是从现象的属性来表现现象的特征,如“天气情”和“阴转多云”就是反映两种天气状况;“生产工人”和“公务员”就是两种不同的职业;文化程度“小学”与“大学”就反映了两种不同的教育程度。这样的就是称为定性变量(qualitative variable),定性变量的观察结果称为定性数据(qualitative data)。这类数据的最大特点是它只能反映现象的属性特点,而不能说明具体量的大小和差异,如“天气晴”和“阴转多云”谁大谁小?“生产工人”和“公务员”谁好谁坏?这里没有量的特征,只有分类特征;这种只能反映现象分类特征的变量又称为分类变量(categorical

variable),分类变量的观察结果就是分类数据(categorical data)。如果类别具有一定的顺序,如“教育程度”,中学的教育程度比小学高,大学又比中学高,这样的变量称为顺序变量(rank variable),相应的观察结果就是顺序数据(rank data)。

与定性变量不同的是,“天气温度”、“上证股指”、“月收入”这些变量可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。这些变量就是定量变量(quantitative variable),也称为数值变量(metric variable),定量变量的观察结果成为定量数据(quantitative data)。

分类变量没有数值特征,所以不能对其数据进行数学运算。即使有时人们用若干个数值来代表不同的类别,这些数值本身也不具有数量差异的意义。例如,人们用编号1来代表性别男,用编号2代表性别女,这些编号的主要作用在于使文字性概念成为计算机可识别的代码,但其本身并不具有计算意义上的数量差异,由此可见,分类数据只能用来区分事物,而不能用来表明事物之间的大小、优劣关系。

顺序变量比分类变量向前进了一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系(如产品的质量可以分为优质品、合格品、不合格品等)。显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细一些。

作为统计研究的重要资料,顺序数据最主要的特征在于不论它的数据是用数值表示的还是用文字表示的,都存在一定的客观顺序,一定是可以按大小、高低、优劣进行排序的,也就是数据之间是可以比较大小、高低、优劣的。但是,需要注意的是,顺序数据的数据经常会以数值的形式出现,如,产品质量可以分为1、2、3级品,这里的1、2、3虽然是以数值的形式出现的,但仍然是用来反映产品之间在质量上的性质差异的。我们并不能说,1级品质量比2级品质量小1,或2级品质量是1级品质量的两倍。显然,顺序数据的数据之间虽然可能比较大小,却无法计算相互之间大小、高低或优劣的距离。这时顺序数据的数据仍然是用来表示事物在性质上的差异,而不能用来反映事物在数量上的差异。因此,从本质上说,顺序数据仍然是定性数据中的一种。

作为统计研究的主要资料,数值型数据的特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差(绝对距离),而有些数值型数据不仅可以计算数据之间的绝对值,还可以计算数据之间的相对差(相对距离)。显然,数值型数据的计量功能要远大于前面介绍的两种定性数据,其计量精度也远远高于定性数据。因此,在统计研究中,数值型数据在着最广泛的用途。

由数值型数据的特点决定了对数值型数据可以运用多种不同的数学方法进行计算,从而给统计学各种分析方法的应用奠定了基本的数据基础,在统计学研究中对数值型数据的研究是定量分析的主要内容。

从上述三类数据的基本特点可以看出,这三类数据对事物的描述是由定性到定量、由低级到高级、从粗略到精细。相应的适用于不同数据的数据处理方法也是由少到多,由易到难。很多适用于数值型数据的统计方法并不适用于定性数据,但适用于定性数据的方法则大多可以应用于数值型数据。在统计研究中需要明确各种数据所适用的统计方法,正确的选择和应用,这是正确进行统计研究的基本要求。

(二)观测数据和实验数据

不论是哪一类数据,根据获取数据的方法不同,都可以分为观测数据和实验数据。观测数据可能是全面数据也可能是样本数据;实验数据一般都是样本数据。

1.观测数据(observational data)

观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。在社会经济问题研究中,观测是取得数据最主要的方法。很多社会经济问题不适合应用实验的方法,只能通过向实际做调查得到数据,用各种调查

方法得到的数据都属于观测数据。

2.实验数据(experimental data)

实验数据一般是在科学实验环境下取得的数据。在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。在自然科学研究中实验的方法应用非常普遍,因此,自然科学研究中所用的数据多为实验数据。

统计学基础知识要点 很重要

第一章:导论 1、什么是统计学?统计方法可以分为哪两大类? 统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方法和推断统计方法。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。 按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据是在没 有对事物进行人为控制的 条件下等到的;实验数据的 在实验中控制实验对象而 收集到的数据。按被描述的 对象与时间关系分时:截面 数据所描述的是现象在某 一时刻的变化情况;时间序 列数据所描述的是现象随 时间而变化的情况。 3、举例说明总体、样本、 参数、统计量、变量这几个 概念。 总体是包含研究的全部个 体的集合。比如要检验一批 灯泡的使用寿命,这一批灯 泡构成的集合就是总体。样 本是从总体中抽取的一部 分元素的集合。比如从一批 灯泡中随机抽取100个,这 100个灯泡就构成了一个样 本。参数是用来描述总体特 征的概括性数字度量。比如 要调查一个地区所有人口 的平均年龄,“平均年龄” 即为一个参数。统计量是用 来描述样本特征的概括性 数字度量。比如要抽样调查 一个地区所有人口的平均 年龄,样本中的“平均年龄” 即为一个统计量。变量是说 明现象某种特征的概念。比 如商品的销售额是不确定 的,这销售额就是变量。 第二章:数据的收集 1、调查方案包括哪几个方 面的内容? 调查目的,是调查所要达到 的具体目标。调查对象和调 查单位,是根据调查目的确 定的调查研究的总体或调 查范围。调查项目和调查 表,要解决的是调查的内 容。 2、数据的间接来源(二手 数据)主要是公开出版或公 开报道的数据;数据的直接 来源一是调查或观察,二是 实验。 3、统计调查方式:抽样调

数据的计量尺度有哪些 (1)

1、数据的计量尺度有哪些?各自特征 (1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或?的数学特性 (2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等) (3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系) (4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ? 或 ? 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。 ·对测量尺度层次的判断 (1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。 (2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。 (3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。 2、条形图与直方图的不同 (1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据) (2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义 (3)直方图的各矩形通常是连续排列,条形图则是分开排列 3、均值、中位数和众数的特点及之间的关系 (1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用 (2)中位数:不受极端值影响、数据分布偏斜程度较大时应用 (3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用 ·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30 根据这一关系,可以得到以下三个关系式: 4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。公式如下: (2)离散系数大的离散程度大,平均数代表性小;反之,离散系数小的离散程度小,平均数代表性大。 5、什么是参数?什么是统计量?二者有何关系? (1)参数:研究者想要了解的总体的某种特征值。总体参数通常用希腊字母表示,所关心的参数主要有总体均值(?)、标准差(?)、总体比例(π)等。 (2)统计量:根据样本数据计算出来的一个量。样本统计量通常用小写英文字母来表示,所关心的样本统计量有样本均值(?x)、样本标准差(s)、样本比例(p)等 (3)关系: 6、评价估计量优良的标准是什么? (1)无偏性:估计量抽样分布的数学期望等于被估计的总体参数。若,则称为的

统计学名词解释汇总情况

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类 2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。

统计学

第一章总论 1、统计数据有哪些分类?不同类型的数据有什么不同特点?试举例说明。 (一)统计数据按照所采用的计量尺度不同,可以分为定性数据与定量数据两类。 一、定性数据是指只能用文字或数字代码来表现事物的品质特征或属性特征的数据,具体又分为定类 数据与定序数据两种。 (1)定类数据:按照事物的某种属性对其进行平行的分类或分组所形成的数据。特点:①定类数据只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此各类地位相同, 顺序可以任意改变②对定类数据,可以且只能计算每一类别中各元素个体出现的频数。 人口的性别(男、女),为了便于统计处理,用数字代码来表示各个类别,例如分别用1、0表示男性与 女性,要注意的是,这时的数字没有任何程度上的差别或大小多少之分,只是符号而已。 (2)定序数据:对事物之间等级或顺序差别测度所形成的数据。特点:①不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)②无法测出类别之间的准确差值,因此该尺度的 计量结果只能排序,不能进行算术运算。产品等级(一等品、二等品…)考试成绩(优、良、差) 二、定量数据是指用数值来表现事物数量特征的数据,具体又分为定距数据与定比数据两种。 (1)定距数据:对事物类别或次序之间间距的测度所形成的数据。特点:①不仅能将事物区分为不同类型并进行排序而且可准确指出类别之间的差距是多少②定距尺度通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值③计量结果可以进行加减运算(加减运算有意义)④“0”是测量尺度上的一个测量点,并不代表“没有”。100分制考试成绩;摄氏温度对不同地区温度的测量。 (2)定比数据(比率尺度):是能够测算两个测度值之间比值的数据。特点:①与定距尺度属于同一层次,计量结果也表现为数值②除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特点③“0”表示“没有”,即它有一固定的绝对“零点”,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算)职工月收入、企业产值、企业销售收入3亿元,人的身高176厘米、体重65公斤,物体的长度30厘米、面积600平方厘米、容积9000立方厘米,水稻的平均亩产400 公斤/亩,某地区的人均国内生产总值25000元/人、第三产业比重48%等,都是定比数据。 (二)统计数据按照其表现形式不同,可以分为绝对数、相对数和平均数三类 绝对数:反映现象或事物绝对数量特征的数据,它以最直观、最基本的形式体现现象或事物的外在数量特征,有明确的计量单位。 相对数:反映现象或事物相对数量特征的数据,它通过另外两个相关统计数据的对比来体现现象(事物)内部或现象(事物)之间的联系关系,其结果主要表现为没有明确计量单位的无名数,少部分表现为有明确计量单位的有名数(限于强度相对数)。 1.结构相对数。将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。居民食品支出 额占消费支出总额比重、产品合格率等。 2.比例相对数。将同一总体内不同部分的数值对比,表明总体内各部分的比例关系,如,人口性别比例、投资与消费比例等。 3.比较相对数。将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系。如,不同地区 商品价格对比,不同行业、不同企业间某项指标对比等。 4.强度相对数,将两个性质不同但有一定联系的总量指标对比,用以说明现象的强度、密度和普遍程度。如,人均国内生产 总值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分数或千分数表示的,如,人口出生率用‰表示。 5.计划完成程度相对数,是某一时期实际完成数与计划数对比,用以说明计划完成程度。 6.动态相对数,将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度。如,发展速度、增长速度等。平均数:反映现象或事物平均数量特征的数据,体现现象某一方面的一般数量水平。 (三)统计数据按照其来源不同,可以分为观测数据与实验数据两类。 (四)统计数据按照其加工程度不同,可以分为原始数据与次级数据两类。 (五)统计数据按照其时间或空间状态不同,可以分为时序数据与截面数据两类。 2、总体、样本、个体三者关系如何?试举例说明。 总体:统计研究的客观对象的全体,是具有某种共同性质的事物所组成的集合体(也称为母体) 个体:构成统计总体的个别事物称为个体(也称总体单位)

统计思想有统计数据的类型

南丁格尔曾说过“若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。” 这里的上帝就是客观世界。 理、工、农、医、文,今天很难找到不使用统计的学科了,它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。现实生活中我科也离不开统计,每天晚上我们都要收听明天的天气预报,尤其注意明天下雨或下雪的概率;投资股票时,你需要了解股票场价格的信息,了解每只股票的财务信息;黄金周时,你打算出门旅行,一定要了解旅游的目的地的价格、服务以及旅游人数等。作为从事统计工作的专业人士,更需要了解和掌握统计学的基本理论和统计方法。 一、什么是统计 统计学就是用来处理数据的,它是关于数据的一门学问。根据大百科全书对统计学的定义:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据的方法大体上可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。 描述统计是研究数据收集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理的展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。 推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。 二、统计的应用 (一)统计的应用领域 说出哪些领域应用统计,这很困难,因为几乎所有的领域都应用统计;说出哪些领域不使用统计,同样也很困难,因为几乎找不到一个不用统计的领域。因此,统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。这里我们不想列举统计应用在一般领域如经济、管理、理工、农医的例子,因为大家已经对这些应用耳熟能详,熟视无睹了。我们只想举几个大家可能想不到的例子。 统计学应用一:从“女士品茶”中得到的统计实验设计① 这是在2003年统计出自版社出版的一本名为《女士品茶》中所讲述的故事,事情是这样的:二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲地品茶论道。席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大的影响。把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成分不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假设前提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。正当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。 此人便是在统计发展史上地位显赫、大名鼎鼎的费雪(Ronald Aylmer Fisher,1890-1962),伦敦人氏,英国统计学家。费雪当时显得非常兴奋,好像发现了新大陆。“让我们来检定这个命题。”说着,在众位学者的帮助下,他开始进行实验。他们设计并调制也很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。费雪端给她第一杯茶时她品尝了一口,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛奶后加的茶水。费雪记录上她

统计学基础课后全部详细答案与讲解

统计学第一至四章答案 第一章 一、思考题 1.统计学是收集、处理、分析、解释数据并从数据中得出结论的科 学。 统计方法可分为描述统计和推断统计。 2.统计数据的分类:按计量尺度:分类数据、顺序数据和数值型数据按获取数据的方式:观测数据和实验数据按数据与时间的关系:截面数据和时间序列数据特点:分类数据各类别之间是平等的并列关系,各类别之间的顺序可以任意改变;顺序数据的分类是有序的;数值型数据说明的是现象的数量特征,是定量数据;观测数据是通过调查或观测而收集到的数据,是在没有对事物进行人为控制的条件下得到的;实验数据是在实验中控制实验对象而收集到的数据;截面数据也称静态数据,描述的是现象在某一时刻的变化情况;时间序列数据也称动态数据,描述的是现象随时间的变化情况。 3.对武昌分校的全体教师进行工资调查,那么全体教师就是总体,从中抽取五十名教师进行调查,这五十名教师的集合就是样本,全体教师工资的总体平均值和总体标准差等描述特征的数值就是参数,五十名教师工资的样本平均值和样本标准差等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说教师的工资。 4.有限总体:指总体的围能够明确确定,而且元素的数目是有限可数的。例如:武昌分校10 级金融专业学生 无限总体:指总体所包含的元素是无限的、不可数的。例如:整个宇宙的星

球 5.变量可分为分类变量、顺序变量、数值型变量。同时数值型变量可分为离散型变量和连续型变量。 6.离散型变量只能取有限个值,而且其取值都以整位数断开,可以一一列举,例如“产品数量” 、“企业数”。连续型变量的取值指连续不断的,不能一一列举。例如“温度” 、“年龄”。 二、练习题 1.(1)数值型变量(2)分类变量(3)数值型变量 (4)顺序变量(5)分类变量 2.(1)这一研究的总体是IT 从业者,样本是从IT 从业者中抽取的1000 人,样本量是1000 (2)“月收入”是数值型变量 (3)“消费支付方式”是分类变量 3.(1)这一研究的总体是所有的网上购物者 (2)“消费者在网上购物的原因”是分类变量 第二章 一、思考题 1:答:1:普查的特点:①:普查通常是一次性的或周期性的; ②:普查一般需要规定统一的调查时间;③:普查的数据一般比 较准确;4:普查的使用围比较狭窄,只能调查一些最基本的、 特定的现象。2 :抽样调查的特点:①:经济性;②:时效性强; ③:适应面广;④:准确性高。

多组和分类数据的描述性统计分析

§3.2多组和分类数据的描述性统计分析17 ?盒子图 盒子图能够直观简洁地展现数据分布的主要特征.我们在R 中使用boxplot()函数作盒子图.在盒子图中,上下四分位数分别确定中间箱体的顶部和底部,箱体中间的粗线是中位数所在的位置.由箱体向上下伸出的垂直部分为“触须”(whiskers),表示数据的散布范围,其为1.5倍四分位间距内距四分位点最远的数据点.超出此范围的点可看作为异常点(outlier). §3.2多组和分类数据的描述性统计分析 在对于多组数据的描述性统计量的计算和图形表示方面,前面所介绍的部分方法不能够有效地使用,例如许多函数都不能直接对数据框进行操作.这时我们需要一些其他的函数配合使用. 1.图形表示: ?散点图:前面介绍的plot,可直接对数据框操作.此时将绘出数据框中所对应的所有变量两两之间的散点图.所做图框中第一行的散点图是以第一个变量为纵坐标,分别以第二、三...个变量为横坐标的散点图.这里数据举例说明. library(DAAG);plot(hills) ?盒子图:前面介绍的boxplot,亦可直接对数据框操作,其在同一个作图区域内画出各组数的盒子图.但是注意,此时由于不同组数据的尺度可能差别很大,这样的盒子图很多时候表达出来不是很有意义.boxplot(faithful).因此这样做比较适合多组数据具有同样意义或近似尺度的情形.例如,我们想做某一数值变量在某个因子变量的不同水平下的盒子图.我们可采用类似如下的命令: boxplot(skullw ~age,data=possum),亦可加上参数horizontal=T,将该盒子图横向放置. boxplot(possum$skullw ~possum$sex,horizontal=T) ?条件散点图:当数据集中含有一个或多个因子变量时,我们可使用条件散点图函数coplot()作出因子变量不同水平下的多个散点图,当然该方法也适用于各种给定条件或限制情形下的作图.其调用格式为 coplot(formula,data)比如coplot(possum[[9]]~possum[[7]] possum[[4]]),或 coplot(skullw ~taill age,data=possum); coplot(skullw ~taill age+sex,data=possum)

统计学依据数据的计量尺度

统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale )、定序型数据(Ordinal )、 定类型数据(Nominal )。 定距型数据通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等 离散型数据; 定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符 表示。如职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,年龄 段变量可以有老、中、青三个取值,分别用 A B C表示等。这里,无论是数值型的1、2、3还是字符型的ABC,都是有大小或高低顺序的,但数据之间却是不等距的。因为,低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的; 定类型数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别 变量中的男、女取值,可以分别用1、2表示,民族变量中的各个民族,可以用汉’回''满' 等字符表示等。这里,无论是数值型的1、2还是字符型的汉’回'满'都不存在内部固有 的大小或高低顺序,而只是一种名义上的指代。 我觉得教育年限应该设置成定距型数据( Scale )吧。因为,教育年限应该是一个连续的变 量,它不存在内在的大小或高低顺序问题。 将可变的数量标志抽象化就称其为变量,其取值称为变量值或标志值。变量分为确定性变量 和随机变量。确定性变量是指受必然性因素的作用,各变量值呈现出上升或下降惟一方向性 变动的变量;随机变量是指受偶然性因素的作用,变量值呈现出随机的混沌状态变动的变量。。根据变量的取值是否连续划分,有连续型变量和离散型变量。连续型变量是指在一个取值区间内可取无穷多个值。连续型变量值要用测量或计算的方法取得;离散型变量是指在 一个取值区间内变量仅可取有限个可列值。离散型变量值只能用计数的方法取得。 离散变量是指其数值只能用自然数或整数单位计算的则为离散变量?例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得? 反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值?例如住产零件的规格尺寸,人体测量的身高,体重胸围等为连续变量,其数值只能用测量或计量的方法取得? 如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连 续型随机变量, 1)无偏性。无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为0,所选择的估计量为B?如果E( 0 ?)=称,B ?为0的无偏估计量。 (2)有效性。一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须与总体参数的离散程度比较小。假定有两个用于估计总体参数的无偏估计量,分别用m1和 m2表示,它们的抽样分布的方差分别用 D ( m1 )和D ( m2 )表示,如果m1的方差小 于m2的方差,即D ( m1) < D (m2 ),我们就称m1是比m2更有效的一个估计量。在无 偏估计的条件下,估计量方差越小估计也就越有效。(3) —致性,是指随着样本量的增大,

统计数据的搜集与整理

第二章统计数据的搜集与整理 一、教学目的与要求 通过本章的学习,了解统计数据的计量尺度和数据的类型,了解绝对数和相对数的意义及比例和比率的计算方法;了解各种统计调查方式的特点和适用场合;掌握统计调查方案设计的内容,了解数据预处理的意义;掌握统计数据的分组方法,能够对原始数据进行适当的分组并编制频数分布表,绘制频数分布的直方图和茎叶图。 二、教学重点 1、统计调查方案设计 2、统计数据的分组 3、变量数列的编制 三、教学难点 1、抽样调查、重点调查与典型调查的比较 2、调查方案的设计 3、次数分布的概念 4、变量数列的基本术语及编制 四、教学基本内容 第一节数据的计量与类型 一、数据的计量尺度 (一)定类尺度 按事物的某种属性对其进行平行的分类或分组。(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类。 (二)定序尺度 又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。它不仅可以测度类别差,还可以测度次序差。(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:考试成绩可分为优、良、中、及格、不及格。 (三)定距尺度 又称间隔尺度,是对事物类别或次序之间距离的测度。该尺度通常使用自然或物理单位作为计量尺度。例:考试成绩80分与90分之间相差10分。定距数据可以进行加、减运算,不能进行乘、除运算。其原因为定距尺度中没有绝对零点(定距尺度中的“0”表示水平,不表示没有)。 (四)定比尺度 又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,不存在)。因此,不仅可以加减运算,还可以乘除运算。例如,甲工资为600元,乙工资为1200元,则乙的工资为甲的2倍。二、数据的类型 统计数据大体上分为两种类型:定性的数据和定量的数据。 定性数据也称品质数据,它说明的是事物的品质特征,是不能用数值表示的,这类数据由定类尺度和定序尺度计量形成。 定量数据也称数量数据,它说明的是事物的数量特征,是能够用数值表示的,这类数据由定距尺度和定比尺度计量形成。 说明现象某种特征的概念称为变量,变量的具体表现称为变量值。变量可分为连续型变量和离散型变量。离散变量只能取有限个数,而且其取值都以整位数断开,如企业个数、职工人数等;连续变量可以取无穷个数值,其取值是连续不断的,不能一一列举,如零件尺寸、年龄、温度等。 三、统计数据的表现形式 数量型统计数据通常有两种基本的表现形式,即绝对数与相对数。 (一)总量指标(绝对数) 1、概念:反映客观现象总规模、总水平的指标。 2、种类 按反映现象总体内容的不同,可分为: 总体单位总量:反映总体所有单位总数的指标。 总体标志总量:反映总体中各单位标志值总和的指标。 按指标反映的时间状况不同 时期指标:反映现象在一段时期发展变化的总量指标。 时点指标:反映现象在某个时点所达总量的指标。 (二)相对指标 1、概念:两个相互联系的指标数值对比的比值(相对水平) 2、作用:用一个抽象化了的数值来反映两个有联系的事物之间的数量关系 3、种类 计划完成程度相对数、结构相对数、比例相对数、比较相对数、强度相对数、动态相对数 第二节统计数据的搜集

统计学基础第一次作业

统计学基础第一次作业 一、填空题 1、按照所采用的计量尺度不同,可以将统计数据分为_分类数据_、_顺序数据_和_数值型 数据_。 2、按照数据的收集方法的不同,可将统计数据分为_观测数据_和__实验数据_。 3、按照被描述的对象与时间的关系,可将统计数据分为_截面数据__和_时间序列数 4、体重的数据类型是:clear all。 5、民族的数据类型是:CHAR。 6、空调销量的数据类型是:电器。 7、支付方式(购买商品)的数据类型是:分类变量。 8、学生对教学改革的态度(赞同、中立、反对)的数据类型是:顺序数据。 9、从总体中抽出的一部分元素的集合,称为___样本_____。 10、参数是用来描述_总体特征_______的概括性数字度量;而用来描述样本特征的概括 性数字度量,称为___统计量_____。 11、参数是用来描述_总体特征_的概括性数字度量;而用来描述样本特征的概括性数字 度量,称为_统计量_。 12、统计数据有两种不同来源:一是_直接来源__,二是__间接来源___。 13、统计数据的误差有两种类型,即__抽样误差_和_非抽样误差。 14、统计表由_数据__、__表头__、___行标题_和__列标题__四个部分组成。 15、统计分组应遵循“不____重_____不__漏_______”、“___上限______不在组内”的 原则。 16、按取值的不同,数值型变量可分为_离散型变量__和_连续型变量_。 17、在数据分组中,_离散型变量_______可以进行单变量值分组,也可以进行组距分组, 而___连续型变量_____只能进行组距式分组。 18、组距分组中,向上累积频数是指某组_上限以下_的频数之和。 19、将某地区100个工厂按产值多少分组而编制的频数分布中,频数是_各组的工厂数 __。 20、频数分布中,靠近中间的变量值分布的频数少,靠近两端的变量值分布频数多,这

基本数据类型与基本运算

第二章基本数据类型与基本运算 本章主要介绍程序设计中高级语言提供的数据类型和其上允许的基本运算。在介绍这些内容时,我们通过穿插一些实例介绍如何应用数据类型与基本运算来解决一些简单的问题。 2.1 数据类型的概念 2.1.1 为什么程序设计语言中要引入“数据类型”这一概念? 2.1.2 数据类型的概念 数据类型是程序设计语言中的一个非常重要的概念。那么,什么是数据类型呢? 数据类型是由该类型的数据的值域(即值集)和在这些数据上所有施加的运算的集合(即运算集或操作集)组成。值域指出了每一种数据类型的变量合法的数据取值范围,而运算集合则规定了每一种数据类型的变量和数据其上所允许进行的运算。值域和运算集是数据类型的两个基本属性。在下面介绍Pascal语言的数据类型的有关章节中,对每一种数据类型均将说明这两种属性。 2.1.3 数据类型的代数理论基础 一个数据类型是一个二元组(D,R)。其中,D是一个数据类型的值域,R是建立在D上的运算(操作)的集合。这个二元组构成了一个代数系统。其中,D叫做该系统的基集。从本质上说,一个代数系统就是一个带运算的集合,而一个数据类型就是一个代数系统。 从这个概念出发,程序设计语言理论在数据结构的基础上发展了一些数据和类型的代数理论。这些理论属于程序设计语言语义学的范畴,将来,有兴趣的学生在具备了比较深入的基础之后,可以作进一步的了解。 2.1.4 Pascal语言中数据类型的分类 Pascal语言的优点之一是有丰富的数据类型,按照其定义者的不同可分为下面几类,如表2-1所示。 整数类型 实数类型 系统预定义的数据类型布尔类型(逻辑类型) 基本(标准)数据类型 字符类型 Pascal 枚举类型 数据类型子界类型 数组类型 用户自定义的数据类型记录类型构造型数据类型 集合类型 文件类型 指针类型 图2-1 Pascal的数据类型 2.2 基本数据类型 本节介绍四种基本数据类型(Elementary Date Type),它们是整数类型、实数类型、布尔类型(逻辑类型)和字符类型。基本数据类型又称为标准数据类型(Standard Date Type),我国国家标准中将它改称为需求数据类型。基本数据类型是语言系统预先定义或规定的数据类型。 2.2.1 整数类型 整数类型(Integer Date Type)简称整型,在Pascal语言中用类型标识符integer表示整数类型。整型的数据可以是正整数、负整数和零,其中,正整数和零可以省略“+”号。 1.整数类型的值域 任何计算机系统由于受机器字长的限制,它所能表示的整数只是数学中整数集合的一个有穷的子集合。其中,最大整数为maxint,它的值与具体机器的字长有关。一般地,若机器的字长为W时(假设用一位表示数符),由于整数在机器内采用二进制补码表示,因此,

数据的计量尺度有哪些

1、数据的计量尺度有哪些各自特征 (1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或?的数学特性 (2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等) (3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系) (4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ? 或 ? 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。 ·对测量尺度层次的判断 (1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。 (2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。 (3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。 2、条形图与直方图的不同 (1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据) (2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义 (3)直方图的各矩形通常是连续排列,条形图则是分开排列 3、均值、中位数和众数的特点及之间的关系 (1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用 (2)中位数:不受极端值影响、数据分布偏斜程度较大时应用 (3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用 ·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30 根据这一关系,可以得到以下三个关系式: 4、为什么要计算离散系数如何运用离散系数判断平均数的代表性 (1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。公式如下: (2)离散系数大的离散程度大,平均数代表性小;反之,离散系数小的离散程度小,平均数代表性大。 5、什么是参数什么是统计量二者有何关系 (1)参数:研究者想要了解的总体的某种特征值。总体参数通常用希腊字母表示,所关心的参数主要有总体均值(?)、标准差(?)、总体比例(π)等。 (2)统计量:根据样本数据计算出来的一个量。样本统计量通常用小写英文字母来表示,所关心的样本统计量有样本均值(?x)、样本标准差(s)、样本比例(p)等 (3)关系: 6、评价估计量优良的标准是什么 (1)无偏性:估计量抽样分布的数学期望等于被估计的总体参数。若,则称为的无偏估计量。 (2)有效性:作为优良的估计量,除了满足无偏性的要求外,其方差应比较小。假定 、 为总体参数 的两个无偏估计量,其抽样分布的方差分别用 和 表示,若 ,则称为比更有效的估计量。在无偏估计条件下,估计量方差越小,离散程度越小,估计越有效。

数据及其分类

数据及其分类 胡经国 本文作者的话 云计算具有很强的知识性和专业性。对于业外读者来说,云计算可谓“博大精深”。业外公众要学习云计算,有必要循序渐进地学习有关云计算的一系列基础知识。本文作为《漫话云计算》系列文稿和笔者学习云计算的笔录之一,供云计算业外读者进一步学习和研究参考。希望能够得到大家的指教和喜欢! 下面是正文 一、数据概述 1、数据的一般概念 ⑴、数据的定义 数据(data)是指载荷或记录信息的、按一定规则排列组合的物理符号。它可以是符号、数字、文字、图像、声音,也可以是计算机代码等等。 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。 ⑵、数据与信息的关系 数据是信息的表现形式和载体,可是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的。数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有在对实体行为产生影响时才成为信息。 数据的意义在于能够传递信息。对信息的接收,始于对数据的接收;对信息的获取,只能通过对数据背景的解读。 数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。亦即数据转化为信息,可以用以下公式表示:数据+背景=信息。 2、计算机科学对数据的解释 在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据;数据经过加工后就成为信息。 在计算机系统中,数据以二进制信息单元0、1的形式表示。 在计算机科学中,数据是指所有能输入到计算机并能被计算机程序处理

的、具有一定意义的数字、字母、符号和模拟量等的通称。 其中,模拟量是指变量在一定范围连续变化的量;也就是在一定范围(定义域)内可以取任意值(在值域内)。而数字量则是分立量而不是连续变化量,只能取几个分立值,如二进制数字变量只能取两个值。 二、数据分类 1、按性质分类 ⑴、定位数据:表示事物位置特征的数据,如各种坐标数据; ⑵、定性数据:表示事物属性的数据,如居民地、河流、道路等; ⑶、定量数据:反映事物数量特征的数据,如长度、面积、体积等几何量,重量、速度等物理量; ⑷、定时数据:反映事物时间特性的数据,如年、月、日、时、分、秒等。 2、按表现形式分类 ⑴、数字数据:是指数据在某个区间内是离散的值,如符号、文字。 在数据通信中,数字数据(Digital data)又称为数字量,相对于模拟数据(模拟量)而言,是指取值范围是离散的变量或者数值。 ⑵、模拟数据:是指数据在某个区间内是连续的值,如声音、图像。模拟数据又可以分为:图形数据:如点、线、面;符号数据、文字数据和图像数据等,如声音的大小和温度的变化等。 模拟数据(Analog data)又称为模拟量,相对于数字数据(数字量)而言,是指取值范围是连续的变量或者数值,如声音、图像、温度、压力。 3、按记录方式分类 分为:地图、表格、影像、磁带、纸带。 4、按数字化方式分类 分为:矢量数据、格网数据等。 矢量数据是指在直角坐标系中,用X、Y坐标表示地图图形或地理实体的位置和形状的数据。矢量数据一般通过记录坐标的方式来尽可能将地理实体的空间位置表现得准确无误。 格网数据又称为网格数据,是指计算机中以栅格结构存贮的内部数据。它适用于屏幕显示和行式打印输出,适用于数字地形模型和遥感图像等信息的存储。与矢量数据相比,其软件设计较简单,缺点是数据存储量大。 5、地理信息系统中的数据 地理信息系统(Geographic Information System,GIS),是指由电子计算机

统计学简答题答案

统计学基础(贾俊平)课后简答题 第一章 1.什么是统计学?统计方法可以分为哪两大类? 统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。统计方法可以分为描述统计和分类统计。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。 按计量尺度分时:分类数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。 3.举例说明总体、样本、参数、统计量、变量这几个概念。 总体是包含所研究的全部个体(数据)的集合 样本是从总体中抽取的一部分元素的集合 参数是用来描述总体特征的概括性数字度量 统计量是用来描述样本特征的概括性数字度量 变量是说明现象某种特征的概念。 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4.什么是有限总体和无限总体?举例说明。 根据总体所包含的单位数目是否可数可以分为有限总体和无限总体。总体的范围能够明确确定,而且元素的数目是有限可数的。比如,由若干个企业构成的

统计学中关于数据类型的相关内容

统计学中关于数据类型的相关内容 导语:统计学中数据类型有哪些你知道吗?出力定性变量、分类变量和顺序变量之外还有什么?来给你说一说。 统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时,可以从不同的角度进行采集,从而得到不同类型的数据。 一.变量与数据 变数或变量,是指没有固定的值,可以改变的数。变量的具体数值称为变量值,即数据。统计数据就是统计变量的具体表现。 二.数据类型 (一)定性变量(数据)与定量变量(数据) 1.定性变量:反映“职业”、“教育程度”等现象的属性特点的变量,不能说明具体量的大小和差异。 分类变量:没有量的特征,只有分类特征。这种只反映现象分类特征的变量又称分类变量。分类变量的观测结果就是分类数据。说明事物类别的一个名称。如“性别”就是一个分类变量。 顺序变量:如果类别具有一定的顺序,如,“教育类别”,这样的变量称为顺序变量,相应的观察结果就是顺序数据。说明事物有序类别的一个名称,这类变量的具体表现就是顺序数据。 2.数值(定量)变量:反映“天气温度”、“月收入”等变量可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。这些变量就是定量变量也称

数值变量,定量变量的观察结果成为定量数据。说明事物数字特征的一个名称。 分类变量没有数值特征,所以不能对其数据进行数学运算。分类数据只能用来区分事物,而不能用来表明实物之间的大小、优劣关系。 顺序变量比分类变量向前进一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细一些。但顺序数据的数据之间虽然可以比较大小,却无法计算相互之间的大小、高低或优劣的距离。只是反映事物在性质上的差异,而不能用来反映事物在数量上的差异。因此,从本质上,顺序数据仍然是定性数据中的一种。 数值型数据作为统计研究的主要资料,其特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差。其计量精度远远高于定性数据。在统计学研究中,对数值型数据的研究是定量分析的主要内容。 从上述三种数据的基本特点可以看出,这三类数据对事物的描述是由定性到定量、由低级到高级,从粗略到精细。在统计研究中,需要明确各种数据所适用的统计方法,正确的选择和应用,这是正确进行统计研究的基本要求。 (二)观测数据和实验数据

数据的测量尺度分为哪几类

1 数据的测量尺度分为哪几类?各种测量尺度具有哪些特点? (1)定类尺度:最粗糙只能进行平行分类不能进行大小比较和加减乘除运算 (2)定序尺度:可以反映类别和顺序上的区别,可进行是非判断,不能加减乘除运算 (3)定距尺度:观测值可直接表现为数字,可反映类别,顺序的差异和差异的多少,可进行是非判断,大小比较,加减运算,但不能乘除。 (4)定比尺度:最为精确,可进行是非判断,大小比较,加减乘除运算。 2 统计图分为几种?每种统计图适合显示哪一类数据? 品质型数据:频数分布图条形图与饼形图 数值型数据:组距式频数分布图直方图盒形图茎叶图 双变量关系:散点图频数分布图 3 算术平均数有哪些计算方法?各根据哪种形式数据计算? 简单算术平均数:适用于总体资料未经分组整理,尚为原始数据的资料。 加权算术平均数:适用于总体资料经过分组整理形成变量数列的情况。 4 什么是数据的离散趋势?测定离散趋势的方法有哪几种?每种方法各有什么特点? (1)离散趋势指总体中各单位标志值背离分布中心的规模或程度。 (2)极差:计算方法简单,极易受极端值影响 四分位差:反应中间50%数据的离散程度,不受极端值影响 平均差(各个观测值与均值离差绝对值的均值):全面而完整的反映了数据整体 离散程度的高低,不易受极端值影响。

标准差:不受极值影响,用平方的方法消除各标志值与算术平均数离差的正负问 题。 5 测定数据分布形态的方法有几种?怎样根据计算的结果判定分布形态? (1)峰度:衡量频数分布形态来削减陡峭程度的统计量KU KU=0 称为正态峰 KU<0 称为平顶峰,表明频数分布表趋于集中的速度变化慢,分布形态平坦。 KU>0 称为尖顶峰,表明频数分布表趋于集中的速度变化快。分布形态尖削(2)偏度:衡量频数分布对称性的计算SK SK=0 表明频数分布形态是对称的 SK<0 表明频数分布形态偏左 SK>0 表明频数分布形态偏右 6 一组数据完全对称分布时算术平均值,众数,中位数之间什么关系? 7 算术平均数,众数,中位数各有哪些特点? 算术平均数:易受极端值影响 众数:不受极端值影响,用来说明总体中大多数单位所达到的一般水平。 中位数:不受极端值影响,在总值差异很大时,具有较强的代表性。 8 什么是四分位数?什么是四分位差?各自怎么计算?

相关文档
最新文档