数据分析的基本思想
Meta分析的基本思想及顺序

M e t a分析的思想及步骤Meta分析的前身源于Fisher1920年“合并P值”的思想,1955年由Beecher首次提出初步的概念,1976年心理学家Glass进一步按照其思想发展为“合并统计量”,称之为Meta分析。
1979年英国临床流行病学家ArchieCochrane提出系统评价(systematicreview,SR)的概念,并发表了激素治疗早产孕妇降低新生儿死亡率随机对照试验的系统评价,对循证医学的发展起了举足轻重的作用。
Meta分析国内翻译为“荟萃分析”,定义是“Thestatisticalanalysisoflargecollectionofanalysisresultsfromindividual studiesforthepurposeofintegratingthefindings.”亦即“对具备特定条件的、同课题的诸多研究结果进行综合的一类统计方法。
”Meta从字源来说据考证有“Metalogic:abranchofanalyticphilosophythatdealswiththecriticalexaminationofthebasic conceptsoflogic”;“Metamathematics:thephilosophyofmathematics,especially,thelogicalsyntaxofmathematics.”其中最简洁并且一语中的的是Metascience::atheoryorscienceofscience,atheoryconcernedwiththeinvestigation?analysis?ordescriptionoftheoryitsel f.”意为一种科学中的科学或理论,一种对原理本身进行调查、分析和描述的原理。
Meta分析有广义和狭义两种概念:前者指的是一个科学的临床研究活动,指全面收集所有相关研究并逐个进行严格评价和分析,再用定量合成的方法对资料进行统计学处理得出综合结论的整个过程;后者仅仅是一种单纯的定量合成的统计学方法。
数据分析思维方法 推测法

数据分析思维方法推测法
性
数据分析思维方法推测法是一种以推测为基础的思维方法,它可以帮助我们从数据中提取有用的信息,从而更好地理解数据。
推测法的基本思想是,通过对数据的分析,从中提取出有用的信息,从而推断出可能的结果。
它可以帮助我们更好地理解数据,从而更好地分析数据。
推测法的基本步骤是:首先,要收集有关数据的信息,包括数据的类型、数据的范围、数据的分布等;其次,要分析数据,从中提取出有用的信息,从而推断出可能的结果;最后,要根据推断出的结果,进行相应的处理,以达到预期的目的。
推测法的优点是,它可以帮助我们从数据中提取有用的信息,从而更好地理解数据,从而更好地分析数据。
它还可以帮助我们更好地预测未来的发展趋势,从而更好地制定有效的策略。
然而,推测法也有一定的局限性,因为它只能从数据中提取出有用的信息,而不能提供客观的分析结果。
此外,推测法也受到数据的局限性的影响,因为数据的质量和准确性会影响推测法的结果。
总之,数据分析思维方法推测法是一种有效的思维方法,它可以帮助我们从数据中提取有用的信息,从而更好地理解数据,从而更好地分析数据。
但是,它也有一定的局限性,因此,在使用推测法时,要注意数据的质量和准确性,以确保推测法的结果是准确的。
数据分析知识:数据分析中的假设检验流程

数据分析知识:数据分析中的假设检验流程在数据分析领域里,假设检验是一种用来判断样本统计量是否代表整体总体的方法。
其基本思想是首先确定一个假设,然后使用统计方法对这个假设进行检验,从而得出结论。
假设检验流程主要包括以下五个步骤:第一步:确定零假设和备择假设。
在进行假设检验时,需要先明确零假设和备择假设。
零假设是指认为不存在差异或者认为差异是由随机因素造成的假设,通常使用"H0"表示;备择假设则是指认为存在差异或者认为差异不是由随机因素造成的假设,通常使用"Ha"表示。
需要注意的是,备择假设并不一定是"完全相反"的假设,而是对零假设的补充或者修正。
第二步:确定显著性水平。
显著性水平指的是能够接受零假设的程度,通常使用"α"表示。
常见的显著性水平有0.05和0.01两种。
当显著性水平为0.05时,意味着我们只接受在5%的概率范围内出现假阳性(Type I Error)的结论;同理,当显著性水平为0.01时,只接受在1%的概率范围内出现假阳性的结论。
第三步:计算检验统计量。
检验统计量是用来度量样本数据与零假设之间偏差的统计量,通常使用"t"或"z"符号表示。
具体计算公式根据检验类型的不同而异。
常见的检验类型有单样本t检验、独立样本t检验、配对样本t检验、方差分析等。
第四步:计算P值。
P值,也称为"显著性水平",指的是当零假设为真的情况下,获得当前检验统计量或更极端的结果的概率。
通常情况下,P值越小,代表得到类似结果的概率越小,说明样本结果更具有显著性。
如果P值小于显著性水平α,则拒绝零假设;反之,则无法拒绝零假设。
第五步:解释结果。
在判断零假设和备择假设之间的关系时,需要将P值与显著性水平进行比较,如果P值小于显著性水平,则获得拒绝零假设的结论,否则获得接受零假设的结论。
多元统计分析的基本思想与方法

多元统计分析的基本思想与方法多元统计分析是一种应用数学和统计学的方法,用于研究多个变量之间的关系和模式。
它包括多个统计技术和方法,旨在从多个变量的角度解释数据,并揭示隐藏在数据背后的结构和规律。
本文将介绍多元统计分析的基本思想和常用方法,以及其在实际应用中的意义和局限性。
一、多元统计分析的基本思想多元统计分析的基本思想是将多个变量放在同一分析框架中,通过建立统计模型和运用统计方法来探索变量之间的关系。
它关注的是多个变量之间的相互作用和共同影响,以及这些变量对于所研究问题的解释力度。
其核心思想是综合多个变量的信息,从整体上理解数据的结构和规律。
二、多元统计分析的基本方法1. 方差分析(ANOVA)方差分析是一种多元统计分析方法,用于比较多个组别或处理之间的均值差异是否显著。
它的基本原理是通过分解总变异为组内变异和组间变异,从而确定组别之间是否存在显著差异。
方差分析可以用于研究不同处理对观测变量的影响,并进行比较和推断。
2. 主成分分析(PCA)主成分分析是一种用于降维和数据压缩的多元统计方法。
它通过将原始变量线性组合,构造出一组新的无关变量,即主成分,用于解释数据的方差。
主成分分析可以减少变量维度,提取主要信息,并可用于数据可视化和模型构建。
3. 因子分析因子分析是一种用于探索变量之间潜在关系的多元统计方法。
它通过将一组相关变量归纳为相对独立的因子,揭示潜在的结构和维度。
因子分析可以帮助研究者理解变量之间的共性和差异,从而提取共同特征并简化数据分析。
4. 聚类分析聚类分析是一种用于将个体或变量划分为相似群体的多元统计方法。
它通过测量个体或变量之间的相似性,将其聚集成若干组别。
聚类分析可以帮助识别数据中的模式和群体结构,发现隐藏的规律,并为进一步研究和决策提供指导。
5. 判别分析判别分析是一种用于区分不同群体或类别的多元统计方法。
它通过构建分类函数,将个体划分到预定义的群体中。
判别分析常用于预测和识别问题,可以帮助识别关键影响因素和预测未来结果。
空间数据统计分析的思想起源与应用演化

空间数据统计分析的思想起源与应用演化一、内容概括空间数据统计分析是一门研究空间数据收集、处理、分析和解释的学科,其思想起源于20世纪初的空间概念和地理信息系统(GIS)技术的发展。
随着科学技术的进步和社会对空间信息的需求不断增加,空间数据统计分析逐渐成为地理学、环境科学、城市规划、交通管理等领域的重要研究方法。
本文将从空间数据统计分析的思想起源、发展历程以及在各领域的应用演化等方面进行探讨,以期为相关领域的研究者提供一个全面而深入的理论框架和实践指导。
1. 空间数据统计分析的定义和意义空间数据统计分析是一种基于地理信息系统(GIS)和空间统计学原理,对地理空间数据进行收集、整理、处理、分析和解释的过程。
它旨在揭示地理空间数据中的规律性、趋势性和关联性,为决策者提供科学依据和有效的解决方案。
随着信息技术的飞速发展和全球经济一体化进程的加速,空间数据统计分析在各个领域得到了广泛应用,如城市规划、环境保护、资源管理、市场调查等。
本文将从思想起源和应用演化两个方面,探讨空间数据统计分析的发展历程及其在现实问题中的应用价值。
2. 国内外研究现状和发展趋势空间数据的获取和处理是空间数据统计分析的基础,目前国内外学者已经开发了许多用于获取和处理空间数据的软件和工具,如ArcGIS、ENVI、QGIS等。
这些软件和工具为空间数据统计分析提供了便利的条件。
空间数据的可视化与表达是空间数据统计分析的重要手段,目前国内外学者已经提出了许多有效的可视化方法,如地图制图、空间网络分析、地理建模等。
这些方法有助于用户更好地理解和分析空间数据。
空间数据的统计分析方法是空间数据统计分析的核心内容,目前国内外学者已经研究了许多适用于空间数据的统计分析方法,如聚类分析、主成分分析、空间自相关分析等。
这些方法有助于揭示空间数据中的结构和规律。
空间效应检验是评估空间数据统计分析结果可靠性的重要手段。
目前国内外学者已经提出了许多有效的空间效应检验方法,如双重差分法、空间滞后模型、面板数据分析等。
什么是数据分析观念呢

什么是数据分析观念呢?是这样定义的:认识到统计对决策的作用,能从统计的角度思考与数据有关的问题;通过收集数据、描述数据、分析数据的过程,作出合理的决策;能对数据的来源、收集和描述数据的方法、由数据得到的结论进行合理的质疑。
从上面可以看到,收集数据,要通过分析做出判断,体会数据中蕴涵着信息;了解对于同样的数据可以有多种分析的方法,需要根据问题的背景选择合适的方法;通过数据分析体验随机性,一方面对于同样的事情每次收集到的数据可能不同,另一方面说明只要有足够的数据就可能从中发现规律。
在标准解读中,提出了四个方面的价值。
第一,它们是学生在义务教育阶段数学课程中最应培养的数学素养,是促进学生发展的重要方面;第二,核心概念往往是一类课程内容的核心或聚焦点,它有利于我们把握课程内容的线索和层次,抓住教学中的关键;第三,核心概念本质上体现的是数学的基本思想;第四,这些核心概念都是数学课程的目标点,也应该成为数学课堂教学的目标,并通过教师的教学予以落实。
那么我又是怎样在实际的教学工作中培养学生的数据分析观念呢? 本人结合自己的教学实践,对此仅谈几点肤浅的认识一、注重学生统计观念的培养作为统计教学,最重要的目标就是培养学生的统计观念,我特别注重学生对于统计过程的经历。
学习中学生并没有完整的经历统计的全过程,对于描述数据的方法也是不完整和不完善的,可以说学生本节课学习是完整认识统计过程的开始。
所以我在教学统计时就有意识地创设一个完整的现实的情景,引导学生在活动中不断地感受收集数据、整理数据、描述数据、分析数据的方法,使得他们在知识的拓展中不断地经历与完善,从而加深他们对统计数据的认识与理解。
在分析数据的过程中,培养学生对统计数据的“钟爱”,因为用统计的数据说话才更有说服力,才能合理的解决问题二、注重学生能力的培养平时上课时着眼点不仅仅局限于知识、方法,在培养学生统计观念的同时,注重了学习能力的拓展与提高。
课始,我常以问题驱动的方式,进行教学。
数据分析教学大纲

《数据分析》课程教学大纲课程代码:090141122课程英文名称:Data analysis课程总学时:32 讲课:32 实验:0 上机:0适用专业:信息与计算科学大纲编写(修订)时间:2017.11一、大纲使用说明(一)课程的地位及教学目标本课程是信息与计算科学专业的一门专业必修课,通过本课程的学习,可以使学生获得分析和处理数据的理论与方法,能够从大量数据中揭示其隐含的内在规律、发掘有用的信息、进行科学的推断与决策。
本课程为学生学习新知识和后续开设的《大数据算法》、《数据挖掘》等课程打下良好的基础。
(二)知识、能力及技能方面的基本要求1 知识方面的基本要求通过本科程的学习,使学生掌握:1)要求学生了解数据分析的基本内容及应用领域,学会如何对已获取的数据进行加工处理,如何对实际问题进行定量分析,以及如何解释分析的结果;2)掌握几种常用数据分析方法的统计思想及基本步骤,且能够利用统计软件,较熟练地解决实际问题中的数据分析问题。
2 能力方面的基本要求通过各个教学环节逐步培养学生的抽象思维能力、逻辑推理能力和自学能力,培养学生综合运用所学知识去分析解决实际问题的意识和能力。
3 技能方面的基本要求通过本课程的学习,使学生1)对于已获得的数据,能够通过相应的统计软件描述数据的分布及其数字特征;2)能够建立线性回归模型分析和预测;3)能比较不同数据之间的差异,并且能够进行分类、判别;4)能利用主成分方法处理高维数据;5)能够建立模型对数据进行分析和预测。
(三)实施说明1 本大纲主要依据信息与计算科学专业2017-2020版教学计划、信息与计算科学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写的。
2 课时分配仅供参考。
3 建议本课程采用课堂讲授、讨论相结合的方法和采用多媒体等现代化手段开展教学,通过习题课和讨论等方式强化重点,通过分散难点,使学生循序渐进的掌握难点。
(四)对先修课的要求本课的先修课程:概率论与数理统计。
数据分析师必须掌握的6种方法论和8种思路

数据分析师必须掌握的6种方法论和8种思路估计很多人都听过数据分析,但是真正做起来却不是那么一回事了。
要么胡子眉毛一把抓,要么无从下手。
这说明缺少理论知识的支持,那么本文就将盘点一下数据分析常用的方法论和思路,作为数据分析入门的基础。
数据分析的流程在介绍数据分析方法论和思路之前,我们还是先不厌其烦地看一下数据分析的流程,简单来说分为以下六个步骤:1、明确分析的目的,提出问题。
只有弄清楚了分析的目的是什么,才能准确定位分析因子,提出有价值的问题,提供清晰的指引方向。
2、数据采集。
收集原始数据,数据来源可能是丰富多样的,一般有数据库、互联网、市场调查等。
具体办法可以通过加入“埋点”代码,或者使用第三方的数据统计工具。
3、数据处理。
对收集到的原始数据进行数据加工,主要包括数据清洗、数据分组、数据检索、数据抽取等处理方法。
4、数据探索。
通过探索式分析检验假设值的形成方式,在数据之中发现新的特征,对整个数据集有个全面认识,以便后续选择何种分析策略。
5、分析数据。
数据整理完毕,就要对数据进行综合分析和相关分析,需要对产品、业务、技术等了如指掌才行,常常用到分类、聚合等数据挖掘算法。
Excel是最简单的数据分析工具,专业数据分析工具有R语言、Python等。
6、得到可视化结果。
借助可视化数据,能有效直观地表述想要呈现的信息、观点和建议,比如金字塔图、矩阵图、漏斗图、帕累托图等,同时也可以使用报告等形式与他人交流。
数据分析方法论数据分析的方法论很多,小编为大家介绍其中六种比较常见的理论。
1、PEST分析法PEST,也就是政治(Politics)、经济(Economy)、社会(Society)、技术(Technology),能从各个方面把握宏观环境的现状及变化趋势,主要用户行业分析。
宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。
对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治、经济、技术、社会,这四大类影响企业的主要外部环境因素进行分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用数据说话,就是用真实的数据说真实的话!真实也可以理解为求真务实。
那么,数据分析就是不断地求真,进而持续地务实的过程!用一句话表达就是用数据说话,用真实的数据说话,说真话、说实话、说管用的话。
1.用数据说话数据本不会说话,但是面对不同的人时,就会发出不同的声音。
现在我们以《荒岛售鞋》这个老故事为引例,从数据分析的角度来解读,看看能不能开出新花?为防止大家案例疲劳,我尽量用新的表达方式把故事罗嗦一下!话说郭靖和杨康,被成吉思汗派去美丽的桃花岛进行射雕牌运动鞋的市场拓展。
郭靖和杨康一上桃花岛就惊讶地发现这里的居民全部赤脚,没有一个穿鞋的,不论男女还是老少,莫不如此。
杨康一看,倒吸了一口凉气,说:唉!完了,没啥市场!郭靖却不这么认为,马上掏出了新买的IPHONE4G给铁木真打了个长途加漫游的汇报电话。
面对桃花岛这个空白的市场,郭靖电话里这么说:“桃花岛人口众多,但信息闭塞。
现在全岛居民,全部赤脚。
在运动鞋市场上没有任何竞争对手,茫茫蓝海,市场将为我独霸!可喜,可喜啊!”这个时候,咱现场做个调查,假如你是成吉思汗,你会怎么抉择?(投资Y1人,不投资的N1人。
)这个时候杨康听不下去了,马上抢过电话,说到“大汗,别听郭靖瞎嚷嚷!市场虽然没有竞争,但并不就一定是蓝海。
在全球化竞争的大背景下,这么轻而易举的就让我们找到了蓝海,您觉得可能吗?难道阿迪、耐克、彪马、锐步这些国际巨头都是棒槌,会发现不了?我看肯定是岛上几百年不穿鞋的生活习惯,短期内无法改变,所以各路群雄,都只能望而止步!可惜,可惜啊!”听了杨康的论述,铁木真又该如何选择呢?请大家举手表态。
(愿意投资Y2人,不愿意投资的N2人。
)姜是老的辣!成吉思汗比较理性,他只说了一句:“继续调研,要用数据说话!”就把电话挂了!一个星期之后,杨康率先给BOSS汇报了。
不过他没有选择打电话,而是改发E—MAIL。
原因有三:一是全球通资费太高了,钱要省着点花;二是杨康有点小人,他担心郭靖听了他的表述后,剽窃他的思想;三是他写了一份详细的调研报告,电话里三言两语说不清。
杨康的调查报告里详细地记录了他与岛内精心选取的200位居民的谈话内容,以及他抽取居民样本时科学合理的甄别条件,最后的结论就是:岛内居民全部(100%)以捕鱼为生,脚一年四季泡在水里,根本就不需要鞋!听到这个消息,成吉思汗怎么办呢?请大家继续举手表态!(愿意投资Y3人,不愿意投资的N3人。
)成吉思汗有自己的想法。
这个时候,他没有做决策,而是继续等。
等什么呢?等郭靖的结论!又过了两天郭靖终于打来了电话。
电话里说了3句话:“这个市场可以做!原因是岛上的居民每周都要上山砍柴,并且十有八九会被划破脚!更可喜的是,这两天他用美男计泡到了岛主的女儿黄蓉,而且黄蓉答应给射雕牌运动鞋作形象代言!”故事发生到这个阶段,我请大家做最后一次表态。
(愿意投资Y4人,不愿意投资的N4人。
)好!数据在变,我们的决策也在变。
不过,成吉思汗比我们理性的多。
回答还是一句话,不过比第一次多了几个字:“继续深入调研,用详实数据论证。
”为什么呢?难道这些数据还不够详实吗?是的!因为在成吉思汗脑袋里还存在有很多疑问。
比如:1)难道竞争对手真的没来过?还是对方论证后真的不可行?2)山上不会开个伐木厂吧?如果有了伐木厂,居民就不会上山砍柴了,到时候送柴上门,鞋还有个屁用啊!3)为什么一周才上一次山?该不会主要使用的是太阳能吧?4)运动鞋的运输成本、营销成本、销售成本是多少?投资收益率有多高?5)……听完这个案例,我想问大家一个问题!从数据分析的角度看,你受到了什么启示?请注意这里说的数据分析的角度,如果你得到的启示是:铁木真领导的郭靖与杨康不是1个老男人+2个帅小伙的Gourp,而是教练型的Team。
那么,抱歉!这不是我们今天讨论的范围。
好,在座的各位谁来表达一下自己的看法呢?提示性的启示有:ü面对同一个数据,不同的人会说不同的话。
ü真实的数据并不一定能推导出正确的结论。
ü正确的决策需要有充分的数据去论证。
ü……说完了启示,咱把这页PPT总结一下。
这个案例涉及数据的搜集、分析、汇报以及用于决策的整个过程。
在这个过程里,无论那个细节出了问题,最终做出的决策都将是致命的!所以说质量是数据的生命,在数据用于决策的整个过程,都必须保证真实有效!2.用真实的数据说话所谓用真实的数据说话,就是指在说话之前,先审核数据的真实性!现实生活中,拿着错误的数据还能大言不惭的可以说比比皆是。
其中有两位杰出的代表:一个是传说中伟大的中国统计局,另一个就是动不动就要封杀这个封杀那个的CCTV。
我不是瞎说,因为有数据支撑!2010年1月20日,国家统计局公布了2009年全国房地产市场数据,全年房价平均每平方米上涨813元。
够雷人吧!雷声还没过,霹雳紧跟着又来了!2月25日国家统计局发布了《2009年国民经济和社会发展统计公报》,数据显示,70个大中城市房屋销售价格上涨1.5%。
真可是天雷滚滚!难怪网友把统计局票选成大天朝的娱乐至尊!此话一出,央视不答应了!真所谓中国统计,娱乐至尊;央视不出,谁与争锋?那我们仔细推敲一下央视的数据。
2010年2月15日,CCTV发布了虎年春晚的满意度报告,结果显示满意度为83.6%。
几乎同一天,新浪的公布的调查结果是14.55%;后来没几天,腾讯也发布了满意度数据,结果是10.48%。
数据一出,网友们骂声不断,此起彼伏,一浪高过一浪。
但是人家央视就是央视,大有敌军围困万千重,我自岿然不动的定力。
更夸张的是央视不但能装作视而不见,充耳不闻,而且还继续恬不知耻地在自己家的那几个频道里卖弄数据,自娱自乐。
到底央视的数据错在哪里?我们先审视一下央视的调查方法。
央视的调查结果,来自央视——索福瑞媒介研究有限公司。
索福瑞号称他们电视观众满意度调查的样本覆盖了全国30个城市,抽样框总人数有30,000人,央视春晚满意度的调查就是从这3万人中随机抽取了2122人进行调查。
这样看,严格意义上讲所谓83.6%的满意度只能代表3万人的看法。
当然,如果我拿这个说法与央视理论,对方肯定能拿出3万代表全国的理论证据。
具体就是先从2千推断3万,再用3万推及到30个城市,然后从30个城市推及至全国所有城市,最后再推及至全国。
这里用到了简单随机抽样、分层抽样、典型抽样,总起来还是个多阶段抽样,多么冠冕堂皇的理论依据!但是,纵然每一步都能保证90%的可靠程度,四次推及下来理论的可靠程度也只有65%。
可遗憾的是,最后一步用城市推及全国的做法在理论上还有一道坎,因为我们不知道如何用45%的城镇居民来代表55%的农村人口?说完了代表性的问题,我们再看看调查方法。
索福瑞采用的是电话调查,而且时段选择在春晚直播的那几个小时内。
据说调查是从晚上8:30开始,一直持续到春晚结束。
巨汗!8:30貌似90%的节目还没有上演,又怎么能调查到观众对整个春晚的满意度呢?央视的数据是经不住推敲的!那么,新浪和腾讯的一定对吗?不一定,这两个数据也只能代表新浪用户和腾讯用户的春晚满意度,最多能够代表一下4亿网友,要想替13亿的中国人民表达心声,也恐怕是鞭长莫及。
欣赏了统计局和CCTV送给我们的两个开年笑话之后,我们自己也应该反思,咱们日常工作中,在从数据的搜集、提取、整理到分析、发布、使用的这一连串过程中,数据有没有失真?是不是数据自始自终都很齐全、很准确,而且统计口径与分析目的保持着高度的一致呢?这个问题留到日常工作中供大家思考。
3.说真话说实话拿着错误的数据,肯定得不出正确的结论。
那么面对真实的数据,就一定能得出正确的结论吗?未必!给大家看个小笑话。
问:你只有10平米的蜗居,邻居家从90m2换到190m2,你的居住面积有没有增加?答:没有。
解:错,你们两家的平均居住面积是100m2,你的居住面积被神不知鬼不觉地增加了!这个神不知鬼不觉是谁呢?无敌的平均数!仔细想想,这个均值算错了吗?没有!那么,问题出在哪里?单一的统计量存在片面性,所以要想反映数据的真实面貌,就得使用一系列统计量。
我再杜撰一个气候的例子,说明一下在结构严重失衡的情况下,使用平均数的可怕之处。
我们的大中国啊,960万平方公里,同一时间里有的刮风,有的下雨,还有的高温酷暑。
从去年冬天到今年的春天,北方一直暴雪连天,南方则遭遇百年旱情;而最近这段时间,南方多个省市河水决堤,沿河两岸,村庄沦陷,而北方则是烈日当头,干旱焦人,酷暑难耐。
如果我们计算全年或者是全国降雨量的平均值,算出来的结果肯定是神州大地风调雨顺,国泰民安,而实际却是华夏民族饱经风霜,多灾多难!还好,统计学家不只给了我们平均数,同时还设计了许多其他的统计量,大家看看下面这个表。
衡量数据的集中趋势,基本有三个统计量,均值、中位数和众数。
均值是数值平均数,它容易受极端值的影响。
也就是说如果数据的跨度或者说是极差不大的话,用均值可以很好的反映真实情况。
但是,如果数据的差异比较大,单一使用平均数就会搞出新的笑话了。
中位数和众数属于位置平均数,中位数是把数据从小到大排序,正好处于中间位置的那个数,众数是说出现的频次最多的那个数。
数据除了有集中趋势,还有离散趋势。
反映离散趋势的统计量主要有方差、标准差、极差、变异系数等。
方差就是观测值与均值差的平方和除以自由度,自由度一般是n或n-1。
总体数据就用n,抽样数据就用n-1。
标准差就是方差的正平方根,它的意义是消除了量纲的影响。
极差是最大值与最小值的差,反映的是观测值的跨度范围。
还有一个比较重要也是比较常用的就是变异系数,它是标准差与均值的比,目的是消除数量级的影响。
此外,还有一些是描述数据分布的统计量,比如分位数,有四分位、八分位、十分位等等,二分位就是中位数,它们反映一系列数据某几个关键位置的数值。
频率分布,就是对数据分组或者是分类后,各组或各类的百分比。
偏度是用于衡量分布的不对称程度或偏斜程度,峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。
如果想再深入一些的话,就会用到相关系数、置信水平、统计指数等等。
相关系数是反映变量之间线性相关程度的指标,取值范围是【-1,1】,大于0为正相关,小于0为负相关,等于0表示不相关。
置信水平是指总体参数值落在样本统计值某一区内的概率。
统计指数就是将不能直接比较的一些指标通过同度量因素的作用使得能够比较,常见的物价指数、上证指数等等。
有了这些基本的统计量,我们在实际工作中只要稍微用心选择一下,就可以比较准确的描述数据的真实情况。
4.说管用的话说管用的话是指深入分析数据的实质,挖掘数据的内涵,而不是停留在数据的表层,说些大话、空话或者套话。
这就要求在数据分析时,首先明确分析的目的,其次是选择恰当的方法,最后得出有用的结论。