常用统计方法

常用统计方法.txt我们用一只眼睛看见现实的灰墙，却用另一只眼睛勇敢飞翔，接近梦想。男人喜欢听话的女人，但男人若是喜欢一个女人，就会不知不觉听她的话。常用统计方法：均值；中位数；众数；正态分布；抽样；标准差；概率论；t检验；方差分析；chi卡方检验；
2，关于高斯分布或正态分布
1733年，德-莫佛（De Moivre）在给友人分发的一篇文章中给出了正态曲线（这一历史开始被人们忽略）
1783年，拉普拉斯建议正态曲线方程适合于表示误差分布的概率。
1809年，高斯发表了他的关于天体运行论的伟大著作，在这一著作的第二卷第三节中，他导出正态曲线适宜于表示误差规律，同时承认拉普拉斯较早的推导。
正态分布在十九世纪前叶因高斯的工作而加以推广，所以通常称作高斯分布。卡尔-皮尔逊指出德-莫佛是正态曲线的创始人，第一个称它为正态分布，但人们仍习惯称之高斯分布。
3，关于最小二乘法
1805年,Legendre提出最小二乘法，Gauss声称自己在1794年用过，并在1809年基于误差的高斯分布假设，给出了严格推导。
4，其它
在十九世纪中叶，三个不同领域产生的重要发展都是基于随机性是自然界固有的这个前提上的。
阿道夫·凯特莱特（A. Quetlet,1869）利用概率性的概念来描述社会学和生物学现象（正态曲线从观察误差推广到各种数据）
孟德尔（G.Mendel,1870）通过简单的随机性结构公式化了他的遗传法则
玻尔兹曼（Boltzmann,1866）对理论物理中最重要的基本命题之一的热力学第二定律给出了一个统计学的解释。
1859 年，达尔文发表了《物种起源》，达尔文的工作对他的表兄弟高尔登爵士有深远影响，高尔登比达尔文更有数学素养，他开始利用概率工具分析生物现象，对生物计量学的基础做出了重要贡献（可以称他为生物信息学之父吧），高尔登爵士是第一个使用相关和回归这两个重要概念的人，他还是中位数和百分位数这种概念的创始人。
受高尔登工作影响，在伦敦的大学学院工作的卡尔-皮尔逊开始把数学和概率论应用于达尔文进化论，从而开创了现代统计时代，赢得了统计之父的称号，1901年Biometrika第一期出版（卡-皮尔逊是创始人之一）。
5，关于总体和样本
在早期文献中可找到由某个总体中抽样的明确例子，然而从总体中只能取得样本的认识常常是缺乏的。 ----K.皮尔逊时代
到十九世纪末，对样本和总体的区别已普遍知道，然而这种区分并不一定总被坚持。----1910年Yule在自己的教科书中指出。
在 1900年代的早期，区分变的更清楚，并在1922年被Fisher特别强调。----Fisher在1922年发表的一

篇重要论文中《On the mathematical foundation of theoretical statistics》，说明了总体和样本的联系和区别，以及其他概念，奠定了“理论统计学”的基础。
6，期望、标准差和方差
期望是一个比概率更原始的概念，在十七世纪帕斯卡和费马时代，期望概念已被公认了。K.皮尔逊最早定义了标准差的概念。1918年，Fisher引入方差的概念。
力学中的矩和统计学中的中数两者之间的相似性已被概率领域的早期工作者注意到，而K.皮尔逊在1893年第一次在统计意义下使用“矩”。
7，卡方统计量
卡方统计量，是卡-皮尔逊提出用于检验已知数据是否来自某一特定的随机模型，或已知数据是否与已给定的假设一致。卡方检验被誉为自1900年以来在科学技术所有分支中20个尖端发明之一，甚至敌人Fisher都对此有极高评价。
8，矩估计与最大似然
卡-皮尔逊提出了使用矩来估计参数的方法。
Fisher则在1912年到1922年间提出了最大似然估计方法，基于直觉，提出了估计的一致性、有效性和充分性的概念。
9，概率的公理化
1933年，前苏联数学家柯尔莫格洛夫（Kolmogorov）发表了《概率论的基本概念》，奠定了概率论的严格数学基础。
10，贝叶斯定理
贝叶斯对统计学几乎没有什么贡献，然而贝叶斯的一篇文章成为贝叶斯学派统计学的思想模式的焦点，这一篇文章发表于1763年，由贝叶斯的朋友、著名人寿保险原理的开拓者Richard Price在贝叶斯死后提出来的----贝叶斯定理。
概率思想的两种方法，（1）作为一个物理系统内在的一种物理特性，（2）对某一陈述相信程度的度量。在1950年代后期止，多数统计学家采取第一种观点，即概率的相对频数解释，这一时期贝叶斯定理仅应用在概率能在频数框架内解释的场合。贝叶斯统计学派著作的一个浪潮始于1960年。自此，赞成和反对贝叶斯学派统计的两方以皮尔逊和费舍尔所特有的激情和狂怒进行申辩和争辩。
在1960年以前，几乎所有的统计书刊都避免使用贝叶斯学派方法，Fisher坚持避免使用贝叶斯定理，并在他的最后一本书中再一次坚决的拒绝了它。卡尔-皮尔逊偶然使用，总的来说是避免的。奈曼和E.S.皮尔逊在他们有关假设检验的文章中坚决反对使用。
[编辑本段]（二）近代统计学

近代统计学指的是18世纪末到19世纪末的描述统计学，其发展过程与概率论的广泛研究和应用密切相关。目前在统计分析中经常使用的一些基本方法和术语都始于这一个时期，比如：最小平方法、正态分布曲线、误差计算等等。
在近代统计发展的一百年中，也形成了许多学派，其中以数理统计学派和社会统计学派最为

著名。数理统计学派的原创始人是比利时的A?凯特靳，其最大的贡献就是将法国的古典概率引入统计学，用纯数学的方法对社会现象进行研究；社会统计学派的首倡者是德国的K?克尼斯，他认为统计研究的对象是社会现象，研究方法为大量观察法。在近代统计学的发展过程中，这两学派的矛盾是比较大的。
*****【统计分析方法总结】*****
1.连续性资料
1.1 两组独立样本比较
1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。
1.1.2 资料不符合正态分布，（1）可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验；（2）采用非参数检验,如Wilcoxon检验。
1.1.3 资料方差不齐，（1）采用Satterthwate 的t’检验；（2）采用非参数检验,如Wilcoxon检验。
1.2 两组配对样本的比较
1.2.1 两组差值服从正态分布，采用配对t检验。
1.2.2 两组差值不服从正态分布，采用wilcoxon的符号配对秩和检验。
1.3 多组完全随机样本比较
1.3.1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。
1.3.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Kruscal－Wallis法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用成组的Wilcoxon检验。
1.4 多组随机区组样本比较
1.4.1资料符合正态分布，且各组方差齐性，直接采用随机区组的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。
1.4.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用符号配对的Wilcoxon检验。
****需要注意的问题：
（1）一般来说，如果是大样本，比如各组例数大于50，可以不作正态性检验，直接采用t检验或方差分析。因为统计学上有中心极限定理，假定大样本是服从正态分布的。
（2）当进行多组比较时，最容易犯的错误是仅比较其中的两组，而不顾其他组，这样作容易增大犯假阳性错误的概率。正确的做法应该是，先作总的各组间的比较，如果总的来说差别有统计学意义，然后才能作其中任意两组的比较，这些两两比较有特定的统计方法，如上面提到的LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。**绝不能对其中的两组直接采用t检验，这样即使得出结果也未必正

确**
（3）关于常用的设计方法：多组资料尽管最终分析都是采用方差分析，但不同设计会有差别。常用的设计如完全随即设计，随机区组设计，析因设计，裂区设计，嵌套设计等。
2．分类资料
2.1 四格表资料
2.1.1 例数大于40，且所有理论数大于5，则用普通的Pearson 检验。
2.1.2 例数大于40，所有理论数大于1，且至少一个理论数小于5，则用校正的检验或Fisher’s确切概率法检验。
2.1.3 例数小于40，或有理论数小于2，则用Fisher’s确切概率法检验。
2.2 2×C表或R×2表资料的统计分析
2.2.1 列变量＆行变量均为无序分类变量，则（1）例数大于40，且理论数小于5的格子数目<总格子数目的25％，则用普通的Pearson 检验。（2）例数小于40，或理论数小于5的格子数目>总格子数目的25％，则用Fisher’s确切概率法检验。
2.2.2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通的Pearson 检验只说明组间构成比不同，如要说明疗效，则可用行平均分差检验或成组的Wilcoxon秩和检验。
2.2.3 列变量为效应指标，且为二分类变量，行变量为有序多分类变量，则可采用普通的Pearson 检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。
2.3 R×C表资料的统计分析
2.2.1 列变量＆行变量均为无序分类变量，则（1）例数大于40，且理论数小于5的格子数目<总格子数目的25％，则用普通的Pearson 检验。（2）例数小于40，或理论数小于5的格子数目>总格子数目的25％，则用Fisher’s确切概率法检验。（3）如果要作相关性分析，可采用Pearson相关系数。
2.2.2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通的Pearson 检验只说明组间构成比不同，如要说明疗效或强弱程度的不同，则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。
2.2.3 列变量为效应指标，且为无序多分类变量，行变量为有序多分类变量，则可采用普通的Pearson 检验比较各组之间有无差别，如果有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。
2.2.4 列变量＆行变量均为有序多分类变量，（1）如要做组间差别分析，则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。（2）如果要做两变量之间的相关性，可采用Spearson相关分析。
2.4 配对分类资料的统计分析
2.4.1 四格表配对资料，（1）b＋c>40，则用McNemar配对检验。（2）b＋c<40，则用校正

的配对检验。
2.4.1 C×C资料，（1）配对比较：用McNemar配对检验。（2）一致性检验，用Kappa检验。