统计学方法选择与结果解释
论文中的统计分析正确选择与解读统计方法

论文中的统计分析正确选择与解读统计方法在论文中进行统计分析是科学研究中不可或缺的一部分。
正确选择和解读统计方法对于研究结论的准确性至关重要。
本文将讨论在论文中进行统计分析时,如何正确选择和解读统计方法。
一、统计分析的基本概念统计分析是指对样本数据进行整理、描述和推断的过程,旨在从样本数据中获取总体的特征和规律。
统计分析包括描述统计和推断统计两个部分。
1. 描述统计:通过对样本数据的整理、总结和分析,揭示数据的中心趋势、离散程度和分布情况。
描述统计可以通过计算平均数、标准差、百分位数和频率分布等方式来完成。
2. 推断统计:通过对样本数据的统计推断,判断总体参数的区间估计和假设检验等。
推断统计方法包括参数估计、假设检验、方差分析和回归分析等。
二、正确选择统计方法的原则在论文中进行统计分析时,有一些原则需要遵循,以确保所选择的统计方法是正确和适当的。
1. 根据研究目的选择:根据研究的目的和问题,选择适当的统计方法。
例如,如果研究目的是分析两组样本之间的差异,可以使用t检验或方差分析等方法;如果研究目的是分析多个因素对结果的影响,可以使用多元回归分析等方法。
2. 根据数据类型选择:根据数据的类型选择相应的统计方法。
例如,如果数据是连续的,可以使用t检验或回归分析等方法;如果数据是分类的,可以使用卡方检验或ANOVA等方法。
3. 样本量考虑:样本量的大小会影响统计分析的结果和可靠性。
当样本量较小时,应优先选择非参数检验或精确检验等方法,以减小样本量对分析结果的影响。
4. 研究设计考虑:研究设计中的不同因素和变量需要采用不同的统计方法进行分析。
例如,如果研究设计为交叉实验设计,可以使用方差分析方法;如果研究设计为队列研究,可以使用生存分析方法。
三、正确解读统计方法的结果在论文中进行统计分析后,还需要正确解读统计方法的结果,以得出科学的结论。
1. 结果的描述:对统计方法得出的结果进行准确的描述,包括均值、标准差或方差、置信区间和显著性水平等。
统计学的研究方法

统计学的研究方法统计学是一门应用数学的学科,主要研究收集、整理、分析和解释数据的方法和技术。
在各个学科领域中,统计学都起着重要的作用。
本文将介绍统计学的研究方法,包括数据收集、数据整理、数据分析和结果解释等方面。
一、数据收集数据收集是统计学研究的第一步,它决定了后续研究的有效性和可靠性。
数据可以通过实验、调查、观察等方式来获得。
在数据收集过程中,需要注意以下几个方面:1.1 样本选择:样本是从总体中选取的一部分个体,样本的选择要具有代表性,能够反映总体的特征。
要避免选择方便样本或偏倚样本,以免引入偏差。
1.2 数据来源:要确保数据的来源可靠,数据应该来自于可信的渠道,或者经过严格的调查和实验设计。
1.3 数据记录:在数据收集过程中,需要详细记录数据的来源、时间、地点等信息,以便后续的数据整理和分析。
二、数据整理数据整理是将收集到的数据进行归类、整理和清洗,以便后续的分析。
数据整理的过程主要包括以下几个步骤:2.1 数据清洗:清洗数据是为了去除异常值、缺失值和错误值等,确保数据的准确性和可靠性。
2.2 数据编码:对于定性数据,可以进行编码,将其转换为数值型数据,以便进行统计分析。
2.3 数据归类:将数据按照一定的分类标准进行归类,便于后续的分析和比较。
2.4 数据转换:对于定量数据,可以进行数据转换,如对数转换、比率转换等,以满足分析的要求。
三、数据分析数据分析是统计学研究的核心内容,它通过运用统计学的方法和技术,对数据进行描述、推断和预测。
数据分析的方法主要包括描述统计和推断统计。
3.1 描述统计:描述统计是通过统计指标和图表来描述数据的分布、中心趋势和变异程度。
常用的描述统计指标包括均值、中位数、标准差等。
3.2 推断统计:推断统计是通过从样本中得出对总体的推断。
常用的推断统计方法包括假设检验、置信区间估计等。
四、结果解释结果解释是将数据分析的结果转化为对研究问题的解释和结论。
在结果解释中,需要注意以下几个方面:4.1 结果解释要准确无误,不得误导读者。
论文中的统计分析方法和结果解读

论文中的统计分析方法和结果解读在科学研究中,统计分析是一项重要的工具,用于对数据进行处理和解读。
本文将介绍论文中常见的统计分析方法,并探讨如何准确解读统计结果。
一、描述性统计分析描述性统计分析是对数据进行整体概括和描述的方法。
它包括以下几个方面的内容:1.1 中心趋势测量常见的中心趋势测量指标有均值、中位数和众数。
均值是指将所有数值相加后除以总数,可以反映数据的平均水平;中位数是指按照大小顺序排列后处于中间位置的数值,可以减少极端值的干扰;众数是指出现次数最多的数值,可以反映数据的模式。
1.2 离散程度测量离散程度测量用于描述数据的变异程度,常见的指标有标准差、方差和极差。
标准差是指各数据点与均值之间的差异程度,数值越大说明数据的变异越大;方差指的是各数据点与均值的差平方和除以总数,是标准差的平方;极差是最大值和最小值的差。
1.3 分布形态描述分布形态描述用于表达数据的分布情况,常见的指标有偏度和峰度。
偏度反映数据分布相对于均值的偏斜方向和程度,当偏度为正时,说明数据右偏;当偏度为负时,说明数据左偏。
峰度反映数据分布的陡峭程度,当峰度大于0时,说明数据较陡峭;当峰度小于0时,说明数据较平坦。
二、推断性统计分析推断性统计分析是通过样本数据推断总体特征的方法。
它包括以下几个主要内容:2.1 集中性检验集中性检验用于判断样本均值或中位数是否与总体均值或中位数有显著差异。
常见的集中性检验方法有t检验和非参数检验。
在进行集中性检验时,需要确定显著性水平(通常为0.05)和假设检验的方向(单侧或双侧)。
2.2 差异性检验差异性检验用于比较两个样本之间的差异是否显著。
常见的差异性检验方法有独立样本t检验、配对样本t检验和方差分析等。
在进行差异性检验时,同样需要确定显著性水平和假设检验的方向。
2.3 相关性分析相关性分析用于研究两个或多个变量之间的相关关系。
常见的相关性分析方法有皮尔逊相关系数和斯皮尔曼等级相关系数。
统计方法选择与结果解释

统计方法选择与结果解释统计方法的选择是根据研究问题、数据类型以及研究设计来确定的。
在进行统计分析之前,研究者需要先确定研究目的和假设,然后选择适当的统计方法来检验这些假设。
本文将重点讨论统计方法选择的几个关键因素,并探讨结果解释的重要性。
首先,研究问题是选择统计方法的第一个关键因素。
研究问题决定了所需的数据类型和分析方法。
如果研究问题是描述性的,研究者通常会使用描述性统计来总结和展示数据。
如果研究问题是比较不同组之间的差异,研究者可以使用方差分析(ANOVA)或者独立样本t检验等方法。
而如果研究问题是研究因果关系,研究者可能需要使用回归分析或者试验设计来推断因果关系。
其次,数据类型也是选择统计方法的重要因素。
数据可以是定量型或者定性型的。
定量型数据是可以被数值化的,可以进行数学运算和统计分析。
常见的定量型数据包括身高、年龄、成绩等。
定性型数据是非数值化的,通常用于描述分类或者属性。
例如,研究人员在调查问卷中收集到的选择题数据就是定性型数据。
对于定量型数据,可以使用描述性统计、相关分析、回归分析等方法进行分析。
对于定性型数据,可以使用卡方检验、t检验、方差分析等方法。
此外,研究设计也对选择统计方法起到重要的影响。
研究设计可以是横断面研究、纵向研究、试验研究等。
横断面研究是在一个特定的时间点对不同个体进行观察和比较。
纵向研究是对同一组个体在一段时间内进行多次观察。
试验研究是对两个或多个组进行不同的处理或者干预,然后观察其结果。
根据研究设计的不同,可以选择不同的统计方法。
例如,在纵向研究中,可以使用重复测量方差分析来比较时间点之间的差异。
综上所述,统计方法的选择与结果解释是研究过程中至关重要的环节。
选择适当的统计方法可以保证研究结果的可靠性和有效性,而合理的结果解释可以提供有力的科学依据和理论支持。
因此,研究者应该注意选择适当的统计方法,并注意对结果进行准确和客观的解释。
统计学方法——统计结果的解释和表达

统计学⽅法——统计结果的解释和表达
想必⼤家都知道科研论⽂的结构:前⾔→研究⽅法→统计学处理→结果→讨论。
⼤家的关注点都是在研究⽅法、结果、讨论上,却往往忽略了⼀个最应该关注的点:统计学处理。
先看⼀下两个截图:
⼤家是不是都是这样的说明?
其实,这个统计学处理这样写会显得很简单,如果审稿严格的时候,这样是肯定要被退稿的,没有被退稿的也只是不跟你计较罢了。
严格的说,统计学处理部分是介绍本研究中的数据描述和数据分析⽅法。
数据分析是要在数据描述的基础上,不同的数据类型数据处理⽅法的选择不同,数据的不同分布数据处理也不相同,最好是写的详细⼀点。
⽐如下⾯的格式:
是不是这样介绍就显得很正式?所以,既然要做,那就要做好。
以下是杂志社附录中的统计学要求:
当P<0. 05 (或P<0. 01)时,应说明对⽐组之间的差异具有统计学意义;应说明所⽤统计分析⽅法的具体名称,例如:成组设计资料的 t 检验、两因素析因设计资料的⽅差分析、多个均数之间两两⽐较的 q 检验等,给出统计量的具体值,例如:t= 3.45,χ2= 4.68,F = 6.79 等;在⽤不等式表⽰ P 值的情况下,⼀般情况下选⽤ P>0.05、P<0.05 和 P<0.01。
3 种表达⽅式即可满⾜需要,⽆须再细分为 P<0.001 或 P<0.000 1。
当涉及总体参数 (如总体均数和总体率等)时,在给出显著性检验结果的同时,应给出 95%可信区间。
科学研究中的统计分析和结果解读

科学研究中的统计分析和结果解读在科学研究中,统计分析是一种重要的工具,它帮助研究人员对实验数据进行定量分析,并通过合适的统计方法来解读研究结果。
本文将讨论科学研究中常用的统计分析方法,并介绍如何正确地解读统计结果。
一、描述统计分析描述统计分析是统计学的基础,它用于对数据进行概括和描述。
描述统计分析包括以下几个方面的内容:1.中心趋势的测量中心趋势的测量是描述数据集中位置的方法。
常用的中心趋势指标有平均数、中位数和众数。
平均数是所有数据值之和除以观测次数,它能够展示数据集的总体情况。
中位数是将数据按大小顺序排列后,处于最中间的数值,它能够反映数据的典型值。
众数是指数据集中出现频率最高的数值,它能够表示数据集的主要特征。
2.数据分散程度的测量数据分散程度的测量是描述数据散布情况的方法。
常用的数据分散程度指标有标准差、方差和极差。
标准差是数据与平均数之间的离散程度,它越大表示数据集的离散程度越大。
方差是标准差的平方,它用于衡量数据的离散程度。
极差是最大值和最小值的差值,它表示数据集的变化范围。
3.数据分布形态的测量数据分布形态的测量是描述数据分布形状的方法。
常用的数据分布形态指标有偏度和峰度。
偏度用于表示数据分布的偏斜程度,当偏度为正值时,数据右偏;当偏度为负值时,数据左偏。
峰度用于表示数据分布的尖峰程度,当峰度大于3时,数据分布为高峰型分布;当峰度小于3时,数据分布为低峰型分布。
二、推断统计分析推断统计分析是根据样本数据对总体进行推断的方法。
在科学研究中,推断统计分析常常用于检验假设和进行统计推断。
1.假设检验假设检验是通过对样本数据进行推断,判断总体假设是否成立的方法。
假设检验可以分为单样本检验、双样本检验和方差分析等。
在假设检验中,我们通过计算样本统计量和拟合分布来进行判断,从而得出对总体的结论。
2.置信区间估计置信区间估计是通过样本数据估计总体参数的方法。
在科学研究中,我们常常通过置信区间估计总体参数的范围,从而对总体进行合理的推断。
如何进行毕业论文的统计分析与结果解读
如何进行毕业论文的统计分析与结果解读毕业论文的统计分析与结果解读是毕业论文中非常重要的一环,它能够通过数据分析的手段对论文中的实证研究进行客观、科学地解读。
本文将介绍如何进行毕业论文的统计分析和结果解读,并给出相应的格式。
一、统计分析方法的选择在进行统计分析之前,需要确定适合研究对象和研究问题的统计方法。
常用的统计分析方法包括描述性统计、相关分析、回归分析、方差分析等。
根据具体的研究目的和数据类型,选择合适的统计方法进行分析。
二、数据的整理与编码在进行统计分析之前,需要对研究所使用的数据进行整理和编码工作。
整理数据包括数据的录入、清洗和转换等步骤。
编码数据则是为了便于统计分析,可以将变量进行分类编码。
三、数据的描述性统计描述性统计是对研究数据进行整体描述和概括的方法,包括均值、标准差、频数分布等指标。
通过描述性统计可以对数据的分布、集中趋势和离散程度等进行描述,提供基本的数据概括信息。
四、统计假设检验假设检验是统计分析的重要手段之一,它能够通过对样本数据的分析,对研究中的假设进行验证。
常用的假设检验方法包括t检验、方差分析、卡方检验等。
在进行假设检验时,需要设置显著性水平,并对研究所使用的统计方法进行合理的选择。
五、回归分析回归分析是研究因果关系的一种统计方法,可以用于研究因变量和自变量之间的关系。
在进行回归分析时,需要明确因变量和自变量的选取,并对模型的拟合程度和解释能力进行评估。
六、结果解读与讨论在进行统计分析后,需要对分析结果进行解读和讨论。
对于描述性统计结果,可以根据分布特点、变量之间的差异等进行解读。
对于统计假设检验和回归分析的结果,需要结合具体的研究问题进行解读,并进行合理的讨论。
七、格式要求在论文中,统计分析部分的格式可以参考以下要求:1. 统计分析部分要单独列出一个小节,标题为“统计分析”。
2. 统计分析内容要按照逻辑顺序进行组织,可以根据具体情况分为多个小节。
3. 每个统计分析方法的使用要有明确的描述和解释,包括方法的选择理由、样本的描述、变量的操作定义等。
科学研究中的统计分析和结果解读
科学研究中的统计分析和结果解读科学研究在当今社会发展中发挥着巨大的作用,而统计分析和结果解读是科学研究不可或缺的一部分。
本文将探讨科学研究中的统计分析方法以及如何准确解读研究结果。
一、统计分析方法1. 描述性统计分析描述性统计分析是对数据进行整理、归纳和总结的过程。
常用的描述性统计指标包括均值、中位数、众数、标准差等。
通过描述性统计分析,研究人员可以对数据的基本特征有一个全面的了解。
2. 探索性统计分析探索性统计分析是一种用于识别数据之间关系的方法。
通过探索性统计分析,研究人员可以发现新的研究方向、提出新的假设,并进行后续的推理分析。
3. 推断性统计分析推断性统计分析是通过对样本数据进行推断,进而对总体进行判断。
常见的推断性统计方法包括假设检验、置信区间估计和方差分析等。
研究人员通过推断性统计分析可以对总体进行准确的描述和预测。
二、结果解读方法1. 结果的客观解读在解读科学研究结果时,需要保持客观的态度。
避免主观性的偏见和个人情感的干扰。
研究人员应该将结果与预先设定的假设和研究问题进行比较,准确地说明结果所支持的结论。
2. 结果的可靠性评估科学研究中,对结果的可靠性进行评估是至关重要的。
研究人员可以通过统计的方法,如置信区间估计、P值等,来评估结果的置信度。
同时,需要考虑样本大小、样本选择方式等因素对结果的影响。
3. 结果的逻辑推理科学研究结果应该通过逻辑推理进行解读。
研究人员需要将结果与相关理论和现有研究结果进行联系,提出合理的解释和推断。
同时,也需要注意结果的局限性和不确定性,不宜过度解读。
三、案例分析以一项药物治疗研究为例,假设某种新药物对某种疾病的治疗效果进行了研究。
研究人员分别对接受新药物治疗的实验组和接受传统药物治疗的对照组进行了对比分析。
首先,研究人员使用描述性统计分析对两组患者的基本特征进行了总结。
结果显示,实验组和对照组的平均年龄、性别分布等基本特征无显著差异。
其次,研究人员进行了推断性统计分析。
如何进行有效的统计分析与结果解读
如何进行有效的统计分析与结果解读统计分析是一种科学的方法,通过对数据的收集、整理、分析和解释,为我们提供了对事物和现象的深入认识。
在许多领域中,统计分析是非常重要的,它可以帮助我们制定决策、验证假设、发现规律以及解读结果。
本文将介绍如何进行有效的统计分析和结果解读的方法和步骤。
一、数据收集数据收集是进行统计分析的第一步,它是基础也是关键。
在数据收集过程中,需要注意以下几个方面:1. 确定研究目的:在进行数据收集之前,必须明确研究的目标和问题,以便有针对性地选择收集的数据。
2. 确定样本和样本量:样本是总体的一个子集,通过对样本进行观察和测量,可以推断出总体的特征。
确定样本时,需要考虑样本的代表性和样本量的合理性,以确保结果的可靠性。
3. 选择合适的数据收集方法:数据可以通过实地调查、问卷调查、实验、观察等方法进行收集。
选择合适的数据收集方法可以提高数据的准确性和可靠性。
二、数据整理和描述数据整理和描述是统计分析的第二步,它包括以下几个环节:1. 数据清理:在进行数据清理时,需要检查数据的完整性、准确性和一致性。
剔除异常值、缺失值和错误值,确保数据的质量。
2. 数据编码和输入:对于定性数据,可以通过给每个类别赋予一个数字码进行编码;对于定量数据,需要将原始数据输入电子表格或统计软件进行处理。
3. 数据描述和总结:可以通过频数分布表、直方图、条形图、饼图等进行数据的描述和总结,直观地展示数据的特征和分布情况。
三、统计分析方法在进行统计分析时,有许多常用的统计方法可以选择,具体选择哪种方法要根据研究问题和数据类型进行判断。
常见的统计方法包括:1. 描述统计分析:通过计算中心趋势、离散程度和偏态等指标,对数据进行整体描述。
常用的描述统计指标包括均值、中位数、标准差等。
2. 探索性因素分析:通过对相关变量进行因子分析,揭示变量之间的内在结构和规律。
可以用于降维和分类分析。
3. 假设检验与方差分析:通过比较两个或多个样本的均值差异,判断两组样本是否存在显著性差异。
数据分析方法的选择和解释
数据分析方法的选择和解释数据分析是一种揭示数据背后变量之间关系和趋势的重要方法。
对于企业和个人而言,选择合适的数据分析方法是提高决策能力和解决问题的关键。
本文将从六个方面展开详细论述数据分析方法的选择和解释。
一、统计分析法统计分析法是数据分析的基础方法之一。
它通过搜集、整理和分析数据来揭示数据之间的关系和规律。
统计分析法的优点是结果可靠、数据可重复,适用于实证研究和量化分析。
然而,在使用统计分析法时,需要注意样本的选择、数据的准确性和相关性等问题,以保证分析结果的有效性。
二、回归分析法回归分析法是一种探索数据变量之间关系的方法。
它通过建立数学模型,并利用最小二乘法来拟合数据,从而预测变量之间的相关性及其影响程度。
回归分析法的优点是可以解释因果关系,并进行预测和决策支持。
但是,回归分析法也有一些限制,例如需要假设数据之间存在线性关系,而且对异常值和数据缺失敏感。
三、聚类分析法聚类分析法是一种将数据分为不同组别的方法。
它通过测量数据之间的相似性(如距离或相关性)来判断数据点是否应该归为同一组。
聚类分析法的优点是可以快速发现数据之间的模式和趋势,有利于进行市场细分和客户分类。
但是,聚类分析法也面临着聚类数目的选择和算法的敏感性等问题,需要经验和专业知识进行解释和调整。
四、因子分析法因子分析法是一种降维和变量提取的方法。
它通过统计分析来识别背后的因素或潜在变量,并将原始数据转化为更少的维度。
因子分析法的优点是可以减少数据的复杂性、提取重要信息和探索潜在结构。
但是,因子分析法也要求数据满足一定的前提假设,并且需要在解释因子时进行主观判断。
五、时间序列分析法时间序列分析法是一种研究时间相关数据的方法。
它通过分析数据在时间上的变化和趋势,来预测未来的变化和周期性。
时间序列分析法的优点是适用于历史数据和未来预测,可以发现季节性和趋势性等规律。
然而,时间序列分析法也面临着数据平稳性和趋势性的处理问题,需要进行模型选择和参数估计。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
地 预期死亡数 ni Pi (4)=(2) (3) 0.148 0.647 2.148 5.935
20~ 40~ 60~ 合 计
8.878( ni P ) i23SMR 2.59 8.878
比较A、B两地区肺癌死亡率的高低,总 的肺癌死亡率A地区高于B地区,但B地 区各年龄组肺癌死亡率却均高于A地区
正确理解可比性
均衡/可比性
各组观测指标之间的差异只能归因于研究因素 而不是其它原因
表 5.10 间接法计算某地 2000 年恶性肿瘤标准化死亡率(1/10 万) 年龄组
i (1) 0~
标准死亡率
某 人口数 ni (3) 3066 2516 1440 1738 8760
Pi (2) 4.83
25.73 149.14 341.48 53.86
两样本(成组)t检验 单因素方差分析 2检验(独立样本) 两样本Wilcoxon秩和检验或多样本 Kruskal-Wallis秩和检验
匹配设计
配对t检验 方差分析 配对(Wilcoxon单样本秩和检验)或配伍设计 的秩和检验(Friedman秩和检验) McNemar检验
资料类型
资料类型不同分布不同统计描述的指 标不同
变量间关系
回归分析—数量依存关系
简单直线回归 多重线性回归—对反应变量为定量变量进行的 多变量分析 logistic回归—对反应变量为分类变量所进行的 多变量分析 Cox比例风险回归—对反应变量为含有截尾数 据的生存时间所进行的分析 曲线回归
关联性分析
直线相关 秩相关 偏相关 列联系数
生存分析
分析方法 直线相关分析 Spearman秩相关
双向无序
双向有序、属性不同 双向有序、属性相同
检验
Spearman秩相关、线性趋势检验 一致性检验(kappa系数的假设检验)
一个应变量,一个自变量:直线回 归分析 回 应变量为连续型定量变量,服从正态分 一个应变量,多个自变量:多重线 归 布 性回归分析 分 析 应变量为定性变量 logistic回归分析
第22章 统计学方法选择 与结果解释
统计方法选择的基本思路
研究目的 设计类型
资料类型
数据特征 对比组数 样本含量
综合判断
研究目的
影响因素分析
通过比较观测指标(分布)的差别说明是否归因 于处理因素或分组因素——假设检验 分析变量之间是否存在某种联系——相关或回 归分析
评价 预测 ……
总体间比较
t检验(t’检验) 2检验 秩和检验 方差分析 Z检验(大样本正态近似) 二项/Poisson分布
由于肺癌死亡率与年龄有关,通常随年龄增高
而增高;
A、B两地区各年龄组人口构成不同,A地区高 年龄组人口构成大于B地区,这就造成了A地 区总的肺癌死亡率高于B地区;
上述矛盾是因为两地人口年龄构成不同造成的
所谓可比性问题其实与研究目的有关。
如肺癌一例,假定已知年龄是肺癌死亡率的影响 因素,如果想探索除了年龄之外还有没有其它因 素影响肺癌死亡率,那么就应该对年龄进行标准 化(如果标化后A、B两地肺癌死亡率相同,则说
应变量为含有截尾数据的生存时间 Cox比例风险回归分析
结局 时间 截尾
例如,一个四格表资料可以进行的统计 分析或计算的统计量至少有差异性检验 和独立性检验、列联系数、kappa系数、 OR值、RR值、灵敏度、特异度等。
甲、乙两药治疗小儿上消化道出血的效果
组别 甲药
有效 27
无效 18
合计 45
乙药
合计
40
67
5
23
45
90
设计类型
自身带有
水平1 研究总体 水平2 水平m …
样本例数
分布
样本例数 足够大 t分布 二项分布 Poisson分布 正态分布 正态分布
2
2分布
统计分析应注意的问题
分析的步骤
数据探测
异常值/离群值 直方图、散点图、趋势线图等 正态性、方差齐性检验
统计描述
选择合适的指标表达群体指标分布 最有代表性的值
统计推断
区间估计 假设检验
引例分析
目的 随机抽样
结果的正确解释
统计学检验与客观事实
用概率的方法,利用样本信息验证客观事实是 否真正存在
概率基础上的结果—犯错误
I型错误 II型错误—样本例数过小,检验效能过低
统计学结论和专业意义 统计学结果和因果推论
不同类型研究结果的论证强度
横断面研究 病例对照研究 队列研究 试验性研究
不同分析单位数据分析结果
明年龄是影响肺癌死亡率的唯一因素)
数据的分组问题
分组:就是将专业上认为性质相同的个体 归在一起,将性质不同的个体区别开来
试图在专业上反映出组内的同一性和组间的差 异性
在此基础上进行的数据分析才有可能揭示 出事物的本质和规律
损失信息 专业意义
同一性 变异性
美国儿科杂志曾报道了医生间关于口服氨
苄青霉素副作用研究的一场有趣的争论。
可 比 性
随机 匹配 限制
外来施加
设计类型
涉及设计中引入的因素
试验性研究
完全随机设计—单因素
配对/配伍设计(两因素无重复设计)—2因素
析因设计(两因素有重复设计)—2因素+交互效应 交叉设计—处理因素、顺序、阶段、个体
观察性研究—独立总体
横断面研究 队列研究
病例对照研究
独立样本假设检验
表1
单变量资料差异比较的分析方法小结
资 料 数据 类 特征 型
完全随机设计 单组设 计 两组 多组 两组
配对或配伍设计 多组
样本与 正态、 总体均 定 方差齐 数比较 的t检验 量 资 非正态 Wilcoxo 料 和/或 n符号 方差不 秩和检 齐 验
二项分 布直接 计算概 率法、 正态近
单因素方差分 两样本t检验 析 t¢ 检验、 Wilcoxon秩 2 和检验 KruskalWallis H秩和 2 RC 检验
B医生认为,在缺乏未服氨苄青霉素对照组时,只好 以50mg组与较大剂量组比较。若腹泻与剂量无关, 则两组腹泻发生率差异应无统计学意义。因此,将 较大剂量各组合并(见表2)。
表2 表1合并后的结果
剂量(mg/kg/ 天) 50 结果: >50
无腹泻例数 79 199
有腹泻例数 21 101
较大剂量组的腹泻发生率(约30%)高于50mg组(21%), 2 检 验 P<0.05。因此,认为腹泻与药物剂量有关。
配对t检验
随机区组设 计方差分析
Wilcoxon符号 秩和检验 2
Friedman秩 和检验
RR
2
定 无序 性
检验、 Fisher确切 概率法
表资料 检验、Fisher 确切概率法
配对四格表 检验
配对 列联表
检
表2 双变量(多变量)资料的关联性分析方法小结
数据特征 x、y服从双变量正态分布 定量资料 相 关 分 R C 析 定性资料 ( 表) x、y不服从双变量正态分 布
定量资料 定性资料 等级资料
分析条件—考察数据特征
参数分析方法本身的分析条件
正态 独立 方差齐
变量变换 非参数分析
降低检验效能
对比组数
两总体间比较
t检验或2检验 秩和检验 方差分析 Z检验(大样本正态近似) 二项分布
多总体间比较—两两比较增大犯I型错误的 概率
调整水准 多总体综合比较
方差分析 R×C 2检验 秩和检验 进一步两两比较 – LSD、SNK、 2分割等
A医生认为:“腹泻副作用不论剂量大小均常发生,虽随剂量
增加而增加,但无统计学意义(Pearson2
检验P>0.05)”。见表
1。
表1 口服氨苄青霉素的副作用
剂量(mg/kg 天) 50 100 150 200
无腹泻例数 79 70 61 68
有腹泻例数 21 30 39 32
合计例数 100 100 100 100
生态学谬误
群体数据结论向个体推论
一个经典例子:Durkheim资料分析所下的结论
对若干地区的调查发现,地区中基督徒人数所占比例越大, 自杀率就越高。 相关和回归分析结果表明,基督徒人数比例与自杀率呈现 出很强的联系,即基督徒自杀率高于其它宗教人群。
但这种因果推论很可能是有问题的!
因为并不知道这些自杀者到底来自哪些人群,它完全可能 是另外一种情况,即在基督徒占大多数的地区,天主教徒 或其它宗教信徒由于宗教歧视而更可能趋向于自杀。
C医生认为,假如上述合并后面三组再比较的方法 妥当的话,则反过来并组也应一样,即<200mg组 的腹泻发生率应低于200mg组。
表3 按另一种分组合并的结果
剂量(mg/kg/天)
无腹泻例数
有腹泻例数
200
<200
结果:
68
210
32
90
两组腹泻发生率分别为30%和32%, 2 检验P>0.5。因此, 不能同意腹泻发生率与口服氨苄青霉素剂量有关。
对于不具可比性的资料,基本的统计调整 技术
分层分析 标准化 CMH卡方检验 多因素分析
混杂因素
某病两种疗效的治愈率比较
病情 轻型 重型 合计 甲疗法 病人数 80 120 200 治愈率(%) 90.00 70.00 78.00 60 40 100 乙疗法 病人数 治愈率(%) 90.00 70.00 82.00
n=60
=?次/分
?
高原
样本
x =155g/L
s = 24g/L
统计 描述
一般
0=140g/L
统计推断
混杂因素的控制