论文撰写中常见的统计学问题及其处理

合集下载

论文撰写中常见的统计学问题及其处理

论文撰写中常见的统计学问题及其处理【摘要】统计学在论文撰写中扮演着至关重要的角色，它影响着论文的质量和可信度。

在撰写论文过程中常见的统计学问题包括样本量的确定、数据处理方法的选择、结果的解释和呈现，以及如何避免常见的统计学错误。

解决这些问题需要早期咨询统计学专家，并且重视统计学在论文中的作用和意义。

只有正确处理统计学问题，才能确保论文的科学性和准确性。

建议学者们在撰写论文前要深入了解统计学知识，提前咨询专家，以确保论文的统计学部分能够科学可靠地支撑研究结论。

【关键词】统计学、论文撰写、样本量、数据处理、分析方法、结果解释、统计学错误、解决方法、重视意义、咨询专家。

1. 引言1.1 统计学在论文撰写中的重要性统计学在论文撰写中扮演着至关重要的角色。

论文的质量很大程度上取决于统计学的严谨性和正确性。

统计学能够帮助研究者从大量的数据中提取有效信息，得出科学的结论，并验证假设和研究问题。

在论文中，统计学的应用不仅可以帮助读者更好地理解研究结果，还能提高研究的可信度和说服力。

统计学在论文撰写中的重要性体现在几个方面。

通过统计学分析，研究者可以对研究问题进行量化和定量的描述，使研究结论更加客观和可靠。

统计学可以帮助研究者有效地处理大量的数据，提取有用信息，并进行数据的比较和推导。

统计学还可以帮助研究者发现数据中的规律性和趋势，从而指导下一步的研究方向和决策。

1.2 统计学问题对论文质量的影响统计学问题对论文质量的影响非常重要，因为统计学是对数据进行收集、分析和解释的科学方法。

如果在论文撰写过程中出现统计学问题，可能会导致以下几个方面的影响：统计学问题可能导致数据分析结果不准确或者失真。

如果数据的收集、处理以及分析方法不正确，很可能会得出不准确的结论，从而影响论文的科学性和可信度。

选择错误的统计分析方法或者忽略样本量的影响都可能导致数据分析结果产生偏差。

统计学问题可能导致结论的不可靠性。

统计学问题可能使得对数据结果的解释产生误导或者错误的理解，从而影响读者对论文的信服度。

论文撰写中常见的统计学问题及其处理

论文撰写中常见的统计学问题及其处理统计学作为一门学科，旨在通过收集、处理、分析和解释数据来描述和预测事物之间的关系。

然而，在撰写论文时，研究者常常遇到一些常见的统计学问题。

以下我将介绍几个常见的问题，并讨论它们的处理方法。

首先，一个常见的问题是样本选择偏倚。

在研究中，研究者可能无意中选择了特定类型的样本，而不是随机选择。

这可能导致结果不准确或不具有代表性。

为了解决这个问题，研究者可以使用随机抽样技术来选择样本，确保样本具有代表性。

此外，还可以通过与全体人口进行比较来验证样本的代表性。

第二个问题是样本容量太小。

如果样本容量太小，研究结果可能不具备统计显著性。

为了解决这个问题，研究者可以使用统计学方法来计算所需的样本大小，以达到一定的置信度和效应大小。

此外，研究者还可以通过增加样本容量来提高统计显著性。

第三个问题是数据的缺失。

在研究中，数据可能由于各种原因而缺失，例如受访者未完全回答问题或由于设备故障而丢失。

为了解决这个问题，研究者可以使用适当的数据插补方法来填充缺失值。

有一些常用的插补方法，例如最大似然估计、多重插补和概率插补。

第四个问题是多重比较。

当研究者进行多个统计检验时，他们可能会遇到多重比较问题。

多重比较可能导致假阳性错误的增加。

为了解决这个问题，研究者可以使用适当的校正方法，如Bonferroni校正、False Discovery Rate校正或Benjamini-Hochberg过程来调整p值。

最后，一个常见的问题是相关性与因果性之间的混淆。

在统计学中，相关性仅仅描述了两个变量之间的关系，并不表示因果关系。

在撰写论文时，研究者应该小心使用正确的表述，避免将相关性误解为因果关系。

此外，如果研究目的是探讨因果关系，研究者可以使用其他设计，如实验设计或断点回归设计。

总的来说，统计学在撰写论文时常常涉及一些常见的问题。

通过正确处理样本选择偏倚、样本容量不足、数据缺失、多重比较和相关性与因果性之间的混淆等问题，研究者可以确保研究结果准确可靠，并为科学研究做出贡献。

论文撰写中如何处理数据异常和统计误差

论文撰写中如何处理数据异常和统计误差在撰写论文的过程中，数据异常和统计误差是常见的问题。

处理这些问题是确保研究结果准确可靠的关键。

本文将探讨在论文撰写中如何处理数据异常和统计误差的方法和技巧。

一、识别和处理数据异常1. 数据收集和整理：在撰写论文之前，首先需要进行数据收集和整理。

确保数据的准确性和完整性是数据异常处理的基础。

可以使用适当的方法和工具来收集和整理数据，例如使用统计软件进行数据输入和校验。

2. 数据清洗：数据清洗是处理数据异常的重要步骤。

在清洗数据时，需要识别和删除错误、离群值和缺失值。

可以使用统计软件和图表来可视化数据，以便更容易地发现异常数据。

3. 异常数据的处理：一旦发现异常数据，需要进行适当的处理。

处理方法可以根据数据的情况来决定，例如删除异常值、替换缺失值或使用插值法估计数据等。

需要注意的是，处理异常数据时要保持科学合理，避免对结果产生不良影响。

二、统计误差的处理1. 样本选择：在研究设计和数据采集阶段，样本选择是减小统计误差的关键。

应该根据研究目的和研究对象的特点，采用随机抽样或者分层抽样等方法来选择样本。

合理选择样本可以更好地反映总体特征，减少统计误差。

2. 样本容量：样本容量的大小对统计误差有着直接影响。

通常情况下，样本容量越大，统计误差越小。

因此，为了减小统计误差，应尽量提高样本容量。

可以使用统计方法计算所需的样本容量，以保证结果的可靠性。

3. 统计方法：选择合适的统计方法也是降低统计误差的重要因素。

在进行数据分析时，应根据研究的目的和数据的性质来选择适当的统计方法。

例如，如果数据符合正态分布，可以使用参数统计方法；如果数据不符合正态分布，可以使用非参数统计方法。

4. 敏感性分析：敏感性分析是评估统计误差的一种方法。

通过对模型参数和数据做出不同的假设，可以估计结果的稳定性和可靠性。

敏感性分析可以提供对结果的不确定性程度的评估，并帮助研究者更好地理解和解释结果。

总结：在论文撰写中，处理数据异常和统计误差是确保结果可信度的重要步骤。

论文撰写中常见数据处理问题与解决

论文撰写中常见数据处理问题与解决在科学研究中，数据处理是非常重要的一部分。

无论是实验数据还是调查数据，都需要经过合理的处理和分析，才能得出准确的结论。

然而，在论文撰写过程中，我们常常会遇到一些数据处理问题。

本文将探讨一些常见的问题，并提供解决方法。

一、数据质量问题在进行数据处理之前，首先要确保数据的质量。

常见的数据质量问题包括数据缺失、异常值和数据重复等。

数据缺失是指在数据采集过程中，某些变量的取值没有记录下来。

解决数据缺失问题的方法有多种，如删除缺失值、使用均值或中位数填充缺失值等。

异常值是指与其他观测值明显不同的观测值，可能是由于测量误差或实验条件不一致导致的。

处理异常值的方法可以是删除异常值、将其替换为其他合理值等。

数据重复是指在数据集中存在完全相同的观测值。

解决数据重复问题的方法可以是删除重复值或将其视为一个观测值。

二、数据清洗问题数据清洗是指对原始数据进行处理，使其符合分析要求。

常见的数据清洗问题包括数据格式不一致、数据单位不统一和数据标准化等。

数据格式不一致是指数据集中的变量格式不同，如日期格式、货币格式等。

解决数据格式不一致问题的方法可以是统一格式、转换格式等。

数据单位不统一是指数据集中的变量单位不同，如长度单位、重量单位等。

解决数据单位不统一问题的方法可以是转换单位、标准化单位等。

数据标准化是指将不同尺度或不同分布的数据转化为统一的标准分布。

解决数据标准化问题的方法可以是Z-score标准化、最大最小值标准化等。

三、数据分析问题在进行数据分析时，我们常常会遇到一些问题，如数据分布不满足正态分布假设、样本量过小和多重比较等。

数据分布不满足正态分布假设会影响统计分析的结果。

解决这个问题的方法可以是使用非参数统计方法、进行数据变换等。

样本量过小会导致统计分析的结果不可靠。

解决这个问题的方法可以是增加样本量、使用非参数统计方法等。

多重比较是指对多个变量进行统计检验时，可能会出现假阳性的情况。

关于统计学研究论文

关于统计学研究论文20世纪以来,作为数据搜集、整理和分析的一门重要工具,统计学在众多领域里得到了极其广泛的应用,统计学的作用及其重要性已渐渐显现出来。

下面是店铺为大家整理的关于统计学研究论文，供大家参考。

关于统计学研究论文篇一1统计学应用中存在的常见问题1.1单因素方差分析(ANOVA)两两比较误用独立样本t检验单因素方差分析设计3组以上的均数比较,如果总体比较有差异,需进行两两比较,一般用SNK法或LSD法。

但部分研究者却将资料进行拆分,应用独立样本t检验进行两两比较,导致第Ⅰ类统计学错误发生率(假阳性率)增加,从而掉进了一个常见的“统计陷阱”,使所得结论可信度大大降低甚至得出错误结论。

SNK法与LSD法虽然并非等价,实质是一致的。

SNK法一般用于经方差分析结果具有统计学意义时才决定进行的两两事后比较,而LSD 法可用于方差分析不足以具有统计学意义时也能进行两两比较[1]。

比较两种方法在SPSS的输出结果形式,SNK是“分堆”比较,一目了然,对于组别数较多的研究更为好用,但没有具体P值,而LSD是在进行“两两”比较时,能给出具体的P值。

1.2两两比较时检验水准的重新调定χ2检验或秩和检验3组以上整体比较有差异时,需应用分割法进行两两比较,这时检验水准应由原0.05调定为0.0167,否则会增加第Ⅰ类统计学错误的发生率。

特别当P 值处于0.0167~0.05时,按照P<0.0167的标准,差异无统计学意义,而按照P<0.05的标准,却有意义,与事实相悖,出现假阳性,很容易得出错误结论。

这种分割法有时很保守,当行列表资料分组多且为有序时可用Mantel-Haenszel卡方检验,也称线性趋势检验(testforlineartrend)或定序检验(Linear-by-Lineartest)[2]。

统计路径:用SPSS进行计数资料的趋势检验,在输出结果中读取线性关联检验统计量(Linear-by-LinearAssociation,LLA),如P<0.05可得出随着病种级别的升高,检测指标逐渐升高的趋势。

如何应对SCI论文写作中的样本量和统计学问题

如何应对SCI论文写作中的样本量和统计学问题在SCI（Science Citation Index）论文写作过程中，样本量和统计学问题是非常关键的要素。

准确处理这些问题对于保证科研成果的可靠性和科学性至关重要。

本文将介绍如何应对SCI论文写作中的样本量和统计学问题，并提供相应的解决方案。

I. 引言在介绍样本量和统计学问题之前，我们首先需要了解SCI论文的特点和要求。

SCI论文追求科学性、准确性和可重复性，因此在研究设计和数据分析方面要非常严谨。

样本量和统计学问题是SCI论文中经常遇到的挑战，下面将详细讨论。

II. 样本量问题样本量是指研究中涉及到的被观察对象或参与者的数量，合理的样本量对于研究结果的可靠性至关重要。

以下是一些处理样本量问题的方法：1. 文献综述和样本量计算在进行研究之前，进行充分的文献综述是必要的。

了解之前的研究和相关结果可以帮助确定适当的样本量。

此外，根据研究设计和数据分析方法，可以使用统计学方法进行样本量的计算，以确保研究结果的统计学有效性。

2. 合理选择样本量样本量的选择应基于研究目的、研究设计和数据分析方法等方面的考虑。

过小的样本量可能导致结果不具备统计学的显著性和可靠性；而过大的样本量可能浪费资源和时间。

因此，需要根据具体情况合理选择样本量。

3. 控制实验条件在实验设计中，应该注意控制实验条件以减少各种因素的干扰。

只有在条件相对稳定的情况下，才能有效地收集和分析样本数据以得出科学结论。

III. 统计学问题统计学在SCI论文中扮演着至关重要的角色。

以下是一些处理统计学问题的方法：1. 选择适当的统计方法根据研究问题、研究设计和数据类型，选择适当的统计方法进行数据分析。

常用的统计方法包括描述统计、参数检验、方差分析、回归分析等。

选择合适的统计方法可以提高结果的可靠性和科学性。

2. 准确报告统计指标在SCI论文中，需要准确地报告统计指标，例如均值、标准差、显著性水平等。

这些指标是读者评估研究结果的重要依据，因此要注意使用正确的统计学术语并进行准确描述。

论文撰写中如何处理数据异常和统计误差

论文撰写中如何处理数据异常和统计误差在进行数据分析和研究时，不可避免地会遇到数据异常和统计误差的问题。

这些问题对于研究结果的可靠性和准确性都有着重要的影响。

本文将就论文撰写中如何处理数据异常和统计误差进行讨论。

以下是一些处理数据异常和统计误差的方法和技巧：一、识别数据异常在进行数据分析之前，我们首先需要识别出数据中的异常值。

常见的识别方法包括：1. 可视化分析：通过绘制直方图、散点图、盒须图等图表，我们可以直观地观察数据是否存在异常。

2. 统计方法：使用统计方法，如均值、标准差、四分位数等，可以帮助我们识别超出正常范围的数据。

3. 领域知识：充分了解研究领域的特点和规律，结合实际情况，可以帮助我们发现数据异常。

二、处理数据异常一旦我们发现了数据异常，就需要采取相应的处理措施。

以下是一些常见的处理方法：1. 删除异常值：如果异常值对于我们的分析结果影响较大，可以选择将其从数据集中删除。

但需要慎重处理，确保删除的数据确实是异常值，并且删除异常值后不会对结果造成其他偏差。

2. 替代异常值：对于某些异常值，我们可以使用合理的替代值进行代替。

例如，可以使用平均值、中位数或者插值法将异常值替换为相对正常的值。

3. 研究异常值：有时，异常值可能包含了独特的信息，我们可以进一步研究和探索这些异常值的原因和机制。

在文章中对异常值进行合理的解释和分析，可以增加论文的科学性和严谨性。

三、减小统计误差除了数据异常之外，统计误差也是需要处理和减少的问题。

以下是一些可以采取的方法：1. 增加样本量：增加样本量可以减小统计误差，提高结果的可靠性。

在设计实验或者采集数据时，可以合理选择样本量，并进行统计功效分析来保证结果的稳定性。

2. 重复实验：重复实验可以验证结果的稳定性和可重复性。

通过多次重复实验，我们可以评估统计误差的大小，并得到更加确定的结果。

3. 使用合适的统计方法：在进行数据分析时，选择合适的统计方法可以减小统计误差的可能性。

[精华版]医学论文中统计学处理常见问题及应对措施

医学论文中统计学处理常见问题及应对措施1存在问题1)统计软件名称和版本不全。

最常见的问题是作者只写统计软件名称而漏掉了统计软件版本。

2)统计数据描述含糊不清。

如笼统说“用-x±s 表示”,而不分定量资料或定性资料。

3)误用统计学方法并且统计方法描述不详细。

例如:对定量资料盲目套用t检验,多组均数比较没有采用方差分析和q检验;对定性资料,盲目套用χ2检验;非参数检验资料没有采用秩和检验或Ridit检验; 对回归分析没有结合专业知识和散点图选用合适的回归类型,而盲目套用简单直线回归分析;在逻辑上无明显相关的2个或2个以上指标检测结果勉强进行相关性分析等;对随访资料没有使用生存分析等。

另一个问题是统计学方法的描述不详细。

例如: 使用t检验,没有说明是完全随机设计资料的t检验, 还是配对设计资料的t检验;使用方差分析时,没有说明是完全随机设计资料的方差分析,还是随机区组设计资料的方差分析,或是巢式设计资料的方差分析;对于四格表资料,没有交代是一般四格表资料χ2检验, 还是四格表资料的校正的χ2检验。

4)假设检验结果的表达和解释中存在的问题。

假设检验的结果表达没有根据不同的统计分析方法, 给出相应的检验统计量的实际值及相应的值,如t检验的t值、方差分析的F值、卡方检验的χ2值、相关分析的相关系数及相应的r值等。

此外,统计结果的解释存在如下问题:假设检验是在“无效假设”正确(比如2种药物的疗效没有差异) 的前提下,用P值大小说明实际观察结果是否符合“无效假设”。

P值小(如P<0·05或P<0. 01)则怀疑“无效假设”的正确性,应得2种药物疗效的差异有统计学意义或差异有高度统计学意义的结论,而不应得差异显著或差异非常显著的结论;P值大(如P> 0·05),则不能拒绝“无效假设”,应得2种药物疗效的差异无统计学意义的结论,而不应得无差异的结论。

这是典型地把统计结论作为专业结论而犯的错误。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

论文撰写中常见的统计学问题及其处理据不完全统计,在难以发表的、已凝聚着作者心血并花费较长时间与较大财力撰写的研究论文中,约半数以上是由于统计错误致其结果与原文主要结论相违背。

如一文采用某新药引产,96例足月孕妇的产后出血与新生儿低Apgar评分率均为2.1%(各2例),明显低于应用原药引产的19例,其产后出血与新生儿低Apgar评分发生率均为15.8%(各3例,χ2=7.164,P<0.001)。

故认为采用新药引产是一更安全的措施。

原药引产组例数偏少暂且不谈,该资料比较应采用精确法分析,结果是与原结果恰恰相反(P>0.05),这样上述的主要结论就欠可靠而难以发表,否则论文可起误导作用。

类似问题文稿中还常有出现。

现就文稿中常见的统计问题及其相应的处理方法简述如下。

一、常用的统计术语统计学中常用的概念有总体与样本、随机化与概率、计量与计数、等级资料及正态与偏态分布资料、标准差与标准误等。

如某研究采用经会阴途径测定宫颈长度,以探讨不同宫颈长度与临产时间的关系。

结果显示35例宫颈长度为25～34mm者与32例宫颈长为15～24mm者临产时间的均值±标准差(x±s)各为57.6±58.1与47.3±49.1小时。

该计量资料,经t检验显示t=0.780,P>0.05,并未提示不同宫颈长度的临产时间差异有显著意义;从标准差大于均值,显示各变量值离散程度大,呈偏态分布,故不能采用x±s这一算术均数法计算均数。

经偏态转换成近似正态分布资料后结果是:35例与32例的临产时间各为34.5±4.1与26.7±4.1小时,(t=7.778,P<0.001),两组差异有极显著意义。

可认为随着宫颈长度的缩短、临产时间也缩短。

此外,当两组资料单位不同时,其S单位也不同;即使两组单位相同的变量值,若其均数差异较大,也都应以变异系数替代s来比较两组值的离散度的大小。

二、正常值范围及异常阈值的确定如何选择研究对象,至少需多少例,正确统计处理和参考一定数量的病例数据,是确定正常值范围及异常阈值的四个重要因素。

1.研究对象:应为“完全健康者”,可包括患有不影响待测指标疾病的患者。

如“正常妊娠”的条件:孕前月经周期规则、单胎、妊娠过程顺利、无产科并发症及其它有关合并症,分娩孕周为37～41周+6,新生儿出生体重为2500～4000g和Apgar评分≥7分。

2.观察数量:观察数量应尽可能多于100例;需分组者,各组人数也是如此(标本来源困难时酌情减少)。

有些指标值如雌三醇(E3)、甲胎蛋白(AFP)出书论文发表球球2043944129胎盘泌乳素(HPL)等随孕周进展而变化,应按孕周分组;邻近孕周均数相近者,可合并几周计算。

若为偏态分布,应以百分位数计算,则例数应≥120例。

取各孕周对象时,应考虑到所取各孕周中的例数分布大致均衡。

显然,文稿中往往以少量例数求得正常值是欠可靠的。

3.统计处理:应根据所得数据分布特征采用不同的统计处理方法。

属正态或近似正态分布的数据,可采用x±s法计算;这也适用于以一定方法能将非正态分布转换成正态或近似正态分布的资料。

对无法转换的偏态资料,应采用百分位数计算法。

具体计算(包括上下限初步制定)见文献。

4.对照数量:相应观察的病例数(包括分组)应不少于30例,这对制定某指标有临床意义的异常阈值尤其重要,这一点往往易被忽视。

如在参考较多病例数据后,唾液游离E3的下限异常阈值应为第2.5百分位数,而非通常采用的5百分位数。

否则,将会导致该指标产前监护的假阳性率增加。

三、 t检验与校正t检验(t′检验)这是文稿中极易混淆的一类计量资料统计问题。

(一)检验的注意事项 1.t检验的意义:t检验与所有统计分析相同,其结果提示现有差别不仅仅是抽样误差所致,且提示犯第一类错误的可能性大小,即t0.05与t0.01犯第一类错误的可能性各为5%与1%。

2.统计意义与临床意义的关系:统计学有显著意义,而在临床上可能是无意义的,提示该研究应继续深入,以明确该差异是否真有显著意义;相反,统计无显著意义,而临床上却是有意义的,不能贸然轻易地下结论。

应复查实验设计、方法、试剂及仪器性能、质控措施和实验数据等是否有问题,或尚需再进一步增加样本量进行复测等专利申请论文发表企鹅号2798419225。

3.t检验适用范围:t检验仅适用于正态或近似正态分布(包括偏态转换)和其方差是齐性资料的检验;t检验适用于可比性资料,即除了欲比较的因素外,其它所有可影响的因素应相似。

4.t 检验的结果判断:判断结果不应绝对化,P<或>0.05,分别表示可拒绝或接受原定的假设,但两者都有5%的可能性犯第一类错误;而P值越小,只能是更有理由拒绝原定的假设。

5.单侧与双侧检验:应预先制定本研究的结果是需行双侧还是单侧检验。

对有把握确知某治疗措施或某指标是不会劣于现有的,才作单侧检验;若不知何者为优,应行双侧检验。

因为在同一t 值的界限上,单侧检验的概率(P)仅为后者的一半,也就是说单侧检验较双侧检验更易得出差别有统计意义的结论,不可随意制定。

一般讲,绝大多数研究以采用双侧检验为妥。

(二)t′检验与t检验的区别当两样本均数的方差非齐性时,应以t′替代t检验。

例如:甲组32例血清某指标值为53.9±49.6(μmol/L);乙组6例的结果为26.6±7.2(μmol/L),若不考虑两样本方差大小,t检验示t=1.331,P>0.05,提示两组血清该指标的平均含量差异无显著意义。

但先作方差齐性检验,F=47.4,P<0.01,示这两样本方差差异有极显著意义。

据此应采用t′检验,t′=2.952>t′0.012.875,P<0.01。

显然,与上述结论恰恰相反。

四、卡方(χ2)、校正χ2与直接概率法(或精确法)检验这三种检验方法为一类用途较广、但也易混淆的、适用于计数资料检验的方法。

应注意,鉴于总数与理论值的不同,应采用相适合的检验方法。

例1.192例出生体重≥4000g的新生儿发生难产与窒息数分别为151例与22例;3475例出生体重≥3500～4000g的新生儿发生难产与窒息数分别为185与265例;2451例出生体重≥2500～3500g的新生儿发生难产与窒息数分别为122与169例。

3组的构成比:难产与新生儿窒息率分别为:78.6%、5.3%、5.0%与11.4%、7.6%、6.9%。

据此贸然认为出生体重≥2500～3500g为最佳新生儿分娩体重的结论是不可靠的。

经χ2分析,后两组的难产与窒息率间和前两组窒息率间差异均无显著意义(P均>0.05)。

故可认为,单据本研究结果是难以得出上述临床上认可的结论的。

这涉及到上述“统计无显著意义,而临床却是有意义”的问题,应进一步复查或增加样本测试。

杜绝单纯根据百分率的大小贸然下结论。

例2.某药治疗感染衣原体(CT)的中、晚期孕妇各11例和36例,她们的新生儿感染CT数各为3例和23例。

χ2检验得χ2=4.570,P<0.05。

据此误认为,某药治疗中孕期感染CT孕妇的新生儿感染CT数少于晚孕期才开始治疗的新生儿感染数。

根据统计原则,其中一个数的理论值为4.9(<5)时,应采用校正χ2计算,得χ2=3.209,P>0.05。

显然,正确结论恰与上述相异。

例3.以精确法替代χ2检验。

某新技术测试8例卵巢内胚窦瘤患者,5例呈阳性反应;测试25例卵巢颗粒细胞瘤患者中6例阳性。

χ2检验得χ2=4.042,P<0.05。

误认为该新技术测前组的阳性率高于后组。

但鉴于总例数33例(<40),且其中一个数的理论值为2.7(<5),故应改用精确法检验,结果首次计算P值,已达0.102,>双侧检验的有显著性意义的界限0.025,故P>0.05。

结论也恰相反。

五、相关与回归分析相关分析只是以相关系数(r)来表示两个变量间直线关系的密切程度和相关方面的统计指标。

无论是正相关(r为正值)或负相关(r为负值),只是经相关系数的统计意义检验(如t检验)后,当P<0.05时,即示差异有显著意义时,才能依据|r|值的大小来说明两变量间相关的密切程度。

因此,表示相关性,除写出r值外,应注明P值;切不可将相关的显著性误解为相关程度;也应注意:相关分析是不能单纯用于阐明两事物或现象间存在着本质的联系,即使两变量间存在高度相关关系(即有一定的统计联系),也不能证明它们间存在着因果关系。

如欲证明两事物间的内在联系,必需凭借专业知识从理论上加以阐明。

“相关”是表示两个变量间相互关系的密切程度,而回归分析是提示两个变量间的从属关系。

在回归分析中,应注意由X变量值推算Y,与以Y变量值推算X的回归线是不一样的;直线回归方程的适用范围,一般仅适合于自变量X原测数据的范围,故绘制回归线时,X值切不能超越实测值的范围而任意延长。

可见,这两种分析,说明的问题是不同的,但相互又有联系。

在作回归分析时,一般先作相关分析,只有在相关分析有统计意义(即回归有统计意义)的前提下,求回归方程和回归线才有实际意义。

决不能把毫无实际意义的两个事物或两种现象进行相关与回归分析。

六、数据的正确书写1.文稿内各数据的书写必须前后一致;总数应等于各分组的数据之和。

2.对不同指标,有其不同数据精度的要求,这应结合专业知识加以判断。

如新生儿出生体重是以公斤为单位, 记录测定数据精确到小数点后的第二位数字即可。

3.测定数据的书写,不能超越其测量仪器测试的精确度范围。

4.同一指标的前后数据应保持同一精确度。

5.经计算,出现比预定小数点后两位数多的数字,应采取“≤4舍、≥6入”与“5‘奇’进‘偶’出”方法,以决定小数点后第三位数字是“舍”还是“入”,即5前为单数则入,双数则舍。

6.未经统计检验,文稿内不宜出现推断性的比较结果的结论。

如“××结果的百分率高或低于××结果的百分率”、“本文结果较××报道的多或少或类似”等结论。

这在综述类文章撰写过程中也需注意;欲予以比较,也应注意两者的可比性。

上述是统计学中较为基础的概念,但又是文稿中常见的、较易出现差错的内容。

因此可以认为,统计学是医护人员必需掌握并能熟练应用的一门重要知识;藉此,可不断地从自身和他人的研究中获取更多、更新和更可靠的专业信息。

绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。

如确定新诊断、新治疗等措施是否优于原沿用的方法,就需进行两种方法比较,这就涉及统计处理;统计设计又是整个课题研究设计中一个重要的组成部分。