分类数据的检验

合集下载

常用统计方法：T检验、F检验、卡方检验

常用统计方法：T检验、F检验、卡方检验介绍常用的几种统计分析方法：T检验、F检验、卡方检验一、T检验（一）什么是T检验T检验是一种适合小样本的统计分析方法，通过比较不同数据的均值，研究两组数据是否存在差异。

主要用于样本含量较小（例如n < 30），总体标准差σ未知的正态分布。

（二）T检验有什么用1.单样本T检验用于比较一组数据与一个特定数值之间的差异情况。

样例：难产儿出生数n = 35，体重均值 = 3.42，S = 0.40，一般婴儿出生体重μ0= 3.30（大规模调查获得），问相同否？求解代码：from scipy import statsstats.ttest_1samp(data,sample)检验一列数据的均值与sample的差异是否显著。

（双侧检验）若为单侧检验，则将p值除以22.配对样本的T检验（ABtest）用于检验有一定对应关系的样本之间的差异情况，需要两组样本数相等。

常见的使用场景有：①同一对象处理前后的对比（同一组人员采用同一种减肥方法前后的效果对比）；②同一对象采用两种方法检验的结果的对比（同一组人员分别服用两种减肥药后的效果对比）；③配对的两个对象分别接受两种处理后的结果对比（两组人员，按照体重进行配对，服用不同的减肥药，对比服药后的两组人员的体重）。

AB测试时互联网运营为了提升用户体验从而获得用户增长而采用的精细化运营手段，简单的说就是分为A版本和B版本哪个更能吸引用户使用。

目的：检验两个独立样本的平均值之差是否等于目标值样例：比较键盘A版本和B版本哪个更好用，衡量标准：谁在规定时间内打错字少，或者两者差异不大求解代码：ttest_rel(data1,data2) (得出的p值是双侧检验的p值)3.独立样本的T检验（要求总体方差齐性）独立样本与配对样本的不同之处在于独立样本T检验两组数据的样本个数可以不等。

样例：比较男生与女生的专业和职业任职得分的均值是否存在显著差异，可采用独立样本T检验进行分析。

第九章属性(分类)数据分析[最新]

SAS软件与统计Байду номын сангаас用教程
STAT
9.1.1 属性数据分析与列联表
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类：连续变量和属性 (Categorical) 变量，属性变量又可分为有序的 (Ordinal) 和无序的变量。对属性数据进行分析，将达到以下几方面的目的： 1) 产生汇总分类数据——列联表； 2) 检验属性变量间的独立性(无关联性)； 3) 计算属性变量间的关联性统计量； 4) 对高维数据进行分层分析和建模。
SAS软件与统计应用教程
表9-1 关于改革方案的调查结果（单位：人）
一分公司二分公司三分公司四分公司合计
STAT
赞成该方案
反对该方案合计
68
32 100
75
45 120
57
33 90
79
31 110
279
141 420
表中的行 (row) 是态度变量，这里划分为两类：赞成改革方案或反对改革方案；表中的列 (column)是单位变量，这里划分为四类，即四个分公司。表 9-1 所示的列联表称为24表。
SAS软件与统计应用教程
STAT
第九章属性（分类）数据分析

9.1 属性数据及其分析
9.2 SAS中的属性数据分析
SAS软件与统计应用教程
STAT

9.1
属性数据及其分析

9.1.1 属性数据分析与列联表

9.1.2 属性变量关联性分析
9.1.3 属性变量关联度计算

9.1.4 有序变量关联性分析
SAS软件与统计应用教程
STAT
3. V系数

chi-square test名词解释

概念解释：卡方检验（chi-square test）是一种用于比较观察值与期望值之间差异的统计方法。

它适用于分类数据的分析，可以帮助确定观察到的数据分布是否符合预期的理论分布。

卡方检验通常用于分析两个或多个分类变量之间的关系，例如性别和职业的关联性、不同教育水平对政治立场的影响等。

让我们来深入理解卡方检验的概念和原理。

卡方检验的基本原理是通过比较观察值和期望值之间的差异来判断两个或多个分类变量之间是否存在关联性。

在进行卡方检验之前，我们首先需要建立一个原假设，即假设观察到的数据分布与理论分布相符。

通过一系列计算和统计方法，我们可以得出卡方值，并以此来判断观察值与期望值之间的差异程度。

如果卡方值远大于预期值，我们就可以拒绝原假设，从而得出两个或多个分类变量之间存在显著关联的结论。

接下来，让我们从简单的示例开始，来看一下卡方检验的具体应用。

假设我们想要研究不同职业对投票倾向的影响，我们可以通过卡方检验来判断职业与政治立场之间是否存在关联。

我们收集了一份包括职业和政治立场的调查数据，然后我们可以利用卡方检验来分析这些数据，以确定职业与政治立场之间的关联性。

在分析完具体示例之后，让我们进一步探讨卡方检验的应用范围和局限性。

卡方检验适用于分类数据的分析，可以帮助我们判断不同变量之间是否存在关联性。

然而，卡方检验也有一定的局限性，例如对样本量和数据分布的要求比较严格，同时需要注意变量之间的独立性等。

在应用卡方检验时，我们需要综合考虑数据的特点和实际情况，以确保分析结果的准确性和可靠性。

总结回顾：通过本文的讨论，我们对卡方检验的概念和原理有了深入的理解。

我们了解到卡方检验是一种用于比较观察值和期望值之间差异的统计方法，适用于分类数据的分析。

在具体应用中，我们可以通过卡方检验来判断不同变量之间是否存在关联性，从而深入了解数据的特点和规律。

我们也意识到卡方检验在应用时需要注意一些局限性，需要综合考虑实际情况和数据特点。

统计学第9章分类数据分析

可解释性
分类结果应具有可解释性，能够清晰地说明各类别的特征和差异，方便用户理解和应用。
避免过拟合
在训练分类模型时，应避免过拟合现象，确保模型泛化能力良好，能够适用于不同的数据集和场景。
交叉验证
采用交叉验证方法评估分类模型的性能，以客观地评价分类结果的准确性和可靠性。
谢谢聆听
02
目的：通过频数分布表，可以直观地了解数据的分布情况，发现数据的异常值和缺失值，以及数据的离散程度和集中趋势。
03
制作步骤
04
1. 将数据按照某一属性进行分类。
05
2. 统计每一类别的频数和频率。
06
3. 制作频数分布表，包括类别、频数、频率和累积频数、累积频率等列。
列联表分析
定义：列联表分析是一种将两个或多个分类变量进行联合，并分析它们之
社会阶层划分
通过分类数据分析，将社会人群划分为不同的阶层，分析不同阶层的社会特征和行为模式。
人口普查
分类数据分析可以用于人口普查数据的分析和处理，提供更准确的人口统计信息。
舆情分析
通过分类数据分析，了解公众对某一事件或话题的态度和意见，为政策制定和舆论引导提供依据。
06 分类数据分析的注意事项
优势比和相对风险
基本概念
相对风险
优势比（Odds Ratio）和相对风险（Relative Risk）是衡量分类数据关联强度的指标。
表示暴露于某因素下发生事件的相对危险度，计算方法为相对风险=暴露组的事件发生率/非暴露组的事件发生率。
优势比
表示一个事件发生的相对概率，计算方法为优势比=事件组的发生概率/非事件组的发生概率。
分类数据分析
目录

计算机数据库(经济会计类)分类数据分析(new)随堂讲义

独立性检验（两个分类变量，如，原料等级与原料产地）
分类数据的整理结果表现为頻数。
如，某班学生，男生10人，女生20人
9.1.2 c2统计量
c可以用于测定两个分类变量之间的相关程度，如文化程度对假日安排（国外游、国内游、在家休息）的影响
分类数据
分类–
第 9 章分类数据分析
原假设:一般是原有的、传统的观点或结论，或原有的看法、状况。——不能轻易否定备择假设：是新的、可能的猜测，或需要用证据来证明的命题。 ——需要用证据来验证的命题举例说明：例1：采用新技术后，将会使产品寿命达到 5000小时以上 H0: 5000（原来的状况，不能轻易否定的） H1: >5000（需要用证据来验证）
例如：性别 (男, 女)，地区（城市，乡村）
各类别用符号或数字代码来测度如，男和女分别用0和1表示使用分类或顺序尺度
–

你吸烟吗?
1.是；2.否
–

你赞成还是反对这一改革方案?
1.赞成；2.反对
4. 5.
对分类数据的描述和分析通常使用列联表可使用c检验
c
统计量
1.
2.
用于检验分类变量拟合优度

9.5.2卡方分布的期望值准则
卡方分布进行独立性检验，要求样本量必须足够大，特别是每个单元的期望頻数（fe)不能过小,否则，检验将会出现错误结论。准则一：如果只有两个单元（或两个类别），每个单元的期望頻数必须是5或5 以上。准则二：倘若有两个以上单元，如果 20%的单元期望頻数（fe)小于5，则不能
c 统计量

c分布与自由度的关系
9.2 拟合优度检验（P221）
拟合优度检验

分类数据的显著性检验

分类数据的显著性检验作者：杨元启来源：《科技经济市场》2014年第10期摘要：分类数据是定性数据，有别于定量数据，在数学上不易进行处理分析。

本文对分类数据的显著性检验问题做了一些讨论。

主要介绍了分类数据的X2-检验和似然比检验。

关键词：分类数据；定性数据； X2-检验；似然比检验生活中存在着大量的数据，类型可分为定量数据和定性数据。

定量数据常见于计量、计数等，易于用数学的方法处理分析；但生活中仍有许多不可量化的数据，如表示事物性质、规定事物类别的文字表述型数据，将其统称为定性数据。

对定性数据的研究，有时作纯定性研究，没有或缺乏数量分析，其结论往往具有概括性和较浓的思辨色彩；为便于作定量分析，还得将这些数据合理量化，并建立相应的统计模型。

定性数据有时只表示事物的属性，如人的性别，婚姻状况，物体的颜色、形状。

我们常用数"0"和"1"来表示其属性的分类。

而有些事物的属性有一个顺序关系，如人的文化程度由低到高可分为文盲、小学、初中、高中、中专和大专、大学等5类。

用数0，1，2，3和4分别表示文盲，小学，初中，高中，中专和大专，大学。

有如顾客对某商场营业员服务态度的评价分为"满意"、"一般"、"不满意"三类，可分别用"3"、"2"、"1"表示。

这些数只起一个顺序作用，这一类数据称为有序定性数据，简称有序数据。

本文将对分类数据的显著性检验问题做一些讨论。

主要介绍分类数据的 -检验和似然比检验。

分类数据的显著性检验一般有如下提法。

设总体的某个指标数据被分为r类：A1，…Ar。

根据相关理论，或从经验出发提出了一个原假设：H■：类A■所占的比例为P■=P■（i=1，…，r）其中：P■，i=1，…，r，■P■=1为已知的r个数。

对该总体进行n次独立重复观察，每次观察一个个体，看它属于哪一类。

统计学-离散型分类计数资料x2检验

。
谢谢您的聆听
THANKS
实施过程中注意事项
明确研究目的和假设
在进行x2检验前，需要明确研究目的和假设，以便选择合适的检验方法和解读结果。
检查数据是否符合要求
在实施x2检验前，应对数据进行检查，确保数据符合x2检验的要求，如观察频数不宜太小等。
注意连续性校正
当数据需要进行连续性校正时，应按照相应的方法进行校正，以保证检验结果的准确性。
方法比较
Fisher确切概率法和似然比检验法都是用于分析离散型分类计数资料的统计方法，它们具有不同的原理和适用范围。Fisher确切概率法适用于小样本或偏态数据，能够提供精
确的P值；而似然比检验法适用于大样本数据，具有较高的检验效能。
选择依据
在实际应用中，应根据研究目的、样本量大小、数据分布类型等因素综合考虑选择哪种统计方法。如果样本量较小或数据分布偏态严重，推荐使用Fisher确切概率法；如果样本量较大且数据分布近似正态分布，可以选择使用似然比检验法。同时，还需要注意不同方法间的差异和局限性，以确保分析结果的准确性和可靠性
选择某医院收治的肺癌患者和健康人群作为研究对象，分别记录其吸烟情况。
研究方法
采用离散型分类计数资料的x2检验方法进行分析。
数据收集与整理
数据来源
01
从医院病历系统中提取肺癌患者和健康人群的吸烟情况数据。
数据整理
02
将吸烟情况分为“吸烟”和“不吸烟”两类，并分别统计肺癌
患者和健康人群中这两类人数的数量。
数据呈现
03
将整理后的数据以表格形式呈现，包括肺癌患者和健康人群的
吸烟情况分类计数。
x2检验结果解读
x2计算
根据整理后的数据，计算x2值。

【doc】双向有序分类数据的趋势检验

双向有序分类数据的趋势检验l60?行.凶此,在中国和欧洲问开展远程皮肤病会诊,可以促进学术交流和合作,提高基层皮肤病医生的诊疗水平,促进我国皮肤病的诊疗标准和国际接轨,最终使皮肤病患者享受质优价廉的医疗服务.但是远程皮肤病会诊,尤其是国际远程皮肤病会诊在中国还是一个新生事物.本调查结果显示,7.6%的中国皮肤病患者对远程会诊有所了解,6.0%患者对远程会诊有亲身经验;同时,仅3.6%患者在以前看过欧洲皮肤病医生.因此,中国的皮肤病患者对远程会诊和欧洲的皮肤病医生都不是十分了解.尽管如此,中国皮肤病患者对欧洲皮肤病医生评价也相当高.除了56.66%的患者由于不了解欧洲皮肤病医生认为无法判断外,7.31%的患者认为欧洲皮肤病医生医疗水平很高,21.41%认为医疗水平高,没有患者选择低或很低.而且87.3%的患者认为如果在中国开展国际远程皮肤病会诊时他们会或可能会请欧洲皮肤病医生会诊.此外,调查结果还显示大部分中国皮肤病患者认为可接受的国际远程皮肤病会诊价格在500～2000元之间,对其最大的希望是可以得到负担起的,高价格效益比的,能够彻底治愈疾病的服务.以上结果说明虽然中国皮肤病患者对远程会诊和欧洲皮肤病医生缺乏了解,但对远程会诊和欧洲皮肤病医生仍然有较高的认可度.因此,在我国开展国际远程皮肤病会诊有一定基础.同时中国皮肤双向有序分类数据的趋势检验郑州大学(医学版)2006年1月第4l卷第l期病患者认为可以接受的国际会诊价格比河南省物价局批准的每例200元人民币的远程会诊价格要高的多,因此如果按照河南省物价局的价格开展国际远程皮肤病会诊患者在价格上是能够接受的,但这种价格是否可以使国际远程皮肤病会诊得以可维持性发展还有待进一步研究.此外,患者对国际远程皮肤病会诊有相当大的期待,所以,实施国际远程皮肤病会诊过程中需要通过广大皮肤病患者经常获取医疗信息的途径如电视,报纸等媒体使患者了解远程会诊的意义和作用并了解会诊专家.此外,更重要的是能够尽可能地满足患者对国际远程皮肤病会诊的服务需求,使患者真正受益;同时还应教育患者对远程皮肤病会诊应有合理的期待.参考文献1WhitedJD,HallRP,SimelDL,eta1.Reliabilityandaccu—racyofdermatologistsclinic-basedanddigitalimageconsul—tations.JAmAcadDermatol,1999,4I(8):6932PiccoloD,SmolleJ,WolfIH,eta1.Face—to—facediagnosis stelediagnosisofpigmentedskintumors.ArchDermato1.1999,I35(I2):I4673HighWA,HoustonMS,CalobrisiSD,eta1.Assessmentoftheaccuracyoflow??coststore??and-forwardteledermatologyconsultation.JAmAcadDermatol,2000,42(5Pt1):776(2004—11—12收稿责任编辑姜春霞)丁亚兴'胡东生1)郑州大学公共卫生学院流行病学教研室郑州4500522)天津市卫生防病巾心天津300011#通讯作者,男,44岁,博士研究生导师,教授,研究方向:非传染性疾病流行病学,E—mail:************************关键词双向有序分类数据;趋势检验;SAS程序中图分类号R195.1摘要目的:探讨双向有序分类数据相关的趋势检验方法.方法:根据各种方法的原理及其计算公式,结合实例应用SAS统计软件编程对舣向有序分类数据进行趋势检验.结果:给m了双向有序分类数据不同趋势检验方法的SAS程序,并对如何解释输结果进行了说明.结论:在医学科学研究中应推荐使用趋势检验.Trendtestmethodsfortwo—wayordinalcategoricaldataDINGY axingl,HUDongshengJ)DepartmentofEpidemiology,CollegeofPublcHealth,ZhengzhouUniversity,Zhengzho u450052JournalofZhengzhouUniversity(MedicalSciences)Jan.2005V o1.41No.12)CenterforDiseaseControlandpreventionofTianfinCity,Tianfin300011l6l?Keywordstwo—wayordinalcategoricaldata;trendtest;SASprogramming AbstractAim:Tosummarizethetrendtestanalysismethodsfortwo—wayordinalcategoricaldata.Methods:Based onthetheoriesandcalculationformulasoftrendtestanalysismethodsfortwo—wayordinalcategoricaldata,differentanalysis methodswerediscussedforthemodeldatabyusingSASsoftware.Results:TheSASprogram sforthedataanalysiswere developedandtheinterpretationfortheoutputswasexplained.Conclusion:Trendtestanalysi smethodsformedicalre—searchdatash0uldberecommended.双向有序分类数据是指两个分类变量都是有序变量的数据,包括2种情况:①双向有序且属性不同的数据;②双向有序且属性相同的数据'.常规的检验对有序分类数据的分析将导致信息的丢失. 趋势检验(trendtest)由美国的Breslow于l980年首先提出,它能充分利用等级信息,对数据做出综合分析,是对反应生物学阶梯或等级关系等资料进行假设检验的有效方法..作者对几种趋势检验方法(典型相关分析,CMH检验,CPD趋势性检验和线性趋势分析)进行了总结分析,报道如下.1双向有序且属性相同的分类数据的趋势检验1.1Spearman,Kendall秩相关和典型相关分析对于双向有序数据,可用Spearman或Kendall等级相关分析,如两变量的相关系数有统计学意义,可认为变量问存在趋势关系,由相关系数的符号来判断趋势的走向.Spearman等级相关只适用于分析两变量问的相关,Kendall则既可对两变量作等级相关,也可对多变量作等级相关分析.但因为这两种相关分析给有序变量的等级赋值过于简单,因此不能最大限度地获得两有序变量之间的相关信息. 典型相关分析是在使两有序变量的相关达到极大的前提下,给有序变量的各等级赋值,即对于表的边缘(指"行合计"与"列合计")设法产生一双正态变量,从而进行相关分析.典型相关分析类似主成因分析,考虑到每组变量的线性组合.从这2组线性组合中找到最相关的组合变量,通过少数几个综合变量来反映两组变量问的相关关系,这是典型相关分析的基本思想.典型相关的功能在于分析两组变量问的关系,这两组变量的数目可以不只一个. 当两组都只含一个变量时,就是两变量的简单相关分析;当一组含一个变量,另一组含多个变量,就是一个因变量与多个自变量的多元相关分析;当2组都含多个变量时,就是典型相关分析..典型相关分析手工计算较麻烦,可用SAS程序进行运算.例l某矿职工医院对492名不同期次矽肺患者的胸部平片肺门密度进行分析(表l),问:胸部平片肺门密度级别是否随矽肺期次进展有逐步提高趋势?表1不同期次矽肺患者肺门密度级别分布SAS程序如下:proccorrspearmankendall;varrc;/r为矽肺期次(r=1,2,3);C为肺门密度级别(c=1,2,3)}/freqW;/}W为频数}/run;proccorresp;tablesr,c;weightW;run;运行后结果显示Spearman相关系数r=0.532,P<0.001;Kendall相关系数r=0.498,P<0.001.典型相关分析显示第l对,第2对典型相关系数分别为R.=0.552,R:=0.164;卡方统计量:=149.704,dfl=3+3—2Xl—l=3,P<0.0l(0"31=l1.34);=13.304,df2=3+3—2X2一l=l,P<0.0l(0…)=6.635);2总=163.007(P<0.001);各卡方分量占总卡方值的百分比分别是91.84%和8.16%. 故Spearman相关,Kendall相关及典型相关分析均提示矽肺期次与肺门密度级别问存在直线相关关系,即肺门密度级别随矽肺期次的增加而增加.1.2CMHX检验CMH检验,全称为Coch. ran—Mantel—Hansel检验.根据RXC表中行变量与列变量的属性不同,做非零相关,行平均分差和一般联系3种检验.行列变量均为等级变量时,作非零162?相关检验.非零相关检验的是行变量和列变量之间的相关,实际上就是趋势检验,但这种趋势检验只限于检验线性趋势.计算公式:kikl(n一1)I(r.一.)(c一)n,]Q=————————一[∑(r,一,)n.][￡(c.一.)n.)]kinkJni1'n)'n)llJI_l其中ri为行评分,c.为列评分,.为行平均分,.为列平均分,/"t,为行合计数,/"t.为列合计数.该方法SAS运算程序如下: poreeoITspearman;freqW;varre;/r为矽肺期次(r=1,2,3);e为肺门密度级别(c=1,2,3)}/run;proefreq;tablesre/emhexpectednopercentnorownocol: weightW;rnn;例1计算结果:,=1.6606,.=2.1850,Q=125.487;程序运行结果显示了CMH检验的3种统计量,其中NonzeroCorrelation为非零相关统计量, =125.510,自由度为1,P<0.001;Spearman等级相关结果为r=0.532,P<0.001.说明胸部平片肺门密度级别随矽肺期次的增加而增加.1.3CPD趋势性检验CPD是交差积差(Cross ProductDifference)的英文缩写,用它作为1个统计量的符号,代表有序分组数据某实验组的交差积差和,它相当于秩和检验中的秩或Ridit分析中的尺值.CPD分析时先求出各等级CPD值,然后带人到趋势检验公式中进行计算.但CPD只是间接的统计量,需要相应的检验统计量,方可做出统计推断. 其基本方法和原理如下.①等级数量化:对各等级进行评分.按性质分组的数据,评分的一般方法是Z.=一0.5(C一2.+1),C是等级数目,即列联表的列数.对于按数量分组的资料,评分的原则是与分组的间隔相适应.②求出各等级的CPD值:每列相应格子数乘以相应的y值之和为各等级的CPD值. y.为总合计数减去第1行合计数,y_为y...减去第i和(i一1)行的合计数.③分别求出∑njZ;,∑njZ和∑CPDZj(/"tj为各列合计数).④按照公式求出检验统计量.∑CPD.Z./En(∑njZj)一(∑njZj)](n一∑n)3n(/"t一1)郑州大学(医学版)2006年1月第4l卷第l期⑤查//,界值表判断结果.据此对例1进行分析,整理如表2:表2不同期次矽肺患者肺门密度级别分布本例共3个等级,分为Z.=一1,Z=0,Z,:1.CPD.=43×247+1×(一167)+6×(一414)=7970;同法计算出CPD=23366,CPD,=一31336.∑n.Z.=50×(一1)+301×0+141×1=91;同样计算出∑n.Zi=191;∑CPD{Zi=一39306.将上述计算结果带人公式得=一11.48,本例双侧检验H=一11.48,因H000l=3.291,P<0.001; 说明胸部平片肺门密度级别随矽肺期次进展有逐步提高趋势.2双向有序且属性不同的分类数据的趋势检验可采用线性趋势分析,该方法的基本思想是:首先计算R×C表的值,然后将值分解成线性回归分量与偏离线性回归分量2伯.若两分量均有统计学意义,说明两分类变量存在相关关系,但关系不一定是简单的直线关系;若线性回归分量有统计学意义,偏离线性回归分量无统计学意义时,说明两分类变量不仅存在相关关系,而且是线性关系"].计算公式:2b,lr,lrr归222222偏:总一回归偏:总一回归例2某地防疫站用碘剂局部注射治疗219例地方性甲状腺肿的结果见表3¨,问:年龄与疗效之间有无相关关系?表3地方性甲状腺肿患者的年龄与疗效的关系JournalofZhengzhouUniversity(MedicalSciences)Jan.2005V o1.41No.1 SAS程序如下.程序l:procfreq;weightf:tablesYx/chisq;/x为疗效(X=l,2,3,4);Y为年龄分组(Y=l,2,3,4,5)/run;procCOlT;freqf;varY:run;procreg;freqf:modelYX;run;程序2:datatrend;r:5:C=4:kf=54.5856:b=0.55l5l:sb=0.08999:dff:(r—1)(c—1):dfr=l:dfb=dff—dfr;vb=sbsb:kr=round(bb/vb,0.0001);kb=kf—kr:pr=l—probchi(kr,dfr);pr=round(pr,0.0001);ifpr<0.000lthenpr:0.000l:pb=l—probchi(kb,dfb);pb=round(pb,0.0001);ifpb<0.0001thenpb=0.000l:fileprint;put#2@101~hisq—r@20p—r#2@301~hisq—b@40p—bput#3@10kr@20pr#3@30kb@40pb:run;程序l中x,Y的赋值只要是等差数列皆可,运行后可得到值,回归系数b及其标准误s;再将l63?这些值带入程序2.程序2中根据资料不同需要修改的值有r(行数),c(列数),kf(x~值),b(回归系数b),sb(sh).本例结果:程序l运行后可得到2=54.5856,P<0.000l,b=0.55l5l,sh=0.08999.程序2运行后显示21月=37.559,P<0.O0l,有统计学意义;偏2=17.026,P=0.107,无统计学意义.故推断两变量存在线性趋势关系,即局部碘剂注射治疗地方性甲状腺肿的疗效与患者的年龄存在线性相关关系,年龄越大,疗效越差.参考文献l胡良平.WindowsSAS6.12&8.0实用统计分析教程.北京:军事医学科学出版社,2001.275,5282BreslowNE.StatisticalMethodsinCancerResearch.WHO,l980.1:l683杨晋珍,杨文秀.趋势检验在医学研究中的应用.中国公共卫生,l995,ll(7):3304金丕焕.医用统计方法.上海:上海医科大学出版社. 1999.2285方积乾.医学统计学与电脑实验.上海:上海科学技术出版社.2001.4656倪宗瓒.卫生统计学.第4版.北京:人民卫生出版社. 2000.897StokesME.DavisCS.KochGG.Setsof2xrandSxrta—bles.CategoricaldataanalysisusingtheSASsystem.Cary (NE):SASinstituteInc,1995.1298史周华,汪涛,刘勤,等.CMH统计分析方法在多中心2x 2表资料的应用.中国卫生统计,1999,16(1):969刘勤,金丕焕.分类数据的统计分析及SAS编程.上海:复旦大学出版社,2002.34l0王广仪.CPD多指标综合评价法应用之(=三)——趋势检验.中国医院统计,1997,4(3):164ll吴学森,王洁贞.双向有序分类资料线性趋势分析方法的前提条件.中国卫生统计,2003,20(2):79l2郭祖超.医学统计学.北京:人民军医出版社.2001.84l3胡良平.现代统计学与SAS应用.北京:军事医学科学院出版社,2000.380(2005—10—12收稿责任编辑王曼)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第三讲分类数据的检验
一、引例
十九世纪伟大的英国生物学家孟德尔（Men del）按颜色与形状把豌豆分为四类：黄而圆的，青而圆的，黄而有角的，青而有角的。

按照遗传学理论，孟德尔指出这四类豌豆的个数之比为9：3:3：1，也即豌豆为黄而圆的，青而圆的，黄而有角的，青而有角的概率分别为
9/16，3/16，3/16，1/16。

他通过观察n = 556个豌豆发现，这四类豌豆的个数分别为315，108，101，32。

如何根据这些观察数据对孟德尔的遗传学理论进行检验？
分析：
（0总体为所有的豌豆，豌豆按颜色和形状分为四类：几一黄而圆的，A—青而圆的，A3 —黄而有角的，A—青而有角；
（2）每种豌豆的比率（概率）分别为：p1 =P（A1），p2=P（A），P3 二P（A3），P4 = P（A4），但未知;
（3）根据理论或经验提出假设：
P1 = 9/16，P2 二3/16，p3 = 3/16，p4 = 116 ；
（4）做试验获得观察数据
（5）根据观察数据检验如下假设：
H o: pi = 9/16 , p2=3』16 , 0=3』6 , p4=1?6
若接受H o，说明观察数据符合孟德尔的遗传学理论，也即说明孟德尔的遗传学理论正确；
若拒绝H o，说明观察数据不符合孟德尔的遗传学理论，也即说明孟德尔的遗传学理论不正确。

二、分类数据检验问题的统计模型
（一）问题的一般提法
4、总体分布
设总体根据某项指标分为n类，记为A I,A2,L ,A r，各类所占的比
例记为p i, P2, L , P r，其中P i 0，' P i =1，但P i未知。

也即总体分布
i=1
为:
总体类别A i A2 L A 比例P i P2 L P r
2、假设检验
根据理论，或从经验出发提出一个原假设：
H o: p i = P o，i =1,2,L ,r （*）
其中P io，i =1,2,L ,r 已知，且"P io =1。

i d
3、研究内容
对该总体独立重复观察n个个体，记n个个体中，属于A：的观察
个数为n , i =1,2,L ,r，其中有二n^n，基于观察值n , i =1,2,L ,r对id 原假设（*）进行检验。

（二）检验方法
1、2检验
（1）检验统计量
2 2
（口-npo）
i 4 np iO
（2）统计量的渐进分布
2
若Ho成立，当n—；时，2八（n -nP i0）F ,务“）
i 吕np iO
（3）拒绝域（给定检验水平「，一般取〉=0.1,0.05,0.01）
W 二｛2一2_：.（r -1）｝
若2• W，则在检验水平:.下拒绝H0 ；
若2 'W，则在检验水平：•下接受H0 ；
（4）检验p值（给定检验水平：•，一般取--0.1,0.05,0.01）
2 2
p 二P （r -1）一
若p l•，则在检验水平:下拒绝H0 ；
若p ,则在检验水平下接受H0 ；
（5）注：2检验采用近似分布进行检验，要求样本容量大，一般n _50，n卩0 丄5，i = 1,2,L ,r。

2、似然比检验
随机向量（m,n2,L ,m）~M（n, p1,p2,L , p r），即（n 1,n2,L ,n r）的联合分
3
布列为:
p(n i,n2,L ,n r； p i, p2,L ，P
r)
n!
n i! n2! L
n；!p i
2 |
P2 L n r
p
样本(n i,n2,L ,n r)的似然函数为:
L(p i, P2,L , p r； n i,n2,L , n r)
n!
n i! n2 !L
n n
i 2 |
p i p2 L
n r
p
检验问题(*)的似然比L(p i0,p2°丄「gm门讥，nJ
Sup L(p i, p2,L , p r;n i,n2,L ,n r)
p i,p2 ,L ,P r
n! n i ri2 n r
P iO P20 L p r 0
n i!门2丄nJ
n! n i n2 n r
SUP P i P2 L P r
p i,P2,L ,p r
n i! n2!L n r!
n n 「
_ p iO p20L n pf1O
I122r
P i,P2 ,L ,P r
注：参数pi, p2,L , p r满足''r p i = 1，似然比可以写为：
i=1
L(p io,p2o,L ,p ro；n i,n2,L ,n r)
Sup L(p i, p2,L , p r；n i,n,L , n r)
P l,P2 ,L ,P r
n n r
n n p io P20 L p 0 Sup p i i p22L p n』d—p i—p2—L P i,P2,L ,P r 1
n P r」
求解Sup P i n P2n L (1— P i — P2 —L P r4)n: P i, P2 ,L , P rJ.
记Q(P i, P2,L , P r」)二P i" p2 L p] (1-p i - P2 -L PrJ
r 4
In Q(p i, p2,L , p r" =、n i l n p i n r
In (1—p P L p^)
(0检验统计量
r
/ 、
-21 n(A) = -2送 n i ln 「P
i0
◎
5/n 丿
(2)统计量的渐进分布
若H o 成立，当n —； *：时，
-21 n(A) = -2三 n i ln f 旦 I —L 2(r -1)
y 5/n 丿
创n
Q o
令：*
肌=0 印 2
M 创
nQ =0
'n 1 =
n r
P 1 一 p — p —L p~
1
1 2
r
」
n 2
n r
可得 P 2 1- P l - P 2亠P r 」
M n r J n r
P r J
1 - P^ - P
2 _ L P r A
P l P 2 Pr J
也即参数P i , P 2,L , P r 的最大似然估计为:
n n
「
P 10 P 20 L 0
i
=1,2,L i'np
(3)拒绝域(给定检验水平「，一般取〉=0.1,0.05,0.01)
W 二{—21 n(_ J— i2.-.(r-1)}
若-2ln(_ J W，则在检验水平:.下拒绝H o ；
若-2ln(_ J - W，则在检验水平:.下接受H o ；
(4)检验p值(给定检验水平：•，一般取〉=0.1,0.05,0.01)
2
p=P (r-1)_-2l n(上)
若p 1 •，则在检验水平:下拒绝H0 ；
若p * ,则在检验水平下接受H0 ；
三、引例分析
(1)记号
A1 :黄而圆的，A2 :青而圆的，A3:黄而有角的，A4 :青而有角；
P1 = P(A1)，P2 = P( A2) ，p3 = P(A3)，P4 = P( A4)；
m :黄而圆的豌豆个数，n2:青而圆的豌豆个数，n3 :黄
而有角的豌豆个数，n4 :青而有角的豌豆个数；
(2)观察数据
n1 = 315，n2 =108，n3 = 101，n4 = 32，n 二n1 n2 n3 n4 = 556 ；
(3)原假设：
H°: p1 =9*6，0=3,16，p3=316，P4 =1 16
(4) 卩检验
检验p值为0.925425895,表明不能拒绝H。

，即认为孟德尔的遗传
学理论是正确的。

（5）似然比检验
检验p值为0.924251904,表明不能拒绝H o，即认为孟德尔的遗传学理论是正确的。