(整理)多因素分析1.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多因素分析
研究多个因素间关系及具有这些因素的个体之间的一系列统计分析方法称为多元(因素)分析。主要包括:
多元线性回归(multiple linear regression )
判别分析(disoriminant analysis )
聚类分析(cluster analysis )
主成分分析(principal component analysis )
因子分析(factor analysis )
典型相关(canonical correlation )
logistic 回归(logistic regression )
Cox 回归(COX regression )
1、 多元回归分析(multiple linear regression )
回归分析是定量研究因变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变量的线性依存关系时,其模型称为多元线性回归。函数方程建立有四种方法:全模型法、向前选择法、向后选择法、逐步选择法。
全模型法其数学模型为:εββββ++++=p p x x x y 22110
式中 y 为因变量, p x x x 21, 为p 个自变量,0β为常数项,
p βββ 21,为待定参数,称为偏回归系数(partial regression coefficient )。
p βββ 21,表示在其它自变量固定不变的情况下,自变量X i 每改变一个单位时,单独引起因变量Y 的平均改变量。
ε为随机误差,又称残差(residual), 它是在Y的变化中不能为自变量所解释的部分
例如:1、现有20名糖尿病病人的血糖(L
mmol
y/
,)、胰岛素
(L
mU
x/
,
1)及生长素(L
g
x/
,
2
μ)的数据,讨论血糖浓度与胰岛素、
生长素的依存关系,建立其多元回归方程。
逐步回归分析(stepwise regression analysis)
在预先选定的几个自变量与一个因变量关系拟合的回归中,每个自变量对因变量变化所起的作用进行显著性检验的结果,可能有些有统计学意义,有些没有统计学意义。有些研究者对所要研究的指标仅具有初步知识,并不知道哪些指标会有显著性作用,只想从众多的变量中,挑选出对因变量有显著性意义的因素。
一个较理想的回归方程,应包括所有对因变量作用有统计学意义的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归方程较理想的方法之一是逐步回归分析(stepwise regression analysis)基本原理:按这个自变量在方程中对因变量作用的大小,由大到小依次引入方程。每引入一个自变量都要对回归方程中每一个已引入的(包括刚被引入的)自变量的作用作统计意义检验,若发现一个或几个已被引入的自变量的作用无统计学意义时,即行剔除。每剔除一个自变量后,也要对留在回归方程中的自变量逐个作统计学意义检验。如果发现方程中还存在作用无统计学意义的自变量时,也予以剔除,直至没有自变量可引入,也没有自变量可从方程中剔除为止。
最优方程应是:εβββ+++=p p x x y 110
对y 有显著性作用的自变量全部到回归方程中。凡是对y 没有显著性作用的自变量都不被引入方程。
例如:
1、讨论中学生的肺活量的影响因素,观察了10名女中学生的体重(X 1, kg )、胸围(X 2, cm )、胸围之呼吸差(X 3, cm )及肺活量(Y , ml )。
2、某研究协作组调查煤矿工人II 期高血压患者40例,同时调查了工作面的污染程度(X 1 )、井下工作时间(X 2)、每人的体重(X 3)、吸烟年限(X 4)、饮酒年限(X 5)和收缩压(y ),欲分析影响煤矿工人II 期高血压患者收缩压高低的主要因素。
3、为探讨影响差等生学习成绩的因素,某儿科医生调查了某学校六年级各班倒数第五名以内学生的平均成绩(y ),并测定了智商(X 1 )、血清铁(X 2)、血清酮(X 3)、日均热卡(X 4)、日均食入蛋白量(X 5)、头围(X 6 )和月人均收入(X 7)
2、 判别分析(discriminant analysis )
根据已掌握的一批分类明确的样品,制定出一个分类标准用以判断以后新样品的归类。在医学研究中经常遇到根据某病人的各种症状、体征、化验结果等来判定病人患的什么疾病,如:根据骨科的X 光片的各种特征判断病人属于何种骨瘤?体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养等。
判别分析在医学领域的主要用途是:
1、疾病诊断: 用判别分析的方法诊断疾病又称为计量诊断。包括临床诊断、X 线诊断、心电图诊断、超声波诊断、脑电图诊断等。
2、疾病预报: 流行病预报、某些疾病(心肌梗死、中风)的早期预报。
3、预后估计: 某些疗法的疗效估计,某些恶性肿瘤患者的生存期估计等。
4、疾病的病因学估计: 研究引起疾病的原因,并分析其主要影响因素。
判别分析:要求Y 变量二分类或多分类的属性变量。分别用Fisher 和Bayes 准则进行计算。
同时根据样本中个体的症状、体征选用多元逐步判别分析的方法,来判断病人患的什么疾病。其判别函数为:
Z = b 1x 1 + b 2x 2 + b 3x 3 …..+ b k x k
对判别函数在实际应用中的判别能力要进行检验。
判别临界值:()()[]21210/n n b n a n Y y y +⎥⎦⎤
⎢⎣⎡+=-- 且: ()()b Y a y y --
>>0
所以:若 Y>Y 0 判为A 类;若 Y 可以计算各指标的贡献率,进行回代检验其符合率。