关联分析研究的进展

合集下载

抗精神病药物个体差异的全基因组关联分析研究进展

抗精神病药物个体差异的全基因组关联分析研究进展

抗精神病药物个体差异的全基因组关联分析研究进展宋炜宸;禹顺英【期刊名称】《中国神经精神疾病杂志》【年(卷),期】2018(044)011【总页数】5页(P697-701)【关键词】精神分裂症;抗精神病药物;全基因组关联研究;遗传位点;副作用【作者】宋炜宸;禹顺英【作者单位】上海交通大学医学院附属精神卫生中心遗传研究室上海200030;上海交通大学医学院附属精神卫生中心遗传研究室上海200030【正文语种】中文【中图分类】R748.3抗精神病药物(antipsychosis,AP)治疗是目前精神分裂症(schizophrenia,SCZ)最主要的有效治疗方法,然而,SCZ患者对AP的反应有极大个体差异[1]。

越来越多证据表明,AP个体反应差异有着复杂的遗传背景,了解这些遗传背景可以帮助临床医生更好地给予患者个体化用药[2]。

全基因组关联研究(genome-wide association study,GWAS)是在全基因组水平上对大量单核苷酸多态性(single neucleotide polymorphism,SNP)和拷贝数变异(copy numbervariation,CNV)进行分型,进而分析这些遗传标记与某一表型关联的研究。

不同于候选基因研究(candidate gene study),GWAS不预设假设,因而可以发现许多新的、与表现型无已知生物学关联的易感位点,这使GWAS近年来在复杂疾病和复杂性状的遗传学基础研究中占有越来越重要地位。

AP疗效和不良反应的研究也采用了这一方法,并取得一些突破性结果,本文将对这一领域的研究进展进行综述。

1 GWAS与抗精神病药物疗效相关位点的研究针对抗精神病药物疗效相关位点的GWAS较为丰富,其中多中心项目往往同时研究多种药物,单中心研究则聚焦于单个药物。

研究结果在多巴胺通路相关基因上有较多重合,在各个药物特异性作用位点上也有显著结果,在其它基因上的结果则较为分散。

癌症遗传学研究中的全基因组关联分析技术应用

癌症遗传学研究中的全基因组关联分析技术应用

癌症遗传学研究中的全基因组关联分析技术应用癌症是一种由多种因素导致的复杂疾病,包括基因突变、环境因素和生活方式等。

近年来,随着研究技术的发展,全基因组关联分析技术在癌症遗传学研究中扮演着重要的角色。

本文将介绍全基因组关联分析技术在癌症遗传学研究中的应用。

一、全基因组关联分析技术的原理全基因组关联分析技术是一种用于检测基因与疾病之间关系的方法。

其基本原理是通过对大量个体的基因数据进行比较,找出与疾病相关的基因或基因组变异。

全基因组关联分析技术可以检测单核苷酸多态性(SNP)和结构变异(SV)等多种表型相关的遗传变异。

二、全基因组关联分析技术在癌症遗传学研究中的应用1. 病因研究全基因组关联分析技术可以帮助研究人员确定与癌症发生相关的遗传变异。

通过对大样本群体的基因数据进行分析,可以确定与特定癌症类型相关的多个位点。

这些位点可能存在于基因组的各个区域,包括非编码区域和编码区域。

全基因组关联分析技术的应用可以帮助揭示癌症的病因机制,为早期诊断和治疗提供依据。

2. 癌症风险评估基于全基因组关联分析技术的研究成果,科学家们可以建立预测模型,评估个体患癌症的风险。

通过对基因数据进行分析,可以计算个体在患癌症方面的遗传风险得分。

这对于早期筛查和个体化防治非常重要。

通过这种方式,可以更准确地对癌症高风险个体进行干预和管理,减少癌症的发生和死亡率。

3. 药物研发全基因组关联分析技术还可以用于药物研发。

通过对药物治疗效果和基因变异进行关联分析,可以确定哪些基因变异可能会影响特定药物的疗效。

这有助于发现新的治疗靶标和个体化治疗策略。

全基因组关联分析技术在药物研发方面的应用可以加速新药的开发过程,并提高疗效。

4. 疾病预后评估在癌症遗传学研究中,全基因组关联分析技术还可以用于预后评估。

通过对基因变异与疾病进展、治疗效果等临床数据的关联分析,可以找到与预后相关的基因标记。

这有助于预测患者的病情发展,为制定个体化的治疗方案提供科学依据。

全基因组关联分析在遗传学研究中的应用

全基因组关联分析在遗传学研究中的应用

全基因组关联分析在遗传学研究中的应用遗传学在现代科学研究中扮演着至关重要的角色。

通过了解遗传因素和基因变异的影响,人们可以更好地理解不同种群之间的遗传差异,更好地理解影响人类健康和疾病的因素。

全基因组关联分析(GWAS)是一种常用的遗传学研究方法,其应用在遗传学研究中越来越广泛。

全基因组关联分析是一种高通量的遗传学研究方法,其旨在寻找与特定表型或疾病发生相关的基因变异。

在全基因组关联分析中,研究人员会对大量不同个体样本进行基因组DNA的测序,并对其进行比较。

通过分析众多样本的基因组数据,研究人员可以找到与每个表型或疾病发生相关的基因序列变异。

这种方法与传统的关联分析相比具有更高的效率和准确性。

全基因组关联分析的应用范围很广,包括但不限于以下几个方面:1. 遗传疾病研究全基因组关联分析是研究遗传疾病发生机制的有效工具。

比如,在研究乳腺癌的发病机制时,全基因组关联分析可以帮助寻找与乳腺癌发生相关的基因序列变异。

这些变异可以用于诊断、或者被认为是乳腺癌的新的治疗方法。

2. 人口基因组学全基因组关联分析还可以用于研究不同种群间的遗传差异。

通过比较不同种群基因组的数据,可以了解不同族群间的遗传分布差异,这有助于研究人类演化和迁移历史。

3. 精准医学精准医学是一种基于个体分子组成的治疗方法。

全基因组关联分析可以帮助识别个体的基因变异与疾病风险之间的联系,从而更好地预防、诊断和治疗疾病。

总的来说,全基因组关联分析为研究遗传学提供了一个强大的工具。

这种方法不仅可以帮助我们了解不同个体之间的遗传差异,而且可以帮助我们更好地理解疾病发生机制和治疗方法。

尽管还有许多挑战和限制,全基因组关联分析作为一种有前途的遗传学研究方法,在未来的发展中将继续发挥重要作用。

基于全基因组关联分析的遗传多态性与人类疾病的关系研究

基于全基因组关联分析的遗传多态性与人类疾病的关系研究

基于全基因组关联分析的遗传多态性与人类疾病的关系研究近年来,随着技术的飞速发展,全基因组关联分析被广泛应用于人类遗传研究领域。

全基因组关联分析是一种比较成熟的方法,它通过比较大量人群中基因多态性与特定疾病之间的关系,寻找与某些疾病有关的基因变异。

这种方法能够对遗传因素进行全面的研究,发掘各种疾病的潜在遗传风险因素,并为基于个体基因信息的个性化医疗提供了有力的支撑。

基于全基因组关联分析,我们可以探究一些人类常见疾病与遗传因素之间的关系。

例如,哮喘、糖尿病、脑卒中、甲状腺疾病等多种疾病都受到遗传因素的影响。

研究表明,有些基因与这些疾病的患病风险存在密切关系。

以哮喘为例,该疾病是由多种因素综合作用产生的。

遗传因素是哮喘发病的一个重要因素。

哮喘的遗传易感性与多个基因位点和环境因素有关。

全基因组关联分析可以发现与哮喘有关的遗传变异,同时可以发现不同人群、不同地区哮喘易感性存在的差异。

研究表明,位于16P11.2基因组区域中的一个基因段与哮喘发病风险存在关联,又称作17q21基因。

此外,CFTR、IL4、IL13、ADAM33、TSLP等基因常被认为与哮喘的发病风险有关。

在临床实践中,基于全基因组关联分析的筛查方法,为哮喘中的易感基因筛查提供了科学的依据。

类似地,全基因组关联分析对其他疾病的研究也取得了许多重要进展。

比如,针对肥胖症,参与控制体重的单核苷酸多态性(SNP)位点很多。

其中FTO基因的SNP位点与肥胖症发病风险存在密切关系。

对于2型糖尿病的研究揭示了与胰岛素抵抗相关的基因,如PPARG、TCF7L2等。

肺癌、乳腺癌、结直肠癌等常见肿瘤都与多种基因位点的多态性有关,这些研究结果丰富了我们对疾病遗传机制的认识,也为患者提供了更合理的治疗方案。

然而,基于全基因组关联分析的研究也存在一些局限性。

首先,该方法只能探测到存在显著差异的单核苷酸多态性变异。

其次,尽管全基因组关联分析已经在很多疾病的研究中被证明是一种有效的方法,但解释一个位点与发病之间的直接功能联系仍然存在难度。

蛋白质表达与肿瘤发生发展的关联分析

蛋白质表达与肿瘤发生发展的关联分析

蛋白质表达与肿瘤发生发展的关联分析蛋白质是生命体内最基本的分子之一,扮演着细胞结构、信号传导、代谢调控等重要角色。

蛋白质异常表达与人类疾病的发生发展密切相关,其中肿瘤的发生发展尤为重要。

本文将分析蛋白质表达与肿瘤发生发展的关联,并探讨相关研究的进展和重要意义。

1. 蛋白质表达与肿瘤发生的关系在肿瘤细胞中,蛋白质异常表达是肿瘤发生发展的重要特征之一。

一方面,某些蛋白质的过度表达可以促进肿瘤细胞的增殖、生存和转移,从而推动肿瘤的发展;另一方面,一些蛋白质的表达缺失或异常下调则会导致细胞自噬、凋亡抑制以及免疫逃逸等肿瘤形态特征的出现。

因此,蛋白质表达的变化在肿瘤发展的各个阶段扮演重要角色。

2. 蛋白质表达与肿瘤早期诊断肿瘤早期诊断对于治疗和预后具有重要意义,而蛋白质表达的变化可以作为肿瘤早期诊断的潜在标志物。

通过检测血液或组织中特定蛋白质的表达水平,可以识别早期肿瘤标记物,提高早期肿瘤诊断的准确性和敏感性。

例如,前列腺特异性抗原(PSA)的检测在早期诊断和监测前列腺癌方面具有重要价值。

3. 蛋白质表达与肿瘤治疗蛋白质的异常表达已经成为靶向治疗的重要靶点。

基于特定蛋白质的表达水平,可以选择性地应用药物来干预肿瘤发展。

例如,表达HER2过度的乳腺癌患者可以通过应用特定的抗HER2药物,如曲妥珠单抗(Trastuzumab),来实现针对性治疗。

蛋白质的表达水平还可以用来预测肿瘤对不同治疗策略的敏感性,从而指导个体化治疗的选择。

4. 蛋白质组学研究的进展蛋白质组学是研究蛋白质表达及其功能的一种重要手段。

随着高通量蛋白质组学技术的发展,研究人员可以同时检测数千种蛋白质的表达水平,从而全面了解肿瘤发生发展过程中蛋白质表达的变化。

蛋白质组学研究有助于发现新的肿瘤标记物、阐明蛋白质相互作用网络以及揭示肿瘤发生发展的机制。

5. 未来展望蛋白质表达与肿瘤发生发展的关联已经成为肿瘤研究的热点领域。

未来的研究将继续探索更多的蛋白质标志物,开发更精准的肿瘤诊断方法,以及设计更有效的靶向治疗策略。

SNP关联分析与复杂疾病

SNP关联分析与复杂疾病

SNP关联分析与复杂疾病SNP(Single Nucleotide Polymorphism,单核苷酸多态性)是人类基因组中最常见的遗传变异形式之一、研究表明,SNP在复杂疾病的发生和发展中起着重要的作用。

SNP关联分析是一种用于确定SNP与复杂疾病之间关系的方法,可以帮助我们了解疾病的发病机制、诊断和治疗方法。

在进行SNP关联分析之前,首先需要进行全基因组关联研究(GWAS)。

GWAS通过使用高通量技术,如DNA芯片和测序技术,对成千上万的SNP进行检测,并与复杂疾病的表型数据进行关联分析,以找到与疾病相关的SNP。

然后,通过统计学方法进行数据处理和分析,以确定SNP以及它们与疾病之间的关系。

根据研究目标和实际情况,SNP关联分析可以分为两种类型:关联性研究和功能性研究。

关联性研究是最常见的SNP关联分析方法。

它通过检测SNP在疾病发病群体和健康对照群体中的频率差异来确定SNP与复杂疾病之间的关联关系。

如果一些SNP在发病群体中的频率显著高于对照群体,就说明该SNP可能与该疾病的发生有关。

通过进行大规模的GWAS和复查实验,可以找到与复杂疾病相关的SNP。

功能性研究是在关联性研究的基础上,进一步研究SNP与复杂疾病之间的功能机制。

功能性研究可以通过分子生物学技术,如转录组学、蛋白质组学和表观遗传学等,来研究SNP对基因表达、蛋白质功能和细胞信号传导等方面的影响。

这将有助于我们深入了解SNP与疾病之间的关系以及疾病发生的生物学机制。

SNP关联分析在复杂疾病研究中的应用非常广泛,尤其是在研究遗传因素在疾病发生中的作用时。

例如,通过SNP关联分析,我们已经发现了很多与复杂疾病相关的基因。

例如,通过GWAS研究,已经发现了与2型糖尿病、心血管疾病、肺癌等多种复杂疾病相关的SNP。

这些研究有助于我们了解疾病的遗传基础,开发新的预防和治疗方法。

然而,SNP关联分析也存在一些挑战和限制。

首先,关联性研究只能确定SNP与疾病之间是否有关联,而不能确定SNP是导致疾病发生的原因。

全基因组关联分析技术的应用和优化

全基因组关联分析技术的应用和优化

全基因组关联分析技术的应用和优化随着基因测序技术的不断发展,人们对基因组信息的了解也越来越深入,这种信息已经成为了医学、生物学、农业等领域研究的重要内容。

近年来,全基因组关联分析技术已经成为了一种广泛应用的基因组研究方法,能够帮助科学家们更加准确地研究人类疾病、药物反应、性状及表现型等方面。

本文将对全基因组关联分析技术的应用和优化进行介绍。

一、全基因组关联分析技术的基本原理全基因组关联分析技术是一种基于多样体的遗传学分析方法,通过对群体中疾病或表型相关的遗传变异进行高通量的基因型检测,并与疾病或表型进行相关分析,以确定遗传因素与疾病或表型的关联性。

该方法主要基于单核苷酸多态性(SNP)位点,通过高通量测序技术对各个位点进行基因型检测,构建出群体中各个位点的基因型扫描图,进而对这些基因型与疾病或表型的相关性进行分析。

二、全基因组关联分析技术在疾病研究中的应用2.1 单基因遗传性疾病的研究全基因组关联分析技术在单基因遗传性疾病的研究中发挥了重要作用。

以先天性失聪为例,早期因单基因导致的失聪常常与突变相关,并不便于全基因组的关联分析,而现在,可以通过全基因组关联方法对复杂性失聪进行研究,比如探究和研究导致失聪的各种复杂遗传因素、基因环境相互作用等。

2.2 常见并发症的研究全基因组关联分析技术在疾病并发症的研究中,也有很大的作用。

如研究2型糖尿病的并发症,除了已知的高血压、冠心病、中风等疾病之外,还可以利用全基因组关联分析技术找到新的并发症情况,以找出潜在的危险基因和预测疾病患者的具体风险。

2.3 候选基因筛选和定位在全基因组关联分析技术中,通过对多感兴趣的基因进行进行测序分析,以及找到关键性状的最关键位点,从而验证和澄清这些位点与疾病的关联位置,这种方法可以促进疾病基因筛选,并阐明关键基因的机制。

三、全基因组关联分析技术的优化3.1 样本数量的增加数据量是影响全基因组关联分析优化的最关键因素之一,样本数量的增加是提高全基因组分析方法产量和某些特定种群的大规模DNA测序时的重要方法,其中样本数量必须足够大,以支持显著性测试的结果。

遗传关联分析及其在人类疾病研究中的应用

遗传关联分析及其在人类疾病研究中的应用

遗传关联分析及其在人类疾病研究中的应用遗传关联分析(Genetic Association Analysis)是通过研究基因和表型之间的关系来探讨某个基因是否与某个表型相关的一种方法。

在人类疾病研究中,遗传关联分析是一种重要的工具,它被广泛用于探索人类疾病的遗传基础。

本文将探讨遗传关联分析的基本原理、方法以及在人类疾病研究中的应用。

基本原理遗传关联分析的基本原理是研究基因与表型之间的关系。

由于基因具有复杂性、多样性和多基因性等特点,因此遗传关联分析不仅需要考虑单个基因的影响,而且还需要考虑多个基因之间的相互作用。

遗传关联分析所研究的表型包括所有可能的性状和疾病,例如认知能力、身高、肥胖、糖尿病等。

遗传关联分析的目的是找到影响表型的基因变异,进而探究该基因的生物学功能、作用机制和调控网络等方面的信息。

方法遗传关联分析的方法一般分为两种:关联研究和通路分析。

关联研究是通过比较不同个体(例如患病和健康个体)的基因组序列,在不同群体间比较基因频率的差异来探究某个基因与特定表型的关系。

这种方法可分为两种:候选基因法和基因组广泛关联研究(GWAS)。

候选基因法是基于已知的遗传变异或有理假设的基因,通过比较两个群体的基因频率差异来确定某个基因与表型的相关性。

值得注意的是,这种方法依赖于先前的基因研究。

GWAS是一种在不知道先假设的基因变异的情况下,同时对成千上万的基因进行分析来确定它们与表型之间的关系。

由于GWAS可以无偏地检测大量的基因和基因变异,因此已成为探索人类疾病遗传基础的重要手段。

通路分析是一种系统的方法,它可以探索表型和基因之间的复杂关系。

通路分析通过挖掘基因功能和基因网络之间的交互作用,找到对表型产生重要贡献的基因通路。

在通路分析中,提取有关表型的基因集合,计算这些基因之间的相互作用,并将这些作用转化成一个生物学通路。

这种方法可以帮助科学家深入了解基因和表型之间的关系,并为通过干预基因通路来治疗疾病提供了理论依据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Academic Research学术研究www.cismag.com.cn84

陈宇王廷, 张保稳, 何德全(上海交通大学,上海 200240)

【摘 要】关联规则的发现是数据挖掘的一个重要方面,由于信息数据的急剧增长,面对浩如烟海的海量数据,为把这些数据转换成被人类充分利用的有价值信息,对关联规则挖掘算法进行研究就显得异常重要。总结了当今各种关联规则挖掘算法并对其加以分类,阐述了各类关联规则算法的特点,列举算法之间的差异,在时间和空间上进行比较,并且在此基础上对关联规则挖掘的未来趋势进行了分析和展望。【关键词】数据挖掘;关联分析;Aprior算法;频繁项集【中图分类号】TP181 【文献标识码】A 【文章编号】1009-8054(2010) 02-0084-04

Research Progress on Association AnalysisCHEN Yu-ting, ZHANG Bao-wen, HE De-quan(Shanghai Jiaotong University, Shanghai 200240, China)【Abstract】The discovery of association rule is an important aspect of data mining. Due to the tremendous increase ofinformation data and in order to transform these raw data into valuable information which could be best used by thepeople, it's extremely important to study the mining algorithm. The paper summarizes various prevailing association rulemining algorithms, classifies them into four different types and makes comparisons between among various types ofalgorithms. And based on this, the future developments of the association rule mining algorithms are analyzed and forecasted.【Keywords】data mining; association analysis; Apriori; frequent itemset

关联分析研究的进展

收稿日期:2009-08-17作者简介:陈宇王廷,1985年生,男,上海交通大学在读硕士,研究方向:数据挖掘、关联分析;张保稳,男,上海交通大学副教授,研究方向:数据挖掘;何德全,男,中国工程院院士,上海交通大学信息安全工程学院院长,研究方向:信息安全。

0 引言当今世界正处在一个信息迅速发展的时代,信息数量急剧增长,面对浩如烟海的海量数据,把这些数据转换成被人类充分利用的有价值信息的强烈需求,激发了数据挖掘技术的产生,其中关联规则的挖掘是目前数据挖掘领域中研究最为广泛的课题之一[1]。强有力的关联规则挖掘算法,可以帮助决策者从海量数据中发现重要的数据模式,从而提取有价值的知识,逾越丰富数据到有用信息之间的鸿沟,对商业决策和科学研究做出巨大贡献。1 关联规则挖掘文中在对典型的关联规则挖掘技术进行分析后,对关联分析进行了归纳。关联规则挖掘技术从整体上分为如下几类:按照事务数据集数据类型的不同可以划分为二值型关联规则挖掘与数值型关联规则挖掘;由于数据挖掘处理的多是大规模的数据库,一个挖掘任务的完成经常需要较长的时间,故按照处理器处理数据的方式不同可以划分为串行关联规则挖掘与并行关联规则挖掘;由于数据分布的分散性,有价值的模式经常出现在较高的概念层中,仅从较低的概念层上很难发现有用的模式,故按照是否对事务数据集进行概念分层又可以划分为单层次关联规则挖掘与多层次关联规则挖掘;由于当前事务数据库是多用户共享的共同资源,频繁的数据库更新通常是不可避免的,故按照事务数据集是否动态改变又可以划分为增量式关联规则挖掘与静态关联规则挖掘(见图1)。

1.1 二值型关联规则挖掘(1) 基于SQL的关联规则挖掘算法—SETM[2]事务通常以关系数据库的格式存储,一条事物对应关系

图1 关联规则挖掘的分类学术研究Academic Research

信息安全与通信保密・2010.285

表的一条记录。如果借助关系数据库的查询功能,将关联规则挖掘的过程转化为SQL语句的方式来执行,可以有效地提高挖掘的效率。SETM算法利用中间表Rk存储事物的标识和其中包含的k-项集。对k-1阶项集的中间表Rk-1与R1作连接操作,就得到k阶项集的连接表Rk`,对连接表按照项集字段分组,每个项集构成一组,组内的记录个数就是该项集的支持度计数,那些达到最小支持度阈值的项集就是频繁k-项集。然后,利用频繁项集对连接表过滤,只保留频繁项集对应的交易记录,得到k-项集的中间表记作Rk。以此类推,直到某个中间表为空时算法结束。(2) 关联规则挖掘的基本算法——Apriori[3]Apriori算法是第一个典型的关联规则挖掘算法,它开创性地使用基于支持度的剪枝技术,系统地控制候选项集指数增长。该算法中使用Apriori-gen函数通过如下两个操作产生候选项集:① 候选项集的产生:该操作由前一次迭代发现的频繁(k-1)-项集产生新的候选k-项集;② 候选项集的剪枝:该操作采用基于支持度的剪枝策略,删除一些候选k-项集。函数Apriori-gen的候选产生过程合并一对频繁(k-1)-项集,仅当它们的前k-2个项都相同。令A={a1,a2,…,ak-1}和B={b1,b2,…,bk-1}是一对频繁(k-1)-项集,合并A和B,如果它们满足如下条件:ai=bi(i=1,2,…,k-2)并且ak-1≠bk-1。(3) FP增长算法FP算法不同于Apriori算法的“产生-测试”,而是使用一种称作FP树的紧凑数据结构组织数据,并直接从该结构中提取频繁项集,它通过逐个读入事务,并把每个事务映射到FP树中的一条路径来构造。FP增长是一个有趣的算法,它展示了如何使用事务数据集的压缩表示来有效地产生频繁项集。此外,对于某些事务数据集,FP增长算法比标准的Apriori算法要快几个数量级[4]。FP增长算法的运行性能依赖于数据集的压缩因子,如果生成的条件FP树非常茂盛,则算法的性能显著下降,因为算法必须产生大量的子问题,并且需要合并每个子问题返回的结果。(4) QTTP算法[5]QTTP算法直接把事物操作数据当作候选集,通过扫描保存各项集的超集信息,从而对扫描过的信息不再重复扫描。为了保存扫描信息,存储结构规定如下:用Kset表示层的索引号;NO.T表示每层中TID的序号;ID用来标识没有超集的记录,有超集记录的ID与其超集的ID相同;标识位(flag)用来判断“记录k项集是记录(k+1)项集的子集”是否出现过,取0表示未出现过,取1表示已出现过。上述4个算法的比较如表1所示。1.2 数值型关联规则挖掘(1) 数值型关联规则挖掘算法[6]数值型关联规则的挖掘是通过先将数据转换为二值型,再利用二值型规则的挖掘方法来实现的。对于分类型属性和值域(属性的取值空间)较小的数值型属性,每个取值映射为一个变量,对值域较大的数值型属性先分段,每个区间映射为一个变量,取值落在该区间中的数据转换为1,反之为0。数值型关联规则的挖掘就是发现这样的规则X→Y,满足以下方面:① 对于给定的支持度阈值,该规则满足б(X∪Y)≥s;② 对于给定的置信度阈值,该规则满足conf≥minconf;③ 对于给定的兴趣阈值,该规则是有趣的。(2) 模糊关联规则挖掘算法[7]模糊关联规则挖掘[8]就是要发现模糊概念之间的关联。一般来说,模糊关联规则挖掘包括两个步骤:搜索频繁模糊项集和生成模糊关联规则。其中后者的过程与二值型关联规则挖掘相同,以下是频繁模糊项集搜索的过程:① 定义属性上的模糊概念,可以用手工的方式定义,也可以通过其他方法自动生成;② 扫描数据库,得到频繁1-模糊项集,在第k次循环利用Apriori-gen运算根据k-1阶候选项集,计算候选项集的支持度计数,得到k阶频繁项集。1.3 并行关联规则挖掘[9]

并行算法是进行大规模计算的有效方法,利用多个处理器并行地处理数据,关键是计算、通信、内存利用和并发之间的协调。根据硬件的体系结构,并行关联规则挖掘算法分为内存分布的并行挖掘算法和共享内存的并行挖掘算法。(1) 内存分布的并行挖掘算法[10]Count分布算法(CD算法)是最典型的内存分布的并行关联规则挖掘算法。它把数据分布到各处理器,每次循环时在每个处理器的内存中复制全部候选项集,建立候选项集的Hash树结构,然后各处理器分别扫描局部数据,计算局部支持度计数,通过处理器之间的通信得到全局支持度计数。(2) 共享内存的并行挖掘算法[11]CCPD算法是基于Apriori算法的共享内存的并行算法,它将数据库划分为若干逻辑分区,各处理器并行地生成候选项集,构造共享的Hash树。由于对Hash树的插入操作是并行执行的,当两个以上的处理器同时修改一个叶节点时,就

表1 二值型关联规则挖掘算法的比较Academic Research学术研究www.cismag.com.cn86

会造成访问冲突的问题。CCPD算法采用了新的Hash函数,构造Hash平衡树,缩短了搜索时间。1.4 多层次关联规则挖掘在许多应用中,由于数据分布的分散性,有价值的模式经常出现在较高的概念层中,仅从较低的概念层上很难发现有用的模式,所以数据挖掘应该提供在多个层次上进行挖掘的功能。根据规则涉及到的层次,多层关联规则可以分为同层关联规则和层间关联规则。同层关联规则考虑相同概念层次上的项之间的关系,而层间关联规则中出现的项可以属于不同的概念层次。(1) 同层关联规则的挖掘同层关联规则挖掘可以采用下面两种支持度策略:① 统一的支持度阈值:对于不同的层次,都使用一个支持度阈值。这种方法的缺点是在低层次上难以找到满足支持度阈值的项集;② 递减的支持度阈值:对不同的概念层次指定不同的支持度阈值,较低层次的支持度阈值相对较小。假设指定第k层的最小支持度计数是minsup[k],如果第k层的项集X的支持度计数X.sup≥minsup[k],那么称X是频繁项集。ML_T2[12]算法是一种典型的同层关联规则挖掘算法,采用交易削减的方法,减少了扫描的数据量,从而提高了算法的效率。(2) 层间关联规则的挖掘层间关联规则又称广义关联规则,形式为X→Y,其中X,Y是任意概念层次上的频繁项集,满足X∩Y=Ф,且Y不包括X中的项的祖先。广义关联规则的挖掘包括3个步骤:① 找到满足支持阈值的频繁项集,频繁项集可以由任意概念层次上的项构成;② 生成关联规则,计算规则的置信度,找到满足置信阈值的规则;③ 计算规则的期望支持度和期望置信度,删除冗余规则。其中,第①步是这个过程的核心,对此也有各种不同的算法,如Basic算法、Cumulate算法等等。1.5 增量式关联规则挖掘增量关联规则挖掘的主要思想是在原有规则的基础上,去掉那些不满足条件的旧规则,发现满足条件的新规则,其目的是尽量减少计算量。增量关联规则算法主要解决两类问题,即支持度阈值的动态调整和支持数据库的更新。(1) 支持度阈值的动态调整阈值的调整一般分为以下3类:① 置信阈值调整带来的问题很容易解决,由于保留了原来的频繁项集,置信阈值改变后,很容易由频繁项集重新生成满足条件的规则;② 当支持度阈值增大时,规则的更新也很简单,只要去掉那些不满足新支持度阈值的频繁项集和规则就可以完成更新任务;③ 当支持度阈值减小时,原来的非频繁项集可能成为新的频繁项集,这类情况需要重新计算支持度。(2) 数据库的更新数据库的更新可以引起某些关联规则的失效,也可产生新的关联规则。FUP(Fast Update)[13]算法是一种典型的支持数据库更新的关联规则挖掘算法。当数据库中增加了一批新的记录时,设L表示原始事务数据库的频繁项集,L`表示数据库增量后的频繁项集。该算法的主要思想是从L中删除(L-L`)的项集,并且识别出属于(L`-L)的频繁项集。而在计算后

相关文档
最新文档