数据挖掘在生物信息学中的应用

合集下载

生物信息学专业本科课程设置

生物信息学专业本科课程设置

生物信息学专业本科课程设置引言生物信息学是一个新兴的跨学科学科,结合生物学、计算机科学和统计学等领域,致力于研究生物信息的获取、存储、分析和解释。

随着生物技术的快速发展和高通量数据的大量产生,生物信息学在生命科学研究中的作用越来越重要。

本文将介绍生物信息学专业的本科课程设置。

一、基础课程1.生物学基础:介绍生物学的基本理论和知识,包括细胞生物学、遗传学、分子生物学等。

2.数学基础:包括高等数学、线性代数和概率统计等数学基础知识,为后续的生物信息学方法和算法提供数学基础。

3.计算机科学基础:包括计算机程序设计、数据结构与算法、操作系统等计算机科学基础课程,为后续的生物信息学软件和工具的开发打下基础。

二、生物信息学专业核心课程1.生物信息学导论:介绍生物信息学的基本概念、方法和应用领域,为学生建立对生物信息学的整体认识。

2.生物信息学算法与数据结构:介绍生物信息学中常用的算法和数据结构,包括序列比对、基因组组装、蛋白质结构预测等。

3.生物数据库与数据挖掘:介绍生物数据库的建立和管理,以及数据挖掘在生物信息学中的应用。

4.基因组学与转录组学:介绍基因组学和转录组学在生物信息学中的应用,包括基因组测序、基因表达分析等。

5.蛋白质组学与代谢组学:介绍蛋白质组学和代谢组学在生物信息学中的应用,包括蛋白质结构预测、代谢通路分析等。

6.生物信息学实验技术:介绍生物信息学中常用的实验技术,如高通量测序、蛋白质质谱等。

三、选修课程1.生物信息学数据分析:介绍生物信息学数据的分析方法和统计学原理,培养学生分析生物信息学数据的能力。

2.生物信息学软件与工具:介绍常用的生物信息学软件和工具,包括基因组浏览器、序列分析软件等。

3.进化与生物信息学:介绍进化生物学在生物信息学研究中的应用,包括物种进化树构建、选择压力分析等。

4.人类遗传学与生物信息学:介绍人类遗传学和生物信息学的结合,包括人类基因组的研究和人类疾病的基因分析。

大鼠局灶性脑缺血再灌注芯片数据挖掘及生物信息学分析

大鼠局灶性脑缺血再灌注芯片数据挖掘及生物信息学分析

大鼠局灶性脑缺血再灌注芯片数据挖掘及生物信息学分析2广西医科大学基础医学院生理学教研室广西南宁 530021)摘要:目的运用生物信息学方法分析局灶性脑卒中大鼠正常对照组和模型组的差异表达基因及涉及信号通路,为研究缺血性脑卒中的病理生理机制提供生物信息学的依据。

方法选用CEO数据库中编号为GSE61616的基因芯片数据,经过整理,假手术组和模型组各5个样本,分别进行基因筛选、差异表达基因分析及功能富集、相关信号通路分析。

结果与假手术组比较,模型组22个基因表达明显改变。

GO分析表明这些基因在生物学功能方面主要涉及氧化应激、炎症反应、细胞代谢、细胞凋亡等几个方面。

蛋白质互作网络分析进一步证实在炎症反应和细胞凋亡两个方面出现基因差异性表达显著。

通路涉及PI3K-Akt、EGF-ERBB2-RAS-ERK等。

结论脑缺血再灌注损伤后涉及多种蛋白和基因发生显著改变,通过控制炎症反应,减少细胞凋亡以及阻断氧化应激通路等干预是临床治疗局灶性脑卒中的有效策略。

关键词:缺血性脑卒中,生物信息学,基因芯片Bioinformatics Analysis of Chip Data of Focal Cerebral Ischemia-Reperfusion in RatsXU Ke-bei1,Wanxiang Hu21Department of neurosurgery,the People’s Hospital of Guangxi Zhuang Autonomous Region,2Department of Physiology,School of Basic Medical Sciences, Guangxi Medical University, Nanning 530021, ChinaAbstract:Objective To bioinformatics analyze the differentially expressed genes and related pathway between control group and modelgroup in focal cerebral ischemia-reperfusion rat animal model, and provide bioinformatics basis for the study of the pathophysiological mechanism of ischemic stroke. Methods The gene chip data of GSE61616 was downloaded from Gene Expression Omnibus(GEO) database. After rearranging the data, each 5 samples from the sham and model group were used for gene screening, differential gene analysis, pathway enrichment analysis. Results Compared with the sham group, the expression of 22 genes in the model group was significantly changed. GO analysis showed that these genes mainly involved in oxidative stress, inflammatory response, cell metabolism, and apoptosis in biological functions. Furthermore, Protein interaction network analysis confirmed that differentially expressed genes wassignificantly both in inflammation and apoptosis, which involves several pathways such as PI3K-Akt, EGF-ERBB2-RAS-ERK and so on. Conclusions Many proteins and genes changed significantly after cerebral ischemia-reperfusion injury. Applying different intervention methods in controlling inflammation, reducing apoptosis or blocking oxidative stress pathway will provide effective therapeutic strategies for ischemic stroke.Keywords:ischemia stroke, bioinformatics, gene chip1.前言缺血性脑卒中,俗称“脑梗死”,是指脑部血供突然中断而引起不同程度脑损伤的一类疾病,其致死率和致残率居高不下[1],严重威胁人类生命健康,为家庭、社会造成严重的经济负担。

生物信息学的产生_发展及应用前景

生物信息学的产生_发展及应用前景

生物信息学的产生_发展及应用前景生物信息学(Bioinformatics)是利用计算机和信息科学技术,研究以生物大分子(比如基因、蛋白质)为中心的生物问题,研究生物大分子的结构与功能的科学。

它的产生,发展以及相关的应用前景,对于科学和人类来说,都极具意义,也追着重大改变。

生物信息学的产生,始于20世纪90年代末。

随着生物学科中大量测序技术的发展,人们获得了越来越多生物大分子的序列信息,由此,需要建立大规模的生物信息数据库,来保存和管理大量的生物数据,为生物学的发展提供信息支持。

在此基础上,利用计算机技术为生物大分子的结构和功能的研究,提供有效的工具。

随后,生物学的发展、计算机技术的发展以及面向数据生物学领域逐渐成熟的算法,促进了生物信息学的发展,从而产生了可以进行大规模生物信息计算及分析的生物信息学科。

在生物信息学的发展中,主要包括基因工程、基因组学和蛋白质组学方面的研究,这也是推动生物信息学发展的关键原因之一。

基因组学与基因工程的研究,随着数据库的充实,例如生物大分子的序列、结构和功能的数据库,以及基因的表达和测序的数据库的大量建立和更新,提供了良好的介质,以解决生物数据快速获取、分析、处理的问题。

此外,在机器学习和数据挖掘的支持下,基于数据库的生物学研究也取得了一定的成效,突出了生物信息学在生物学中的重要作用。

生物信息学也可以用来支持基因检测与分析,利用定向生物技术,对特定基因组变异进行检测、分析及功能预测,有效地发现与罹患特定疾病有关的基因变异,从而基于人群的分子基础提高临床诊断和治疗的准确性。

此外,在药物设计与分析等方面,也会使用到生物信息学,此类技术可以有效地分析药物和疾病的相关靶点,帮助高效对药物进行设计和分析。

随着计算机技术和生物学科的发展,生物信息学已经发展成为一门跨学科的重要学科,具有广泛的应用前景。

在基因检测、基因治疗、药物开发和健康诊断等领域,生物信息学都可以发挥重要的作用,推动未来医疗健康技术的发展。

浅谈生物信息学的应用及未来发展趋势

浅谈生物信息学的应用及未来发展趋势

浅谈生物信息学的应用及未来发展趋势摘要:生物信息学作为一门新兴的交叉学科,有其独特的优势及发展空间,在今后的一段时间会更好地利用及发展。

本文从生物信息学的产生,生物信息学的发展阶段以及各阶段的主要内容,生物信息学在微生物、农业、食品安全、医药等方面的应用,与生物信息学相关的学科等方面进行了论述。

关键词:生物信息学应用研究进展一、生物信息学简介生物信息学(Bioinformatics)是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴交叉学科,是为理解各种数据的生物学意义,运用数学与计算机科学手段进行生物信息的收集、加工、存储、传播、分析与解析的科学。

二、生物信息学的产生美国在最初提出人类基因组计划时就成立了一个由42位专家组成的生物信息研究小组。

人类基因组计划的实施、生物学的快速发展以及数学、物理、计算机科学、信息科学的渗入,使生物信息学逐渐发展成为一门独立的学科并将其推上了生物科学发展的最前沿。

三、生物信息学的发展阶段及各阶段的主要研究内容生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。

目前生物学主要研究以下几个方面的内容:1.核酸序列分析。

具体包括以下内容:核酸序列的基本分析、基因结构与DNA序列分析、表达序列标签分析、电子克隆cDNA全长序列。

2.蛋白质序列分析。

蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成、分子质量、等电点(pI)、亲水性和疏水性、信号肽、跨膜区及结构功能域的分析等。

其中主要有两个策略进行:同源序列分析和功能区相关的保守序列特点分析。

3.序列对比。

利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础。

如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基酸序列同源性比较。

4.分子系统发生分析。

系统发生(或种系发生、系统生育,phylogeny)是指生物形成或进化的历史。

系统发生学(phylogeneties)研究特种之间的进化关系,其基本思想是比较物种的特征,并认为特征相似的特种在遗传学上接近。

生物信息学研究的重点及未来展望

生物信息学研究的重点及未来展望

生物信息学研究的重点及未来展望生物信息学是近年来快速发展的学科之一,它将计算机技术应用于生物学领域,为生物学研究提供了一个新的角度和方法。

生物信息学可用于研究生物信息的收集、分析、存储、传输和管理,为生物学家提供了有效而全面的工具。

本文将探讨生物信息学研究的重点和未来展望。

一、生物信息学的研究重点(1)基因组学基因组学研究生物的基因组结构和基因组数据的分析。

基因组学的目标是确定细胞、病理学和进化基因组的组成、顺序和互作模式。

生物信息学在基因组学中的应用有:基于DNA序列比对的各种数据分析、预测和注释工具的设计和运用,如基因寻找、基因结构预测、基因重编码、引物设计、遗传计图制图等。

还可研究生物基因组中的单核苷酸多态性和单基因突变等。

(2)蛋白质组学蛋白质组学研究蛋白质的产生、表达、修饰、定位、互作和功能。

蛋白质质谱学技术是蛋白质组学的关键技术,可用于确定蛋白质种类和含量、识别蛋白质质量、分析蛋白质结构和特性等。

生物信息学在蛋白质组学中的应用主要包括:蛋白质序列识别、结构预测、动态域注释、基础蛋白质互作和复合物分析等。

(3)结构生物学结构生物学研究蛋白质、核酸和复合物的分子结构和功能,提供在药物研发中的重要信息。

生物信息学在结构生物学中的应用包括:蛋白质结构预测和模拟、基于结构的药物设计、3D可视化等。

(4)生物信息系统生物信息系统研究通过整合信息和数据流的不同来源,为生物学家提供生成、存储、共享和管理生物信息的新方法,并把这些信息加以整合以研究生物系统的疾病和功能等。

生物信息学在生物信息系统中的应用有:数据挖掘、数据标准化、数据库设计、数据流转和系统分析等。

(5)表观遗传学表观遗传学研究基因表达的调控及其与环境的相互作用,特别是生命特征及其遗传素材在发育生物中的表现。

生物信息学在表观遗传学中的应用有:基因组和表观基因组学的平台操作、分析和可视化工具的开发和布署等。

(6)系统生物学系统生物学是一种以整体、动态和系统的方式来研究生物学的学科,它致力于深入研究基因、蛋白质和代谢通路等生物大分子的互作和网络调控。

生物学中的生物信息学和计算生物学

生物学中的生物信息学和计算生物学

生物学中的生物信息学和计算生物学近年来,随着计算机技术的飞速发展和生物学研究的深入,生物信息学和计算生物学这两门学科备受瞩目。

生物信息学作为一个跨学科的研究领域,集生物学、计算机科学、统计学等多个领域于一体,致力于从海量生物数据中提取有效信息,为生物学研究提供理论和工具支持。

计算生物学则是生物信息学的一个重要分支,主要研究生物系统中的信息加工和生命现象规律,不断深化对生命本质的认识。

一、生物信息学的发展生物信息学起源于上世纪五十年代,当时生物学研究中存在大量数据需要处理和分析,而计算机技术的出现为这个问题提供了一种解决方法。

从此,生物信息学作为一个新兴的交叉学科开始发展。

随着时间的推移,生物信息学得到了飞速的发展,以致于现在还需要不断更新的基础学科。

生物信息学涉及大量的分支学科,如序列分析、基因组学、蛋白质分析、系统生物学、结构生物学等,每个分支都有着不同的方法和技术用于研究和解决问题。

二、计算生物学的研究方向1.生物模拟生物模拟是计算生物学中的一个重要研究方向,通过对生物系统的建模和仿真,研究生物系统的结构、功能和行为规律。

生物模拟在研究生物系统的同时,也为生物工程、药物研发等领域提供了有力的支持。

2.生物信息处理生物信息处理是计算生物学中的另一个重要研究方向,主要关注生物信息的获取、加工、存储、管理和分析等问题。

计算生物学通过开发基于生物学数据的算法和工具,为生物学研究提供理论和实践支持。

3.进化生物学进化生物学是计算生物学中的另一个研究领域,借鉴计算机科学中的演化算法等工具,研究和模拟生物系统的演化过程,追溯生命的起源和发展。

进化生物学最重要的研究方法包括序列分析、同源基因比对、系统发育分析等。

4.分子建模分子建模是计算生物学中的一个重要方向,利用计算机建模和模拟分子结构及其运动规律,进而揭示分子结构与生物功能之间的关系。

分子建模是新一代药物设计研究中的重要环节。

三、计算生物学的应用1.新药开发计算生物学在新药开发中担当着重要角色,通过对药物分子与靶点间的相互作用进行模拟和计算分析,发现更有效、安全、低副作用的药物。

生物信息学中的基因数据挖掘与分析

生物信息学中的基因数据挖掘与分析

生物信息学中的基因数据挖掘与分析综述生物信息学的发展开辟了一条基因组学研究的新途径,使得科学家们能够更深入地研究和理解基因的功能与相互作用。

基因数据挖掘与分析成为生物信息学中的重要环节,目的是从大规模的基因数据中挖掘出有意义的信息,并进行进一步的研究与分析。

本文将对生物信息学中的基因数据挖掘与分析进行探讨,主要包括基因数据的获取与存储、基因表达数据分析、基因功能注释以及蛋白质结构预测等内容。

一、基因数据的获取与存储生物信息学研究的起点是基因数据的获取与存储。

随着高通量测序技术的发展,获取基因数据的速度和规模不断增加。

目前,常见的基因数据来源包括基因组数据库、公共基因数据库以及个体基因组测序数据等。

在基因组数据库中,常用的有NCBI、Ensembl和UCSC等,这些数据库存储了全球范围内的基因组序列和注释信息。

通过查询这些数据库,科学家们可以获取到各种生物物种的基因信息,并进行后续的分析与挖掘。

此外,公共基因数据库如Gene Expression Omnibus (GEO)和The Cancer Genome Atlas (TCGA)等也是重要的基因数据来源。

这些数据库收集了大量的基因表达数据和肿瘤基因组数据,为研究者提供了宝贵的资源。

为了更好地存储和管理基因数据,科学家们开发了许多数据库和工具,如MySQL、SQLite等。

这些工具不仅可以快速存储大量基因组数据,还可以方便地进行数据查询和管理。

二、基因表达数据分析基因表达数据是生物信息学研究中的关键信息之一,可以展示基因的活性水平和调控机制。

基因表达数据分析的目的是挖掘出与特定生物过程相关的基因,以及它们之间的相互作用。

在基因表达数据分析中,最常见的方法是差异表达分析。

通过比较不同样本组织或条件下的基因表达水平差异,科学家们可以找到与特定生物过程相关的差异表达基因。

一些常见的差异表达分析方法包括t检验、方差分析和Wilcoxon秩和检验等。

此外,聚类分析是另一个重要的基因表达数据分析方法。

生物大数据分析与生物信息学系统研究

生物大数据分析与生物信息学系统研究

生物大数据分析与生物信息学系统研究随着生物学领域的发展和技术的进步,大量的生物数据得到了积累和生成。

生物信息学的出现为这些数据提供了分析和应用的途径。

生物信息学系统的研究是为了更好地利用大数据和信息技术,解读生物学中的规律和现象,进一步推动生物科学的发展。

本文将介绍生物大数据分析和生物信息学系统的研究内容与应用。

一、生物大数据分析1. 研究目的和意义生物大数据分析是通过对大数据集合进行处理、分析和挖掘,以从中获取有价值的信息、发现隐藏的规律和提出新的假设。

这些数据可以是来自基因组学、蛋白质组学、转录组学等生物学研究的测序数据、表达数据、结构数据等。

生物大数据分析的目的是为了更好地理解生物学过程和现象,为疾病诊断与治疗、新药研发、农业改良等提供科学依据。

2. 数据获取与预处理生物大数据的获取通常是通过测序等实验手段得到的原始数据。

在进行分析之前需要对这些数据进行预处理,包括数据清洗、去噪声、标准化等步骤。

预处理的目的是为了提高数据的质量,减少误差对分析结果的影响。

3. 数据分析和挖掘在生物大数据分析中,常用的数据分析方法包括统计学分析、机器学习、数据挖掘等。

统计学分析主要用于描述和解释数据间的关系,如ANOVA、t检验、回归分析等;机器学习算法可以对数据进行分类、聚类、回归、关联规则等,如支持向量机、随机森林、神经网络等;数据挖掘则是通过发现数据中的模式、趋势、异常值等来揭示数据背后的规律。

4. 数据可视化数据可视化是生物大数据分析中不可忽视的一部分。

通过图形化展示,可以更加清晰地观察和理解数据。

常用的数据可视化方法包括制作散点图、线图、热图、柱状图等,以及使用交互式的可视化工具进行数据探索。

二、生物信息学系统研究1. 系统构建与管理生物信息学系统是一个集成了生物数据和分析工具的平台,提供数据存储、查询、快速分析和结果展示等功能。

生物信息学系统的研究主要包括系统构建和系统管理两个方面。

系统构建是指将不同来源和类型的生物数据整合到一个统一的系统中,使得用户可以方便地访问这些数据并进行分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期: 2003- 09- 14 基金项目: 国家自然科学( 青年) 基金资助项目( 10001006) 作者简介: 方 艳( 1979 ) ) , 女, 山东兖 州人, 硕士 研究生, 研 究方向 为计算机软件与理论。
的联配、计算机克隆、寻找基因、预测结构和功能, 到数据 和研究结果的可视化, 无不需要高效率的算法和程序; 另 一方面, 如何从已经积累的海量数据和知识出发, 从 DNA 序列中识别编码蛋白质的基因, 以及调控基因表达的各种 信号, 预测蛋白质的功能和结构, 解读生物的遗传密码, 进 行药物设计等, 是对计算机工作者和生物学家的巨大挑 战。
3 数据挖掘在生物信息学中的应用潜力 序列分析、基因表达、蛋白质结构预测、药物发现及设
计是生物学领域的关注点。已有许多有意义的挖掘模式、 挖掘算法应用在这些方面并取得相应成果。研究证明数 据挖掘是生物信息处理的强有力工具。目前数据挖掘在 生物信息领域的研究重点主要表现在以下几个方面[ 6] :
( 1) 数据清理, 数据集成, 异种、分布式数据库的语义 集成。
数据挖掘是在已有的大量数据中寻找模式的决策支 持过程, 它从理论和技术上继承了知识发现领域的成果, 同时又借鉴了许多其他)、模式识别( pattern recognition)、人工智 能( artificial- intelligent) 以及统计学( stat ist ics) 等。因此, 数据挖掘是一门交叉学科, 它把人们对数据的应用从低层 次的简单查询, 提升到从数据中挖掘知识, 提供决策支持。
数据挖掘技术是解决上述问题强有力的工具。数据 挖掘是近年来新兴的一种科学计算技术与数据分析方法, 它能够有效地从大量数据中提取潜在的信息与知识。各 国研究者们也相继提出并验证了多种有效的数据挖掘算 法。数据挖掘在科学发现、商业零售及信用管理等领域得 到了越来越广泛的应用。在生物信息领域, 计算机工作者 与生物学家合作, 研究提出了一系列的挖掘算法和挖掘模 式, 并应用于生物数据, 取得了传统生物计算技术无可比 拟的效果。
2 数据挖掘的步骤 数据挖掘过程是反复的、不断求精的过程, 该过程要
求是非平凡的, 要有一定的智能性和主动性。同时在不同 的应用领域也有不同的数据挖掘算法。因此迄今为止还 没有一套完整、统一的数据挖掘理论体系来指导如何获取 有用信息。研究者们提出了数据挖掘的一般步骤, 以此指 导不同领域内的数据挖掘。以下概括了生物信息数据挖 掘的一般步骤。
FANG Yan
( College of Information Science, Beijing Nor mal University, Beijing 100875, China)
Abstr act : Bioinformatics is an emerging int erdiscipline. Wit h t he st art up and implementat ion of Human Genome Plan, nucleic acid and pro2 t ein dat a has been increased rapidly. It is an urgent problem t hat how t o gain useful information from plent iful dat a. T here is a good combi2 nat ion bet ween data mining and bioin format ics. T he pot ential applicat ion of dat a mining in bioinformat ics has been given more and more at2 t ent ion. T his paper mainly generalizes t he definit ion of dat a mining and int roduces t he st eps of knowledge discovery in bio- dat a. Also dis2 cuss t he pot ent ial applicat ion in bioinformatics and t he development and application of data mining tools in bioinformat ics. T he research has proved t hat dat a mining is a st rongly t ool in bio- data processing. The applicat ion of dat a mining in bioinformat ics will gain more develop2 ment . Key wor ds: data mining; bioinformat ics; human genome project ; KDD( knowledge discovery in dat abase)
第 14 卷 第 4 期 2004 年 4 月
微机发展 Micr ocomputer Development
Vol. 14 No. 4 Apr . 2004
数据挖掘在生物信息学中的应用
方艳
( 北京师范大学 信息科学学院, 北京 100875)
摘 要: 生物信息学是一门新兴的交叉学科。人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长, 如何从海量
物信息学中的应用将取得更大的进展。
关键词: 数据挖掘; 生物信息学; 人类基因组计划; 数据库知识发现
中图分类号: TP311. 52
文献标识码: A
文章编号: 1005- 3751( 2004) 04- 0001- 03
The Application of Data Mining in Bioinformatics
数据中获取有效信息成为生物信息学迫切要解决的问题。数据挖掘与生物信息学有很好的结合点, 在生物信息学领域的 应用潜力日益受到人们的重视。文中介绍了数据挖掘的概念、生物数据的挖掘步骤, 初步探讨了数据挖掘在生物信息领域
的应用潜力及生物信息学挖掘工具的开发和应用。研究证明数据挖掘技术是生物信息处理的强有力工具。数据挖掘在生
( 2) DNA 序列相似搜索和比对。 为识别一个新发现的基因和一个已知基因家族之间 的进化关系, 确定他们的同源性或相似性, 通常需要序列 比对, 找出它们之间的最大匹配, 从而定量给出其相似程 度。由于序列数据是非数字的, 其内部不同种类核苷酸之 间的精确交叉扮演着重要的角色。因此探索高效的搜索 和比对算法在序列分析中非常重要。 ( 3) 基因组特征及同时出现的基因序列的分析。 对于基因家族的成组序列来说, 必须阐明多个序列之 间的关系, 才能揭示整个基因家族的特征。多序列比对在 识别一组相关序列中有重要生物意义。多比对算法的计 算量可观, 为降低算法复杂性, 必须研究有实用价值的比 对算法。利用关联规则、聚类分析有助于发现一组序列之 间的差异以及相似性关系, 以便对一个基因家族的特征有 基本了解。另外在生物医学研究上, 人们发现疾病的产生 大多数是由多基因决定的, 利用关联规则分析帮助确定在 目标( 疾病) 样本中同时出现的基因种类。 ( 4) 路径分析: 发现在不同阶段的致病因。 引起一种疾病的基因不止一个, 不同基因在疾病的不 同阶段发挥作用。利用路径分析、演变分析等找到在不同 阶段的致病遗传基因序列, 可开发不同阶段的治疗药物, 从而取得更有效的治疗效果。 ( 5) 生物数据可视化和可视的数据挖掘。 由于生物数据的复杂性和高维性, 既不能以数字公式 表示, 也不能以逻辑公式表示, 可借助各种可视化工具以 图、树、方体、链的形式展现其复杂结构和序列模式。常用 的生物数据可视化工具有语义镜技术、信息壁技术、基因 调控网格等[ 7] 。同时, 将经过数据挖掘工具得到的数据结 果也以图形、图像的形式展现给用户, 便于用户寻找数据 间规律和关系。 ( 6) 生物文献的挖掘。 Internet 上生物文献日益增多, 人们通过搜索引擎获 取相关信息, 但检索结果数目巨大, 准确率不高, 而且一般 搜索结果只能给出标题和摘要, 不能给出文章总的关键词 句。特别是生物文献数据中, 大多数蛋白质名称都是复合 词, 比较复杂, 有的却采用普通的词汇命名与其常用词义 相混导致引擎搜索错误, 甚至在一篇文献中同一种蛋白质 有好几种命名出现, 增加了搜索困难。利用路径遍历模 式、链接分析、自然语言处理等技术寻找文献中关键词如 蛋白质名称, 或捕捉上下文关系, 可提高检索速度和准确 率[ 8] 。 ( 7)基于隐私保护的数据挖掘。 数据挖掘技术为生物工作者提供了有效工具的同时 也引发了隐私保护问题。比如研究单位的保密实验数据,
( 4) 模式评估。 数据挖掘可以产生大量的模式或规则, 但其中只有少 量是生物学家真正感兴趣的。模式评估即从已产生的模 式或规则发现有趣( interesting) 的模式。在评估过程中, 首先要考察模式的可理解性, 只有发现的信息可以被使用 者所理解, 才能为使用者做出决策提供基础。再次, 在一 定程度上有趣模式必须是新颖的、有效的以及潜在有用 的。这要求该模式所发现的信息具有创新意义, 对于新的 或测试用的生物数据同样适用, 并且生物学家可以从该模 式中获取关键的信息。目前模式评估主要采用客观度量 ( 评分函数, 支持度等)和反映特定用户需要和兴趣的主观 度量相结合的方法。 ( 5) 知识表示。 采用知识表示技术和可视化技术向用户展示挖掘的 知识。运用知识表示技术将数据挖掘得到的知识符号化, 并用特定的数据结构( 逻辑与物理两方面) 进行描述与存 储。在此基础上, 充分利用可视化技术, 将单纯的数字、字 符表示转化为图形、图表等简单、明了、易于理解的形式。 只有通过直观的表达, 用户才能理解模式, 并采取相应的 策略。
( 2)新颖性。要求发现的模式应该是未知的, 靠直觉 无法发现的信息和知识;
( 3)潜在有用性。发现的知识将来有实际效用, 即这 些信息或知识对于所讨论的业务或研究领域是有效的、是 有实用价值和可实现的。常识性的结论或已被人们掌握 的事实或无法实现的推测都是没有意义的;
相关文档
最新文档