244293生物信息学方法介绍
生物信息学的研究方法和数据分析技术

生物信息学的研究方法和数据分析技术引言生物信息学是一门交叉学科,将计算机科学、统计学和生物学等领域的方法应用于生物学研究。
它能够从大规模生物数据中提取信息,并为生物学家们提供有关基因组、蛋白质和其他生物分子的理解。
本文将介绍生物信息学的研究方法和数据分析技术。
一、序列分析序列分析是生物信息学中最常用的方法之一。
研究者可以通过对DNA、RNA或蛋白质序列进行比对和挖掘,得到一些重要的信息。
比对算法(如Smith-Waterman算法和BLAST算法)可以用来比较不同序列之间的相似性,帮助找到同源序列和进行物种分类。
序列挖掘技术(如Motif搜索和序列重复分析)可以寻找到序列中的模式,从而揭示序列的功能和结构。
二、基因功能注释基因功能注释是通过将基因与已知功能的基因库进行比对,进而推断出基因功能的一种方法。
通过对基因序列进行比对分析,可以从基因组中预测出相关蛋白质的结构和功能。
功能注释工具(如Gene Ontology和Kegg Pathway)可以帮助科研人员对基因进行分类、注释和功能预测。
同时,研究者还可以通过对不同物种之间的基因进行比较,在进化的角度上分析基因功能的变化。
三、结构生物信息学结构生物信息学是研究蛋白质和其他生物大分子三维结构的学科。
该领域的研究方法包括蛋白质模建、分子对接、分子动力学模拟等。
蛋白质模建是通过利用已知蛋白质结构推断未知蛋白质结构的方法,有助于了解蛋白质的功能和相互作用。
分子对接是预测蛋白质和小分子之间相互作用的方法,可用于药物设计和生物分子的结合位点鉴定。
分子动力学模拟可以通过计算模拟蛋白质结构和功能的变化,了解蛋白质的稳定性和动力学行为。
四、基因表达分析基因表达分析是通过测定RNA或蛋白质在细胞中的相对水平来了解基因功能和生物过程。
常见的基因表达分析技术包括RNA 测序、基因芯片和质谱分析。
RNA测序可以定量测定样品中的所有转录本,帮助研究者理解基因表达的整体格局和动态变化。
生物信息学分析方法介绍PPT课件

目录
• 生物信息学概述 • 基因组学分析方法 • 转录组学分析方法 • 表观遗传学分析方法 • 蛋白质组学分析方法 • 生物信息学分析流程和方法比较
01
生物信息学概述
生物信息学的定义和重要性
定义
生物信息学是一门跨学科的学科,它利用计算机科学、数学和工程学的原理和 技术,对生物学数据进行分析、建模和解读,以揭示生命现象的本质和规律。
研究蛋白质的序列、结构 和功能,以及蛋白质相互 作用和蛋白质组表达调控 机制。
研究基因转录本的序列、 结构和表达水平,以及转 录调控机制。
研究基因表达的表观遗传 调控机制,如DNA甲基化 、组蛋白修饰等。
通过对患者基因组、蛋白 质组和转录组等数据的分 析,为个性化医疗和精准 医学提供支持。
02
基因组学分析方法
基因组注释
基因组注释是指对基因组序列中的各 个区域进行标记和描述的过程,包括 基因、转录单元、重复序列、调控元 件等。
注释信息可以通过数据库(如RefSeq、 GeneBank等)或注释软件(如GATK、 ANNOVAR等)获取。注释信息对于 理解基因组的生物学功能和进化关系 具有重要意义。
基因组变异检测
基因组变异检测是指检测基因组序列 中的变异位点,包括单核苷酸变异、 插入和缺失等。
VS
变异检测对于遗传疾病研究、进化生 物学和生物进化研究等领域具有重要 意义。常用的变异检测方法有SNP检 测、CNV检测等,它们基于不同的原 理和技术,具有不同的适用范围和精 度。
03
转录组学分析方法
RNA测序技术
利用生物信息学方法和算法,对 RNA测序数据进行基因融合检测, 寻找融合基因及其融合方式。
基因融合检测结果可以为研究肿 瘤等疾病提供重要线索,有助于 深入了解疾病发生发展机制。
生物信息学研究的理论和方法

生物信息学研究的理论和方法随着生物技术、计算机技术的飞速发展,生物信息学的研究越来越成为一种重要的交叉学科。
它结合了生物学、计算机科学和数学等多个学科的知识,旨在从大量的生物信息中发现有意义的模式和规律,为生物学研究提供新的思路和方法。
本文将介绍生物信息学研究的理论和方法。
一、DNA序列DNA是指DNA分子所携带的信息,是生物遗传学的基础。
DNA序列研究是生物信息学的基本研究之一。
DNA序列的信息分析可以揭示DNA的生物学功能,如是否编码蛋白质,是否存在调节序列等。
DNA序列研究的方法包括序列比对、序列分类、序列同源性分析等。
序列比对是将两个或更多的DNA序列进行比对,找出它们相同和不同的位置,以便研究它们之间的关系。
序列分类是将一批DNA序列划分为不同的分类,便于研究它们之间的系统进化关系。
序列同源性分析则是从DNA序列相似性的角度分析DNA序列的功能和进化。
二、基因表达谱基因表达谱是指在给定时间和条件下,某个生物体内的所有基因在不同生理过程中所表达的程度和模式。
基因表达谱的研究可以揭示基因调控和信号传导等生物学过程中关键基因的表达模式。
基因表达谱的研究方法包括基因芯片技术、RNA测序技术、基因功能分析等。
基因芯片技术是一种高通量的基因表达分析技术,可以同时检测数千个基因的表达情况。
RNA测序技术是一种新兴的基因表达分析技术,可以全面检测RNA的表达情况,并能发现新的RNA类型和变异。
基因功能分析则是将基因表达的信息与生物学过程关联起来,以研究基因调控的机制。
三、蛋白质结构蛋白质是生物体内最基本的生物大分子之一,决定了生物体内所有化学和生物学过程的发生和发展。
蛋白质结构研究可以揭示蛋白质功能的机制,同时也有助于发现新的药物靶标。
蛋白质结构研究的方法包括X射线晶体学、NMR技术、计算机模拟等。
X射线晶体学是蛋白质最常用的结构分析方法,它通过测量蛋白质晶体中的X射线衍射图案,确定蛋白质分子的三维结构。
生物信息学的基本原理与方法

生物信息学的基本原理与方法生物信息学是将生物学、计算机科学、统计学等学科相结合而形成的研究领域,其主要目的是在分子、细胞、组织和生态等各种层次上解决生物学的问题。
随着高通量技术的发展,生物信息学已经成为生命科学不可或缺的领域之一。
本文将介绍生物信息学的基本原理与方法的概况。
一、基本原理生物信息学的主要原理包括基因组学、功能基因组学和蛋白质组学。
基因组学主要研究基因组的组成、结构、功能和演化规律等。
基因组由 DNA 构成,生物信息学研究 DNA 的序列和基因组的结构,以及基因组中的基因、外显子、内含子以及非编码 RNA 等各种元素的组成和功能。
通过对基因组的分析,可以研究生物物种的亲缘关系、基因演化历程、基因的功能以及基因的调控等问题。
功能基因组学主要研究基因组在生理、生物化学和分子水平上的功能,探究基因及其产物在生物体中所扮演的角色。
通过 DNA自由区、启动子和转录因子结合位点等基因组元素的鉴定和功能靶点的筛选,来探究基因组中某些元素的功能和作用机制,进而开发新的药物和治疗方法。
蛋白质组学则主要研究蛋白质的结构、功能和相互作用关系。
蛋白质是实现生命体系中生物学功能的重要分子,是基因产物的重要表现形式。
蛋白质组学的任务是研究生物体内蛋白质的表达模式、折叠结构、互作关系、酶促作用、信号传导、免疫调控等,以及它们与各种生物过程之间的联系。
二、基本方法1、序列比对序列比对是生物信息学分析中的重要工具之一,它主要是利用计算方法,在多个序列之间寻找共同的特性。
生物体中的分子(如 DNA、RNA 和蛋白质)都是由一系列的基本元素组成的,而序列比对就是用计算机对这些基本元素进行比较和分析。
常用的序列比对软件有 BLAST、ClustalW、T-COFFEE 和MEGA 等。
2、蛋白质结构预测蛋白质结构预测是预测未知蛋白质的三维结构的一种方法。
在蛋白质结构预测中,从蛋白质序列得出其结构的三维空间形态,是样本数量极大的大数据分析问题。
生物信息学的基本概念和方法

生物信息学的基本概念和方法生物信息学是生物学和计算机科学的交叉学科,旨在利用计算机技术对生物学数据进行处理、分析和解释。
生物信息学的出现为研究生物学提供了新的视角和手段,将传统的实验手段与计算手段相结合,为生命科学研究带来了前所未有的机遇和挑战。
生物信息学的基本概念1. 生物信息生物信息是指生物学中获取、处理和分析生物学数据的所有途径和信息。
包括数据的来源、获取、处理、分析和解释等过程。
2. 生物信息学生物信息学是将计算机技术和生物学融合起来,以计算机方法为基础研究生物学中各种生物信息的学科体系。
3. 生物信息学的应用生物信息学在各个领域都有广泛应用。
例如,基因表达的分析、蛋白质结构的预测、基因组序列的比较分析等。
生物信息学的方法1. 数据库的搭建生物信息学的方法之一是搭建数据库。
数据库是存储生物学数据的基础。
生物信息学家需要从各种数据来源收集数据,然后存储到数据库中。
常用的数据库包括:GenBank、PDB、KEGG等。
2. 生物信息学的算法与模型生物信息学的方法之二是算法和模型。
算法和模型是解决生物信息学问题的关键。
常用的算法包括:序列比对、序列聚类、序列比较等。
模型包括:蛋白质三级结构预测模型、蛋白质-蛋白质互作模型等。
3. 生物信息学的软件生物信息学的方法之三是软件。
生物信息学家需要使用相应的软件来实现自己的研究。
常用的生物信息学软件包括:BLAST、ClustalX、Mega等。
4. 数据挖掘生物信息学的方法之四是数据挖掘。
数据挖掘是指从大量数据中提取有意义的信息、规律和模式。
生物信息学家需要利用数据挖掘的技术来分析、探索和解释生物学数据。
5. 系统生物学生物信息学的方法之五是系统生物学。
系统生物学是生物系统的量化分析和模拟系统。
生物信息学家通过建立数学模型,对生物系统进行系统性探索和分析。
总结生物信息学的发展,为生命科学研究带来了前所未有的机遇和挑战。
通过建立数据库、使用算法和模型、开发软件、进行数据挖掘和探索系统生物学,生物信息学家能够更好地探索生物科学的本质和解析生命系统的复杂性。
生物信息学的方法和应用研究

生物信息学的方法和应用研究生物信息学是一门交叉领域,涉及生物学、计算机科学、数学、统计学等诸多学科,其主要研究内容是利用计算机和数学的方法来分析、处理和解释生物数据信息。
生物信息学作为一个最新的学科领域,旨在帮助我们更好地理解生命系统的本质。
随着生物数据倍增速度的不断加快,生物信息学逐渐成为了现代生物学和医学研究的重要工具,其方法和应用研究也日益受到重视。
一、生物信息学的方法1.序列分析生物信息学最为常见的方法之一是序列分析。
序列分析主要针对生物分子的基本组成单元——核酸和蛋白质序列进行分析研究,目的是识别序列之间的相似性与不同点,推断其结构和功能,进而进行生物信息的比对、注释和预测。
序列分析包含多种算法,如多序列比对、DNA测序、蛋白质结构预测等等。
序列比对的主要目的是通过比较相似性和不同性来推断生物序列的起源、进化和功能。
目前常用的序列比对算法有全局比对算法、局部比对算法、Smith-Waterman算法和BLAST算法。
不同的算法之间易出现不同的结果,但是它们都有相同的优势:根据序列信息进行分析,为生物学家们提供更多了解生物体的可能性。
2.基因组学分析基因组学分析是一种应用于DNA和RNA序列的生物信息学方法。
该方法利用计算机和生物逻辑思维实现了对大量基因组或类基因组数据的简化、比较和分析。
基因组学分析主要涉及全基因组序列比对、基因外显子识别、蛋白质编码基因预测和基因功能注释等方面。
3.蛋白质组学分析蛋白质组学是对蛋白质组的分析和研究,旨在研究蛋白质分子的性质、结构和功能,以及蛋白质在生物系统中的作用和相互作用。
生物学家们早期只能分析一些单个蛋白质的性质,随着蛋白质组技术的发展,人们逐渐能够同时分析数百个或数千个蛋白质的性质。
这种技术为在疾病诊断、治疗和预防等各个方面都带来了很大的进展。
二、生物信息学的应用1.基因定位和功能研究生物信息学应用于基因定位和功能研究对于基因和疾病之间的关系研究至关重要。
生物信息学的研究方法

生物信息学的研究方法生物信息学是一个交叉学科领域,它涵盖了统计学、计算机科学、生物学等多个学科。
目前,它已成为现代生物学研究的重要工具,并在医疗、农业、环保等领域中得到了广泛的应用。
生物信息学的研究方法有哪些呢?接下来,就让我们一起来了解一下吧。
1、序列比对序列比对是生物信息学首要的研究方法之一。
利用反向比对算法,可以将多个基因组、DNA或蛋白质序列进行比较,找出它们之间的相似性和区别,从而分析生物体中的基因和蛋白质等分子。
序列比对对于人类基因组计划、植物基因组计划、癌症研究等领域的研究起着至关重要的作用。
2、结构预测结构预测是生物信息学中的另一种重要的研究方法。
它能够预测蛋白质的立体结构和功能。
利用基于物理原理的模型,可以预测蛋白质的结构,进而预测蛋白质所具有的功能。
结构预测的方法包括生物信息学和计算化学等技术,对于药物设计、蛋白质功能研究、分子生物学研究等领域提供了强有力的支持。
3、基因表达谱分析基因表达谱分析是利用生物信息学方法来分析不同生物样本中基因表达的差异,从而发现关键基因与生理进程的关联。
它可以帮助研究人员在大规模基因组测序数据中追踪表达模式的变化,找到引发生命过程以及疾病形成的潜在机制,在肿瘤学、免疫学、生殖学等领域中有着广泛应用。
4、蛋白质互作网络分析蛋白质互作网络分析是利用生物信息学方法,从已知的蛋白质互作信息出发,建立蛋白质互作网络,探究蛋白质分子之间的相互作用关系,发现蛋白质功能与生理进程的关联,为疾病的分子诊断和治疗提供重要参考。
蛋白质互作网络分析方法被广泛应用于蛋白质组学、细胞信号转导和药物发现领域。
5、计算机模拟计算机模拟是一种利用计算机进行理论模拟研究的方法。
在生物信息学中,计算机模拟被广泛应用于研究蛋白质的性质和功能,探究生物反应机制,设计新型药物等领域。
它可以从分子层面上了解生命的运作机理,为生物学的深度理解提供了帮助。
综上所述,生物信息学作为一个复杂的交叉学科领域,在研究生命科学中起着举足轻重的作用。
生物信息学的基本原理与方法

生物信息学的基本原理与方法生物信息学是一门集生命科学、计算机科学和统计学于一体的跨学科领域,它在生物学研究中起着至关重要的作用。
生物信息学的基本原理和方法涉及到DNA、RNA和蛋白质序列的分析、基因表达的研究、进化分析以及生物系统的建模等诸多方面。
本文将介绍生物信息学的基本原理和方法,包括序列比对、基因预测、蛋白质结构预测、基因表达分析和进化分析等。
生物信息学的基本原理和方法之一是序列比对。
序列比对是通过比较DNA、RNA和蛋白质序列之间的相似性来推断它们之间的亲缘关系以及功能。
常用的序列比对方法有序列对比法和数据库搜索法。
序列对比法,如Smith-Waterman算法和Needleman-Wunsch算法,能够精确地找到两个序列之间的最佳匹配。
而数据库搜索法,如BLAST和FASTA,通过将待查询的序列与数据库中的已知序列比对,找到最相似的序列并作出推断。
除了序列比对,生物信息学中的基因预测也是一项重要的任务。
基因预测是指通过生物信息学的方法来预测基因的位置和功能。
常用的基因预测方法包括基于序列特征的方法和基于比对的方法。
基于序列特征的方法主要依赖于编码DNA或蛋白质的序列特征,如编码区和非编码区的序列组成、密码子偏好性等。
而基于比对的方法则将待预测的序列与已知基因序列进行比对,从而确定基因的位置和功能。
蛋白质结构预测是生物信息学中的另一个重要任务。
蛋白质的结构决定了其功能,因此预测蛋白质结构对于理解蛋白质的功能和相互作用机制至关重要。
蛋白质结构预测有两种主要方法:比较模拟和折叠模拟。
比较模拟方法基于已知结构的蛋白质进行比较,找到相似度较高的结构并预测目标蛋白质的结构。
而折叠模拟方法则通过计算机模拟蛋白质的折叠过程来预测其结构。
基因表达分析是生物信息学中另一个重要的研究方向。
基因表达分析可以揭示基因在不同组织、不同时期以及不同环境条件下的表达模式,从而帮助我们理解基因的功能以及生物体的发育和适应机理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(Part 1)
§4.1 生物信息学研究方法概述
4.1.1 生物信息学研究的三个层面
初级层面
基于现有的生物信息数据库和资源,利用成熟的生物信息学工 具(专业网站、软件)解决生物信息学问题 ——生物信息数据库(NCBI、EBI等) ——基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL
(8) 动态规划方法 (Dynamic Programming)
第八式
神龙摆尾
——一种常用的多阶段决策的寻优算法 ——基本思想:在状态空间中,根据目标函数,通过递推,求出一条从 状态起点到状态终点的最优路径(代价最小的路径)。其策略是将一个 问题递归分解为两个规模更小的相似子问题。 ——动态规划在生物信息学研究中用得最多的方面是DNA序列或者蛋白 质序列比对,或应用于隐Markov模型中寻找最优的隐状态序列。
等)
——系统发育树构造软件(PHYLIP、PALM等) ——分子动力学模拟软件(GROMACS、NAMD等)
——搜集、整理有特色的生物信息学数据集
中级层面
利用数值计算方法、数理统计方法和相关的工具,研究生物信 息学问题
——概率、数理统计基础
——科学计算基础 ——现有的数理统计和科学计算工具(EXCEL、SPSS、SAS、
——定性、经验的分类的局限 分类较粗、数据量小、凭借经验 ——谱系聚类法(系统聚类法)、动态聚类法、模糊聚类法 ——生物信息学中的聚类分析问题: 根据DNA芯片获得的基因表达数据进行基因聚类(数据量庞大) 蛋白质相互作用网络的分类 根据不同物种的大分子序列进行相似性比较并构建系统发育树 Gibbon
MATLAB等)
——建立有特色的生物信息学数据库
高级层面
提出有重要意义的生物信息学问题;自主创新,发展新型方法, 开发新型工具,引领生物信息学领域研究方向。
——面向生物学领域,带着生物学问题
——数学、物理、化学、计算科学等思想和方法
——建立模型,发展算法 ——自行编程,开发软件,建立网页(Linux系统、C/C++、PERL、
(7) 期望最大化(EM)方法 (Expectation Maximization)
第七式
利涉大川
——EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭 代算法。在每一迭代循环过程中交替执行两个步骤:E步(Expectation step),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全 数据对应的对数似然函数的条件期望;M步(Maximization step),用极大 化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间 不断迭代直至收敛。该方法可能会陷入局部极值,收敛速度也不是很快,并 且计算很复杂。 ——适用于具有隐变量的模型和问题,如神经网络模型中的隐节点、HMM模 型中的隐状态 ——如Motif识别的MEME方法、HMM中的Baum-Welch算法
Score for the overall likelihood of the query sequence being a site is:
properties at associated volumes
P( site | ) log P( site)
Say we have a sequence S= S1S2…Sn. Then one need to calculate
4.1.2 生物信息学的“降龙十八掌”
(1) 生物信息数据库及其查询 搜索方法 (Database & searching)
第一式
见龙在田
——对分子生物信息数据库的种类以及某些具体数据库的掌握和了解 ——从现有数据库中熟练获得需要的数据信息(尤其是二级数据库) ——能熟练地进行数据库查询和数据库搜索(数据库查询系统Entrez、 SRS;搜索工具BLAST等) ——数据库技术、互联网技术
(4) 数理统计基础 (Statistical methods)
第四式
或跃在渊
——样本和统计量(方差、均值……) ——参数估计、假设检验 ——基本的统计分析(方差分析、协方差分析、回归分析) ——常用统计软件的运用(SPSS、SAS)
(5) 基于频率的组分分析方法 和权重矩阵方法 (Composition analysis & weight matrix method)
(11) 判别分析方法 (Discriminant analysis)
第十一式
双龙取水
——用于判别样品所属类型的统计分析方法 条件:已知研究对象总体的类别数目及其特征(如:分布规律,或各 类的训练样本) 目的:判断未知类别的样本的归属类别 ——多元判别分析、线性判别分析、非线性判别分析 ——基因识别、医学诊断、人类考古学
——信息熵(Shannon,1948)
H pi log pi
i
——信息熵H刻画了由{pi}表示的随机试验结果的先验不确定性,或观察 到输出时所获得的信息量。
Sequence logo:刻画生物序列中的信号保守性(Schneider,1990)
E. coli基因起始位点上游区 P. aby基因起始位点上游区
第五式
羚羊触藩
——词汇频率反映具有生物学意义的序列特征 ——核酸组分、氨基酸组分、密码子使用频率 ——k-tuples、k-mers频率分析 ——权重矩阵分析
权重矩阵分析方法概要
——针对序列(核酸、氨基酸等)信号,计算每一位点所使用的词汇(kmers)频率,频率的偏倚性反映信号的序列特征(sequence pattern)。 ——权重矩阵:词汇的频率表S(x, w) k=1:weight matrix; k>1:weight array
(2) 生物信息学软件和工具的 应用 (Software & application)
第二式
飞龙在天
利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题 ——基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等) ——系统发育树构造软件(PHYLIP、PALM等……) ——基因芯片检测分析软件(……) ——分子动力学模拟软件(GROMACS、NAMD等……)
最短路径问题:
在HMM方法中的 应用: C G
C+
0.13
C
G
G+Leabharlann 0.034C+
0.012
G+
0.0032
B
0.12 0.010 0.003 0.0002
E C– G– C– G–
(9) 迭代方法 (Iteration)
第九式
密云不雨
——迭代的目的通常是在状态空间找到目标函数收敛的稳定解 ——在运用模式识别方法时,对系统参数的学习通常要经过迭代来实现 ——迭代必须能够不断逼近稳定解
P(S|splice site) P(S|background)
So to look for a donor site in the sequence, we might calculate
(6) 信息论方法 (Information method)
第六式
潜龙勿用
——信息符号、状态空间(ACGT四种符号,及其所有可能的排列) ——信息的度量是信息符号出现何种状态的一种不确定性程度,信息的 获得要对不确定性进行否定。
例:人类基因内 含子/外显子剪接 位点的序列特征 分析
供体位点
R = A or G Y = C or U N = A, G, C or U
受体位点
供体位点(donor site)权重矩阵:
-3 A C -2 -1 9.2 3.3 7.3 1 0.0 0.0 2 0.0 0.0 3 2.8 2.5 4 7.6 9.3 5 7.1 5.5 5.9 6 16.0 16.5 46.2
——最简单的Markov过程是一阶过程,状态的选择完全取决于前一状态, 这种选择是依照概率来选择的。
——状态的选择是概率的,而非确定的。故Markov过程本质上是一种随机 过程。
(1)天气状态: 晴 阴 雨
0.125
阴
Bayesian打分函数用于剪接位点预测
The likelihood that a property value v (of a new structure) is drawn from the splicing site is:
P( site | )
P( | site) P( site) P( | site) P( site) P( | nonsite P(nonsite ) )'
(10) 回归、拟合、相关性分析、 关联分析 (Regression, fitting, correlation & association)
第十式
突如其来
——Regression: the relation between selected values of x and observed values of y (from which the most probable value of y can be predicted for any value of x) ——主要目的:描述和预测自变量与因变量间的关系
34.0 60.4 36.3 12.9 11.4 14.2
52.6 71.3
G
U
18.3 12.5 80.3
100
0.0
0.0
100
41.9 11.8 81.4 20.9
受体位点(acceptor site)权重矩阵:
-14 A C G U 9.0 31.0 12.5 42.3 -13 8.4 31.0 11.5 44.0 -12 7.5 30.7 10.6 47.0 -11 6.8 29.3 10.4 49.4 -10 7.6 32.6 11.0 49.4 -9 8.0 33.0 11.3 46.3 -8 9.7 37.3 11.3 40.8 -7 9.2 38.5 8.5 42.9 -6 7.6 41.0 6.6 44.5 -5 7.8 35.2 6.4 50.4 -4 23.7 30.9 21.2 24.0 -3 4.2 70.8 0.3 24.6 -2 100 0.0 0.0 0.0 -1 0.0 0.0 100 0.0 1 23.9 13.8 52.0 10.4