生物信息学期末考试重点总结

合集下载

生物信息学期末复习资料（小字）

生物信息学期末复习资料（小字）名词解释或辨析。

1.生物信息学：生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.基因芯片：固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交，可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划：HGP，是一项规模宏大，跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体（指单倍体)中所包含的30亿个碱基对组成的核苷酸序列，从而描绘人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

4.中心法则：分子生物学的基本法则，是1958年由克里克（Crick）提出的遗传信息传递的规律，包括由DNA到DNA的复制，由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的发现，表明还有由RNA逆转录形成DNA的机制，是对中心法则的补充和丰富。

5.相似性和同源性：相似性（similarity）和同源性（homology）是两个完全不同的概念。

同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。

相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。

当两条序列同源时，他们的氨基酸或核苷酸序列通常有显著的一致性（identity）。

如果两条系列有一个共同进化的祖先，那么他们是同源的。

这里不存在同源性的程度问题，两条序列要么是同源的要么是不同源的。

1.生物信息学：综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟，基因组遗传和物理图谱的处理，核苷酸和氨基酸序列分析，新基因的发现和蛋白质结构的预测等。

2.蛋白质组：指由一个基因组，或一个细胞、组织表达的所有蛋白质。

生物信息学重点tg

《生物信息学》复习要点红色表示为重点内容, 考试的比重较大.第一章生物信息学引论生物信息学；生物信息指哪些？contig；大规模测序的基本策略；功能基因组学；生物信息学的应用有哪些？什么事件大大促进了生物信息学的发展？（HGP）；生物信息学中最重要的贡献是什么（序列比对算法）？基因组测序完成的主要物种（如人，水稻，大肠杆菌，酵母，拟南芥，果蝇等）；我国自主产权的基因组测序有哪些?人类基因组计划的主要任务.第二章生物信息学的生物学基础碱性氨基酸和酸性氨基酸的种类；蛋白质二级结构有哪些？核苷酸序列中N表示什么？遗传密码的基本特征是什么？真核生物基因的一般结构？转录本；启动子(promoter)；EST；cDNA；内含子；外显子；UTR；TATA-box；ORF；起始密码子；终止密码子； poly(A)加尾信号；TSS；中心法则；真核生物基因表达的调控水平有哪些？*第三章生物数据库资源及其应用三大核酸数据库有哪些？蛋白质序列数据库有哪些？蛋白质结构数据库有哪些？掌握文献的PubMED检索规则；掌握核酸/蛋白质记录的检索规则；UniGene；GEO;创建最早使用最广泛的蛋白质数据库是什么？(SWISSPROT和PIR)；*第四章序列分析相似性；一致性；保守突变；同源性；序列比较的基本操作是什么？序列比较的方法有哪些？序列比较的矩阵作图法；最长公共子序列；空位罚分；打分矩阵；BLAST的全称；BLAST比对结果中图形颜色的意义以及score和E-value的含义；FASTA格式；BLAST几种工具的含义及其用途；nr数据库；EST数据库；检索某个基因序列的方法；如何通过生物信息学方法确定TSS？判断1个基因(EST)表达部位或特性的生物信息学方法有哪些?*第五章系统发生分析系统发生树；趋同进化；无根树；有根树；直系同源与旁系同源；系统发生树的构建方法种类；非加权组平均法原理；最大简约法原理；信息位点；Bootstrap；掌握非加权组平均法的构建方法；用ClustalX和MEGA软件构建进化树的流程是什么？第六章基因表达数据分析基因芯片聚类分析图中红色和绿色代表的含义*第八章电子克隆技术电子克隆（in silico cloning）；电子克隆的基本思路；电子克隆的操作步骤；电子克隆的条件是什么？判断1个基因5'端是否完整的方法； Kozak规则是什么？内含子的剪切规则？(GU..AG)其他:1)要了解BLAST的一般步骤和意义;2)了解序列分析的基本内容和意义;3)上机操作中涉及的重要网站和程序名称等（不需要记得网址）。

生物信息学期末考试重点

第一讲生物信息学（Bioinformatics）是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科，它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。

生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析，达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。

生物信息学不仅是一门学科，更是一种重要的研究开发平台与工具，是今后进行几乎所有生命科学研究的推手。

生物技术与生物信息学的区别及联系生物信息学的发展历史•人类基因组计划（HGP）•人类基因组计划由美国科学家于1985年提出，1990年启动。

根据该计划，在2015年要把人体约4万个基因的密码全部揭开，同时绘制出人类基因的谱图，也就是说，要揭开组成人体4万个基因的30亿个碱基对的秘密。

HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划，被誉为生命科学的登月计划。

(百度百科)随着基因组计划的不断发展，海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后，才能成为有用的信息和知识。

换句话说，人类基因组计划为生物信息学提供了兴盛的契机。

上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。

：】第二讲回顾细胞结构细胞是所有生命形式结构和功能的基本单位细胞组成细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构细胞质细胞膜与细胞核之间的区域：包含液体流质，夹杂物存储的营养、分泌物、天然色素和细胞器细胞器细胞内完成特定功能的结构：线粒体、核糖体、高尔基体、溶酶体等细胞核最大的细胞器DNA的结构碱基（腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G）。

核苷酸核苷酸是构成DNA分子的重要模块。

每个核苷酸分子由一分子称作脱氧核糖的戊糖（五碳糖）、一分子磷酸和一分子碱基构成。

每种核苷酸都有一个碱基对，也就是A、T、C、G基因是什么基因是遗传物质的基本单位基因就是核苷酸序列。

大部分的基因大约是1000-4000个核苷酸那么长。

陈润生,生物信息学,考试总结

问题一：生物信息学的含义是什么？举一到两个例子说明你对生物信息学的哪方面感兴趣。

参考答案：生物信息学有三个方面的含义：1、它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。

2、生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。

3、生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

例子：怎样从新测得的DNA序列中找到编码区？非编码区与编码区的差别是什么？非编码区有什么具体功能？RNAi现象对于细胞来说有着很重要的意义，包括基因表达的调控等等，那么都有哪些具体机制可以诱导正常细胞产生RNAi现象？SARS病毒的比较基因组研究；治疗SARS的RNAi设计；SARS蛋白的结构预测和模拟。

问题二：有哪些数据库可以发现新基因，其本质是什么？参考答案：大部分新基因是靠理论方法预测出来的。

a)、利用NCBI中EST( E xpression Sequence Tag) 数据库(dbEST) 发现新基因和新SNPs。

国际上现已出现了几个基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index . 其本质是: : 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。

当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的(随机的)，所以属于同一个基因的不同EST序列之间常有交叠的区域。

根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。

b)、从基因组DNA序列中预测新ORF。

基于信号或基于组成。

问题三：1、基于核酸和蛋白质序列如何研究生物进化？2、主要步骤是什么？3、当前的主要困难是什么？参考答案：1、构建系统进化树。

生物信息学复习总结

生物信息学复习总结第一篇：生物信息学复习总结生物信息学复习总结1.生物信息学的发展历史。

A.20世纪50年代，生物信息学开始孕育。

B.20世纪60年代，生物分子信息在概念上将计算生物学和计算机科学联系起来。

C.20世纪70年代，生物信息学的真正开端。

D.20世纪70年代到80年代初期，出现了一系列著名的序列比较方法和生物信息分析方法。

E.20世纪80年代以后，出现一批生物信息服务机构和生物信息数据库。

F.20世纪90年代后，HGP促进生物信息学的迅速发展。

2.生物信息学主要研究内容。

（1）生物分子数据的收集与管理；（2）数据库搜索及序列比较；（3）基因组序列分析；（4）基因表达数据的分析与处理；（5）蛋白质结构预测。

3.蛋白质的一二三级结构。

(1).蛋白质的一级结构是指多肽链中氨基酸的序列(2).蛋白质的二级结构主要有以下几种形式：（i）ą螺旋；（ii）ß折叠–平行折叠反平行折叠；（iv）无规卷曲-没有确定规律性的肽链构象，但仍然是紧密有序的稳定结构。

（v）无序结构。

(3).蛋白质的三级结构（tertiary structure）:在二级结构基础上的肽链再折叠形成的构象。

4.一二级数据库（怎样查？）一级数据库----数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释二级数据库----对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

5.国际上权威的核酸序列数据库（1）欧洲分子生物学实验室的EMBL。

（2）美国生物技术信息中心的GeneBank。

（3）日本遗传研究所的DDBJ。

6为什么要对protein进行预测？寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射。

7.蛋白质预测的思路和方法。

思路：a．通过相似序列的数据库比对确定功能:具有相似性序列的蛋白质具有相似的功能。

b．确定序列特性：疏水性、跨膜螺旋等:许多功能可直接从蛋白质序列预测出来。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库(Database）是按照数据结构来组织、存储和管理数据的仓库，它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库，因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列，可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列，并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构，也叫初级结构或基本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

生物信息学重点

⽣物信息学重点⼀、名解1.⽣物信息学：（狭义）专指应⽤信息技术储存和分析基因组测序所产⽣的分⼦序列及其相关数据的学科；（⼴义）指⽣命科学与数学、计算机科学和信息科学等交汇融合所形成的⼀门交叉学科。

2.⼈类基因组测序计划：3基因组学：以基因组分析为⼿段，研究基因组的结构组成、时序表达模式和功能，并提供有关⽣物物种及其细胞功能的进化信息。

p1504基因组：是指⼀个⽣物体、细胞器或病毒的整套基因。

p1505.⽐较基因组学：是指基因组学与⽣物信息学的⼀个重要分⽀。

通过模式⽣物基因组之间或模式⽣物基因组与⼈类基因组之间的⽐较与鉴别，可以为研究⽣物进化和分离⼈类遗传病的候选基因以及预测新的基因功能提供依据。

p1666功能基因组：表达⼀定功能的全部基因所组成的DNA序列，包括编码基因和调控基因。

功能基因组学：利⽤结构基因组学研究所得的各种来源的信息，建⽴与发展各种技术和实验模型来测定基因及基因组⾮编码序列的⽣物学功能。

7蛋⽩质组：是指⼀个基因组中各个基因编码产⽣的蛋⽩质的总体，即⼀个基因组的全部蛋⽩产物及其表达情况。

p1798蛋⽩质组学：指应⽤各种技术⼿段来研究蛋⽩质组的⼀门新兴科学，其⽬的是从整体的⾓度分析细胞内动态变化的蛋⽩质组成成分、表达⽔平与修饰状态，了解蛋⽩质之间的相互作⽤与联系，揭⽰蛋⽩质功能与细胞⽣命活动规律。

9功能蛋⽩质组学：（功能蛋⽩质组，即细胞在⼀定阶段或与某⼀⽣理现象相关的所有蛋⽩）。

10序列对位排列：通过插⼊间隔的⽅法使不同长度的序列对齐，达到长度⼀致。

11 基因组作图：是确定界标或基因在构成基因组的每条染⾊体上的位置，以及同条染⾊体上各个界标或基因之间的相对距离。

p15512 后基因组时代：其标志是⼤规模基因组分析、蛋⽩质组分析以及各种数据的⽐较和整合。

p3⼆填空题1⽣物信息学的发展⼤致经历了3个阶段，分别为前基因组时代、基因组时代、后基因组时代。

p22后基因组时代的标志性⼯作是（基因组分析）（蛋⽩质组分析）以及（各种数据的⽐较和整合）p33前基因组时代的标志性⼯作是⽣物数据库的建⽴、检索⼯具的开发以及DNA和蛋⽩质的序列分析p2 4基因组时代的标志性⼯作是（基因寻找和识别）（⽹络数据库系统的建⽴）以及（交互界⾯的开发）p2 5 ⼈类基因组计划的⽬标是完成四张图，分别是（遗传图谱）（物理图谱）（序列图谱）和（基因图谱）5 HGP由六个国家完成，我国完成了HGP的（1%，即３号染⾊体上3000万个碱基）的测序⼯作。

生物信息学期末考试重点总结

第一章DNA、RNA和蛋白质序列信息资源生物信息学的概念：专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据，也称分子生物信息学。

三大核酸序列数据库GenBank(NCBI)美国国家生物技术信息中心，EMBL欧洲分子生物学实验，DDBJ日本DNA序列资料库序列信息通常用FASTA和GenBank两种格式显示第二章双序列比对数据库查询：指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。

数据库搜索：通过特定相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

区别：数据库搜索专门针对核酸和蛋白质序列数据库而言，其搜索对象不是数据库的注释信息，而是序列信息。

检测序列：新测定的，希望通过数据库搜索确定其性质或功能的序列目标序列：通过数据库搜索得到的和检测序列具有一定相似性的序列同源性的意义：具有共同祖先。

两个物种中有两个性状满足下列任一条件，就可称为同源性状：（1）它们与这些物种的祖先类群中所发现的某个性状相同（2）（2）它们是具有祖先一后裔的不同性状同源（homology）-具有共同的祖先同源序列：共同祖先趋异进化形成垂直同源（ortholog）种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列水平同源（paralog）由序列复制事件产生的相似（similarity）用来描述检测和目标序列之间相同DNA/蛋白质序列占比高低。

同源序列一般是相似的，但相似序列不一定是同源的。

相似性：大于50%可认为是同源性序列，小于20%无法确定同源性目的：通过数据库搜索，推测该未知序列可能属于哪个基因家族，具有哪些生物学功能。

可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。

在序列数据库中对查询序列进行同源性比对.整体比对：从全长序列出发（分子系统学）局部比对：序列部分区域相似性（分子结构与功能性研究）数据库搜索的基础是序列的相似性比对，即双序列比对(pairwise alignment)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据库搜索：通过特定相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

区别：数据库搜索专门针对核酸和蛋白质序列数据库而言，其搜索对象不是数据库的注释信息，而是序列信息。

同源序列一般是相似的，但相似序列不一定是同源的。

相似性：大于50%可认为是同源性序列，小于20%无法确定同源性目的：通过数据库搜索，推测该未知序列可能属于哪个基因家族，具有哪些生物学功能。

可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。

核酸打分矩阵：等价矩阵表：考虑碱基的同一性，即两个序列之间完全相同的匹配碱基数目（相同打1，不相同打0）;BLAST打分矩阵：完全相同得五分，不相同减四分;转换—颠换矩阵：完全匹配得1分,G（鸟嘌呤）--A（腺嘌呤），C(胞嘧啶)—T（胸腺嘧啶）相转换得-1分，不匹配不转换，得-5分。

蛋白质打分矩阵：相似性打分矩阵，基于远距离进化过程中观察到的残基替换率，并用不同的分数值表征不同残基之间的相似性程度。

恰当选择相似性分数矩阵，可以提高序列比对的灵敏度。

BLAST（Basic Local Alignment Search Tool）：局部相似性比对搜索程序，基于查找完全匹配的短小序列片段，并将它们延伸得到较长的相似性匹配。

思路：先找到检测序列和目标序列之间相似性程度最高的片段作为内核向两端延伸，以找出尽可能长的相似性片段BLAST优点：使用方便、功能齐全，速度快、结果可信，NCBI精心维护、持续开发，配套数据库不断更新，免费服务（NCBI、EBI、TIGR），免费下载，本地安装BLAST的查询序列和数据库的类型数据库类型方法程序名查询序列Inputblastp蛋白质1蛋白质蛋白质查询序列搜索蛋白质序列数据库blastn核酸1核酸核酸查询序列搜索核酸序列数据库balstx核酸6蛋白质将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库tblastn蛋白质6核酸蛋白质查询序列搜索核酸序列数据库，核酸序列按6条链翻译成蛋白质tblastx核酸36核酸将核酸序列按6条链翻译成蛋白质序列后收缩有核酸序列数据库按6条翻译成的蛋白质序列的数据库序列比对数学模型分两类：整体比对（从全长序列出发，考虑序列的整体相似性）局部比对（考虑序列部分区域的相似性）多序列比对的意义：（1）蛋白质序列，更能从比对中发现保守区域，可以更好地推测未知蛋白质的功能（2）从一个家族中多个相关蛋白的对比中可以发现隐含其中的系统发育的关系，从而更好地理解蛋白质的进化（3）对未知蛋白质的结构进行预测，推测哪些区域构成了蛋白质的活性位点，哪些区域维持了蛋白质的空间构象（4）如果由与这些蛋白质相关的DNA序列，DNA能提供更多的有关进化历程的信息FASTA格式特点：批量处理第一行以“>”开头+序列的标识符+序列的描述信息，换行后是序列信息第三章多序列比对多序列比对：把2条以上可能有系统进化关系的序列（相似度不一定很高）进行比对的方法。

相同或者相似的氨基酸残基排在同一列上，这些对齐的残基在进化意义上是同源的：来自共同的祖先。

并且从结构角度，这些残基也是同源的。

多重比对的近似方法ClustalW法：渐近比对渐进比对：先对所有的序列计算两两比对的分值（产生原始相似值），然后从关系最近的一堆序列开始，逐步加入其他序列。

应用最广的多序列比对工具：ClustalW2三个步骤：1)构建双序列比对（成对比对）：两两比对得到相似度矩阵或者距离矩阵2)建立向导树:使用相似度矩阵产生向导树3)按向导树累进比对：把最相似的两条序列构成一个比对，按向导树，把下一条序列加入比对直到最后。

第四章序列特征分析基因：基因是负载特定生物遗传信息的DNA分子片段，在一定的条件下能够表达这种遗传信息，产生特定的生理功能。

严格来说“基因”：产生一条多肽链或功能RNA所必须的全部核苷酸序列。

原核生物基因结构操纵子模型结构结构基因的表达受到操纵基因的调控。

调节基因能产生作用于操纵基因的阻遏物（一种蛋白质），操纵基因靠近它所控制的结构基因，阻遏物与操纵基因的结合能阻止结构基因的转录。

DNA序列特征分析进行序列比对和从序列中找到基因及其表达调控信息。

识别与基因相关的特殊序列信号，如启动子、起始密码子，通过信号识别大致确定基因所在的区域；预测基因的编码区域，或预测外显子所在的区域。

在此基础上，结合两个方面的结果确定基因的位置和结构。

开放阅读框ORF✧指从5‘端开始翻译起始密码子（ATG）到终止密码子的编码蛋白质的碱基序列。

✧每个序列都有6个可能的开放阅读框，目的是从6个可能的开放阅读框中找出1个正确的开放阅读框。

✧根据这个开放阅读框翻译得到的氨基酸序列才是真正表达的蛋白质产物。

真核生物的开放阅读框真核生物不仅含有编码蛋白的外显子，而且还有内含子，且内含子将开放阅读框分割为若干个小片段。

开放阅读框的长度变化范围非常大，因此真核生物的基因预测远比原核生物困难。

真核生物中，外显子与内含子之间的连接绝大部分情况下满足GT-AG规律，即内含子为：5'-GT……AG-3'。

GENSCAN识别基因开放阅读框根据基因组DNA序列来预测开放阅读框及基因结构信息CpG岛——CPG plot预测分析CpG岛CpG岛是指DNA序列上的一个区域，此区域含有大量相联的胞嘧啶C、鸟嘌呤G、和相连的磷酸酯键p 基因组中平均每100Kb出现，其中GC含量大于50%，长度超过200bp。

CpG岛位于基因的启动子和第一个外显子区，约有60%~80%的启动子和起始外显子含有CpG岛；搜索CpG岛可以为基因及其启动子预测提供重要线索。

转录终止信号——POLYAH(识别3'端剪切和PolyA区域)转录终止信号是在mRNA序列的3'端终止密码子下游位置上的加尾信号。

真核细胞mRNA转录后处理的最主要步骤：5`帽子结构的形成→内含子的剪切→3'端的多聚腺苷酸化(poly A) poly A与mRNA稳定性的调节、mRNA的细胞内转运、翻译的起始以及其他的细胞机制和疾病机制有着重要关系。

启动子——PromoterScan预测分析启动子区域●启动子是基因的一个组成部分，控制转录的起始时间和表达的程度。

●启动子本身并不控制基因活动，是通过与转录因子的蛋白质结合而控制基因活动的。

密码子偏好性——CodonW分析密码子偏好性（同时处理2000条以上序列）✧密码子使用偏性：指生物体中编码同一种氨基酸的同义密码子的非均匀使用现象。

蛋白质序列特征分析——ProtParam蛋白质理化性质分析基本假设：蛋白质的空间结构由蛋白质序列所决定，即可根据蛋白质序列预测蛋白质结构(第二遗传密码)，MiRNA:由内源基因编码的长度为22个核苷酸的非编码单链RNA分子，在植物中参与转录后基因表达调控蛋白质的亲水性或疏水性—ProtScale分析蛋白质的亲水，疏水性◆氨基酸的亲疏水性是构成蛋白质折叠的主要驱动力，一般通过亲水性分布图反映蛋白质的折叠情况。

◆分析结果中的峰值表示疏水者为正值，亲水者为负蛋白质的跨膜区——TMpred分析蛋白质的跨膜区基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向。

图形显示结构峰值指可能的跨膜螺旋区信号肽——SignalP分析蛋白质的分泌型前导肽✓指新合成多肽链中用于指导蛋白质跨膜转移的末端（通常为N末端）的氨基酸序列。

信号肽中至少含有一个带正电荷的氨基酸，中部有一个高度疏水区以通过细胞膜。

蛋白质的前导肽在线粒体蛋白质的跨膜转运过程中，通过线粒体膜的蛋白质在转运之前大多数以前体形式存在，它由成熟蛋白质和N 端的段前导肽组成。

蛋白质的卷曲螺旋—COILS分析蛋白质的卷曲螺旋（得分决定查询序列形成卷曲螺旋的概率）蛋白质空间结构中的一种，由2～7个α螺旋相互缠绕而形成超螺旋结构的总称。

第五章分子进化分析氨基酸序列进化分析：氨基酸序列更为保守，对年代跨度大的进化分析有帮助；数学模型较DNA远为简单。

系统进化树：所有生物都可以追溯到共同的祖先；生物的产生和分化就像树一样生长、分叉；是表明被认为具有共同祖先的各物种相互间进化关系的树形图。

•直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的。

•旁系同源(paralogs):同源的基因是由于基因复制产生的。

•分子进化分析中的序列必须是直系同源的，才能真实反映进化过程。

系统进化树的种类●物种树：代表一个物种或群体进化历史的系统进化树，两个物种分歧的时间为两个物种发生生殖隔离的时间。

●基因树：由来自各个物种的一个基因构建的系统进化树（不完全等同于物种树），表示基因分离的时间。

系统发育树分析步骤：多序列比对（自动比对手工校正）→选择建树方法以及替代模型→建立进化树→进化树评估方法：最大简约法，距离法，最大似然法第六章表达序列分析*表达序列：基因组表达为RNA的序列表达序列标签EST(只有500碱基)：从已建好的cDNA库中随机取出一个克隆，从5′末端或3′末端对插入的cDNA片段进行一轮单向自动测序，所获得约60-500bp的一段cDNA序列。

EST数据分析1.非标准化cDNA文库的构建(适用于表达谱研究、测序成本较高)2.标准化cDNA文库的构建(高表达基因降低，低表达基因提高)（检测低丰度表达基因、不能用于表达谱研究）EST数据库EST收录于GenBank，EBI和DDBJ常用EST数据库dbEST，UniGene，Gene IndicesEST数据分析方法：随机提取克隆进行5‘或3‘端测序→序列前处理→聚类和拼接→基因注释及功能分类→后续分析基因表达系列分析SAGE 技术原理简介基因表达序列分析（SAGE ）高通量、平行性检测三个基本要点1.9-14bp 的短核苷酸序列“标签”（Tag ）可以特异确定一个转录本2.串联体分子批量分析mRNA(平行检测)3.各转录本的表达水平可以用特定标签被测得的次数定量大致顺序标签，pcr 扩增,连接，测序，检测表达量，统计数标签出现次数，进行比对，实现不同样本多序列分析高通量测序及分析读长通量方法454长低焦磷酸测序无法准确测量同聚物的长度Illumina 短高边合成边测序，桥式PCR ，可逆终止物可以解决同聚物长度的准确测量Abi solid短高连接酶法转录本：指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞特定发育时期或特定生理条件下的表达水平;转录本主要包括mRNA，small RNA，non-coding RNA主要的测序平台：IlluminaRoche454：454Pyrosequencing基于磁珠的焦磷酸测序（1）DNA文库制备利用喷雾法将待测DNA打断成300-800bp长的小片段，并在片段两端加上不同的接头，或将待测DNA变性后用杂交引物进行PCR扩增，连接载体，构建单链DNA文库。