《生物信息学》复习提纲

合集下载

生物信息学重点tg

《生物信息学》复习要点红色表示为重点内容, 考试的比重较大.第一章生物信息学引论生物信息学；生物信息指哪些？contig；大规模测序的基本策略；功能基因组学；生物信息学的应用有哪些？什么事件大大促进了生物信息学的发展？（HGP）；生物信息学中最重要的贡献是什么（序列比对算法）？基因组测序完成的主要物种（如人，水稻，大肠杆菌，酵母，拟南芥，果蝇等）；我国自主产权的基因组测序有哪些?人类基因组计划的主要任务.第二章生物信息学的生物学基础碱性氨基酸和酸性氨基酸的种类；蛋白质二级结构有哪些？核苷酸序列中N表示什么？遗传密码的基本特征是什么？真核生物基因的一般结构？转录本；启动子(promoter)；EST；cDNA；内含子；外显子；UTR；TATA-box；ORF；起始密码子；终止密码子； poly(A)加尾信号；TSS；中心法则；真核生物基因表达的调控水平有哪些？*第三章生物数据库资源及其应用三大核酸数据库有哪些？蛋白质序列数据库有哪些？蛋白质结构数据库有哪些？掌握文献的PubMED检索规则；掌握核酸/蛋白质记录的检索规则；UniGene；GEO;创建最早使用最广泛的蛋白质数据库是什么？(SWISSPROT和PIR)；*第四章序列分析相似性；一致性；保守突变；同源性；序列比较的基本操作是什么？序列比较的方法有哪些？序列比较的矩阵作图法；最长公共子序列；空位罚分；打分矩阵；BLAST的全称；BLAST比对结果中图形颜色的意义以及score和E-value的含义；FASTA格式；BLAST几种工具的含义及其用途；nr数据库；EST数据库；检索某个基因序列的方法；如何通过生物信息学方法确定TSS？判断1个基因(EST)表达部位或特性的生物信息学方法有哪些?*第五章系统发生分析系统发生树；趋同进化；无根树；有根树；直系同源与旁系同源；系统发生树的构建方法种类；非加权组平均法原理；最大简约法原理；信息位点；Bootstrap；掌握非加权组平均法的构建方法；用ClustalX和MEGA软件构建进化树的流程是什么？第六章基因表达数据分析基因芯片聚类分析图中红色和绿色代表的含义*第八章电子克隆技术电子克隆（in silico cloning）；电子克隆的基本思路；电子克隆的操作步骤；电子克隆的条件是什么？判断1个基因5'端是否完整的方法； Kozak规则是什么？内含子的剪切规则？(GU..AG)其他:1)要了解BLAST的一般步骤和意义;2)了解序列分析的基本内容和意义;3)上机操作中涉及的重要网站和程序名称等（不需要记得网址）。

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科，涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展，为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中，我们需要掌握一些基本的概念、技术和工具。

下面，我将为大家整理一些生物信息学的复习资料，希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学：生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法，挖掘和解释生物体内的基因、蛋白质等分子信息，从而揭示生物体内的生命规律和机制。

2. 基因组学：基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析，揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学：蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析，揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱：基因表达谱是指在特定条件下，生物体内基因的表达水平和模式。

通过对基因表达谱的分析，可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况，从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术：DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中，高通量测序技术如Illumina测序和Ion Torrent测序，具有高通量、高准确性和低成本的特点，广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库：生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据，如基因序列、蛋白质序列、基因表达数据等，为生物信息学的研究和分析提供了基础。

生物信息学B复习要点

生物信息学B复习要点(总6页)--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--知识点：1.生物信息学：生物信息学是一门（交叉）学科，它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。

他综合的应用（数学）、（计算机科学）和（生物学）的各种工具，来阐明和理解大量数据中包含的生物学意义。

2. 人类基因组计划 :（human genome project,HGP）是一个国际合作项目，由美国/德国/法国/英国/日本和中国科学家共同参与。

其旨在测定组成人类染色体（指单倍体）中所包含的30亿个核苷酸序列的碱基组成，从而绘制人类基因组图谱，辨识并呈现其上的所有基因及其序列，进而破译人类遗传信息。

人类基因组计划是人类为了解自身的奥秘所迈出的重要一步，是继曼哈顿原子弹计划和阿波罗登月计划之后，人类科学史上的又一个伟大工程。

3. 一级数据库数据库：直接来源于实验获得的原始数据，只经过简单的归类整理和注释。

包括：基因组数据库，序列数据库（核酸和蛋白质）以及结构数据库。

4. 二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

5．公共序列数据库：1988 年3个数据库达成协议，组成合作联合体。

它们每天交换信息，并对数据库 DNA 序列记录的统一标准达成一致。

每个机构负责收集来自不同地理分布的数据（EMBL 负责欧洲， GenBank 负责美洲， DDBJ负责亚洲等），将所有信息汇总在一起，共同享有并向世界开放，故这 3 个数据库又被称为公共序列数据库。

6．主要核酸序列数据库: GenBank、EMBL、 DDBJ7．主要蛋白质序列数据库：Swissprot, PIR8. 蛋白质结构分类数据库包括：SCOP和CATH。

格式，又称Pearson 格式。

特点：最常用、最简单的序列注释格式命名规则：(理解即可)1、以大于号“>"起始2、标题行（ a single-line description) 位于文件的第一行，（中英均可）3、序列行随后，序列行中不允许有空间，每行文字不超过80个字符4、组成序列信息字符串的符号应为IUB/IUPAC（International Union Of Pure And Applied Chemistry）核苷酸或氨基酸的符号5、核苷酸字符大小写均可，氨基酸字符应大写6、"-"单个连字符表示一个空位“gap”7、序列中不允许有数字、不明确的核苷酸用N表示，氨基酸用X表示8、氨基酸序列中“*”表示终止9、常保存为.txt文档GBFF序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

生物信息学复习大纲

复习大纲1．生物信息学引论⏹了解生物信息学在生命科学研究中的作用和地位；⏹生物信息学与基因组学之间的关系；⏹了解生物信息学的主要研究内容；⏹认识生物信息，理解静态的生物信息与动态的生物信息，理解生物分子是基本的生物信息载体，认识基因组信息的组织与奥秘；⏹掌握生物信息学的主要研究对象及其关系。

2．生物信息资源及数据库⏹了解主要的生物信息资源网站；⏹生物信息学数据库，包括核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库、基因组数据库；⏹熟悉代表性数据库。

3．数据结构及算法⏹了解常用生物信息分析的计算机方法；⏹掌握基本的数据结构；数组、列表（链表、栈、队列）、树、图⏹掌握Hash表、树、图；⏹理解算法与程序的关系；⏹掌握算法评价的方法（时空复杂度）。

4．序列两两比对 *****⏹相似序列与同源序列（直向同源，共生同源）；⏹序列的基本编辑操作和扩展操作；⏹打分函数；⏹打分矩阵（为什么要用打分矩阵？）⏹熟练掌握序列比对的点矩阵方法；⏹熟练掌握标准的基于动态规划的序列两两比对算法（反复求解两个前缀的最优比对），认识Needleman-Wunsch算法及Smith-Waterman算法与标准算法的关系；⏹了解准全局比对、连续Gap的处理方法；⏹了解相似序列比对算法的基本思想；⏹了解BLAST及其进行快速搜索的核心思想。

5．多序列比对⏹为什么不能用动态规划算法？其时空复杂度各位多少？⏹一般实现多序列比对的基本方法（转化为序列的两两比对）；⏹星型比对的基本思想；⏹树型比对的基本思想；基本过程；⏹保守序列表示的三种形式（重点：consensus, PSFM/PSSM；了解sequence Logo）。

6．基因组序列拼接⏹序列拼接的生物学背景及数学定义；⏹掌握基于覆盖图的序列拼接的基本方法；⏹理解序列拼接问题的求解过程生物学问题→数学抽象→数据结构→问题转化→算法设计→求解7. 系统发生分析⏹了解现代（分子）系统发生分析的核心思想；⏹系统发生树的表示形式；⏹基于距离的系统发生分析的基本过程；⏹掌握连锁聚类分析方法；⏹了解UPGMA与NJ这两种方法的特点，它们与连锁聚类的差别。

生物信息学复习题及答案（打印）

生物信息学复习题及答案（打印）一、名词解释：1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2910.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

大学教育-医学-生信-生信复习提纲-基础16级-409

2019年基础医学专业本科生《生物信息学》复习提纲中山大学中山医学院医学信息学教研室编制基础数据库1)核酸数据库国际联盟INSDC的组成2)GenBank, ENA, DDBJ的内容特点3)1000Genomes的内容特点4)TCGA的内容特点5)UniProt的组成6)UniProtKB的内容特点7)UniProtKB_SwissProt的内容特点8)UniProtKB_TrEMBL的内容特点9)PDB的内容特点10)InterPro的内容特点11)Pfam的内容特点12)PRIDE的内容特点DNA序列变异数据库介绍概念1)DNA序列变异的定义2)认识DNA序列变异的意义3)DNA序列变异类型及其定义4)单核苷酸多态的定义，在基因组分布特点背后可能的原因5)序列转换(transitions)和颠换(transversions)的含义6)肿瘤突变特征 (Mutational Signatures)的理解数据库：7)dbSNP数据库的特点和实践操作8)dbVar数据库的特点和实践操作9)gnomAD数据库的内容特点10)疾病相关突变数据库11)OMIM数据库的特点12)MIM的数字前缀的意义13)GWAS Catalog数据库的内容特点14)ClinVar 数据库的内容特点15)HGMD数据库的内容特点16)COSMIC数据库的内容特点思考问题17)结合你对数据库了解，DNA序列变异数据库，假设想研究某疾病相关基因的重要突变，你如何从数据库中获取资料？序列比对1)同源性与相似性的区别2)直系同源与旁系同源的区别3)全局比对与局部比对的区别4)Pairwise （两序列）比对的含义5)BLAST与FASTA的使用及其优缺点6)序列比对中E值得含义7)迭代比对的含义8)PSIBLAST与PSISearch的使用9)多序列比对的含义10)Clustal Omega的使用思考问题11)如何通过序列比对鉴别短肽段？分子系统发育分析与多序列比对1)理解分子进化理论的概念和常见模式。

[整理]《生物信息学》学生复习资料.

《生物信息学》复习资料陈芳宋东光教材：《生物信息学简明教程》（钟扬编）1 绪论分子生物学与计算机、信息科学的结合－生物信息学(Bioinformatics);Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules.生物信息学及其分支学科分子生物信息学(molecular informatics)－即狭义的生物信息学，指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据；生物信息学(bioinformatics)－广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科，对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释；生物信息学是广义的计算生物学的分支，在为生物学系统建模中应用了量化分析技术；计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题，侧重于发展理论模型和有效算法；分子计算(molecular computing)－将DNA作为一种信息储存器，应用PCR 技术和生物芯片等来进行计算。

生物信息学的主要目的不是分子发展最精致的算法，其目的是发现生物体以怎样的方式生存。

生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型，到实现数据分析的新算法，以及开发数据库和访问数据库的Web工具。

生物信息学的功能是表示、存储和分布数据。

开发从数据中发现知识的分析工具处于第二位。

生物信息学发展阶段与研究方向前基因组时代－数据库建立、检索工具的开发和蛋白质序列分析；基因组时代－基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等；后基因组时代－大规模基因组分析、蛋白质组分析、各种数据的比较和整合。

生物信息学复习资料(信息管理与信息系统)

1.什么是生物信息学？生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么？任务：收集和管理生物分子数据；数据分析和挖掘；开放分析工具和实用软件；生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。

内容：（1）序列比对；（2）基因预测；（3）药物设计；（4）蛋白质结构预测；（5）基因调控网络的预测；（6）蛋白质相互作用预测；（7）分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库：NCBI、ENA、DDBJ蛋白质数据库：Expasy、Uniprot蛋白质结构数据库：SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库：GO 、David、String、InAct蛋白质信号通路数据库：KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些？Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些？GenBank核酸序列数据库；UniPROT蛋白质序列数据库；PDB生物大分子结构数据库；6.Genbank格式与FASTA格式Genbank序列以10个为一组，在序列上标注碱基或者氨基酸残基数，查找和检索方便FASTA格式序列文件的第一行是由大于符号（＞）打头的任意文字说明，主要为标记序列用。

从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号。

通常核苷酸符号大小写均可，而氨基酸一般用大写字母，文件中和每一行都不要超过80个字符（通常60个字符）7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对，直接比对蛋白序列的同源性。

Blastn:核酸序列对核酸库的对比，直接比较核酸序列的同源性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《生物信息学》主要知识点一、基本名词和概念1、bioinformatics 生物信息学，狭义的生物信息学是指将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析，以达到理解这些生物大分子信息的生物学意义的一门交叉学科。

广义上的生物信息学是指运用计算机技术，处理、分析生物学数据，以揭示生物学数据背后蕴藏的意义的所有知识体系。

2、ORF Open Reading Frame，开放阅读框，是指在给定的阅读框架中，不包含终止密码子的一串DNA序列3、CDS Coding sequence，基因的编码区（也叫Coding region），是指DNA或RNA中由外显子组成，编码蛋白质的部分。

4、UTR Untranslated Regions，即非翻译区，是指mRNA分子两端的非编码片段，包括5'-UTR（或称“前导序列”）和3'-UTR（或称“尾随序列”）5、genome 基因组，是指包含在一种生物的单倍体细胞中的全套染色体DNA（部分病毒是RNA）中的全部遗传信息，包括基因和非编码DNA。

6、proteomics 蛋白质组学，对特定的通路、细胞器、细胞、组织、器官和肌体中包含的所有蛋白质，进行鉴定、表征和定量，提供关于该系统准确和全面数据的学科。

7、transcriptome 转录组，也称为“转录物组”，广义上指在相同环境（或生理条件）下的一个细胞、组织或生物体中出现的所有RNA的总和，包括mRNA、rRNA、tRNA及非编码RNA；狭义上则指细胞所能转录出的所有mRNA。

8、metabonomics 代谢组学，属于系统生物学的一个重要组成部分，效仿基因组学和蛋白质组学的研究思想，对生物体内所有代谢物进行定量分析，从而研究生命体对外界刺激、病理生理变化、以及本身基因突变而产生的其体内代谢物水平的多元动态反应。

其研究对象大都是相对分子质量1000以内的小分子物质。

9、functional genomics 功能基因组学，是一门利用结构基因组学研究所得到的各种信息，建立和发展各种技术和实验模型来测定基因和基因组非编码序列的生物学功能的学科。

10、genomic mapping 基因组作图，就是确定界标或基因在构成基因组的每条染色体上的位置，以及同条染色体上各个界标或基因之间的相对距离。

11、microarray DNA微阵列，又称基因芯片（gene chip），是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

12、nucleotide 核苷酸，是指核苷（Nucleoside）和磷酸（Phosphate groups）结合的化学物质，包括单核苷酸（如AMP、CMP等）、寡核苷酸（ADP、ATP、GTP等）和多核苷酸（DNA、RNA等）。

13、Linux 是一种自由和开放源代码的类UNIX操作系统。

14、Perl Practical Extraction and Report Language，实用报表提取语言，是一种特别擅长处理字符串文本数据的计算机编程语言，兼具脚本语言和高级语言的特征。

15、alignment 序列比对，或叫联配，是指在两条或多条序列中寻找按照相同次序排布的一连串单字符或字符模块的过程16、BLAST basic local alignmeng search tools 同源序列比对工具的一个集合，也是一种两两序列比对算法的名称17、phylogeny 系统发生（或系统发育），是指生物形成或进化的历史18、Orthologs 直系同源指来自于不同物种的由垂直家系（物种形成）进化而来的基因或蛋白，并且典型的保留与原始基因或蛋白有相同的功能。

19、Paralogs 旁系同源，是指是指同一基因组(或同系物种的基因组)中，由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。

20、CADD Computer Aided Drug Design 计算机辅助药物设计21、HMM Hidden Markov model，隐马尔科夫模型，一种用来描述含有隐含未知参数的马尔可夫过程的统计模型。

22、CpG岛是指哺乳类生物基因组中长度为0.5～4kb的一段富含胞嘧啶（C）、鸟嘌呤（G）及使两者相连的磷酸酯键（p）成分的DNA序列，几乎都位于基因的启动子区。

二、常用生物信息学软件或在线工具1. Clustal（或Clustal X）多序列比对软件（X为视窗版，W为命令行版）2. Phylip 一种命令行格式的分子系统发育分析软件，包含多种算法3. BioEdit 一种以序列编辑与分析为主的功能比较全面的综合性软件4. Mega 一种视窗版的序列统计和进化分析的工具包（具备web序列数据库检索和多序列比对功能）5. Treeview 进化树图形编辑软件6. RASMOL 三维分子结构显示和分析软件7. Primer Premier PCR引物设计软件8. RNAstructure 建立在Turner热力学数据基础上的RNA二级结构预测软件9. PromoterScan 一个预测分析启动子区域的在线工具10. CpGPlot 预测CpG岛的在线平台11. TMHMM 一个在线分析蛋白质跨膜区的工具12、PSIPED 采用双层反馈神经网络通过对PST-BLAST搜索同源序列来预测蛋白质二级结构的在线工具。

三、常用生物信息学数据库平台及其支撑机构1、NCBI National Center of Biotechnology Information，美国国立生物技术信息中心，其下建立的GenBank是世界三大DNA数据库之一。

2、EBI European Bioinformatics Institute 欧洲生物信息研究所，其下的EMBL（European MolecularBiology Laboratory）数据库是世界三大DNA数据库之一。

3、DDBJ DNA Data Bank of Japan日本DNA数据库4、AceDB 最初是为秀丽新小杆线虫建立的基因组数据库，现已发展成为一个灵活和通用的数据库管理系统，可用于包括从细菌、真菌、寄生虫、植物、昆虫、动物到人类的基因组数据库的数据分析。

5、PDB Protein Data Bank，是一个专门收录蛋白质及核酸等大分子三维结构资料的数据库。

6、KEGG Kyoto Encyclopedia of Genes and Genomes京都基因与基因组百科全书，是一个以基因与分子网络为特色的一个数据库，帮助研究者了解生物系统（如细胞，生物和生态系统）的高层次功能，优势在于它所具有的PA THW AY，将各种生化反应以网络图的形式展现。

7、ExPASy Expert Protein Analysis System，蛋白质分析专家系统，是由瑞士生物信息学研究所（SwissInstitute of Bioinformatics ）维护的一个提供从序列到结构以及二维电泳等全套蛋白质组学相关操作的综合性在线服务平台。

8、CDD The Conserved Domain Database ，NCBI下的蛋白质保守结构域数据库四、常用分子系统发育分析算法及其工具离散特征法序列上每个碱基或氨基酸的状态最大简约法MP最大似然法ML分子进化分析软件包Phylip中的核酸序列分析程序分子进化分析软件包Phylip中的蛋白质序列分析工具分子进化分析软件Phylip中的距离矩阵计算工具neighbor统计分析（Seqboot，即拨靴法或自举法，用以产生大量的数据组）分子进化分析软件包Phylip中的进化树绘制工具五、常用序列比对得分矩阵的种类和名称得分矩阵种类得分矩阵名称核酸矩阵等价矩阵BLAST矩阵转换-颠换矩阵PAM矩阵蛋白质矩阵等价矩阵遗传密码矩阵疏水矩阵Dayhoff氨基酸替换矩阵(PAM) 模块氨基酸替换矩阵(BLOSUM)六、基本理论和方法（1）生物信息学研究的基本方法和前沿技术基本方法：建立生物数据库，数据库检索，序列分析，统计模型，算法前沿技术：数据管理技术，数据仓库、数据挖掘与数据库中的知识发现技术，图像处理与可视化技术（2）识别基因的主要方法1、ORF识别法根据终止密码子出现频率、最长ORF法等辨别编码区（主要适用与原核序列）（下述方法可用于真核序列）2、基于密码子出现频率或密码子第三位的偏好性的预测方法3、同源性方法4、神经网络方法5、隐马尔科夫模型法6、模式判断分析法7、动态规划方法8、基于剪切比对的识别方法（3）蛋白质组学与基因组学的异同点不同点：a、与基因组的均一性相比，蛋白质组具有多样性。

即在同一生物个体的所有体细胞中基因是一样的，但在生命发育不同阶段的细胞中蛋白质种类及数量却是大相径庭，不同组织中细胞表达的蛋白质也有很大差异；b、基因组非常稳定，而蛋白质组则是动态变化的。

即同一细胞在不同时期、不同条件下，其蛋白质组也是在不断地改变之中；c、蛋白质研究技术远比基因技术复杂和困难。

相同点：都运用组学的研究方法，强调全面性和整体性。

生物信息学在其中都起到越来越重要的作用。

（4）比较基因组学的基本原理、意义和主要研究方法基本原理：通过模式生物基因组之间或者模式生物和人类基因组之间的比较和鉴别，在一种生物基因组中找到与另一种生物某个基因功能相似的基因，从而发现新基因。

意义：为研究生物进化、分离人类遗传病的候选基因以及预测新的基因功能提供依据。

主要研究方法：系统发育概形法，Rosetta Stone法，基因邻居法（5）蛋白质二级结构和高级结构预测方法1、蛋白质二级结构预测方法主要有3类：a. 结合人工神经网络、遗传算法等机器学习方法，统计氨基酸出现频率，如Chous-Fasman方法，b. 基于单一序列或多序列比对信息分析，如GOR方法和PHD方法c. 以已知二级结构为模板，建立保守片段或位置特异性计分矩阵，通过打分预测，如PSI-BLASTP方法2、蛋白质高级结构预测方法主要有：比较建模法（同源建模）、threading法（逆折叠法，也叫穿针引线法）、从头预测（ab initio）（6）生物信息学在蛋白组研究中的应用有哪些方面内容？a.编码的DNA序列的寻找与分析（分析研究对象）；b.蛋白质序列信息的获取（搜索与测序）；c.蛋白质鉴定和性质预测;d.蛋白质序列分析；e.蛋白质结构和功能预测；f.数据的分析与整合：大范围基因表达分析；蛋白-蛋白相互作用；蛋白在细胞内的定位；构建通路和细胞系统；预测和发现新的知识。

材料分析进化树手工计算和绘制。