生物信息学复习提纲解

合集下载

生物信息学重点tg

《生物信息学》复习要点红色表示为重点内容, 考试的比重较大.第一章生物信息学引论生物信息学；生物信息指哪些？contig；大规模测序的基本策略；功能基因组学；生物信息学的应用有哪些？什么事件大大促进了生物信息学的发展？（HGP）；生物信息学中最重要的贡献是什么（序列比对算法）？基因组测序完成的主要物种（如人，水稻，大肠杆菌，酵母，拟南芥，果蝇等）；我国自主产权的基因组测序有哪些?人类基因组计划的主要任务.第二章生物信息学的生物学基础碱性氨基酸和酸性氨基酸的种类；蛋白质二级结构有哪些？核苷酸序列中N表示什么？遗传密码的基本特征是什么？真核生物基因的一般结构？转录本；启动子(promoter)；EST；cDNA；内含子；外显子；UTR；TATA-box；ORF；起始密码子；终止密码子； poly(A)加尾信号；TSS；中心法则；真核生物基因表达的调控水平有哪些？*第三章生物数据库资源及其应用三大核酸数据库有哪些？蛋白质序列数据库有哪些？蛋白质结构数据库有哪些？掌握文献的PubMED检索规则；掌握核酸/蛋白质记录的检索规则；UniGene；GEO;创建最早使用最广泛的蛋白质数据库是什么？(SWISSPROT和PIR)；*第四章序列分析相似性；一致性；保守突变；同源性；序列比较的基本操作是什么？序列比较的方法有哪些？序列比较的矩阵作图法；最长公共子序列；空位罚分；打分矩阵；BLAST的全称；BLAST比对结果中图形颜色的意义以及score和E-value的含义；FASTA格式；BLAST几种工具的含义及其用途；nr数据库；EST数据库；检索某个基因序列的方法；如何通过生物信息学方法确定TSS？判断1个基因(EST)表达部位或特性的生物信息学方法有哪些?*第五章系统发生分析系统发生树；趋同进化；无根树；有根树；直系同源与旁系同源；系统发生树的构建方法种类；非加权组平均法原理；最大简约法原理；信息位点；Bootstrap；掌握非加权组平均法的构建方法；用ClustalX和MEGA软件构建进化树的流程是什么？第六章基因表达数据分析基因芯片聚类分析图中红色和绿色代表的含义*第八章电子克隆技术电子克隆（in silico cloning）；电子克隆的基本思路；电子克隆的操作步骤；电子克隆的条件是什么？判断1个基因5'端是否完整的方法； Kozak规则是什么？内含子的剪切规则？(GU..AG)其他:1)要了解BLAST的一般步骤和意义;2)了解序列分析的基本内容和意义;3)上机操作中涉及的重要网站和程序名称等（不需要记得网址）。

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科，涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展，为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中，我们需要掌握一些基本的概念、技术和工具。

下面，我将为大家整理一些生物信息学的复习资料，希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学：生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法，挖掘和解释生物体内的基因、蛋白质等分子信息，从而揭示生物体内的生命规律和机制。

2. 基因组学：基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析，揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学：蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析，揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱：基因表达谱是指在特定条件下，生物体内基因的表达水平和模式。

通过对基因表达谱的分析，可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况，从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术：DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中，高通量测序技术如Illumina测序和Ion Torrent测序，具有高通量、高准确性和低成本的特点，广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库：生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据，如基因序列、蛋白质序列、基因表达数据等，为生物信息学的研究和分析提供了基础。

生物信息学,复习资料

第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科，是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。

检索和分析的科学。

1982年创建了GenBank数据库。

（1）序列数据资源：储存了生物信息学研究的原始数据，是生物信息学存在和发展的基础。

（2）序列比对与比对搜索：相似性分析是生物信息学最早涉及的问题之一。

常用的分析方法是序列比对。

（3）基因组结构注释（4）分子系统发生分析：系统发生关系是表示物种进化关系的参考依据。

通过分析分子水平的序列数据，可以了解物种系统发生的关系，目前常用树的形式来表示不同物种间的进化关系。

（5）蛋白质结构：蛋白质的空间结构是其行使功能的基础。

（6）蛋白质序列分析与功能预测。

（7）微阵列数据分析：微阵列是一种重要的基因表达高通量检测技术。

（8）蛋白质组数据分析：高通量的蛋白质组工程能够大范围地确定蛋白质功能，能确定蛋白质在哪种特殊的生理条件下会出现，还能确定那些蛋白质之间有相互作用。

（9）疾病相关研究：寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础，也是人类基因组研究的重要手段。

（10）SNP芯片及深度测序数据分析。

视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质，能结合血液中的视黄醇。

性质：①在多个物种中有许多蛋白质和RBP4同源，包括人、小鼠和鱼总的蛋白质。

②也有许多人类蛋白质额RBP4紧密相关，它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白，它们倾向于分泌到细胞外空间。

③有细南的lipealin 蛋白，它们在对抗生素的抗性中起作用。

编码细菌lipocalin 的基因可能是一古老基因，它通过水平基因转移的过程进人真核生物基因组。

④些lipocalin 蛋白的表达水平受到显著的调控。

⑤lipealin 蛋白小而丰富，并且是可溶性的，它们的生物化学性质已被详细研究，许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。

生物信息学复习大纲

复习大纲1．生物信息学引论⏹了解生物信息学在生命科学研究中的作用和地位；⏹生物信息学与基因组学之间的关系；⏹了解生物信息学的主要研究内容；⏹认识生物信息，理解静态的生物信息与动态的生物信息，理解生物分子是基本的生物信息载体，认识基因组信息的组织与奥秘；⏹掌握生物信息学的主要研究对象及其关系。

2．生物信息资源及数据库⏹了解主要的生物信息资源网站；⏹生物信息学数据库，包括核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库、基因组数据库；⏹熟悉代表性数据库。

3．数据结构及算法⏹了解常用生物信息分析的计算机方法；⏹掌握基本的数据结构；数组、列表（链表、栈、队列）、树、图⏹掌握Hash表、树、图；⏹理解算法与程序的关系；⏹掌握算法评价的方法（时空复杂度）。

4．序列两两比对 *****⏹相似序列与同源序列（直向同源，共生同源）；⏹序列的基本编辑操作和扩展操作；⏹打分函数；⏹打分矩阵（为什么要用打分矩阵？）⏹熟练掌握序列比对的点矩阵方法；⏹熟练掌握标准的基于动态规划的序列两两比对算法（反复求解两个前缀的最优比对），认识Needleman-Wunsch算法及Smith-Waterman算法与标准算法的关系；⏹了解准全局比对、连续Gap的处理方法；⏹了解相似序列比对算法的基本思想；⏹了解BLAST及其进行快速搜索的核心思想。

5．多序列比对⏹为什么不能用动态规划算法？其时空复杂度各位多少？⏹一般实现多序列比对的基本方法（转化为序列的两两比对）；⏹星型比对的基本思想；⏹树型比对的基本思想；基本过程；⏹保守序列表示的三种形式（重点：consensus, PSFM/PSSM；了解sequence Logo）。

6．基因组序列拼接⏹序列拼接的生物学背景及数学定义；⏹掌握基于覆盖图的序列拼接的基本方法；⏹理解序列拼接问题的求解过程生物学问题→数学抽象→数据结构→问题转化→算法设计→求解7. 系统发生分析⏹了解现代（分子）系统发生分析的核心思想；⏹系统发生树的表示形式；⏹基于距离的系统发生分析的基本过程；⏹掌握连锁聚类分析方法；⏹了解UPGMA与NJ这两种方法的特点，它们与连锁聚类的差别。

大学教育-医学-生信-生信复习提纲-基础16级-409

2019年基础医学专业本科生《生物信息学》复习提纲中山大学中山医学院医学信息学教研室编制基础数据库1)核酸数据库国际联盟INSDC的组成2)GenBank, ENA, DDBJ的内容特点3)1000Genomes的内容特点4)TCGA的内容特点5)UniProt的组成6)UniProtKB的内容特点7)UniProtKB_SwissProt的内容特点8)UniProtKB_TrEMBL的内容特点9)PDB的内容特点10)InterPro的内容特点11)Pfam的内容特点12)PRIDE的内容特点DNA序列变异数据库介绍概念1)DNA序列变异的定义2)认识DNA序列变异的意义3)DNA序列变异类型及其定义4)单核苷酸多态的定义，在基因组分布特点背后可能的原因5)序列转换(transitions)和颠换(transversions)的含义6)肿瘤突变特征 (Mutational Signatures)的理解数据库：7)dbSNP数据库的特点和实践操作8)dbVar数据库的特点和实践操作9)gnomAD数据库的内容特点10)疾病相关突变数据库11)OMIM数据库的特点12)MIM的数字前缀的意义13)GWAS Catalog数据库的内容特点14)ClinVar 数据库的内容特点15)HGMD数据库的内容特点16)COSMIC数据库的内容特点思考问题17)结合你对数据库了解，DNA序列变异数据库，假设想研究某疾病相关基因的重要突变，你如何从数据库中获取资料？序列比对1)同源性与相似性的区别2)直系同源与旁系同源的区别3)全局比对与局部比对的区别4)Pairwise （两序列）比对的含义5)BLAST与FASTA的使用及其优缺点6)序列比对中E值得含义7)迭代比对的含义8)PSIBLAST与PSISearch的使用9)多序列比对的含义10)Clustal Omega的使用思考问题11)如何通过序列比对鉴别短肽段？分子系统发育分析与多序列比对1)理解分子进化理论的概念和常见模式。

《生物信息学》复习资料

超二级结构：是介于二级和三级结构之间的一个结构层次。

有的模体本身有一定的功能，有的与其他的结构成分协同发挥作用。

Conting（叠连群）：又译作连续克隆系。

为搞清某段DNA的排列顺序而建立的一组克隆。

被克隆的DNA小片段有相互邻接并部分重叠的关系，从而可以完全覆盖该段DNA，一个这样的克隆群即为一个conting。

蛋白质组：对应于基因组的概念，指由一个细胞或一个组织的基因所表达的全部相应的蛋白质。

蛋白质组是一个动态的概念：①和基因不一样。

不同组织和不同发育时期都不一样②基因在转录后，还有一系列的修饰，翻译等过程都可以影响蛋白质的表达。

因此通过对蛋白质组的研究，在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题以及与人类健康和疾病相关的生物医学问题。

单核苷酸多态性：在DNA的某一个位点处的核苷酸，有一部分是A，另一部分是T，其他为G和C，如果各种情况的比例均为1%，则称该位点处的核苷酸为多态性的。

就一个位点而言，SNP最多为4种。

但人类基因组很多，估计平均每1000bp就有一个SNP，因此整个金一组可有3*1000000个SNP位点，因此产生多态性就是非常多了。

已知人类基因组DNA序列中最常见的变异形式是SNP。

非蛋白质编码区：非蛋白质编码区占据了人类基因组的大部分，研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体，它们至少包括以下类型的DNA成分或由其表达的RNA成分：内含子、卫星DNA、小卫星DNA、微卫星DNA、非均一核RNA、短散置元、长散置元、伪基因等。

除此之外，顺式调控原件如启动子、增强子等也属于非编码序列。

分裂基因、割裂基因、不连续基因：基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

其中，编码的序列叫外显子，对应于心事RNA序列的区域。

不编码的叫内含子，通常比外显子大得多。

基因两端起始和结束于外显子，对应于转录产物RNA和5和3端。

如果一个基因含n个内含子，则n+1个外显子。

生物信息学复习大纲广东药学院生医专业

绪论：1.什么是生物信息学？答：生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。

（答案一）以计算机软件为工具对核酸和蛋白质组成序列进行分析，并在生物大分子水平上研究其结构与功能的方法。

（答案二）2. 生物信息学研究的主要任务是什么？（1）DNA序列。

分离编码与非编码区域，识别内含子与外显子，基因产物预测，基因功能注释，基因调控信息分析（2）蛋白质序列。

序列比较，多重序列比对，识别保守的序列模式，进化分析（3）大分子结构。

二级结构、空间结构预测，三维结构比对，蛋白质几何学度量，表面和形态计算，分子间相互作用分析，分子模拟（4）基因组。

标注重复序列，基因结构分析，系统发生分析，基因与疾病的连锁分析，基因组比较，遗传语言分析（5）基因表达。

达模式相关分析基因表，基因调控网络分析，表达调控信息分析3. 生物信息学主要研究方法是什么？答：1、数学统计方法2、动态规划方法3、机器学习与模式识别技术4、数据库技术及数据挖掘5、人工神经网络技术6、专家系统7、分子模型化技术8、量子力学和分子力学计算9、生物分子的计算机模拟10、因特网（Internet）技术4. 人类基因组计划是什么？答：人类基因组计划准备用15年时间，投入30亿美元，完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定，主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。

其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。

作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。

第一章：1. 生物中心法则是什么？DNA是细胞中的遗传物质，DNA分子通过半保留复制复制完成遗传信息的传递，DNA 转录成mRNA，通过三个核苷酸对应一个氨基酸的遗传密码细胞将信息由mRNA翻译成蛋白质，使遗传信息在生物个体中得以表达，并使后代表现出与亲代相似的生物性状。

生物信息学复习要点

一、名词解释（每小题3分，共30分）1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10．直系同源体簇二、填空题（每空1分，共10分）1．生物信息学主要研究的两种信息载体是和。

2．国际上的三大核苷酸序列数据库分别是、和。

3．数据挖掘的三大技术支柱是、和。

4．相同类型核苷酸的替换称为，不同类型核苷酸的替换称为。

三、单项选择题（每小题1分，共10分）1.在对模式生物进行全基因组的测定中，作为真菌模式生物的是。

A、大肠杆菌B、青霉菌C、酵母菌D、线虫2．NCBI成立于。

A、1988年B、1989年C、1990年D、1992年3．根据数据库管理系统所支持的基本数据模型的不同，可以将数据库分为五类，其中第二代数据库是。

A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4．在向GenBank投送序列的工具中，是标准的序列投送工具。

A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。

A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。

A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多，其中耗时最短的是。

A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。

A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中，较为常用的方法是。

A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。

A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题（每小题2分，共20分）1．生物大分子携带的三种信息是。

A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换，DBMS提供的两层映射是。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

谱学方法：核磁共振、电子自旋共振、激光拉曼光谱
4、芯片技术的创新点量变到质变：并行地做几百~几万个 southern 或 northern 局部到整体：生命科学研究从单个基因、孤立地研究发展到多基因组、基因组整体性研
究的崭新阶段分为基因组分析芯片（检测基因序列的突变和多态）和基因表达谱分析芯片（检测基因
8、分段法先利用检索工具进行常规检索，再利用文献后附参考文献进行追溯检索，分期分段地交
替使用这两种方法
9、文献检索的主要途径分类途径、主题途径、著者途径和其他途径（各种号码索引、专用符号代码索引、专用
名词术语索引）
10、BLAST 的中英文全名 Basic local alignment search tools = 局部序列比对基本检索工具
原理：根据双重序列比对的差异程度（距离）优点：使用序列进化模型、计算强度小、充分考虑不可见突变缺点：屏蔽了真实的特征符数据
23、进化树质量评价的主要方法 ① 重复取样法：从原有数据中产生假重复数据。用多次抽样产生的新数据构建系统树，
每一个内部分支出现的次数与该分支的可靠程度呈正相关自举法
② 整体评价法：用一致性指数 lc 和保持性指数 lr 来衡量。 lc = R / L lc 越大，同塑型的比例越小，系统树越可靠
能力，有些基因高度保守，如 16S rDNA 等，突变甚至可能会导致个体的死亡，因此此种基因进化速率慢。
不同物种间的同源基因的进化速率也不同。这与不同物种的生存决策不同有关系（K 对策和 S 对策），还和不同物种的生存环境有关系。
碱基的替换速率基本相同，有些重要基因的突变可能会影响生物体的正常生存，因此进化速率慢，对于功能不重要的基因，比较容易积累突变，表现为较大的基因进化速率。
时其酶活也随之恢复 10、蛋白质折叠过程中的关键作用力
范德华力、氢键、盐键、疏水作用、二硫键
注：满分诀窍！学弟学妹们！考试时心中默念瑞根最犀利即可得高分！学长亲测！效果未知！
4、生物信息学对生命科学发展的作用与意义作用： ① 从学科角度方面：生命科学进入了新的发展时期；研究体系的突破——局
部到整体；学科性质——经验型、资料积累到总结规律 ② 从研究人员角度：提高研究效率，深化研究成果、显著提升研究工作的意
义与价值意义：极大提高科研的效率、质量，促进生命科学实现跨越式的发展
2、结构生物学研究核酸、蛋白质等生物大分子结构与功能的新兴学科生物、物理、化学、计算机科学等一级学科的交叉学科主要研究对象：核酸、蛋白质、多糖、类脂在分子层面上对生物大分子的结构研究，阐明重要生命过程的分子机理
3、蛋白质结构研究的主要方法晶体学技术：X 射线衍射、中子衍射技术、电子晶体
电子显微镜：透射显微：电子显微镜、近场光镜扫描显微：激光共聚焦、原子力显微镜
28、蛋白质三级结构预测的主要方法同源建模法（>30-40%相似性）序列相似的蛋白质结构也很有可能相似蛋白质的三维结构的保守性远大于序列的保守性找相似度高的已知结构蛋白质 -> 序列比对 -> 建立起近似结构 -> 优化折叠识别法（穿针引线法，相似性不高~20%）蛋白质折叠种类有限预测折叠模式 -> 平均势函数从头预测法假设：蛋白质的天然构象对应其自由能能最低完全根据蛋白质的物理模型进行分子动力学模拟其折叠过程
5、世界上最权威的四大生物数据平台美国人工蛋白质数据库、GenBank 数据库、欧洲分子生物学实验室（EMBL）、日本核
酸序列数据库（DDBJ）
6、检索工具法直接利用检索工具检索文献信息的方法，又分为顺查法、倒查法、抽查法
7、追溯法
利用已知的文献末尾所列的参考文献为线索，进行逐一地追溯查找引文的一种最简便的扩大信息来源的方法
21、进化树构建的数据种类特征数据：存在有限不同状态的特征；描述性，定性；来自解剖学、生理、行为研究的数据（如个体颜色、对某个刺激的反应时间等）距离数据：两个数据集之间具有可衡量的差异以 DNA、蛋白质序列数据为主
22、进化树构建的主要方法、各自的原理及优缺点 ① 基于特征符：最大简约法 MP 原理：需找具有最少核酸或氨基酸替换的进化树优点：正确性效率兼顾缺点：受长枝效应影响大
7、基因进化树与物种进化树的区别基因树：基于一种或少数几种同源基因（蛋白）的比较分析而构建的系统发生树，其实
质是基因的进化历史。物种树：综合考察物种多方面的进化证据而构建的系统发生树。物种树一般通过对多个
基因家族的序列比对分析后，综合获得。
8、蛋白质结构预测的意义与目的理论意义：“第二层次遗传密码子” 蛋白质的核酸序列 -> 蛋白质三维空间结构 -> 蛋
由各种次级键维持的球状结构四级结构：由若干亚基组装成复杂蛋白
26、蛋白质二级结构预测方法根据其原理分类 ① 基于统计：Chou-Fasman 法、GOR 法、最小邻近法、马尔科夫模型、人工神经网络
法 ② 基于知识：Lim 方法、Cohen 方法 ③ 混合方法
27、蛋白质家族、蛋白质超家族蛋白质家族：具有相似序列或序列同源性的一组蛋白质蛋白质超家族：结构组成上有相似的折叠模体构成，但是序列之间几乎不存在相似性
组成：生命科学、数学、计算机科学、信息科学
2、推动生物信息学快速发展的学科核心与灵魂：生命科学基本工具：数学与计算机技术
3、“组”学的主要创新点对生命科学发展的作用与意义所谓组学，即从一个整体的角度来研究。相对于传统生命科学零碎敲打的研究手段，研
究单个的基因或蛋白的功能、结构，而组学则是着眼于大局，将单个的基因、蛋白以“组” 的水平进行研究，从而对于生命科学能够有一个大局的把握。
17、有根树不仅明确节点之间的相互关系，同时确定哪个节点是其他节点的共同祖先或最早从共同
祖先中分化出来的
18、无根树只表明了节点之间的关系，没有确定某个共同祖先以及节点之间的进化关系
19、外类群利用已有的进化信息，人为地引入已知的与被分析群体中进化关系最远的基因序列或物
种
20、确定树根的主要方法 ① 外类群法，引入与被分析群体中进化关系更远的基因序列或物种； ② 中点法，取最长的路径的中点（假设所有分支拥有基本相同的进化速率）； ③ 倍增基因法，分析时引入成对的倍增基因（同源旁系基因）。
11、比对排列两个或以上的序列，使其最大化利于分析序列的同源性和相似性等
12、局部比对与整体比对在打分矩阵方面的主要区别、用途全局比对：空位罚分对空位出现的位置不加区别进化分析、蛋白质三维结构或折叠方式准全局比对：避免对序列一端或两端出现的空位进行罚分在较长序列中搜索较短序列局部比对：对空位的位置加以区分，小于零时归零，回溯重建比对，直到遇上零为止搜索序列中短的保守片段（高灵敏度地发现短的保守序列）
简述题
1、生物信息学在生命科学中的地位、作用，及对生命科学的影响应用领域
地位与作用：
① 从学科角度方面：研究体系的突破：局部到整体；
学科性质：
经验型、资料积累到总结规律
② 从研究人员角度：提高研究效率，深化研究成果，显著提升研究工作的意义与价值
应用领域：
生命科学研究——序列分析；ORF、序列组装；蛋白质结构预测；组学数据分析
R：所有性状的范围的总和，即性状可能变化的最小值 L：给定系统树的最小进化步数
24、Domain、fold、motif
Domain: 指具有特定且相对独立的三维立体结构、而且能够独立完成某种功能的蛋白质
的一部分；或指蛋白质序列中的某一保守区段
Fold: 蛋白质基本三维结构，包括：二级结构元件、元件间的顺序连接、元件之间的相
对空间位置
Motif: 在 DNA 或蛋白质序列上保守的短片段，或蛋白质结构上普遍存在的保守立体结
构元件
概念比较
结构层次
稳定性
完整结构
独立功能
motif
二级
不稳定
否
否
domain
三级
不稳定
否
是
fold
三级
稳定
是
是Байду номын сангаас
25、蛋白质的各级结构的定义一级结构：氨基酸序列二级结构：局部多肽链借助氢键排成特有的规则结构三级结构：由远程肽段折叠产生，一般指多肽链的独立折叠单位经多重盘绕、折叠形成
13、相似性与同源性同源性：定性描述同源序列指由共同祖先基因或序列经趋异进化而形成的多个基因或序列相似性：定量描述通过序列比对过程中用来描述检测序列和目标序列之间相同 DNA 碱基或氨基酸残基序
列所占比例的高低
14、序列比对的主要应用 ① 数据库搜索——最常见用途通过对海量序列数据库的搜索，找出与提交序列相似的序列 ② 多序列比对——进化树构建发现特定基因家族的保守区段：同源克隆基因，利用 RNAi 沉默目标基因、基因功能结构域分析分子系统发生分析
的表达，研究基因的功能）
5、经典生物进化与现代分子进化研究的异同
传统系统发生
分子证据的地位
辅助
证据数量
少
研究成果性质
定性、推论
分化时间确定
真实
分子系统发生核心海量定量、统计分析推测
6、不同种类基因进化速度存在很大差异的分子机理不同基因功能不同，有些如 HLA、病毒基因等需要更快的进化速率以提高物种的适应
15、BLASTN、BLASTP、BLASTX、tBLASTN、tBLASTP？
程序 BLASTN BLASTP BLASTX tBLASTN tBLASTX
数据库核酸蛋白蛋白核酸->蛋白核酸->蛋白
查询核酸蛋白核酸->蛋白蛋白核酸->蛋白
16、分子钟氨基酸的匀速变异现象基本规律：（1）不同类的基因间的氨基酸替换率存在显著差异（2）同类的分子进化速率则几乎完全一致同源蛋白质的差异取决于它们独立演化的时间不同物种中的同源基因的进化速率不同