生物信息学复习

合集下载

生物信息学复习题

生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科，它利用计算机技术来处理和分析生物数据。

以下是一些生物信息学复习题，供同学们参考：1. 生物信息学的定义和应用领域- 生物信息学是如何定义的？- 生物信息学在哪些领域有应用？2. 基因组学基础- 什么是基因组学？- 基因组测序的基本原理是什么？3. 序列比对- 序列比对的目的是什么？- 简述局部比对和全局比对的区别。

4. BLAST算法- BLAST算法的原理是什么？- 如何使用BLAST进行序列相似性搜索？5. 基因表达数据分析- 基因表达数据有哪些类型？- 描述基因表达数据的预处理步骤。

6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么？- 简述几种常见的蛋白质结构预测方法。

7. 系统生物学和网络分析- 系统生物学研究的是什么？- 网络分析在系统生物学中的应用。

8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。

- 解释数据库在生物信息学研究中的作用。

9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用？- 简述Python在生物信息学中的应用。

10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题？- 如何保护生物信息数据的隐私？11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。

- 分析该案例中使用的方法和技术。

12. 未来趋势- 预测生物信息学未来的发展趋势。

- 讨论生物信息学如何影响未来的科学研究和医疗保健。

通过这些问题的复习，同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。

希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科，涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展，为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中，我们需要掌握一些基本的概念、技术和工具。

下面，我将为大家整理一些生物信息学的复习资料，希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学：生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法，挖掘和解释生物体内的基因、蛋白质等分子信息，从而揭示生物体内的生命规律和机制。

2. 基因组学：基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析，揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学：蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析，揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱：基因表达谱是指在特定条件下，生物体内基因的表达水平和模式。

通过对基因表达谱的分析，可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况，从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术：DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中，高通量测序技术如Illumina测序和Ion Torrent测序，具有高通量、高准确性和低成本的特点，广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库：生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据，如基因序列、蛋白质序列、基因表达数据等，为生物信息学的研究和分析提供了基础。

生物信息学,复习资料

第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科，是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。

检索和分析的科学。

1982年创建了GenBank数据库。

（1）序列数据资源：储存了生物信息学研究的原始数据，是生物信息学存在和发展的基础。

（2）序列比对与比对搜索：相似性分析是生物信息学最早涉及的问题之一。

常用的分析方法是序列比对。

（3）基因组结构注释（4）分子系统发生分析：系统发生关系是表示物种进化关系的参考依据。

通过分析分子水平的序列数据，可以了解物种系统发生的关系，目前常用树的形式来表示不同物种间的进化关系。

（5）蛋白质结构：蛋白质的空间结构是其行使功能的基础。

（6）蛋白质序列分析与功能预测。

（7）微阵列数据分析：微阵列是一种重要的基因表达高通量检测技术。

（8）蛋白质组数据分析：高通量的蛋白质组工程能够大范围地确定蛋白质功能，能确定蛋白质在哪种特殊的生理条件下会出现，还能确定那些蛋白质之间有相互作用。

（9）疾病相关研究：寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础，也是人类基因组研究的重要手段。

（10）SNP芯片及深度测序数据分析。

视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质，能结合血液中的视黄醇。

性质：①在多个物种中有许多蛋白质和RBP4同源，包括人、小鼠和鱼总的蛋白质。

②也有许多人类蛋白质额RBP4紧密相关，它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白，它们倾向于分泌到细胞外空间。

③有细南的lipealin 蛋白，它们在对抗生素的抗性中起作用。

编码细菌lipocalin 的基因可能是一古老基因，它通过水平基因转移的过程进人真核生物基因组。

④些lipocalin 蛋白的表达水平受到显著的调控。

⑤lipealin 蛋白小而丰富，并且是可溶性的，它们的生物化学性质已被详细研究，许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。

2、表达序列标签是从mRNA 中生成的一些很短的序列（300-500bp），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别是整体比对和局部比对。

4、2-DE的基本原理是根据蛋白质等电点和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离,第二向是SDS-PAGE分离。

5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。

二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，C值越大，这是真核生物基因组的特点之一。

（对）2、CDS一定就是ORF。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源,就具有共同的祖先。

（错）4、STS，是一段200-300bp的特定DNA序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码DNA是“垃圾DNA”，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

( 对）8、对任意一个DNA序列，在不知道哪一个碱基代表CDS的起始时，可用6框翻译法，获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

生物信息学考试复习

——古A．名词解释1. 生物信息学：广义是指从事对基因组研究相关的生物信息的获取，加工，储存，分配，分析和解释。

狭义是指综合应用信息科学，数学理论，方法和技术，管理、分析和利用生物分子数据的科学。

2. 基因芯片：将大量已知或未知序列的DNA 片段点在固相载体上，通过物理吸附达到固定化（cDNA 芯片），也可以在固相表面直接化学合成，得到寡聚核苷酸芯片。

再将待研究的样品与芯片杂交，经过计算机扫描和数据处理，进行定性定量的分析。

可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。

3. NCBI ：National Center for Biotechnology Information. 是隶属于美国国立医学图书馆（NLM ）的综合性数据库，提供生物信息学方面的研究和服务。

4. EMBL ：European Molecular Biology Laboratory.EBI 为其一部分，是综合性数据库，提供生物信息学方面的研究和服务。

5. 简并引物：PCR 引物的某一碱基位置有多种可能的多种引物的混合体。

6. 序列比对：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

7. BLAST ：Basic Local Alignment Search Tool. 是通过比对(alignment) 在数据库中寻找和查询序列(query) 相似度很高的序列的工具。

8. ORF ：Open Reading Frame. 由起始密码子开始，到终止密码子结束可以翻译成蛋白质的核酸序列，一个未知的基因，理论上具有6 个ORF 。

9. 启动子：是RNA 聚合酶识别、结合并开始转录所必须的一段DNA 序列。

原核生物启动子由上游调控元件和核心启动子组成，核心启动子包括-35 区( Sextama box ) TTGACA ，-10 区 (Pribnow Box ) TATAAT ，以及+1 区。

生物信息学考试复习

生物信息学考试复习．名词解释生物信息学：广义是指从事对基因组研究相关的生物信息的获取，加工，储存，分配，基因芯片：将大量已知或未知序列的DNA片段点在固相载体上，通过物理吸附达到固cDNA芯片），也可以在固相表面直接化学合成，得到寡聚核苷酸芯片。

再将待研究经过计算机扫描和数据处理，进行定性定量的分析。

可以反映大量基因：National Center for Biotechnology Information.是隶属于美国国立医学图书NLM）的综合性数据库，提供生物信息学方面的研究和服务。

：European Molecular Biology Laboratory.EBI为其一部分，是综合性数据库，简并引物：PCR引物的某一碱基位置有多种可能的多种引物的混合体。

序列比对：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规：Basic Local Alignment Search Tool. 是通过比对(alignment)在数据库中寻找(query)相似度很高的序列的工具。

：Open Reading Frame.由起始密码子开始，到终止密码子结束可以翻译成蛋白质6个ORF。

启动子：是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。

原核生物启动-35区（Sextama box）TTGACA，区（Pribnow Box）TATAAT，以及+1区。

真核生物启动子包括远上游序列和启动子基启动子基本元件包括启动子上游元件（GC岛，CAAT盒），核心启动子（TATA，+1区帽子位点）组成。

motif：模体，基序，是序列中局部的保守区域，或者是一组序列中共有的一小段序列分子进化树：通过比较生物大分子序列的差异的数值重建的进化树。

相似性：序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残同源性：两个基因或蛋白质序列具有共同祖先的结论。

非编码RNA：是指没有编码蛋白质功能的所有RNA，它缺乏ORF，常有编码蛋白质的miroRNA：是含有茎环结构的miRNA前体，经过Dicer加工之后的一类非编码的小分子（21-23 nt）。

生物信息学复习资料(信息管理与信息系统)

1.什么是生物信息学？生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么？任务：收集和管理生物分子数据；数据分析和挖掘；开放分析工具和实用软件；生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。

内容：（1）序列比对；（2）基因预测；（3）药物设计；（4）蛋白质结构预测；（5）基因调控网络的预测；（6）蛋白质相互作用预测；（7）分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库：NCBI、ENA、DDBJ蛋白质数据库：Expasy、Uniprot蛋白质结构数据库：SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库：GO 、David、String、InAct蛋白质信号通路数据库：KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些？Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些？GenBank核酸序列数据库；UniPROT蛋白质序列数据库；PDB生物大分子结构数据库；6.Genbank格式与FASTA格式Genbank序列以10个为一组，在序列上标注碱基或者氨基酸残基数，查找和检索方便FASTA格式序列文件的第一行是由大于符号（＞）打头的任意文字说明，主要为标记序列用。

从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号。

通常核苷酸符号大小写均可，而氨基酸一般用大写字母，文件中和每一行都不要超过80个字符（通常60个字符）7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对，直接比对蛋白序列的同源性。

Blastn:核酸序列对核酸库的对比，直接比较核酸序列的同源性。

生物信息学复习资料

1.生物信息学:是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

2.生物信息数据库一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的.3数据库格式A．FASTA格式（通用的核酸和蛋白质序列记录，以“）”开始）•序列文件的第一行是由大于符号（＞）打头的任意文字说明，主要为标记序列用。

•从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号。

通常核苷酸符号大小写均可，而氨基酸一般用大写字母。

•文件中和每一行都不要超过80个字符（通常60个字符）。

B．GenBank格式（序列的详细注解）GenBank和EMBL数据库基本数据的格式序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列本身（每行60个碱基）C．pdb格式（包括原子坐标理化参数数据在内的蛋白质结构信息）蛋白质数据库（Protein Data Bank,PDB）[1]是一个生物大分子(如蛋白质和核酸)数据库, 内容包括由全世界生物学家和生物化学家上传的蛋白质或核酸的X光晶体衍射或者NMR核磁共振结构数据，这些数据可以通过PBD的会员组织（PDBe,PDBj,RCSB）免费获取。

PDB是由世界蛋白质数据库（Worldwide Protein Data Bank,wwPDB）管理。

PDB是结构生物学的关键性资源，大部分学术刊物，以及一些官方科研机构[如美国的国立卫生研究院（NIH）]，现在都要求科学家将它们研究的蛋白质、核酸结构上传到PDB。

D.genpeptNCBI的蛋白质基本信息记录格式4.常用的数据库A．核酸序列数据库（1）欧洲分子生物学实验室的EMBL（2）美国生物技术信息中心的GenBank（3）日本遗传研究所的DDBJB．蛋白质序列数据库（1）PIR（Protein Information Resource）（2）SWISS-PROT（3）TrEMBL（4）NCBI（5）UniProtC．生物大分子结构数据库（1）PDB（Protein Data Bank）（2）MMDB(Molecular Modeling Database)说明下列数据库的主要功能：(1)PDB 蛋白质结构(2)ProSite 蛋白质模体、结构域和功能域、家族等。

生物信息学复习资料

生物信息学复习资料第一章1、什么是生物信息学？生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的？林华安3、生物信息学的发展经过了哪些阶段？前基因组时代、基因组时代、后基因组时代4、HGP是什么意思？什么时候开始？什么时候全部结束？人类基因组计划、1990.10、20035、生物信息学的研究对象是什么？6、生物信息学的研究内容有哪些？获取人和各种生物的完整基因组、新基因的发现、SNP分析（单核苷酸多态性：single nucleotide polymorphism,SNP）、非编码区信息结构与分析、生物进化；全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么？阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求？时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级，每一级是如何让定义的，每一级各包含哪些数据库？一级数据库二级数据库；一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库：包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库：根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。

网站：NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库：EMBL、DDBJ、GenBank蛋白质序列数据库：PIR（Protein Information Resource）、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库：PDB（Protein Data Bank）蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么？NCBI提取工具：Entrez EBI提取工具：SRS65、GENBANK使用的基本信息单位是什么，包括哪几个部分，最后以什么字符结尾？基本信息单位：GBFF（GenBank flatfile, GenBank平面文件）格式：GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一哪几个部分：头部包含整个记录的信息（描述符）、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符：所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq？The Reference Sequence database 参考序列数据库RefSeq数据库，即RefSeq参考序列数据库，美国国家生物信息技术中心（NCBI）提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成，以什么字符开始？8.NCBI的在线和离线序列提交软件是什么？在线提交软件：Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源？同源性和相似性有什么区别？同源性：两条序列有一个共同的进化祖先，那么它们是同源的相似性：序列间相似性的量度同源性和相似性的区别：同源性是序列同源或者不同源的一种论断，而相似性或者一致性是一个序列相关性的量化，是两个不同的概念直系同源（orthology）：不同物种内的同源序列旁系同源（paralogy）：同一物种内的同源序列2、什么是序列比对、全局比对、局部比对？序列比对的关键问题是什么？序列比对：根据特定的计分规则，将两个或多个符号序列按位置比较排列后，得到最具相似性的排列的过程。

生物信息学复习要点

一、名词解释（每小题3分，共30分）1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10．直系同源体簇二、填空题（每空1分，共10分）1．生物信息学主要研究的两种信息载体是和。

2．国际上的三大核苷酸序列数据库分别是、和。

3．数据挖掘的三大技术支柱是、和。

4．相同类型核苷酸的替换称为，不同类型核苷酸的替换称为。

三、单项选择题（每小题1分，共10分）1.在对模式生物进行全基因组的测定中，作为真菌模式生物的是。

A、大肠杆菌B、青霉菌C、酵母菌D、线虫2．NCBI成立于。

A、1988年B、1989年C、1990年D、1992年3．根据数据库管理系统所支持的基本数据模型的不同，可以将数据库分为五类，其中第二代数据库是。

A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4．在向GenBank投送序列的工具中，是标准的序列投送工具。

A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。

A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。

A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多，其中耗时最短的是。

A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。

A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中，较为常用的方法是。

A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。

A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题（每小题2分，共20分）1．生物大分子携带的三种信息是。

A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换，DBMS提供的两层映射是。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、名词解释(31个)1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。

狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对：研究的是多个序列的共性。

序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。

5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。

（来自百度）6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。

用来描述在同一物种内由于基因复制而分离的同源基因。

（来自百度）7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。

8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。

（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。

10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。

（来自百度）11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。

（来自文献）12.Gene Ontology 协会：13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。

14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。

16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。

17.Blastn：是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

（来自百度）18.Blastp：是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

（来自百度）19.Blastx：是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

（来自百度）20.Tblastn：是蛋白序列到核酸库中的一种查询。

与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

（来自百度）21.Tblastx：是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。

（来自百度）22.KEGG：京都基因与基因组百科全书，是系统分析基因功能、基因组信息的数据库，它整合了基因组学、生物化学以及系统功能组学的信息，有助于研究者把基因及表达信息作为一个整体网络进行研究。

23.ChIP-Seq：就是通过高通量测序对ChIP所得到的序列进行测序，从而进行蛋白和DNA相互作用相关研究。

24.分子生物网络：25.蛋白质相互作用（PPI）：是指蛋白质分子之间的相关性，并从生物化学、信号转导和遗传网络的角度研究这种相关性。

26.高通量测序：一次性对几百万到十亿条DNA分子进行并行测序，又称为下一代测序技术，其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。

27.比较蛋白质组学：即对模式生物或重要生命过程的蛋白质组学特征进行比较。

28.NCBInr：29.GT-AG结构：30.Entrez检索系统：面向生物学家的数据库查询系统，其特点之一是使用十分方便。

它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本链接，用户可以从一个数据库直接转入另一个数据库。

31.系统生物学：是从系统水平来理解生物学系统，利用一系列的原理与方法学来研究分子行为与系统特性与功能的关系，通过计算生物学来定量阐明和预测生物的功能、表型和行为。

二、选择题（30个）1.下面哪种数据库源于mRNA信息（A）： A. dbEST、B. PDB、C. OMIM、D. HTGS2.如果我们试图做蛋白质亚细胞定位分析，应使用（）。

数据库、数据库、数据库、数据库3.PIR是（）。

A.核酸数据库、数据库、C.启动子数据库、D.蛋白质数据库4.以下哪一项不属于启动子研究范围？（）岛预测、B.转录起始点预测、C.糖基化修饰、D.甲基化检测5.HTGS的含义是（C）。

A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列6.STS的含义是（）。

A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列7.HGP是（C）。

A.在线人类孟德尔遗传数据、B.国家核酸数据库、C.人类基因组计划、D.水稻基因组计划8、下列中属于一级蛋白质结构数据库的是：（）A. EMBL、 B. DDBJ、C. PDB、9．BLAST教案所程序中，哪个方法是不存在的？（）A. BLASTP、 B. BLASTN、C. BLASTX、D. BLASTQ10．人类基因组的结构特点不包括：（）A. 基因进化、B. 基因数目、C.基因重复序列、D. 基因组复制11、下列哪个选项不是微阵列实验设计的内容？（）A. 贝叶斯网络法、B. 对照组的选择、C. 重复样本的使用、D. 随机化原则12、构建序列进化树的一般步骤不包括. （）A. 建立DNA文库、B. 建立数据模型、C. 建立取代模型、D. 建立进化树13、在Genbank数据库中，生物学工作者向其提交数据有两种方式，其中用于提交少量数据的是基于Web方式的（）。

A. BankIt、B. Sequin、C. Version、D. Matrix 14、序列数据库包括核酸序列数据库和蛋白序列数据库。

下列哪个不属于蛋白质序列数据库？（） A. PIR 、B. Uniprot、 C. SWISS-PROT、 D. OMIM15、序列数据库包括核酸序列数据库和蛋白序列数据库。

下列哪个不属于核酸列数据库？（） A. Genbank、B. GenPept、C. EMBL、D. DDBJ16、（）是NCBI提供的集成检索工具，通过一次检索可查询NCBI多个子数据库中的相关信息。

A. Retrieve、B. SRS、C. Entrez、D. PIR17、Entrez数据库中的剪贴板的容量是（）。

条记录、条记录、条记录、条记录18、蛋白质信号肽的预测工具有（）。

、、、19、Bioinformatics的含义是（）。

A. 生物信息学、B. 基因组学、C. 蛋白质组学、D. 表观遗传学20、目前应用于基因芯片表达数据统计分析的主要方法是（）。

A. 卡方检验、B. 相关分析、C. 聚类分析、D. 正态性分布检验21、NCBI中人类无冗余基因数据库是（）。

A. UniGene、B. UniPro、C. UniRef、D. URF22、基本局部比对搜素工具是（）。

A. Mega、B. ClustalW、C. BLAST、D. GCG23、根据研究发现，人类基因组中真正编码蛋白质的区域仅占DNA 序列的（）。

%、%、%、%24、被誉为“生物信息学之父”的科学家是（）。

A. Dulbecco、B. Sanger、C.吴瑞、D. 林华安25、多序列比对工具是（）。

A. BLAST、B. ClustalW、C. Mega、D. GCG26、生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现？（）A. 以彩色小方块阵列表示、B. 以蜂窝形状表示、C. 以黑白圆点表示、D. 以彩色线条表示27、HTGS的含义是（）。

A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列28、accession number的含义是（）。

A.登录号、B.算法、C.比对、D.类推29、（）是欧洲分子生物学网EMBLnet的主要检索工具，也是一个开放的数据查询系统。

A. Query 、B. SRS、C. PDB、D. PIR30、数据挖掘的四个步骤不包括下列哪个. （）A. 数据选择、B. 数据转换、C. 数据记录、D. 结果分析三、是非题（16个）1、生物学就是实验科学，所有的研究结论从实验中来，于实验中得到验证。

2、比较是科学研究中最常见的方法，在生物信息学研究中，比对是最常用和最经典的研究手段。

3、两个蛋白质序列相似性超过30%就是同源蛋白。

4、蛋白质序列相似性指一级序列中氨基酸残基相同。

5、蛋白质序列相似性指氨基酸残基具有相似特性. 侧链基团大小电荷性、疏水性等相同。

6、核酸序列相似性指序列中相同碱基所占的比例。

7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。

8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。

9、相似性是指一种很直接的数量关系，无需实验验证。

10、相似性是指一种很直接的数量关系，也需实验验证。

11、不同种属间的同源序列称为直向同源序列。

12、不同种属间的同源序列称为共生同源序列。

13、所谓局部比对，即分析两个序列是否有局部序列的相似。

14、所谓整体比对，即找出两个序列全长的最优比对结果。

15、PSI-BLAST是BLAST程序家族中敏感性最高的子程序。

16、PHI-BLAST是BLAST程序家族中敏感性最高的子程序。

四、问答题（15个）1、生物信息学的发展经历了哪几个阶段2、序列的相似性与同源性有什么区别与联系？3、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？4、生物信息学的主要研究领域。

5、初级数据库、二级数据库的概念，说出几个数据并说明包含什么数据。

6、简述高通量测序的应用范围7、简述系统发生分析步骤8、说出至少一种蛋白质结构数据库和一种可视化工具。