生物信息学复习资料全

合集下载

大学生物信息学专业-复习资料整理

大学生物信息学专业-复习资料整理一、名词解释：生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型；利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

genbank序列格式：是GenBank数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释：第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P94查询序列(querysequence)：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P98打分矩阵(scoringmatrix)：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P29空位(gap)：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P29空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的过化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科，涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展，为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中，我们需要掌握一些基本的概念、技术和工具。

下面，我将为大家整理一些生物信息学的复习资料，希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学：生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法，挖掘和解释生物体内的基因、蛋白质等分子信息，从而揭示生物体内的生命规律和机制。

2. 基因组学：基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析，揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学：蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析，揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱：基因表达谱是指在特定条件下，生物体内基因的表达水平和模式。

通过对基因表达谱的分析，可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况，从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术：DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中，高通量测序技术如Illumina测序和Ion Torrent测序，具有高通量、高准确性和低成本的特点，广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库：生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据，如基因序列、蛋白质序列、基因表达数据等，为生物信息学的研究和分析提供了基础。

生物信息学,复习资料

第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科，是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。

检索和分析的科学。

1982年创建了GenBank数据库。

（1）序列数据资源：储存了生物信息学研究的原始数据，是生物信息学存在和发展的基础。

（2）序列比对与比对搜索：相似性分析是生物信息学最早涉及的问题之一。

常用的分析方法是序列比对。

（3）基因组结构注释（4）分子系统发生分析：系统发生关系是表示物种进化关系的参考依据。

通过分析分子水平的序列数据，可以了解物种系统发生的关系，目前常用树的形式来表示不同物种间的进化关系。

（5）蛋白质结构：蛋白质的空间结构是其行使功能的基础。

（6）蛋白质序列分析与功能预测。

（7）微阵列数据分析：微阵列是一种重要的基因表达高通量检测技术。

（8）蛋白质组数据分析：高通量的蛋白质组工程能够大范围地确定蛋白质功能，能确定蛋白质在哪种特殊的生理条件下会出现，还能确定那些蛋白质之间有相互作用。

（9）疾病相关研究：寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础，也是人类基因组研究的重要手段。

（10）SNP芯片及深度测序数据分析。

视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质，能结合血液中的视黄醇。

性质：①在多个物种中有许多蛋白质和RBP4同源，包括人、小鼠和鱼总的蛋白质。

②也有许多人类蛋白质额RBP4紧密相关，它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白，它们倾向于分泌到细胞外空间。

③有细南的lipealin 蛋白，它们在对抗生素的抗性中起作用。

编码细菌lipocalin 的基因可能是一古老基因，它通过水平基因转移的过程进人真核生物基因组。

④些lipocalin 蛋白的表达水平受到显著的调控。

⑤lipealin 蛋白小而丰富，并且是可溶性的，它们的生物化学性质已被详细研究，许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。

[整理]《生物信息学》学生复习资料.

《生物信息学》复习资料陈芳宋东光教材：《生物信息学简明教程》（钟扬编）1 绪论分子生物学与计算机、信息科学的结合－生物信息学(Bioinformatics);Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules.生物信息学及其分支学科分子生物信息学(molecular informatics)－即狭义的生物信息学，指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据；生物信息学(bioinformatics)－广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科，对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释；生物信息学是广义的计算生物学的分支，在为生物学系统建模中应用了量化分析技术；计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题，侧重于发展理论模型和有效算法；分子计算(molecular computing)－将DNA作为一种信息储存器，应用PCR 技术和生物芯片等来进行计算。

生物信息学的主要目的不是分子发展最精致的算法，其目的是发现生物体以怎样的方式生存。

生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型，到实现数据分析的新算法，以及开发数据库和访问数据库的Web工具。

生物信息学的功能是表示、存储和分布数据。

开发从数据中发现知识的分析工具处于第二位。

生物信息学发展阶段与研究方向前基因组时代－数据库建立、检索工具的开发和蛋白质序列分析；基因组时代－基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等；后基因组时代－大规模基因组分析、蛋白质组分析、各种数据的比较和整合。

生物信息学复习资料(信息管理与信息系统)

1.什么是生物信息学？生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么？任务：收集和管理生物分子数据；数据分析和挖掘；开放分析工具和实用软件；生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。

内容：（1）序列比对；（2）基因预测；（3）药物设计；（4）蛋白质结构预测；（5）基因调控网络的预测；（6）蛋白质相互作用预测；（7）分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库：NCBI、ENA、DDBJ蛋白质数据库：Expasy、Uniprot蛋白质结构数据库：SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库：GO 、David、String、InAct蛋白质信号通路数据库：KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些？Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些？GenBank核酸序列数据库；UniPROT蛋白质序列数据库；PDB生物大分子结构数据库；6.Genbank格式与FASTA格式Genbank序列以10个为一组，在序列上标注碱基或者氨基酸残基数，查找和检索方便FASTA格式序列文件的第一行是由大于符号（＞）打头的任意文字说明，主要为标记序列用。

从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号。

通常核苷酸符号大小写均可，而氨基酸一般用大写字母，文件中和每一行都不要超过80个字符（通常60个字符）7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对，直接比对蛋白序列的同源性。

Blastn:核酸序列对核酸库的对比，直接比较核酸序列的同源性。

生物信息学复习资料

1.生物信息学:是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

2.生物信息数据库一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的.3数据库格式A．FASTA格式（通用的核酸和蛋白质序列记录，以“）”开始）•序列文件的第一行是由大于符号（＞）打头的任意文字说明，主要为标记序列用。

•从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号。

通常核苷酸符号大小写均可，而氨基酸一般用大写字母。

•文件中和每一行都不要超过80个字符（通常60个字符）。

B．GenBank格式（序列的详细注解）GenBank和EMBL数据库基本数据的格式序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列本身（每行60个碱基）C．pdb格式（包括原子坐标理化参数数据在内的蛋白质结构信息）蛋白质数据库（Protein Data Bank,PDB）[1]是一个生物大分子(如蛋白质和核酸)数据库, 内容包括由全世界生物学家和生物化学家上传的蛋白质或核酸的X光晶体衍射或者NMR核磁共振结构数据，这些数据可以通过PBD的会员组织（PDBe,PDBj,RCSB）免费获取。

PDB是由世界蛋白质数据库（Worldwide Protein Data Bank,wwPDB）管理。

PDB是结构生物学的关键性资源，大部分学术刊物，以及一些官方科研机构[如美国的国立卫生研究院（NIH）]，现在都要求科学家将它们研究的蛋白质、核酸结构上传到PDB。

D.genpeptNCBI的蛋白质基本信息记录格式4.常用的数据库A．核酸序列数据库（1）欧洲分子生物学实验室的EMBL（2）美国生物技术信息中心的GenBank（3）日本遗传研究所的DDBJB．蛋白质序列数据库（1）PIR（Protein Information Resource）（2）SWISS-PROT（3）TrEMBL（4）NCBI（5）UniProtC．生物大分子结构数据库（1）PDB（Protein Data Bank）（2）MMDB(Molecular Modeling Database)说明下列数据库的主要功能：(1)PDB 蛋白质结构(2)ProSite 蛋白质模体、结构域和功能域、家族等。

生物信息学复习资料

生物信息学复习资料第一章1、什么是生物信息学？生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的？林华安3、生物信息学的发展经过了哪些阶段？前基因组时代、基因组时代、后基因组时代4、HGP是什么意思？什么时候开始？什么时候全部结束？人类基因组计划、1990.10、20035、生物信息学的研究对象是什么？6、生物信息学的研究内容有哪些？获取人和各种生物的完整基因组、新基因的发现、SNP分析（单核苷酸多态性：single nucleotide polymorphism,SNP）、非编码区信息结构与分析、生物进化；全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么？阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求？时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级，每一级是如何让定义的，每一级各包含哪些数据库？一级数据库二级数据库；一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库：包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库：根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。

网站：NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库：EMBL、DDBJ、GenBank蛋白质序列数据库：PIR（Protein Information Resource）、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库：PDB（Protein Data Bank）蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么？NCBI提取工具：Entrez EBI提取工具：SRS65、GENBANK使用的基本信息单位是什么，包括哪几个部分，最后以什么字符结尾？基本信息单位：GBFF（GenBank flatfile, GenBank平面文件）格式：GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一哪几个部分：头部包含整个记录的信息（描述符）、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符：所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq？The Reference Sequence database 参考序列数据库RefSeq数据库，即RefSeq参考序列数据库，美国国家生物信息技术中心（NCBI）提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成，以什么字符开始？8.NCBI的在线和离线序列提交软件是什么？在线提交软件：Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源？同源性和相似性有什么区别？同源性：两条序列有一个共同的进化祖先，那么它们是同源的相似性：序列间相似性的量度同源性和相似性的区别：同源性是序列同源或者不同源的一种论断，而相似性或者一致性是一个序列相关性的量化，是两个不同的概念直系同源（orthology）：不同物种内的同源序列旁系同源（paralogy）：同一物种内的同源序列2、什么是序列比对、全局比对、局部比对？序列比对的关键问题是什么？序列比对：根据特定的计分规则，将两个或多个符号序列按位置比较排列后，得到最具相似性的排列的过程。

生物信息学复习要点

一、名词解释（每小题3分，共30分）1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10．直系同源体簇二、填空题（每空1分，共10分）1．生物信息学主要研究的两种信息载体是和。

2．国际上的三大核苷酸序列数据库分别是、和。

3．数据挖掘的三大技术支柱是、和。

4．相同类型核苷酸的替换称为，不同类型核苷酸的替换称为。

三、单项选择题（每小题1分，共10分）1.在对模式生物进行全基因组的测定中，作为真菌模式生物的是。

A、大肠杆菌B、青霉菌C、酵母菌D、线虫2．NCBI成立于。

A、1988年B、1989年C、1990年D、1992年3．根据数据库管理系统所支持的基本数据模型的不同，可以将数据库分为五类，其中第二代数据库是。

A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4．在向GenBank投送序列的工具中，是标准的序列投送工具。

A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。

A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。

A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多，其中耗时最短的是。

A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。

A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中，较为常用的方法是。

A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。

A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题（每小题2分，共20分）1．生物大分子携带的三种信息是。

A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换，DBMS提供的两层映射是。

生物信息复习资料

1.Homology （同源）: 在进化上起源相同的两段核苷酸序列，特别是功能较重要的保守区段或基因。

2.Similarity(相似性）: 两个序列（核酸、蛋白质）间的相关性。

3.Identity （同一性）:两个序列（核酸、蛋白质）间未发生变异序列的关系。

4.Ortholog （直系同源）: 具有共同祖先和相同功能的同源基因（无基因复制事件）称为直系同源。

直系同源基因由于物种分化事件产生，它能反映物种之间的进化关系。

5.paralog （并系同源）: 并系同源基因是由于基因（重复）倍增事件产生的相似序列。

6.Xenolog （异同源）: 由于染色体的横向转移而产生的相似序列。

7.global alignment （全局比对）:全局比对是对序列从头到尾进行比较，试图使尽可能多的字符在同一列中匹配。

全局比对适用于相似度较高且长度相近的序列。

8.local alignment （局部比对）:在某些部分相似度较高，而其他部位差异较大的序列。

9.p-value （P 值）：从某一总体中随机选样，根据随机试验中某一抽样事件属于该分布的概率范围，可计算这一随机事件属于该分部的概率，即误差造成的概率，一般用P 值表示。

P 值越小，随机事件造成的概率越小。

10.E-value(E 值或期望值)：是序列比对中代表随机匹配可能性的一个数值。

代表了随机匹配概率造成的相似性的概率，即，目的片段与搜索获得的片段随机配对的可能性。

它的数字越接近于0，这两个片段随机配对的可能性就越小。

11.fasta format （FASTA 序列格式）：最基本的、普遍的序列格式。

第一行描述符开始“>”字符，程序行包含序列，用于序列分析程序。

12.PSI-blast （位点特异的迭代BLAST ）：PSI-BLAST 为检测蛋白质之间的关系提供了遥远的手段。

第一次BLAST 搜索后，利用结果中最相思的序列重新构建PSSM ，然后再使用该矩阵进行第二轮BLAST 搜索，再调整矩阵，搜索，如此迭代，直到找出最佳搜索结果。

《生物信息学》复习资料

Conting（叠连群）：又译作连续克隆系。

为搞清某段DNA的排列顺序而建立的一组克隆。

被克隆的DNA小片段有相互邻接并部分重叠的关系，从而可以完全覆盖该段DNA，一个这样的克隆群即为一个conting。

功能域：蛋白质中具有某种特定功能的部分，它在序列上未必是连续的。

某蛋白质中所有功能域组合起来决定着该蛋白质的全部功能。

基因组：某一物种的一套完整染色体组中的所有遗传物质。

其大小一般以其碱基对总数表示。

基因组学：从事基因组的序列测定和表征描述，以及基因活性与细胞功能关系的研究。

人类基因组计划：HGP主要目标：提供公开的完全的高质量的含有30亿bp的人类基因组全序列。

生物信息学：是分子生物学，信息技术与科学，物理学，数学等学科交叉，结合的产物。

其研究核心是基因组信息学及蛋白质组学。

序列标签位点：人类基因组中只出现一次的位置和序列已知的长度约为200~~500bp的特定DNA序列。

人工神经网络：是对人类大脑特性的一种描述。

简单地讲，它是一个数字模型，可以用电子线路来实现，也可以用计算机程序来模拟，是人工智能研究的一种方法。

一级数据库：数据库中的数据直接来源于试验获得的原始数据，只经过简单的归类整理和注释。

二级数据库：根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的二次数据库。

直系同源：是指来自于不同物种的由垂直家系（物种形成）进化而来基因，并且典型的保留与原始基因有相同的功能旁系同源：指同一基因组（或同系物种的基因组）中，由于始祖基因的加倍而横向产生的几个同源基因，可能会进化出新的与原来有关的功能。

分子钟：某一种蛋白质在不同物种间的取代数与所研究的物种间的分歧时间接近正线性关系，从而将分子水平的这种恒速变异称为“分子钟”。

蛋白质组：由一个细胞或一个组织的基因所表达的全部相应的蛋白质数据库查询：指对序列，结构以及各种二次数据库中的注释信息进行关键词匹配查找数据库搜索：是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、名词解释(31个)1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程息的存贮、信息的涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。

狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对：研究的是多个序列的共性。

序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。

5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。

（来自百度）6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。

用来描述在同一物种由于基因复制而分离的同源基因。

（来自百度）7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。

8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。

（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。

10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。

（来自百度）11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。

（来自文献）12.Gene Ontology 协会：13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。

14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。

16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。

17.Blastn：是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

（来自百度）18.Blastp：是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

（来自百度）19.Blastx：是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

（来自百度）20.Tblastn：是蛋白序列到核酸库中的一种查询。

与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

（来自百度）21.Tblastx：是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。

（来自百度）22.KEGG：京都基因与基因组百科全书，是系统分析基因功能、基因组信息的数据库，它整合了基因组学、生物化学以及系统功能组学的信息，有助于研究者把基因及表达信息作为一个整体网络进行研究。

23.ChIP-Seq：就是通过高通量测序对ChIP所得到的序列进行测序，从而进行蛋白和DNA相互作用相关研究。

24.分子生物网络：25.蛋白质相互作用（PPI）：是指蛋白质分子之间的相关性，并从生物化学、信号转导和遗传网络的角度研究这种相关性。

26.高通量测序：一次性对几百万到十亿条DNA分子进行并行测序，又称为下一代测序技术，其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。

27.比较蛋白质组学：即对模式生物或重要生命过程的蛋白质组学特征进行比较。

28.NCBInr：29.GT-AG结构：30.Entrez检索系统：面向生物学家的数据库查询系统，其特点之一是使用十分方便。

它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本，用户可以从一个数据库直接转入另一个数据库。

31.系统生物学：是从系统水平来理解生物学系统，利用一系列的原理与方法学来研究分子行为与系统特性与功能的关系，通过计算生物学来定量阐明和预测生物的功能、表型和行为。

二、选择题（30个）1.下面哪种数据库源于mRNA信息（A）：A. dbEST、B. PDB、C. OMIM、D. HTGS2.如果我们试图做蛋白质亚细胞定位分析，应使用（）。

A.NDB数据库、B.PDB数据库、C.GenBank数据库、D.SWISS-PROT数据库3.PIR是（）。

A.核酸数据库、B.mRNA数据库、C.启动子数据库、D.蛋白质数据库4.以下哪一项不属于启动子研究围？（）A.CpG 岛预测、B.转录起始点预测、C.糖基化修饰、D.甲基化检测5.HTGS的含义是（C）。

A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列6.STS的含义是（）。

A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列7.HGP是（C）。

A.在线人类孟德尔遗传数据、B.国家核酸数据库、C.人类基因组计划、D.水稻基因组计划8、下列中属于一级蛋白质结构数据库的是：（）A. EMBL、B. DDBJ、C. PDB、D.SWISS-PROT9．BLAST教案所程序中，哪个方法是不存在的？（）A. BLASTP、B. BLASTN、C. BLASTX、D. BLASTQ10．人类基因组的结构特点不包括：（）A. 基因进化、B. 基因数目、C.基因重复序列、D. 基因组复制11、下列哪个选项不是微阵列实验设计的容？（）A. 贝叶斯网络法、B. 对照组的选择、C. 重复样本的使用、D. 随机化原则12、构建序列进化树的一般步骤不包括. （）A. 建立DNA文库、B. 建立数据模型、C. 建立取代模型、D. 建立进化树13、在Genbank数据库中，生物学工作者向其提交数据有两种方式，其中用于提交少量数据的是基于Web方式的（）。

A. BankIt、B. Sequin、C. Version、D. Matrix14、序列数据库包括核酸序列数据库和蛋白序列数据库。

下列哪个不属于蛋白质序列数据库？（） A. PIR 、B. Uniprot、 C. SWISS-PROT、 D. OMIM15、序列数据库包括核酸序列数据库和蛋白序列数据库。

下列哪个不属于核酸列数据库？（）A. Genbank、B. GenPept、C. EMBL、D. DDBJ16、（）是NCBI提供的集成检索工具，通过一次检索可查询NCBI多个子数据库中的相关信息。

A. Retrieve、B. SRS、C. Entrez、D. PIR17、Entrez数据库中的剪贴板的容量是（）。

A.500条记录、B.1000条记录、C.5000条记录、D.10000条记录18、蛋白质信号肽的预测工具有（）。

A.nnpredict、B.PredictProtein、C.SingalD、D.SingalP19、Bioinformatics的含义是（）。

A. 生物信息学、B. 基因组学、C. 蛋白质组学、D. 表观遗传学20、目前应用于基因芯片表达数据统计分析的主要方法是（）。

A. 卡方检验、B. 相关分析、C. 聚类分析、D. 正态性分布检验21、NCBI中人类无冗余基因数据库是（）。

A. UniGene、B. UniPro、C. UniRef、D. URF22、基本局部比对搜素工具是（）。

A. Mega、B. ClustalW、C. BLAST、D. GCG23、根据研究发现，人类基因组中真正编码蛋白质的区域仅占DNA 序列的（）。

A.1-2%、B.3-5%、C.5-10%、D.10-20%24、被誉为“生物信息学之父”的科学家是（）。

A. Dulbecco、B. Sanger、C.吴瑞、D. 林华安25、多序列比对工具是（）。

A. BLAST、B. ClustalW、C. Mega、D. GCG26、生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现？（）A. 以彩色小方块阵列表示、B. 以蜂窝形状表示、C. 以黑白圆点表示、D. 以彩色线条表示27、HTGS的含义是（）。

A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列28、accession number的含义是（）。

A.登录号、B.算法、C.比对、D.类推29、（）是欧洲分子生物学网EMBLnet的主要检索工具，也是一个开放的数据查询系统。

A. Query 、B. SRS、C. PDB、D. PIR30、数据挖掘的四个步骤不包括下列哪个. （）A. 数据选择、B. 数据转换、C. 数据记录、D. 结果分析三、是非题（16个）1、生物学就是实验科学，所有的研究结论从实验中来，于实验中得到验证。

2、比较是科学研究中最常见的方法，在生物信息学研究中，比对是最常用和最经典的研究手段。

3、两个蛋白质序列相似性超过30%就是同源蛋白。

4、蛋白质序列相似性指一级序列中氨基酸残基相同。

5、蛋白质序列相似性指氨基酸残基具有相似特性. 侧链基团大小电荷性、疏水性等相同。

6、核酸序列相似性指序列中相同碱基所占的比例。

7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。

8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。

9、相似性是指一种很直接的数量关系，无需实验验证。

10、相似性是指一种很直接的数量关系，也需实验验证。

11、不同种属间的同源序列称为直向同源序列。

12、不同种属间的同源序列称为共生同源序列。

13、所谓局部比对，即分析两个序列是否有局部序列的相似。

14、所谓整体比对，即找出两个序列全长的最优比对结果。

15、PSI-BLAST是BLAST程序家族中敏感性最高的子程序。

16、PHI-BLAST是BLAST程序家族中敏感性最高的子程序。

四、问答题（15个）1、生物信息学的发展经历了哪几个阶段2、序列的相似性与同源性有什么区别与联系？3、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？4、生物信息学的主要研究领域。