生物信息学题库

合集下载

生物信息学期末复习资料（小字）

生物信息学期末复习资料（小字）名词解释或辨析。

1.生物信息学：生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.基因芯片：固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交，可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划：HGP，是一项规模宏大，跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体（指单倍体)中所包含的30亿个碱基对组成的核苷酸序列，从而描绘人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

4.中心法则：分子生物学的基本法则，是1958年由克里克（Crick）提出的遗传信息传递的规律，包括由DNA到DNA的复制，由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的发现，表明还有由RNA逆转录形成DNA的机制，是对中心法则的补充和丰富。

5.相似性和同源性：相似性（similarity）和同源性（homology）是两个完全不同的概念。

同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。

相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。

当两条序列同源时，他们的氨基酸或核苷酸序列通常有显著的一致性（identity）。

如果两条系列有一个共同进化的祖先，那么他们是同源的。

这里不存在同源性的程度问题，两条序列要么是同源的要么是不同源的。

1.生物信息学：综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟，基因组遗传和物理图谱的处理，核苷酸和氨基酸序列分析，新基因的发现和蛋白质结构的预测等。

2.蛋白质组：指由一个基因组，或一个细胞、组织表达的所有蛋白质。

《小学生物教师信息科学》课程期末考察题库(全)

《小学生物教师信息科学》课程期末考察题库(全)一、选择题（每题2分，共计20分）1. 下列哪个软件不是生物信息学中常用的序列分析软件？- A. Clustal Omega- B. BLAST- C. MEGA- D. Microsoft Word2. 在进行生物信息学研究时，下列哪个数据库不是常用的基因组数据库？- A. NCBI GenBank- B. Ensembl- C. UCSC Genome Browser- D. UniProt3. 下列哪个生物信息学技术不是目前用于基因组组装的主要技术？- A. 基于测序的技术- B. 基于克隆的技术- C. 基于比较基因组学的技术- D. 基于转录组学的技术4. 在生物信息学中，哪种类型的数据通常被用于蛋白质结构预测？- A. 序列数据- B. 表达数据- C. 结构数据- D. 代谢数据5. 下列哪个工具不是生物信息学中用于生物标志物发现的主要工具？- A. Gene Ontology Enrichment Analysis- B. t-test- D. Random Forest二、简答题（每题5分，共计30分）1. 请简述生物信息学的定义及其主要研究内容。

2. 请简述基因组组装的主要方法和其优缺点。

3. 请简述生物信息学中的数据类型及其应用场景。

4. 请简述生物标志物的概念及其在生物信息学中的应用。

5. 请简述机器学习在生物信息学中的应用及其主要挑战。

三、案例分析题（共计30分）假设你是一名生物信息学研究员，现在手头有一份某生物样本的转录组数据，请列出你的研究步骤，以及每一步的主要任务和目标。

四、论述题（共计20分）1. 请论述生物信息学在现代生物科学研究中的作用和意义。

2. 请论述生物信息学在医学研究和应用中的前景。

生物信息学填空题(个人整理)

1、BLAST教案所程序中，哪个方法是不存在的？（D）A：BLASTP B：BLASTN C：BLASTX D:BLASTQ2、下列哪个软件不是常用来观察蛋白质结构视图的？（D）A：AVS B：Chimera C:MICE D:HMM3、下列哪个不是点突变的类型?(A)A:染色体畸变 B：错义突变 C：无义突变 D：移码突变4、基因突变的效应不包括：（C）A：有利突变 B：中性突变 C：移码突变D：遗传多态现象5、人类基因组的结构特点不包括：（A）A：基因进化 B：基因数目 C：基因重复序列 D：基因组复制6、世界上三大数据库不包括：（B）A:NCBI B:BLAST C:UCSC D:Ensembl7、常用序列比对方法错误的是：（C）A：编辑距离 B：点阵描图 C：局部比对 D：记分模式8、下列哪个不是蛋白质结构模型？（D）A：同源性模型 B：折叠识别 C：ab initio折叠 D： MoLScript结构9、下列哪个选项不是微阵列实验设计的内容？（A）A：贝叶斯网络法 B：对照组的选择 C：重复样本的使用 D：随机化原则10、构建序列进化树的一般步骤不包括：（A）A：建立DNA文库 B：建立数据模型 C：建立取代模型 D：建立进化树11、下列中属于一级蛋白质结构数据库的是：（C）A. EMBLB. DDBJC. PDBD.SWISS-PROT12．蛋白质结构预测分为：（B）A．一级和三级结构预测 B. 二级和空间结构预测C. 三级和空间结构预测D. 二级和三级结构预测13．数据挖掘的四个步骤不包括下列哪个：（C）A. 数据选择B. 数据转换C. 数据记录D. 结果分析14．下列哪项不是生物学研究必备的工具：（A）A.数据分析Ｂ．数据统计Ｃ．因素分析Ｄ．多元回归分析15.Linux中rmdir 命令的功能是：（D）A．改变工作目录 B.删除工作目录C. 创建目录D.删除空目录16．BLAST教案所程序中，哪个方法是不存在的？（D）A：BLASTP B：BLASTN C：BLASTX D:BLASTQ17．下列哪个不是蛋白质结构模型？（D）A：同源性模型 B：折叠识别 C：ab initio折叠 D： MoLScript结构18．人类基因组的结构特点不包括：（A）A：基因进化 B：基因数目 C：基因重复序列 D：基因组复制19、下列哪个选项不是微阵列实验设计的内容？（A）A：贝叶斯网络法 B：对照组的选择 C：重复样本的使用 D：随机化原则20、构建序列进化树的一般步骤不包括：（A）A：建立DNA文库 B：建立数据模型 C：建立取代模型 D：建立进化树三、填空题1、数据格式的建立、数据的准确性和质量控制、方便的数据搜寻方式以及数据的及时更新是数据库建立和维护中的重要问题。

2012生物信息学复习题

2012生物信息学复习题一、选择题1. 根据PAM打分矩阵，下列哪个氨基酸最不容易突变？A) 丙氨酸 B) 谷氨酰胺 C) 甲硫氨酸 D) 半胱氨酸2. 下列哪个句子最好描述了两序列全局比对和局部比对的不同？A) 全局比对通常用于DNA序列，而局部比对通常用于蛋白质序列；B) 全局比对允许间隙，而局部比对不允许间隙；C) 全局比对寻求全局最大化，而局部比对寻求局部最大化；D) 全局比对比对整条序列，而局部比对寻找最佳匹配子序列3. 与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别在哪里？A) 它最好用于比对相关性很近的序列； B) 它是基于近相关蛋白的全局多序列比对；C) 它是基于远相关蛋白的局部多序列比对； D) 它结合了局部和全局比对信息4. 全局比对算法（如Needleman-Wunsch算法）是这样一种算法：A) 把两条比较的蛋白质放到一个矩阵中，然后通过穷尽搜索每一个可能的比对组合来寻找最佳分值的比对；B) 把两条比较的蛋白质放到一个矩阵中，然后通过迭代递归的方法找到最佳的分值；C) 把两条比较的蛋白质放到一个矩阵中，然后通过寻找最佳子序列的方法来找到最佳的比对；D) 能用于蛋白质，但不能用于DNA序列5. 数据库搜索中或双序列比对中，敏感性定义为：A) 搜索算法寻找真阳性（即同源序列）和避免假阳性（即不相干序列，但具有高相似分值）的能力；B) 搜索算法寻找真阳性（即同源序列）和避免假阳性（即没有被搜索算法报告的同源序列）的能力；C) 搜索算法寻找真阳性（即同源序列）和避免假阴性（即不相干序列，但具有高相似分值）的能力；D ) 搜索算法寻找真阳性（即同源序列）和避免假阴性（即没有被搜索算法报告的同源序列）的能力；6. 如有一小段DNA序列，基本上它能编码多少种蛋白？A）1 B）2 C）3 D）67. 有一段DNA序列，如想知道在主要的蛋白质数据库中哪一个与该DNA编码的蛋白最接近，你会选择用哪一个程序？A）blastn B）blastp C）blastx D）tblastx E）tblastn8. blast检索的哪一种输出估计了假阳性的数目？A）E值 B）Bit score C）Percent identity D）Percent positives9. 将下面哪个blast参数改变后会得到更少的检索结果？A）关闭low-complexity filter B）将期望值从1变为0C）提高极限值 D）将打分矩阵从PAM30改为PAM7010.极值分布A）描述了对数据库的query的scores的分布 B）比正态分布的总面积大C）对称 D）形状可用两个参数来描述，即 µ（平均值）和 λ（衰减系数）11.当blast检索的E值减小时A）K值也减小 B）score变大 C）概率p值变大 D）极值分布偏斜率减小12.标准化的blast score（也称为bit scores）A）是没有单位 B）可在不同的blast检索之间比较，即使使用了不同的打分矩阵C）与使用的打分矩阵无关 D）可在不同的blast检索之间比较，但前提是使用相同的打分矩阵13.在EMBL和NCBI数据库中未加工的DNA序列（与注释序列相比）是A）完全重叠了 B）很大程度上重叠了，不过序列不同 C）相对只有一点重叠14.下面的哪种工作，PSI-BLAST搜索最为有效A）在老鼠中找一个人类蛋白质的同源蛋白 B）在数据库查询中找到更多的匹配蛋白 C）在数据库查询中找到更多的匹配DNA序列 D）用模式序列或者信号序列加强数据库搜索15.下面的哪种blast程序是用氨基酸的信号序列在一个蛋白质家族中寻找匹配的？A）PSI-BLAST B）PHI-BLAST C）MS BLAST D）WormBLAST16.下面的哪种blast 程序用来分析免疫球蛋白最好？A）RPS-BLAST B）PHI-BLAST C）IgBLAST D）ProDom17.在一个位点特异性打分矩阵中，列中可以有20种氨基酸。

河大生科院生物信息学考试复习题答案完整版

名词解释1)生物信息学:生物信息学(Bioinformatics)是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)人类基因组计划: 是由美国科学家于1985年率先提出，于1990年正式启动的，宗旨在于测定组成人类染色体（指单倍体）中所包含的30亿个碱基对组成的核苷酸序列，从而绘制人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

3)基因芯片:又称DNA阵列或DNA芯片是一块带有DNA微阵列（micorarray）的特殊玻璃片或硅芯片片，在数平方厘米之面积上布放数千或数万个核酸探针；检体中的DNA、cDNA、RNA等与探针结合后，借由荧光或电流等方式侦测。

4)中心法则:是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成DNA的复制过程。

5)一级数据库:一级数据库主要包括原始数据，例如DNA序列、蛋白质序列和蛋白质结构等信息。

数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。

名词辨析1)信息技术与生物信息学：信息技术是研究信息的获取、传输和处理的技术，由计算机技术、通信技术、微电子技术结合而成，即是利用计算机进行信息处理，利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。

生物信息学是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)基因与基因组：基因是指具有遗传效应的DNA片段。

而基因组指的是单倍体细胞中的全套染色体，或是单倍体细胞中的全部基因。

3)相似性与同源性：相似性是指不同染色体之间基因序列的相似或相异程度。

同源性是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。

生物信息学习题

第六章分子系统发生分析（问题与练习）
1、构建系统发生树，应使用
A、BLAST
B、FASTA
C、UPGMA
D、Entrez
2、构建系统树的主要方法有
、
、
等。
3、根据生物分子数据进行系统发生分析有哪些优点？
4、在 5 个分类单元所形成的所有可能的有根系统发生树中，随机抽取一棵树是反映真实关
系的树的可能性是多少？从这些分类单元所有可能的无根系统发生树中，随机选择一棵
库
8、TreeBASE 系统主要用于
A、发现新基因 B、系统生物学研究 C、类群间系统发育关系研究 D、序列比对
二、问答题
1、为什么说 SWISS-PROT 是最重要的蛋白质一级数据库？
2、构建蛋白质二级数据库的基本原则是什么？
3、构建蛋白质二级数据库的主要方法有哪些？
4、叙述 SCOP 数据库对蛋白质分类的主要依据
第八章后基因组时代的生物信息学（问题与练习）
1、比较生物还原论与生物综合论的异同 2、简述“后基因组生物信息学”的基本研究思路 3、后基因组生物信息学的主要挑战是什么？ 4、功能基因组系统学的基本特征是什么？ 5、说明后基因组生物信息学对信息流动的最新理解 6、列举几种预测蛋白质-蛋白质相互作用的理论方法 7、解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
1、蛋白质得分矩阵类型有、
、、
和
等。
2、对位排列主要有局部比对和三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上，将第二条序列放在 y

生物信息学考试参考题目

1. 在NCBI进行BLAST序列比对时，需要输入查询序列的信息，以下错误的格式是（ C ）A. 序列的accession numberB. 序列的giC. 序列对应基因的IDD. FASTA 格式的序列2. 下面这段序列是: ( B )>gi||ref|| Drosophila melanogaster RNA-binding protein 4 CG9654-RA, transcript variant A (Rbp4),mRNAGGATTTTCTTGCCTGTCA TTCAA TTTGTGGTTGGCTTCACCTGAGTGCTGTAGT。

A. DNA序列B. RNA序列C. 蛋白质序列D. 基因3. ExPASy上的工具软件ProtParam提供的是哪一种类型的服务？（ B ）A．蛋白质三级结构分析B．蛋白质序列理化性质预测C．蛋白质二级结构分析D．跨膜结构分析4. 假设你有两条远相关的蛋白，为了比较它们，最好利用下列哪个记分矩阵（A ）A. BLOSUM45或PAM250B. BLOSUM45或PAM1C. BLOSUM80或PAM250D. BLOSUM10或PAM15. 构建系统发生树，应利用CA. BLASTB. FASTAC. UPGMAD. Entrez6. 下面这段蛋白质序列是什么格式? ( D )>gi|4506183|ref|| proteasome alpha 3 [Homo sapiens]MSSIGTGYDLSASTFSPDGRVFQVEYAMKA VENSSTAIGIRCKDGVVFGVEKLVLS KL YEEGSNKRLFNVDRHVGMA V AGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRV AMYVHAYTL YSA VRPFGCSFMLGS。

A. GBFFB. TEXTC. PDBD. FASTA7. 直系同源物概念为（A ）A．不同物种中具有一路先人的同源序列B．具有较小的氨基酸一致性可是有较大的结构相似性的同源序列C．同一物种中由基因复制产生的同源序列D．同一物种中具有相似的而且一般是冗余功能的同源序列8. 美国NIH保护提供的DNA序列数据库是：（ A ）A. GenBankB. ProteinC. dbESTD. dbSNP9. 高分派对片段的英文缩写为（A ）A. HSPB. HMPC. HCPD. HDP10. BLAST比对结果报告中有一统计数值E值，该值大小与匹配度的关系是（ B ）A. 值越小说明匹配度越低B. 值越小说明匹配度越高C. 二者无内在关系D. 以上说法都不对11. NCBI提供了大量的序列分析工具，其顶用来寻觅DNA序列潜在的蛋白质编码区的工具是：（A ）A. ORF FinderB. BLASTC. Scan PrositeD. SAGEmap12. Entrez是哪个网站数据库的检索系统（A ）A．NCBIB．PROSITEC．EBID．PDB13. 若是想找一个和查询蛋白远源的蛋白质，下面哪一种方式最可能成功？ BA．采用PHI-BLAST，因为你能自己选择一个和搜索蛋白质有关的信号序列B．采用PSI-BLAST，因为那个算法利用位点特异性打分矩阵最为敏感C．采用BLASTP，因为你能够调整你的打分矩阵从而使得搜索敏感度最大D．采用专门的物种数据库，因为他们中可能含有这种远源序列。

生物信息技术考试试题

生物信息技术考试试题一、选择题（每题 3 分，共 30 分）1、以下哪个不是生物信息学的主要研究内容？（）A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是（）A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中，常用的标准化方法是（）A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息？（）A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时，常用的构建进化树的方法是（）A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的？（）A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中，预测蛋白质二级结构的方法不包括（）A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中，BLAST 程序主要用于（）A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛？（）A JavaB PythonC C+＋D Fortran10、用于分析基因芯片数据的软件包是（）A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题（每题 3 分，共 30 分）1、生物信息学中的三大核心数据库是_____、＿____、＿____。

2、基因序列的相似性搜索常用的工具是_____。

3、蛋白质的一级结构是指_____。

4、常见的基因注释数据库有_____、＿____等。

5、系统发育树的构建基于_____的原理。

6、生物信息学中常用的数据格式有_____、＿____等。

7、预测蛋白质三级结构的方法主要有_____、＿____。

8、基因表达数据的差异分析常用的方法有_____、＿____。

9、用于分析高通量测序数据的软件有_____、＿____。

《生物信息学》练习题

1、在Genbank中查找以下6个植物蛋白序列：protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。

（1）用EBI上的ClustalW2工具对其进行多序列比对，分析各蛋白序列之间的同源性。

序列比对结果比对结果表明：protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。

（2）利用Phylip软件，选择距离法构建其进化树（要求写出具体的建树步骤）。

1．将蛋白序列保存为FASTA格式，存于txt文档；2.用Clustalx打开txt文本，保存为*.phy文件；3.用seqboot程序打开phy文件，输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件，输出为*_protdist文件5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件6. 用consense程序打开*_neighbor文件,输出为*_consense文件7.用dratree程序打开*_consense文件得到进化树。

（注：由于seqboot软见无法正常运行，因此进化树无法显示）（3）任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。

选择protein3: NP_190855.1一级结构网址：/tools/protparam.htmlNumber of amino acids: 456 氨基酸数目Molecular weight: 51154.5 相对分子质量Theoretical pI: 8.69 理论 pI 值Amino acid composition 氨基酸组成Ala (A) 30 6.6%Arg (R) 28 6.1%Asn (N) 15 3.3%Asp (D) 27 5.9%Cys (C) 5 1.1%Gln (Q) 18 3.9%Glu (E) 28 6.1%Gly (G) 37 8.1%His (H) 16 3.5%Ile (I) 16 3.5%Leu (L) 42 9.2%Lys (K) 32 7.0%Met (M) 5 1.1%Phe (F) 17 3.7%Pro (P) 16 3.5%Ser (S) 46 10.1%Thr (T) 21 4.6%Trp (W) 8 1.8%Tyr (Y) 19 4.2%Val (V) 30 6.6%Pyl (O) 0 0.0%Sec (U) 0 0.0%(B) 0 0.0%(Z) 0 0.0%(X) 0 0.0%正/负电荷残基数Total number of negatively charged residues (Asp + Glu): 55Total number of positively charged residues (Arg + Lys): 60Atomic composition: 原子组成Carbon C 2270Hydrogen H 3531Nitrogen N 645Oxygen O 686Sulfur S 10Formula: C2270H3531N645O686S10 分子式Total number of atoms: 7142 总原子数Extinction coefficients: 消光系数Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.Ext. coefficient 72560Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reducedEstimated half-life: 半衰期The N-terminal of the sequence considered is M (Met).The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).>20 hours (yeast, in vivo).>10 hours (Escherichia coli, in vivo).Instability index: 不稳定系数The instability index (II) is computed to be 48.99This classifies the protein as unstable.Aliphatic index: 75.26 脂肪系数Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性/tools/protscale.html蛋白质亲疏水性分析所用氨基酸标度信息Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490分析所用参数信息Weights for window positions 1,..,9, using linear weight variation model:1 2 3 4 5 6 7 8 91.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00edge center edge跨膜结构预测结果（没有跨膜结构）信号肽分析：二级结构预测三级结构预测网站/~phyre2、在拟南芥基因组数据库中（/）查找编号分别为At4G33050, At3G13600，At3G52870或At2G26190基因，针对所查找的基因进行初步的生物信息学分析（每人任选其中一个基因）。

生物信息学习题

1单选(以下哪位科学家获得了两次诺贝尔奖？A.桑格（Frederick Sanger）B.沃森（James Waston）C.霍利（Robert W.Holley）D.克里克（Francis Crick）2单选(‍被称为“DNA之父”的是哪位科学家？A.摩尔根（Thomas H.Morgen）B.沃森（James Waston）C.查加夫（Erwin Chargaff）D.桑格（Frederick Sanger）3单选(被称为“计算机之父，人工智能之父”的是哪位科学家？A.莱布尼兹（Gottfried W Leibniz）B.图灵（Alan Mathison Turing）C.帕斯卡（Blaise Pascal）D.桑格（Frederick Sanger）4单选(‍被称为“现代实验生物学奠基人”的是哪位科学家？A.摩尔根（Thomas H.Morgen）B.达尔文（Charles Darwin）C.桑格（Frederick Sanger）D.孟德尔（Gregor J.Mendel）5单选(被称为“遗传学的奠基人，现代遗传学之父”的是哪位科学家A.孟德尔（Gregor J.Mendel）B.沃森（James Waston）C.查加夫（Erwin Chargaff）D.摩尔根（Thomas H.Morgen）1单选(‍从GenBank的哪一项注释中可以找到关于编码蛋白的信息？A.CDSB.SOURCEC.RBSD.ORIGIN2单选(以下关于GenBank的描述，哪个是正确的？A.GenBank里的一条数据库记录对应一个完整的基因。

B.真核生物的基因经常是分段存储在多条GenBank数据库记录里。

C.真核生物的基因都是整个存储在GenBank的一条数据库记录里。

D.原核生物的基因都是分片段存储在多条GenBank数据库记录里。

3多选(以下关系式正确的是？A.1T=1,000GB.1G=1,000MC.1G=1,000,000KD.1T=1,000,000M4(GenBank数据库中的检索号（Accession）和基因座名（Locus）指的都是一条序列在数据库中的编号，他们永远都是相同的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

■一、选择题: 1. 以下哪一个是mRNA条目序列号： A. J01536 ■. NM_15392 C. NP_52280 D. AAB134506 2. 确定某个基因在哪些组织中表达的最直接获取相关信息方式是： ■. Unigene B. Entrez C. LocusLink D. PCR 3. 一个基因可能对应两个Unigene簇吗？ ■可能 B. 不可能 4. 下面哪种数据库源于mRNA信息： ■ dbEST B. PDB C. OMIM D. HTGS 5. 下面哪个数据库面向人类疾病构建： A. EST B. PDB ■. OMIM D. HTGS 6. Refseq和GenBank有什么区别： A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank，提供非冗余序列信息D. GenBank源于Refseq 7. 如果你需要查询文献信息，下列哪个数据库是你最佳选择： A. OMIM B. Entrez ■ PubMed D. PROSITE 8. 比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A. 因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B. 搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样 ■ 搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同 9. 天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于： ■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10. 直系同源定义为： ■ 不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11. 下列那个氨基酸最不容易突变： A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸 ■ 半胱氨酸 12. PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变： A. 1% B. 20% ■. 80% D. 250% 13. 下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A. 全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙，而局部比对不允许C. 全局比对寻找全局最大化，而局部比对寻找局部最大化 ■ 全局比对比对整体序列，而局部比对寻找最佳匹配子序列 14. 假设你有两条远源相关蛋白质序列。为了比较它们，最好使用下列哪个BLOSUM和PAM矩阵： ■ BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15. 与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别是：A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■ 它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16. 如果有一段DNA序列，它可能编码多少种蛋白质序列： A. 1 B. 2 C. 3 ■. 6 17. 要在数据库查询一段与某DNA序列编码蛋白质最相似的序列，应选择： A. blastn B. blastp C. tblastn D. tblastp ■ blastx 18. 为什么ClustalW（一个采用了Feng-Doolittle渐进比对算法的程序）不报告E值：A. ClustalW报告E值 ■ 使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19. Feng-Doolittle方法提出“一旦是空隙，永远是空隙”规则的依据是：A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■ 假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留 20. 根据分子钟假说： A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质，分子进化的速率是逐渐减慢的，就如同不准时的钟 ■ 对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定 21. 系统发生树的两个特征是： A. 进化分支和进化节点 ■ 树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22. 下列哪一个是基于字母特征的系统发生分析的算法： A. 邻位连接法（NJ法）B. Kimura算法 ■ 最大似然法（ML）D. 非加权平均法（UPGMA） 23. 基于字母特征和基于距离的系统发生分析的算法的基本差异是：■ 基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列，而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24. 一个操作分类单元（OTU）可指：A. 多序列比对 ■ 蛋白质序列C. 进化分支D. 进化节点 25. 构建进化树最直接的错误来源是：■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26. 第一个被完整测定的基因组序列是： A. 啤酒酵母的3号染色体B. 流感病毒 ■ ФX174 D. 人类基因组 27. 普通的真核生物线粒体基因组编码大约多少个蛋白质： ■ 10 B. 100 C. 1000 D. 10000 28. 根据基因组序列预测蛋白质编码基因的算法的最大问题是： A. 软件太难使用 ■. 假阳性率太高，许多不是外显子的序列部分被错误指定C. 假阳性率太高，许多不是外显子功能未知 D. 假阴性率太高，丢失太多外显子位点 29. HIV病毒亚型的系统演化研究可以： A. 证实HIV病毒是由牛病毒演化而来 ■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染

30. 一个典型的细菌基因组大小约为多少bp： A. 20000 ■. 200000 C. 2000000 D. 20000000 31. 细菌基因组与真核生物基因组分析工具存在较大差异的主要原因是：A. 细菌拥有不同的密码子 B. 细菌没有细胞核C. 细菌很少有基因与真核同源 ■细菌DNA的基因含量、组成结构很不一样 32. 下列具有最小基因组的原核生物可能是：A. 嗜极生物B. 病毒 ■ 胞内细菌D. 杆菌 33. 要证明某大肠杆菌中的某个基因是水平转移而来，需要：A. 分析该大肠杆菌中该基因的GC含量与其他基因是否有很大差异B. 分析该大肠杆菌中该基因的密码子使用与其他基因是否有很大差异C. 系统发生分析该基因与其他物种中基因的同源关系 ■获取以上三个方面的信息 34. C值矛盾是指： A. 某些基因组中核苷酸C的含量少B. 真核生物基因组大小同编码蛋白质的基因个数没有相关性 ■真核生物基因组大小同屋中的复杂性相关性很小D. 真核生物基因组大小同进化上的年龄相关性小 35. 成百上千个4~8bp的重复序列单元最可能出现在： A. 散布性重复序列中 B. 假基因中 ■ 端粒中D. 片段复制区域 36. 从头预测真核基因的原因有：A. 外显子/内含子边界难以确定B. 内含子长度可能只有几个碱基对 C. 编码区域的GC含量并不总是与非编码区相同 ■ 以上三个方面的原因 37. 人类基因组大小大约是多少Mb： A. 130 B. 300 ■3000 D. 30000 38. 各种重复元件在人类基因组中大约占的百分比为： A. 5% B. 25% ■50% D. 95% 39. 蛋白质编码区域占人类基因组百分比是： ■ 1-5% B. 5-10% C. 10-20% D. 20-4-% 40. 人类基因组中GC含量高的区域：A. 基因密度相对较低 ■基因密度相对较高C. 基因密度多变 D. 基因所含密码子相对较少 41. 人类复合孟德尔遗传的基因疾病约占疾病基因的： ■ 1% B. 10% C. 50% D. 60% 42. 单基因疾病趋向于：■ 在普通人群较少见，并且发生时间较早 B. 在普通人群较常见，并且发生时间较早 C. 在普通人群较少见，并且发生时间较晚 D. 在普通人群较常见，并且发生时间较晚 C值真核生物基因组大小同屋中的复杂性相关性很小 Feng-Doolittle假定最近序列空隙应该保留 HIV用于指导开发针对保守蛋白的疫苗 PAM250 80% Refseq源于GenBank，提供非冗余序列信息比较从E 搜索结果应该相当成百端粒中从头以上单基在普通人群较少见，并且发生时间较早蛋白1-5% 第一ФX174 各种50% 根据对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定根据假阳性率太高，许多不是外显子的序列部分被错误指定构建多序列比对错误基于字母特征的算法没有定义分支序列的中间数据矩阵假设BLOSUM45和PAM250 普通10 确定Unigene 人类1% 人类3000 人类基因密度相对较高如果6 如果PubMed 天冬N/W/Y 为什使用了全局比对系统树的拓扑结构和分支长度细菌DNA的基因含量、组成结构很不一样下列半胱氨酸下列胞内细菌下列全局比对比对整体序列下列最大似然法（ML）下面dbEST 下面OMIM 要在blastx 要证获取以上一个200000 一个蛋白质序列一个可能以下NM_15392 与PAM它是基于远相关蛋白的局部多序列比对直系不同物种中具有共同祖先的同源序列

名词解释 1. 生物信息学（bioinformatics）：是一门结合生物技术和信息技术从而揭示生物学中新原理的科学。 2. 鸟枪法测序（shotgun method）一种测序方法，包括从基因组中获得随机的、已测序的克隆片段，并且对初始基因的位置一无所知。 3. BLAST：基本局部相似性比对搜索工具。在序列数据库中快速查找与给定的序列具有最优局部对准结果的序列的一种序列对算法。 4. 整体联配（global alignment）：对两个核苷酸或蛋白质序列的全长所进行的比对。 5. FASTA：是第一个被广泛使用的数据库相似性搜索算法，这个程序通过扫描序列中“词”的小配对，从而寻找最优局部比对。 6. 算法（algorithm）：在计算机程序中包含的一种固定过程。 7. 序列比对（alignment）：将两个或多个序列排在一起，以达到最大一致性的过程（对于氨基酸序列是比较他们的保守性），这样评估序列间的相似性和同源性。 8. 多序列比对（multiple sequence alignment）：三个或多个序列之间的比对，如果序列在同一列有相同结构位置的残基和（或）祖传的残基，则会在该位置插入空位。 9. 最佳联配（optimal alignment）：两个序列之间有最高打分值的排列。 10. 空位（gap）：在两条序列比对过程中需要在检测序列或目标序列中引入空位，以表示插入或删除。 11. 模块替换矩阵（BLUSUM）在替换矩阵中，每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的，每个矩阵被修改成一个特殊的进化距离。 12. 可接受点突变（PAM）一个用于衡量蛋白质序列的进化突变程度的单位。 13. 互补序列（complementary sequence）能够与其他DNA片段根据碱基互补序列（A与T配对，G与C配对）形成两练结构的核苷酸序列。 14. 保守序列（conserved sequence）指DNA分子中的一个核苷酸片段或者蛋白质中氨基酸片段，它们在进化过程中基本保持不变。 15. 邻接片段（contig）与支架（scaffold） 16. 邻接片段：一组在染色体上有重叠区域的DNA片段的克隆； 17. 支架：由序列重叠群拼接而成。 18. 注释（annotation）对数据库中原始的DNA碱基序列添加相关信息（比如编码的基因，氨基酸序列等）或其他的注解。 19. 基因预测（gene prediction）用计算机程序对可能的基因所做的预测，它是基于DNA片段与已知基因序列的匹配程度的。 20. 直系同源（Orthologous）指不同种类的同源序列，他们是在物种的形成事件中从一个祖先序列独立进化而成的，可能有相似功能，也可能没有。 21. 旁系同源（paralogous）是通过类似基因复制的机制产生的同源序列。 22. 替换（substitution）在指定的位置不相同的氨基酸进行连配，如果联配的残基有相似的物化性质，那么替换是保守的。 23. 表达序列标签（EST）一种短的DNA片段，是cDNA分子的一部分，可用来鉴定基因，通常用于基因定位和基因图谱中。 24. 多态性（PolyMorphism）多个个体之间DNA的差异叫多态性。 25. 基因预测（Gene Prediction）同19 26. 序列模式（Motif）蛋白质序列中短的保守区域，它们是结构域中保守性很高的部分。 27. 结构域（domain）：蛋白质在折叠时候与其它部分相独立的一个不连续部分，他有自己独特的功能。 28. 开放阅读框（ORF）位于DNA或RNA上起始密码子与终止密码子之间的序列。 29. 表达谱（profile）一个显示某个同源家族中指定位置打分值和空位罚分的表格，可以用于搜索序列数据库。 30. 分子钟（molecular clock）对于每一个给定基因（或蛋白质）其分子进化率大致是恒定的。 31. 系统发生（phylogeny）是指生物种族的进化历史，亦即生物体在整个进化谱 32. 分子进化树（molecular evolutionary tree）在研究生物进化和系统分类中，常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形成为系统发育树(phylogenetic tree)。