生物信息学题库说课材料

合集下载

生物信息学课后习题

生物信息学课后习题

绪论1、生物信息学的概念及其组成部分生物信息学(Bioinformatics):是一门交叉学科,包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学的三个组成部分:①建立可以存放和管理大量生物信息学数据的数据库②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具③使用这些工具去分析和解释不同类型的生物学数据2、生物信息学的主要研究领域①生物数据的建立与搜索②序列比较与相似性搜索③基因组结构注释④蛋白质结构与功能的预测⑤基因组数据分析⑥比较基因组合系统发生遗传学分析⑦功能基因组和蛋白质组学数据分析⑧信号传导、代谢和基因调节途径的构建与描述3、初级数据库二级数据库的概念说出几个数据并说明包含什么数据一级数据库(primary database):数据直接来源于实验获得原始数据,只经过简单的归类、整理和注释。

例如GenBank、EMBL、DDBJ、SWISSPORT、PDB二级数据库(secondary database):在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来,是对生物学知识和信息的进一步整理。

例如human genome databases GDB转录因子数据库等4、简述核酸序列的测序①DNA测序一般原理DNA测序一般采用全自动的荧光标记链终止反应完成,该法利用了DNA聚合酶能从脱氧核糖核苷酸(dNTP)延伸但不能从双脱氧核糖核苷酸(ddNTP)延伸的特性,通过加入限量的荧光标记过的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段,然后通过聚丙烯酰胺凝胶电泳(PAGE)分离并通过扫描仪读取序列(300-800bp)②基因组测序策略—分而治之---shortgun因为测序反应每次只能测300-800bp故先将基因组分割成一定大小的片段,然后对这些片段分别测序,测完后再将这些片段拼接起来—鸟枪法(shortgun)③一次性测序例如:表达序列标签(EST)是其中的代表,它对随机挑选的cDNA克隆进行两端一次测序得到300-500bp的片段,代表cDNA的一部分。

生物信息学试题及答案

生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第 一 学期《生物信息学 》课程试题答案课程号: 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、 简答题(一) 生物信息学及主要内容?(3)生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。

(二) 生物信息学主要由哪三个组成部分?(6)1、 建立可以存放和管理大量生物信息学数据集的数据库;2、 开发确定大数据集中各成员关系的算法和统计方法;3、 使用这些工具来分析和解释不同类型的生物数据,包括DNA ,RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。

(三) 存储在GenBank 中DNA 序列的类型?(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略?(6)1、霰弹测序法(shot gun sequencing):随机打碎大DNA 分子,通过很多测序反应来覆盖整个分子,完整的序列通过使用计算机搜索重叠区来重新拼接。

2、克隆重叠群(clone contig)的方法中,DNA 片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成。

(五) 按制备方式分DNA 芯片的主要类型?(6)1、 原位合成芯片:采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。

探针较短;2、 DNA 微集阵列:将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级:姓名:学号:试题共页加白纸 2张密封线GDOU-B-11-302片。

探针的来源较灵活。

(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异?(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA,分别用用Cy3标定一种RNA,而用Cy5标定另一种RNA。

Cy3发红色荧光,Cy5发绿色荧光。

3、用不同的激发光照射,测定两种样品中DNA的表达量。

[整理]《生物信息学》学生复习资料.

[整理]《生物信息学》学生复习资料.

《生物信息学》复习资料陈芳宋东光教材:《生物信息学简明教程》(钟扬编)1 绪论分子生物学与计算机、信息科学的结合-生物信息学(Bioinformatics);Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules.生物信息学及其分支学科分子生物信息学(molecular informatics)-即狭义的生物信息学,指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据;生物信息学(bioinformatics)-广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题,侧重于发展理论模型和有效算法;分子计算(molecular computing)-将DNA作为一种信息储存器,应用PCR 技术和生物芯片等来进行计算。

生物信息学的主要目的不是分子发展最精致的算法,其目的是发现生物体以怎样的方式生存。

生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型,到实现数据分析的新算法,以及开发数据库和访问数据库的Web工具。

生物信息学的功能是表示、存储和分布数据。

开发从数据中发现知识的分析工具处于第二位。

生物信息学发展阶段与研究方向前基因组时代-数据库建立、检索工具的开发和蛋白质序列分析;基因组时代-基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代-大规模基因组分析、蛋白质组分析、各种数据的比较和整合。

《生物信息学》复习资料

《生物信息学》复习资料

超二级结构:是介于二级和三级结构之间的一个结构层次。

有的模体本身有一定的功能,有的与其他的结构成分协同发挥作用。

Conting(叠连群):又译作连续克隆系。

为搞清某段DNA的排列顺序而建立的一组克隆。

被克隆的DNA小片段有相互邻接并部分重叠的关系,从而可以完全覆盖该段DNA,一个这样的克隆群即为一个conting。

蛋白质组:对应于基因组的概念,指由一个细胞或一个组织的基因所表达的全部相应的蛋白质。

蛋白质组是一个动态的概念:①和基因不一样。

不同组织和不同发育时期都不一样②基因在转录后,还有一系列的修饰,翻译等过程都可以影响蛋白质的表达。

因此通过对蛋白质组的研究,在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题以及与人类健康和疾病相关的生物医学问题。

单核苷酸多态性:在DNA的某一个位点处的核苷酸,有一部分是A,另一部分是T,其他为G和C,如果各种情况的比例均为1%,则称该位点处的核苷酸为多态性的。

就一个位点而言,SNP最多为4种。

但人类基因组很多,估计平均每1000bp就有一个SNP,因此整个金一组可有3*1000000个SNP位点,因此产生多态性就是非常多了。

已知人类基因组DNA序列中最常见的变异形式是SNP。

非蛋白质编码区:非蛋白质编码区占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成分或由其表达的RNA成分:内含子、卫星DNA、小卫星DNA、微卫星DNA、非均一核RNA、短散置元、长散置元、伪基因等。

除此之外,顺式调控原件如启动子、增强子等也属于非编码序列。

分裂基因、割裂基因、不连续基因:基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

其中,编码的序列叫外显子,对应于心事RNA序列的区域。

不编码的叫内含子,通常比外显子大得多。

基因两端起始和结束于外显子,对应于转录产物RNA和5和3端。

如果一个基因含n个内含子,则n+1个外显子。

华中农业大学《生物信息学》讲义

华中农业大学《生物信息学》讲义

生物信息学王石平(华中农业大学生命科学技术学院)2005.2.23211.69.135.104/bio-informatics.files/bio-infor.htm /Embnetut/Gcg/index.htm一、数据库1.核苷酸数据库GenBank 、EMBL 、DDBJ (在使用方法和连接的数据库上有差异,但数据量相同。

) 注:氨基酸序列是非试验来源,为推倒的结果。

使用时要谨慎!!!!)(1)GenBank(NCBI)数据解释。

/注:Display 中选FASTA 形式,显示原始的核苷酸数据,便于复制。

每条序列的3种编号(identifier)无意义)定义(描述) 版本 X.Y 1.位点名(基本2.注册号 3.Geninforidentifier(GI 号) 6位(X12345)或8位数字(XY123456);例外:自编号(一般为基因组序列)物种类型一般与Accession NO.相同(今6位型:属+种+X12345 8位型:与AC 相同10位数:早期8位数:现注:NID(Nucleotide ID) 1999.12取消,改用序列的数据可以更改,GI 号、NID 号变化,但AC 号不变。

GI 号。

Coding sequence 谨慎使用!!!! 最后一条Reference 序列提交者的文章为。

可以知道这一基因的研究历史,便于研究。

(2)dbESTEST来源于mRNA-基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)-5’端或3’端的cDNA序列(EST)-300-400bp single-pass sequence (可能有误,如果要求<0.1%的错误率,需要测序8-10次)-GenBank中71%以上的是EST序列。

/dbEST/index.html(3)UniGene来源于同一基因的非重复EST,组成基因序列群(contig)注:不同实验室各自采用poly(T)15法和随机引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重叠群(Contig)/UniGene/(4)dbSTS (sequence tagged sites)a.短序列(200-500bp)b.已完成染色体上的定位c.可以与电子PCR相连用/dbSTS/index.html(5)dbGSS (genome survey sequence)a.基因组短序列b. cosmid、BAC、YAC外源插入片断末端序列c. Alu PCR 序列/dbGSS/index.html(6)HTG (high-throughput genome sequence)尚未完成测序的重叠群(>2kb)更新快!!!/HTGS/(7)dbSNP每100-300bp有一个SNP/SNP/(8)EMBL/embl/(9)DDBJhttp://www.ddbj.nig.ac.jp/(10)EPD (Eukaryotic Promoter Database)启动子数据库http://www.genome.jp/dbget/dbget2.html2.蛋白质数据库(1)SWISS-PROT/sprot/有详细的注释序列;与44个数据库相互参照(cross-reference)(2)TrEMBL (translation of EMBL)(3)PIR (Promoter information resource)/pir/表明了结构域(4)PRF (Promoter research foundation)http://www4.prf.or.jp/(5)PDBSTR (Re-organized Protein data Bank)/sprot/prosite.html蛋白质的二级结构、α-碳位置(6)Prosite蛋白质家族、结构域/prosite/3.结构数据库(1)PDB (Protein Data Bank)/pdb/(2) NDB (Nucleic Acid Database)/NDB/ndb.html(3)DNA-bind Protein database/NDB/structure-finder/protein/index.html(4)swiss-3D IMAGEhttp://www.expasy.ch/sw3d/4.酶和代谢数据库(1)KEGG (Kyoto Eneyclopedin of genes & genemes)http://www.genome.ad.jp/kegg/(2)PKR (Protein Kinase Resource)/kinases5.文献数据库(1)PubMed/PubMed/(2)OMIM/Omim(3)Agricola/农业相关的文献6.提交数据GenBankBankIt提交 网上直接提交,立即得到临时编号(1周内提供Aceesion No.)SequIn提交 下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列用Update功能修改二、检索数据库的方法1、用关键词或词组进行的数据库检索 Text-based database searching2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching关键词:名词;描述性词、词组;Accession number体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET) 检索须知1、连接词:AND OR NOT用引号将两个词组成一个词组“disease resistance”表示必须两个词先后顺序连续出现disease resistance 表示默认AND2、wild card “*”放在单词后使检索范围扩大,但是专一性降低Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同(1)Entrz(NCBI)优点:三种检索体系中最容易操作的; 缺点:检索范围有限8大类29个与Entrz体系相连的数据库1、Nucleiotide sequence database(6)GenBank; SNP; Gene; Homologene; UniSTS; ProSet2、Protein sequence database(1)Proteins3、Structure database(4)Structure; PubChem; Compound; 3D-Domain; CDD4、Taxonomy database(1)Taxonomy5、Genome database(2)Genomes; Genome Project6、Expression database(4)UniGene; GEO Profiles; GEO database;GENSAT注:数据库来源于mRNA-cDNA-protein(更确切)7、Literature database(7)PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH8、OthersPubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围)(2)SRS (Sequence Retrieval System)/ 有不同的版本,可以下载。

《生物信息学》题集

《生物信息学》题集

《生物信息学》题集一、选择题(每题3分,共30分)1.生物信息学的主要研究对象是什么?A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术?A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中,进行多序列比对时常用的软件是什么?A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析?A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中,下列哪项不是常用的序列分析技术?A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用?A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测?A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中,下列哪项不是基因注释的内容?A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术?A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用?A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题(每题2分,共20分)1.生物信息学是一门交叉学科,它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中,______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中,______是一种常用的数据标准化方法。

5.生物信息学中,______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中,GenBank主要存储的是______数据。

生物信息学题库

生物信息学题库

■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.—个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区别:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.匕比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪附说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比蘇□局部匕比对的不同:A.全局匕比对通常用于比寸DNA序列,而局部匕比对通常用于比寸蛋白质序列B.全局比寸允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

生物信息学习题

生物信息学习题

GTATCACACG ACTCAGCGCA GCATTTGCCC
GTATCACATA GCTCAGCGCA GCATTTGCCC
6、对于下列距离矩阵,用 UPGMA 构建系统发生树。
ABCDE
A0
B3 0
C6 5 0
D 9 9 10 0
E 12 11 13 9 0 7、对下面距离矩阵,用 UPGMA 法构建系统发生树
1、蛋白质得分矩阵类型有 、
、、

等。
2、对位排列主要有局部比对和 三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上,将第二条序列放在 y
坐标轴上。 TGAACTCCCTCAGATATTA CGAACCCTCACATATTAGCG
2、对两个核酸序列 ACACACTA 和 AGCACACA 进行全局比对
第八章 后基因组时代的生物信息学(问题与练习)
1、 比较生物还原论与生物综合论的异同 2、 简述“后基因组生物信息学”的基本研究思路 3、 后基因组生物信息学的主要挑战是什么? 4、 功能基因组系统学的基本特征是什么? 5、 说明后基因组生物信息学对信息流动的最新理解 6、 列举几种预测蛋白质-蛋白质相互作用的理论方法 7、 解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、 解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、 解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
正确的树的可能性比前一种情况大还是小?
5、对于下列 5 条序列的比对构造一个距离矩阵,其中序列之间的距离值为比对中失配的碱
基数目,但是颠换的权值为转换的两倍。
GTGCTGCACG GCTCAGTATA GCATTTACCC
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学题库■一、选择题:1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能4.下面哪种数据库源于mRNA信息:■ dbEST B. PDB C. OMIM D. HTGS5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■ PubMed D. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变: A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵:■ BLOSUM45和PAM250 B. BLOSUM45和PAM1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM115.与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对16.如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 617.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D. tblastp■ blastx18.为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对19.Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留20.根据分子钟假说: A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质,分子进化的速率是逐渐减慢的,就如同不准时的钟■对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定21.系统发生树的两个特征是: A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法22.下列哪一个是基于字母特征的系统发生分析的算法: A. 邻位连接法(NJ法)B. Kimura算法■最大似然法(ML)D. 非加权平均法(UPGMA)23.基于字母特征和基于距离的系统发生分析的算法的基本差异是:■基于字母特征的算法没有定义分支序列的中间数据矩阵B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNAC. 基于字母特征的算法无法运用简约算法D. 基于字母特征的算法的进化分支与进化时间无关24.一个操作分类单元(OTU)可指:A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点25.构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系26.第一个被完整测定的基因组序列是: A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组27.普通的真核生物线粒体基因组编码大约多少个蛋白质:■ 10 B. 100 C. 1000 D. 1000028.根据基因组序列预测蛋白质编码基因的算法的最大问题是: A. 软件太难使用■. 假阳性率太高,许多不是外显子的序列部分被错误指定C. 假阳性率太高,许多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点29.HIV病毒亚型的系统演化研究可以: A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染30.一个典型的细菌基因组大小约为多少bp: A. 20000■. 200000 C. 2000000 D. 2000000031.细菌基因组与真核生物基因组分析工具存在较大差异的主要原因是:A. 细菌拥有不同的密码子 B. 细菌没有细胞核C. 细菌很少有基因与真核同源■细菌DNA的基因含量、组成结构很不一样32.下列具有最小基因组的原核生物可能是:A. 嗜极生物B. 病毒■胞内细菌D. 杆菌33.要证明某大肠杆菌中的某个基因是水平转移而来,需要:A. 分析该大肠杆菌中该基因的GC含量与其他基因是否有很大差异B. 分析该大肠杆菌中该基因的密码子使用与其他基因是否有很大差异C. 系统发生分析该基因与其他物种中基因的同源关系■获取以上三个方面的信息34.C值矛盾是指: A. 某些基因组中核苷酸C的含量少B. 真核生物基因组大小同编码蛋白质的基因个数没有相关性■真核生物基因组大小同屋中的复杂性相关性很小D. 真核生物基因组大小同进化上的年龄相关性小35.成百上千个4~8bp的重复序列单元最可能出现在: A. 散布性重复序列中 B. 假基因中■端粒中D. 片段复制区域36.从头预测真核基因的原因有:A. 外显子/内含子边界难以确定B. 内含子长度可能只有几个碱基对C. 编码区域的GC含量并不总是与非编码区相同■以上三个方面的原因37.人类基因组大小大约是多少Mb: A. 130 B. 300 ■3000 D. 3000038.各种重复元件在人类基因组中大约占的百分比为: A. 5% B. 25% ■50% D. 95%39.蛋白质编码区域占人类基因组百分比是:■ 1-5% B. 5-10% C. 10-20% D. 20-4-%40.人类基因组中GC含量高的区域:A. 基因密度相对较低■基因密度相对较高C. 基因密度多变 D. 基因所含密码子相对较少41.人类复合孟德尔遗传的基因疾病约占疾病基因的:■ 1% B. 10% C. 50% D. 60%42.单基因疾病趋向于:■在普通人群较少见,并且发生时间较早 B. 在普通人群较常见,并且发生时间较早C. 在普通人群较少见,并且发生时间较晚D. 在普通人群较常见,并且发生时间较晚C值真核生物基因组大小同屋中的复杂性相关性很小Feng-Doolittle假定最近序列空隙应该保留HIV用于指导开发针对保守蛋白的疫苗PAM250 80%Refseq源于GenBank,提供非冗余序列信息比较从E 搜索结果应该相当成百端粒中从头以上单基在普通人群较少见,并且发生时间较早蛋白1-5% 第一ФX174 各种50%根据对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定根据假阳性率太高,许多不是外显子的序列部分被错误指定构建多序列比对错误基于字母特征的算法没有定义分支序列的中间数据矩阵假设BLOSUM45和PAM250普通10 确定Unigene 人类1% 人类3000人类基因密度相对较高如果6如果PubMed 天冬N/W/Y为什使用了全局比对系统树的拓扑结构和分支长度细菌DNA的基因含量、组成结构很不一样下列半胱氨酸下列胞内细菌下列全局比对比对整体序列下列最大似然法(ML)下面dbEST下面OMIM要在blastx要证获取以上一个200000一个蛋白质序列一个可能以下NM_15392与PAM它是基于远相关蛋白的局部多序列比对直系不同物种中具有共同祖先的同源序列名词解释1.生物信息学(bioinformatics):是一门结合生物技术和信息技术从而揭示生物学中新原理的科学。

2.鸟枪法测序(shotgun method)一种测序方法,包括从基因组中获得随机的、已测序的克隆片段,并且对初始基因的位置一无所知。

3.BLAST:基本局部相似性比对搜索工具。

在序列数据库中快速查找与给定的序列具有最优局部对准结果的序列的一种序列对算法。

4.整体联配(global alignment):对两个核苷酸或蛋白质序列的全长所进行的比对。

5.FASTA:是第一个被广泛使用的数据库相似性搜索算法,这个程序通过扫描序列中“词”的小配对,从而寻找最优局部比对。

6.算法(algorithm):在计算机程序中包含的一种固定过程。

7.序列比对(alignment):将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保守性),这样评估序列间的相似性和同源性。

8.多序列比对(multiple sequence alignment):三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。

9.最佳联配(optimal alignment):两个序列之间有最高打分值的排列。

10.空位(gap):在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。

相关文档
最新文档