生物信息学期末考试答案分析解析

合集下载

大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析一、单选题(每题 3 分,共 30 分)1、生物信息学中,用于分析 DNA 序列的常见软件是()A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息()A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中,开放阅读框(ORF)是指()A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对()A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中,用于分析基因表达数据的常用方法是()A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式()A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中,用于预测蛋白质二级结构的方法是()A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时,常用的数据库是()A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序()A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析:1、答案:A解析:BLAST(Basic Local Alignment Search Tool)是用于比较生物序列相似性的工具,常用于分析 DNA 序列。

ClustalW 主要用于多序列比对;Primer Premier 常用于设计引物;MEGA 用于构建进化树。

2、答案:B解析:PDB(Protein Data Bank)是主要存储蛋白质结构信息的数据库。

GenBank 主要存储核酸序列;UniProt 和 SWISSPROT 主要存储蛋白质序列信息。

生物信息考试题及答案

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学,并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。

《生物工程与Bioinformatics基础》2020-2021期末试题及答案

《生物工程与Bioinformatics基础》2020-2021期末试题及答案

《生物工程与Bioinformatics基础》2020-2021期末试题及答案一、选择题 (每题2分,共20分)1. 以下哪项是生物信息学的核心内容?A. 分子生物学B. 计算机科学C. 统计学D. 生物统计学答案:B. 计算机科学2. 以下哪个数据库是存储基因组序列的数据库?A. PubMedB. GenBankC. PDBD. SwissDock答案:B. GenBank3. 生物信息学中的数据分析方法不包括以下哪项?A. 机器学习B. 聚类分析C. 数据挖掘D. 量子化学计算答案:D. 量子化学计算4. 在生物信息学中,以下哪个工具用于序列比对?A. BLASTB. Clustal OmegaC. FASTAD. R答案:A. BLAST5. 以下哪个是生物信息学中的常用编程语言?A. PythonB. RC. MATLABD. C++答案:A. PythonB. R二、填空题 (每题2分,共20分)1. 生物信息学是运用计算机科学与生物学的交叉领域,旨在开发和应用计算机技术来理解生物数据。

2. 基因组学是研究生物体的全部基因及其表达和调控的学科。

3. 蛋白质组学是研究生物体内所有蛋白质的组成、结构、功能和相互作用的科学。

4. BLAST是一种常用的生物信息学工具,用于核酸或蛋白质序列的相似性搜索。

5. bioinformatics是一个跨学科领域,它结合了计算机科学、信息工程、分子生物学和统计学,以理解生物数据。

三、简答题 (每题10分,共30分)1. 请简要解释生物信息学的应用领域。

生物信息学的应用领域包括基因组学、蛋白质组学、系统生物学、药物设计和疾病建模等。

它被广泛应用于医学、生物学、农业和环境科学等领域,以推动科学发现和技术创新。

2. 请简要介绍生物信息学中的序列比对工具。

生物信息学中的序列比对工具用于比较两个或多个生物序列(如DNA、RNA或蛋白质序列)之间的相似性。

常用的序列比对工具包括BLAST(Basic Local Alignment Search Tool)、FASTA (FAST Allignment Search Tool for Proteins and Nucleotides)和Clustal Omega等。

生物信息学答案1111

生物信息学答案1111

一、名词解释(共15分,每个3分)1.生物信息学:(狭义)专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据的学科;(广义)指生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。

2.系统发生学:phylogenetics,研究物种之间的进化关系的一门学科,从生物信息的角度主要是利用核酸和蛋白质序列分析的方法进行。

3.BLAST:Basic Local Alignment Search Tool的缩写,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。

4.中心法则:是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA,即完成DNA的复制过程。

这是所有有细胞结构的生物所遵循的法则。

5.CHIP:又称微阵列(microarray),有多种形式,主要由大量cDNA、寡核苷酸探针或蛋白质密集排列所形成的探针阵列,其工作的基本原理是通过核酸或蛋白质杂交的远离了检测表达信息。

二、填空题(共10分,每空1分)1. 目前三大主要综合性基因序列数据库是:Genebank;DDBJ和EMBL。

2. 蛋白质的折叠预测方法:同源建模,折叠识别和从头预测。

3. 在Pubmed中进行如下检索W ANG ym [au],表明检索是依据作者姓名;4. 进化树构建过程中采用的主要方法有:UPGMA;Neighbor joining;maximum likelihood;三、选择题(共10分,每个2分)1. 下列哪个选项不是微阵列实验设计的内容?(A)A:贝叶斯网络法B:对照组的选择C:重复样本的使用D:随机化原则2. 构建序列进化树的一般步骤不包括:(A)A:建立DNA文库B:建立数据模型C:建立取代模型D:建立进化树3. 下列中属于一级蛋白质结构数据库的是:(D)A. EMBLB. DDBJC. PDBD.SWISS-PROT4. 蛋白质结构预测分为:(C)A.一级和三级结构预测 B. 二级和空间结构预测C. 三级和空间结构预测D. 二级和三级结构预测5. Cy3/Cy5双色芯片主要用来研究:(D)A.蛋白的定位; B. 基因在染色体上的位置;C. 基因的可变剪接;D. 基因表达模式;四、简答题(共3题,15分)1.生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能(1分)。

生物信息学期末考试答案分析解析

生物信息学期末考试答案分析解析

一、名词Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。

Consensus sequence:共有序列——决定启动序列的转录活性大小。

各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。

EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。

Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology:同源性——是两个对象间的肯定或者否定的关系。

如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。

在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

生物信息学试题及答案

生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第 一 学期《生物信息学 》课程试题答案课程号: 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、 简答题(一) 生物信息学及主要内容?(3)生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。

(二) 生物信息学主要由哪三个组成部分?(6)1、 建立可以存放和管理大量生物信息学数据集的数据库;2、 开发确定大数据集中各成员关系的算法和统计方法;3、 使用这些工具来分析和解释不同类型的生物数据,包括DNA ,RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。

(三) 存储在GenBank 中DNA 序列的类型?(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略?(6)1、霰弹测序法(shot gun sequencing):随机打碎大DNA 分子,通过很多测序反应来覆盖整个分子,完整的序列通过使用计算机搜索重叠区来重新拼接。

2、克隆重叠群(clone contig)的方法中,DNA 片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成。

(五) 按制备方式分DNA 芯片的主要类型?(6)1、 原位合成芯片:采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。

探针较短;2、 DNA 微集阵列:将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级:姓名:学号:试题共页加白纸 2张密封线GDOU-B-11-302片。

探针的来源较灵活。

(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异?(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA,分别用用Cy3标定一种RNA,而用Cy5标定另一种RNA。

Cy3发红色荧光,Cy5发绿色荧光。

3、用不同的激发光照射,测定两种样品中DNA的表达量。

生物大数据期末考试练习题及答案

生物大数据期末考试练习题及答案

一、单选题1、Bioinformatics的含义是()A.表观遗传学B.基因组学C.蛋白质组学D.生物信息学正确答案:D2、利用PubMed文献数据查找论文“Transgenic plants of Petunia hybrida harboring the CYP2E1 gene efficiently remove benzene and toluene pollutants and improve resistance to formaldehyde”的第一作者是A.Xiang TB.Zhang DC.Bao LD.Li P正确答案:B3、被誉为“生物信息学之父”的科学家是()A.吴瑞B.SangerC.林华安D.Dulbecco正确答案:C4、Proteomics的含义是()A.基因组学B.生物信息学C.表观遗传学D.蛋白质组学正确答案:D5、生物信息学主要是利用哪种工具实现对生命科学研究中生物信息的存储、检索和分析的?()A.人造卫星B.iPhoneC.手机D.计算机正确答案:D6、HGP是()A.人类基因组计划B.国家核酸数据库C.在线人类孟德尔遗传数据D.水稻基因组计划正确答案:A7、下列哪些方法不能用于遗传育种()A.基因编辑B.化学诱导突变C.自然选择D.辐射诱导突变正确答案:C8、Genbank数据库中,mRNA的获取号可以以()字母开头A.NM_B.NP_C.XM_D.NC_正确答案:A9、下列那个数据库不属于NCBI()A.ArrayExpressB.NCBI GEOC.PubMedD.Genbank正确答案:A10、大数据处理遇到的瓶颈不包括()A.新算法B.熟悉数据处理的专业人士C.新的构架D.数据量正确答案:D11、可以用来做数据库搜索的比对算法是()A.Smith-WatermanB.Needelma-WunschC.Dynamic programmingD.BLAST正确答案:D12、下列哪个方法最可能在基因组组装过程中留下空缺()A.Mate pair建库B.C.Pair end测序C.长读段测序D.鸟枪法建库正确答案:D13、“一旦空位,永远空位”描述的是()A.渐进比对算法B.迭代比对算法C.分而治之比对算法D.动态规划比对算法正确答案:A14、下列不属于分子生物学数据库的特点的是()A.版本不更新B.数据间关系复杂C.数据库种类繁多D.数据存在冗余和偏差正确答案:A15、GenBank中具有唯一性的字段是()A.AccessionanismC.AuthorsD.Source正确答案:A16、哪个基因组序列还完全未被破解()A.菠萝B.恐龙C.猛犸象D.人类正确答案:B17、下面哪个工具可以用来检验原始读段的质量?()A.BWAB.blastnC.FastqcD.Samtools正确答案:C18、基于边合成边测序的测序方法是()A.Illumina/SolexaB.454/RocheC.NanoPoreD.SOLiD/ABI正确答案:A19、比较成熟的三代测序技术是()A.PacBioB.HelicosC.NanoPoreD.Illumina HiSeq正确答案:A20、不采用荧光标记核苷酸的测序技术是()A.Roche 454B.SangerC.ABI SOLiDD.NanoPore正确答案:D21、靶向测序使用的测序文库是()A.AmpliconB.PEC.Mate pairD.Shotgun正确答案:A22、RNA-seq从头组装的常用工具是()A.TrinityB.CufflinksC.ScriptureD.BWA正确答案:A23、RNA-Seq技术用途不包括()A.基因组测序B.基因定量C.基因融合研究D.基因可变剪切研究正确答案:A24、重测序数据分析的最后一步是()A.SNP分析B.比对C.功能注释D.质控正确答案:C25、影响基因组组装效果的因素不包括()A.读段长度B.测序深度C.测序时间D.测序准确度正确答案:C26、组装基因组时,由重复序列导致的错误类型不包括()A.基因融合B.基因剪切C.基因重排D.重复缺失正确答案:A27、重复序列是在基因组中出现次数大于1的DNA片段,不包括()A.旁系同源基因B.调控序列C.微卫星序列D.转坐子正确答案:B28、研究蛋白质与DNA相互作用的是()A.酵母三杂交B.免疫共沉淀C.酵母双杂交D.ChIP-seq正确答案:D29、在线的染色体可视化工具是()A.Genome browserB.DDBJC.EBID.NCBI正确答案:A30、下列属于最不易突变的氨基酸()A.半胱氨酸B.谷氨酸C.丝氨酸D.天冬氨酸正确答案:A二、多选题1、影响基因组组装效果的因素包括A.测序深度B.测序时间C.读段长度D.测序准确度正确答案:A、C、D2、常用的2个全基因组测序策略是A.鸟枪法B.逐步克隆法C.EST测序法D.重要区域优先测序法正确答案:A、B3、20世纪70年代,出现的2种DNA测序方法是A.化学降解测序法B.焦磷酸测序法C.单分子测序法D.链终止测序法正确答案:A、D4、关于C值悖论的描述正确的有哪些A.进化程度低的生物C值反而更高B.物种的C值和它进化的复杂性之间存在严格的对应关系C.亲缘关系相近的物种间C值差异很大D.C值远远超过了遗传信息量的需要正确答案:A、C、D5、基因组重测序技术可被用于哪些检测领域A.食品掺假检测B.中草药的产区检测C.皮草的真伪检测D.宠物疾病检测正确答案:A、B、C、D三、判断题1、配对测序方式可以用来解决重复序列长度超过read长度,无法拼接易形成断点的问题正确答案:√2、配对测序是一种特殊的双端测序方式正确答案:√3、读段文件除了文本格式之外,还可以用图象表示正确答案:×4、测序深度即测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一正确答案:√5、二代测序数据文件的后缀是.fa或.fastq正确答案:√6、fastaq文件中,Q值越小,测序质量越高()正确答案:×7、基因组从头组装的本质是寻找重叠区域()正确答案:√8、读段长于重复序列的长度才可能填补空缺()正确答案:√9、Contig越长基因组拼接效果越好()正确答案:√10、N50可以作为评估基因组组装效果的一个指标()正确答案:√11、RNA-seq基因对应的读段数量和基因长度及测序深度有关()正确答案:√12、进行有参考基因组的二代测序数据比对时,只需要基因组序列文件即可()正确答案:×13、FPKM是单端RNA-seq基因表达量的表示方法()正确答案:×14、对于复杂基因组,一般一种测序文库就足够了()正确答案:×15、测序文库构建很大程度决定了测序数据的好坏()正确答案:√16、二代测序的核心技术是循环芯片测序法()正确答案:√17、测序深度越高,测序数据量越大()正确答案:√18、二代测序数据文件的后缀是.fa或.fastq()正确答案:√19、基于焦磷酸合成测序的方法是SOLiD/ABI()正确答案:×20、Sanger测序发现时间早于K.Mullis的PCR()正确答案:√21、DNA测序和蛋白质测序相关技术都获得过诺贝尔奖()正确答案:√22、大规模基因组测序主要有逐步克隆和鸟枪法2种策略()正确答案:√23、传统的生物学研究方法是从表型出发()正确答案:√24、多数遗传性状是由单个基因决定的()正确答案:×25、人类基因组计划是中国人主持的第一个国际项目()正确答案:×26、相同长度序列,蛋白质组的复杂度低于基因的复杂度()正确答案:×27、大数据必然会造福人类正确答案:×28、大数据已经成为我国国家战略正确答案:√29、蛋白质发挥生物学功能依赖于其三维结构正确答案:√30、双端测序与单端测序的区别在于,前者需要在DNA片段的两端分别加上引物和连接子正确答案:√三、填空题1、常见的三大核酸数据库中,位于欧洲的是_________。

[试题]生物信息学课后题及答案

[试题]生物信息学课后题及答案

生物信息学课后习题及答案0(由10级生技一、二班课代表整理)0一、绪论01.你认为,什么是生物信息学?0采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

02.你认为生物信息学有什么用?对你的生活、研究有影响吗?0(1)主要用于:0在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等0在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

0(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

03.人类基因组计划与生物信息学有什么关系?0人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

04简述人类基因组研究计划的历程。

0通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

01990,人类基因组计划正式启动。

01996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

01998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。

Celera公司加入,与公共领域竞争启动水稻基因组计划。

01999,第五届国际公共领域人类基因组测序会议,加快测序速度。

02000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

02001,人类基因组“中国卷”的绘制工作宣告完成。

02003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、名词Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。

Consensus sequence:共有序列——决定启动序列的转录活性大小。

各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。

EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。

Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology:同源性——是两个对象间的肯定或者否定的关系。

如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。

在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看作为单一序列。

通过设置不同的百分比,产生了不同矩阵。

PAM(Point Accepted Mutation):突变数据矩阵PAM即可接受点突变——指1个PAM表示100个残基中发生一个残基突变概率的进化距离。

在序列比对中,能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值的矩阵。

Contig:叠连群——是指一组相互两两头尾拼接的可装配成长片段的DNA序列克隆群,也指彼此间可通过重叠序列而连接成连续的、扩展的、不间断的DNA序列的交叠片段产物。

通过比对不同的序列,我们能够发现片段的顺序,并且contigs能被添加、删除、重排列来形成新的序列。

Phylogenetic tree:系统发生树又称为演化树(evolutionary tree)——是表明被认为具有共同祖先的各物种间演化关系的树,是一种亲缘分支分类方法。

在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。

它用来表示系统发生研究的结果,用它描述物种之间的进化关系。

In Silico Cloning:电子克隆——是近年来发展起来的一门基于表达序列标签(ESTs)的快速克隆基因的新技术,其利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全长cDNA,在此基础上也能够实现基因作图定位。

二、问题思考1、生物信息学这门学科是如何发展起来的?答:生物学数据爆炸式增长生物大分子数据库相继建立生物技术与计算机技术并行飞速发展Internet的广泛应用人类基因组计划(HGP)的推动生物信息学的产生是生命科学发展的必然。

2、举例说明生物信息学的主要应用?答: a. 获取各种生物的全基因组及其他数据;b. 新基因发现;c. 单核苷酸多态性分析;d. 基因组中非编码区域的结构与功能;e. 从基因组水平研究生物进化及其他遗传语言的可能;f. 全基因组的比较研究;g. 基因功能预测;h. 遗传疾病的研究以及关键基因鉴定;i. 蛋白质组学研究;j. 新药设计和定向化酶;k. 生物芯片.3、为什么说生物信息学是大规模研究生命科学的利器?答:生物信息学主要是一门研究生物学系统和生物学过程中信息流的综合系统学科,是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。

目前,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解读。

还包括:蛋白质空间结构模拟、预测和药物分子设计;软件开发和方法学研究。

未来,生物信息学将进一步揭示生命系统的复杂性、遗传语言、基因表达谱、基因组、蛋白质组、代谢组、细胞信号组、系统生物学等等。

因此,生物信息学是大规模研究生命科学的利器。

4、生物信息学涉及的生物大分子信息有哪些?答:涉及的有:1)核算序列DNA包括:基因组序列、基因序列、cDNA、EST、碱基修饰、DNA功能模块/位点(如启动子、剪接体、表达调控位点等)。

2)蛋白质Protein包括:氨基酸组成、氨基酸序列、理化性质、原子坐标、二级结构、模体、结构域、功能域/位点、3D结构。

5、在大分子序列分析中,为何局部比对比全局比对更有意义?答:全局比对(global alignment)——指全长序列比对,用于相似性很高的序列间的分析。

局部比对(local alignment)——指生物分子序列常常是局部具有较高的相似性,呈板块分布。

此法用于整体相似性较低的序列分析,灵敏度高。

原因:1)全局比对是沿整个长度实现序列之间匹配的最大化,尝试对齐整个序列。

而局部比对是对动态规划算法的修改,是给两个序列之间得分最高的地方进行匹配,集中在寻找相似度高的序列的延伸。

因此相比而言,在序列分析中将未知序列同已知序列进行相似性比较,局部比对的准确性比全局比对更高。

因为要实现整个序列长度的相似性匹配,比起局部匹配分析带来的误差更大;2)另外,与局部序列比对算法相比,全序列比对算法会导致一些局部序列相似性较高而全序列相似性很小,因为全序列的平均效应而将两者的相似性漏检。

一般对于2个未知关系的序列,使用局部序列比对工具要比用全序列比对工具好。

而对于一个较长的序列和一个较短的序列的比对,也应该使用局部序列比对工具。

3)再则全局比对的最高分是最后一个,而局部比对的任何一个地方都可能是最高分,即任何地方都可以是对位起始点,可见局部比对操作更为灵敏。

4)应用范围上,全局比对仅适用于相似性很高的序列间分析,而局部比对一般用于相似性较低的序列分析,但是也可以用于高相似性序列分析,这样的分析结果会更加精准。

所以局部比对比全局比对更加有意义。

6、在大分子序列分析中,为何蛋白质的取代矩阵比核酸的取代矩阵更复杂?答:取代矩阵(substitution matrix)的规则是“奖励匹配位点,罚扣不匹配位点”,故又称为计分矩阵(scoring matrix)。

核算序列分析利用碱基取代矩阵,通过相似性比对匹配与否进行打分,便可以分析出其大致的碱基组成,特异位点等。

而蛋白质序列利用其氨基酸残基取代矩阵分析,由于蛋白质的序列组成复制,而且蛋白质的功能是通过其三维高级结构来执行的,该结构又不一定处于静态,在行使功能的过程中,一般会发生相应的改变,所以氨基酸残基的进化取代不能简单地表述各种残基在结构和功能上的关系,所以要对蛋白质序列进一步的分析就需要更加复杂的取代矩阵。

7、多重比对的用途?BLAST的用途?答:多重比对的用途主要用于:1)系统演化分析,解释物种之间的进化关系;2)基因预测;3)蛋白质结构域的三级结构与二级结构,甚至是个别的氨基酸或核苷酸;4)研究一个家族中的相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。

BLAST是现在应用最广泛的序列相似性搜索工具,主要用于:1)新DNA序列的发现、定位与分析、结构和功能预测;2)ESTs的分析;3)寻找分析远源关系的蛋白质序列;4)实验设计如PCR Primer,Mutagenesis Studies,构建Profile(--谱)等;5)揭示相似性和同源性,发现系统发育的信息;6)寻找数据库中没有标注的编码区、发现保守区域、特定序列框等重要信息。

8、聚类分析的策略?答:聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

其策略方法为:先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。

第一步:点击File→Load Sequences输入序列文件。

第二步:点击Alignment设定比对的一些参数。

第三步:点击Alignment→Do Complete Alignment开始序列比对。

第四步:点击File→Save Sequence as...比对完成,选择保存结果文件的格式。

9、电子克隆比传统的实验克隆有何优势?为何能实现电子克隆?答:电子克隆利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全长cDNA,在此基础上也能够实现基因作图定位。

其相比实验克隆所具有的优势有:1)实验进程短、快捷、设备简单;2)成本低、得率高、针对性强等;3)对操作人员技术要求不高;4)另外运用电子克隆的方法延伸得到的cDNA几乎囊括了所有疑似为目的基因的cDNA序列。

能实现电子克隆是因为:EST数据库的不断完善,使得电子克隆策略已成为克隆新基因的重要方法。

从GenBank的核酸(nr)数据库中检索已测序列生物的目的基因,获得目的基因cDNA序列,以该序列为模板对另一种未测序列生物EST数据库进行BLAST检索,获得与之部分同源的EST群,从中选取一条EST作为种子序列BLAST检索该生物的EST数据库,将检出与种子序列同源性较高或有部分重叠的EST序列拼接组装为重叠群(contig),再以此重叠群序列重复以上BLAST检索过程,反复进行EST重叠群序列的拼接和比对,直至检出所有的重叠EST或重叠群不能继续延伸,最终获得未测序列生物基因的cDNA全序列。

10、蛋白质分子结构的层次?相应的分析工具?答:蛋白质一级结构分析:1)ProtParam:蛋白质理化参数检索;2)ProtScale:蛋白质亲疏水性分析;3)coiled-coil 卷曲螺旋预测。

相关文档
最新文档