生物信息学简答题讲解学习

合集下载

生信名解和简答

生信名解和简答

1.生物信息学:是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。

通过对生物学实验数据的获取、加工、存储、检索与分析,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。

2.基因(Gene):具有遗传效应的DNA分子片段3.基因组(Genome):细胞或生物体的全套遗传信息的全部遗传物质4.阿尔茨海默病(Alzheimer disease,AD),又叫老年性痴呆,是一种中枢神经系统变性病,起病隐袭,病程呈慢性进行性。

主要表现为渐进性记忆障碍、认知功能障碍、人格改变及语言障碍等神经精神症状,严重影响社交、职业与生活功能。

AD的病因及发病机制尚未阐明,特征性病理改变为β淀粉样蛋白沉积形成的细胞外老年斑和tau蛋白过度磷酸化形成的神经细胞内神经原纤维缠结,以及神经元丢失伴胶质细胞增生等。

5.遗传图谱:遗传图谱(genetic map)又称连锁图谱(linkage map)它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。

遗传图谱的建立为基因识别和完成基因定位创造了条件。

6.物理图谱:物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。

绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。

7.序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。

DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。

通过测序得到基因组的序列图谱.8.转录图谱: 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。

生物信息学复习题及答案

生物信息学复习题及答案

生物信息学复习题及答案1. 什么是生物信息学?生物信息学是一门交叉学科,它结合了生物学、计算机科学和信息技术,用于管理和分析生物数据。

它涉及基因组学、蛋白质组学、转录组学等多个领域,目的是从大量生物数据中提取有用的生物学信息。

2. 基因组学的主要研究内容是什么?基因组学主要研究基因组的结构、功能和相互作用,包括基因的识别、基因表达的分析以及基因组的比较研究。

3. 转录组学与基因组学有何不同?转录组学关注的是细胞在特定条件下转录产生的所有RNA分子,而基因组学研究的是整个基因组的DNA序列。

转录组学可以揭示基因表达的变化,而基因组学提供了基因存在的信息。

4. 蛋白质组学研究的是什么?蛋白质组学研究细胞或组织中所有蛋白质的组成、结构、功能和相互作用。

它涉及蛋白质的鉴定、定量和功能分析。

5. 生物信息学中常用的数据库有哪些?常用的生物信息学数据库包括GenBank、PDB(蛋白质数据银行)、UniProt和KEGG等,它们存储了大量的基因、蛋白质和生物途径信息。

6. 什么是序列比对?序列比对是将两个或多个生物序列(如DNA、RNA或蛋白质序列)进行排列,以便识别出相同或相似的区域,这是发现序列间同源性的重要方法。

7. 简述系统发育树的构建过程。

系统发育树的构建通常包括以下步骤:收集序列数据、选择适当的比对方法进行序列比对、计算序列间的同源性、选择系统发育分析方法(如最大似然法、邻接法等)构建树,并进行树的优化和验证。

8. 什么是基因表达谱分析?基因表达谱分析是一种研究基因在不同条件下表达模式变化的技术,它可以帮助我们理解基因如何响应环境变化或参与特定生物学过程。

9. 什么是高通量测序技术?高通量测序技术,也称为下一代测序技术,是一种能够快速、低成本地测定大量DNA或RNA序列的技术,它在基因组学、转录组学等领域有广泛应用。

10. 什么是生物信息学中的网络分析?网络分析在生物信息学中用于研究生物分子间的相互作用,如蛋白质-蛋白质相互作用网络、基因调控网络等,它有助于揭示生物系统的复杂性和动态性。

生物学中的生物信息学知识点

生物学中的生物信息学知识点

生物学中的生物信息学知识点生物信息学是生物学和信息学的交叉学科,将计算机科学、统计学和数学等方法应用于生物学的研究中,以解决生物大数据处理、基因组学、蛋白质组学和生物信息分析等领域的问题。

下面将介绍生物信息学的几个重要知识点。

1. DNA、RNA和蛋白质序列分析DNA、RNA和蛋白质是生物体中三种重要的生物分子,它们的序列信息对于理解生物体的功能和进化有着重要意义。

生物信息学通过各种序列分析方法,如序列比对、序列搜索和序列模式识别,可以揭示DNA、RNA和蛋白质的结构、功能和相互作用等信息。

2. 基因组学和转录组学基因组学是研究生物体基因组的结构和功能的学科。

生物信息学在基因组学领域中发挥着关键作用,能够进行基因组测序、基因注释和基因调控网络的分析。

转录组学是研究生物体基因在特定的时间和空间上的表达模式和调控机制的学科,生物信息学可通过基于高通量测序技术的转录组数据分析,揭示基因表达的规律和调控网络。

3. 蛋白质结构预测和功能注释蛋白质是生物体中最重要的功能分子,其结构与功能密切相关。

通过生物信息学方法,如蛋白质结构预测和功能注释,可以推测蛋白质的结构和功能。

这对于理解蛋白质的生物学功能、药物设计和疾病的研究具有重要意义。

4. 基因调控网络分析生物体内的基因调控网络是复杂的,涉及到多个基因和调控元件的相互作用。

生物信息学可以通过整合转录组、表观基因组学和蛋白质互作数据等信息,构建和分析基因调控网络,揭示基因调控的机制和关键节点。

5. 生物序列和结构数据库为了方便生物信息学研究者进行序列和结构信息的存储和检索,建立了多个公共数据库,如GenBank、Uniprot和PDB等。

这些数据库包含了大量的生物序列和结构数据,为生物信息学研究提供了重要的资源。

6. 高通量测序技术及其数据分析高通量测序技术的出现使得获取生物序列信息的速度大大提高。

生物信息学通过批量处理和分析测序数据,揭示基因组的结构、功能和进化信息。

生物信息学简答题

生物信息学简答题

1 简答生物信息学产生的历史必然性,以及生物信息学的研究内容。

答:历史必然性:一方面,近50年,计算机科学和信息科学已经成为发展最为迅速的学科领域。

计算机应用的普及,以及各类型数据库在各行各业中的广泛应用,给各个科学的发展带来了新的契机与活力,生物领域中计算机科学和信息学的应用也日益广泛,尤其是计算生物学有了较大的突破,这一切的成果都为生物信息学的产生和发展奠定了坚实的基础。

另一方面,随着实验生物学的迅猛发展,尤其是DNA测序技术日益趋于成熟,测序速度和长度的大幅度提高,实施基因组计划已经具备了必需的实验手段。

20年来,科学家完成了包括人类自身在内的约60种生物的全基因组测序,产生了大量的数据信息。

而生物学数据的积累并不仅仅表现在DNA序列数据方面,与其同步的还有蛋白质一级结构数据。

此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨精度被测定。

当科学家面对如潮水般涌来的数据时,数据的处理和分析就成为了科学家发现的主要“限速步骤”。

数据的收集、分析和应用之间的额巨大反差,迫使全世界主要的研究机构全力转向对生物信息学技术的开发和研究。

生物信息学的诞生和发展是应时所需,是历史的必然。

研究内容:⑴获取各种生物的全基因组及其他数据⑵新基因发现⑶单核苷酸多态性分析⑷基因组中非编码区域的结构与功能⑸从基因组水平研究生物进化及其他遗传语言的可能⑹全基因组的比较研究⑺蛋白质组学研究⑻基因功能预测⑼新药设计和定向化酶⑽遗传疾病的研究以及关键基因鉴定⑾生物芯片2.生物信息学的基本原理和基本分析方法(检索/搜索,比对等)答:建立、检索、处理、利用数学统计方法:动态规划方法、机器学习与模式识别技术、数据库技术及数据挖掘、人工神经网络技术、专家系统;分子模型化技术:量子力学和分子力学计算、生物分子的计算机模拟、因特网技术3.通过一个具体实例分析,说明利用生物信息学进行DNA序列分析鉴定的策略答:①慢性粒细胞性白血病WT1基因WT1基因是人体内一个复杂的基因,它在一些恶性肿瘤患者体内呈现有规律的表达,这使它一直成为多年来研究的热点.WT1在人类多数急性白血病(AL)细胞异常地高表达,而在正常人的骨髓则无表达或极微量表达。

生物信息学的基础知识与分析方法

生物信息学的基础知识与分析方法

生物信息学的基础知识与分析方法生物信息学是一门综合性的学科,旨在通过信息学方法和计算机技术来解决生命科学中的问题。

随着科技的不断发展和生物学数据的急速增长,生物信息学的研究领域已经经过了从基因序列到蛋白质结构、生物系统等多个层面的发展。

在生命科学的应用中,生物信息学已成为研究整个生命系统的关键领域。

基础知识1. DNA序列DNA是细胞遗传信息的载体。

它由四种碱基(腺嘌呤、鸟嘌呤、胞嘧啶和鸟嘌呤)组成。

在细胞的核糖体中,一种三个碱基组成的序列称为密码子,它对应着一个氨基酸。

因此,DNA序列中的每一种组合都可以编码一个特定的氨基酸,最终会组成蛋白质序列。

2. RNA序列RNA是从DNA中转录出来的一条单链分子,包括mRNA、tRNA、rRNA等类型。

mRNA是传递基因信息进行翻译的重要分子,在转录过程中,它通过碱基配对与DNA序列相对应。

tRNA是将特定氨基酸与mRNA相对应的分子,rRNA则是组成细胞核糖体的分子。

3. 蛋白质序列蛋白质是生物体新陈代谢的主要调节剂和执行者。

它们由不同的氨基酸组成,并按照一定的顺序排列形成复杂的三维结构。

每个氨基酸通过化学键结合在一起,形成了肽链。

不同的肽链序列可以编码不同的氨基酸,从而形成了不同的蛋白质。

分析方法1. 基因注释基因注释是将DNA序列中所有的基因和基因元件(如启动子、转录因子结合位点等)对应到它们所编码的功能上的过程。

注释这些基因使得我们能够了解生物体中编码的所有蛋白质和非编码RNA。

2. 基因表达基因表达分析旨在测量mRNA水平从而评估基因转录程度。

这项技术通过检测组织中mRNA的浓度、不同条件下的差异表达以及对不同基因表达模式的比较来研究基因的生理功能和疾病发生的机制。

3. 蛋白质结构预测蛋白质结构预测是指通过计算机模型和实验设计来预测蛋白质的三维结构。

这项技术可以用于在生物信息学上解决复杂的生物问题,例如药物设计、疾病诊断和治疗等。

4. 基因包含关系的分析基因包含关系分析是指在基因组或基因片段中识别包含关系,并将其用来研究生物信息学中的不同问题。

生物信息学试题及答案

生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第 一 学期《生物信息学 》课程试题答案课程号: 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、 简答题(一) 生物信息学及主要内容?(3)生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。

(二) 生物信息学主要由哪三个组成部分?(6)1、 建立可以存放和管理大量生物信息学数据集的数据库;2、 开发确定大数据集中各成员关系的算法和统计方法;3、 使用这些工具来分析和解释不同类型的生物数据,包括DNA ,RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。

(三) 存储在GenBank 中DNA 序列的类型?(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略?(6)1、霰弹测序法(shot gun sequencing):随机打碎大DNA 分子,通过很多测序反应来覆盖整个分子,完整的序列通过使用计算机搜索重叠区来重新拼接。

2、克隆重叠群(clone contig)的方法中,DNA 片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成。

(五) 按制备方式分DNA 芯片的主要类型?(6)1、 原位合成芯片:采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。

探针较短;2、 DNA 微集阵列:将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级:姓名:学号:试题共页加白纸 2张密封线GDOU-B-11-302片。

探针的来源较灵活。

(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异?(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA,分别用用Cy3标定一种RNA,而用Cy5标定另一种RNA。

Cy3发红色荧光,Cy5发绿色荧光。

3、用不同的激发光照射,测定两种样品中DNA的表达量。

生物信息复习资料

生物信息名词解释1、相似性:描述序列相关性的量,同源蛋白质总在三维结构上有显著的相似性。

2、一致性:描述序列相关性的量,两序列同源时,他们的氨基酸或者核苷酸里通常具有显著的一致性。

3、生物信息学:20世纪分子生物学与计算机学穿插产生的新学科,用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸〔基因组〕。

4、蛋白质组学:对高通量蛋白质数据库进展分析的生物信息学工具与方法。

能够大X围的为蛋白质制定功能,确定蛋白质在哪个特殊生理条件下会出现,确定蛋白质之间的作用。

5、比拟基因学:利用生物在进化上的亲缘关系,给予基因组图谱和测序根底上,对的基因和基因组结构进展比拟,来了解基因的功能、表达家里和物种进化,来比拟他们与人类之间的相似与相异,即比拟基因组学。

6、同源〔直系/旁系〕:两条序列之间有一个共同的祖先,那么他们就是同源的,直系同源序列是不同物种内的同源序列,来自物种形成的共同祖先基因;旁系同源基因是通过类似基因复制的机制产生的同源序列。

7、Blast:根本局部比对搜索工具,NCBI用来将一个蛋白质或DNA序列和各种数据库中其他序列进展比对的主要工具,是研究一个蛋白质或基因的最根本方法之一。

8、家族〔family〕:一组##市相关的共享一个或多个结构域/重复域的蛋白为一个家族。

9、结构域〔模块〕/domain〔module〕:蛋白质中能折叠成特定三维结构的一段区域。

10、模体〔指纹〕/motif〔fingerprint〕:蛋白质序列中较短的保守区域,通常指按一定模式排列的氨基酸残基,通常决定一个家族。

11、重复:重复区并不但年度折叠成一个球状的结构域,还包括一些短的重复模体序列。

12、PBD数据库:蛋白质和其他大分子结构的仓库,复制搜集蛋白质的结构信息,收录大量蛋白质三维结构文件,记录有原始结构数据,包括院子坐标,配基的化学结构和晶体结构的描述,通过评估模型质量和它们与实验数据的吻合程度来证实结构,目前拥有超过20000个结构记录。

生物信息学简答题

1.简述PCR引物设计的基本原则。

你知道哪种PCR设计软件?(1. 引物应用核酸系列保守区内设计并具有特异性。

2.产物不能形成二级结构。

3. 引物长度一般在15~30碱基之间。

4. G+C含量在40%~60%之间。

5. 碱基要随机分布。

6. 引物自身不能有连续4个碱基的互补。

7. 引物之间不能有连续4个碱基的互补。

8. 引物5′端可以修饰。

9. 引物3′端不可修饰。

10. 引物3′端要避开密码子的第3位。

Primo Pro 3.4: PCR Primer Design,AutoPrime)2. 你知道哪些中文文献数据库?(《万方数据库》、《中国期刊网》、《维普中文科技期刊数据库》《国研报告》、《中经专网》、《中国资讯行》、《中宏数据库》)3. 分子生物学数据库有哪些类型?各有何特点?(1.基因组数据库:基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。

2.蛋白质数据库:蛋白质数据库(HPDB),建于2004年5月,动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。

服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。

3.核酸数据库:DNA、RNA序列的资料库,主要包括已知序列名称、DNA或RNA全序列及其特性,如启动区、起始和终止密码的位置、编码区、限制酶切位点以及推导的翻译产物蛋白质序列等。

)4. 列举2个常用的生物信息学软件,并做简单介绍(Primer Premier是一款由由加拿大的Premier公司开发的专业用于PCR或测序引物以及杂交探针的设计,评估的软件,主要功能分四种,即引物设计、限制性内切酶位点分析、DNA 基元(motif)查找和同源性分析功能。

MEGA 的全称是Molecular Evolutionary Genetics Analysis 分子进化遗传分析。

生物信息学重点

1.生物信息学?答:(大致地)计算机对生物信息的处理(多数人认为,面窄)计算分子生物学(computational molecular biology)(宽松地)甚至包括医疗成像、图像分析、遗传算法、人工智能、神经网络…(经典)用计算机储存、比较、提取、分析、预言、模拟生物分子的组成与结构。

主要应用(core)是序列分析(新)比较基因组学、功能基因组学、蛋白质组学、结构基因组学。

2. 生命科学发展到什么阶段,起什么作用?答:大量实验数据积累阶段;为生物领域热点课题的研究(如:脑科学和神经科学研究、基因组与细胞的研究、生物大分子的结构与功能研究等)提供理论和数据支持!3. 生物信息学的发展阶段,研究方法,在什么方面应用?答:前基因组时代、基因组时代、后基因组时代;建立生物数据库→搜索数据库→序列分析→统计分析,运用算法、构建数学模型或使用多学科算法;基因组层次分析:如序列 功能、蛋白质、进化研究。

基因芯片:如DNA 芯片(DNA chip),蛋白质芯片的动态数据分析。

药物开发:如寻找药靶、药物分子结构、系统药物开发。

经济价值:生物风险公司。

药物、生物制品、相关试剂、器材。

4. 计算机基础、Linux特点、几种语言特点。

答:包括基础知识、程序语言、算法、数据库、计算机网络;Linux特点:免费,安全,高速,核心小;C/C++/C#:程序员使用得最多的语言,强大、高速(适于作核心程序编写)、库函数极为丰富、操作灵活、无所不能、历史悠久,BLAST等许多著名的生物信息学程序是C编码,难学、难用,编译型语言(产生二进制代码;直接执行产生的二进制代码)。

Perl:字符串操作功能强大、容错型好、可与C语言联合使用、易使用、易开发网络应用,不易图形化,解释型语言(解释器直接执行代码),本身由C编写。

Python:在生物信息学中广泛应用、扩展性好(可与C、Java等混合使用)、数据类型丰富、极易使用、可充分体验高速编程的快感、多平台,速度较慢、适于作外围程序编写,解释型语言,本身由C编写。

生物信息学知识点总结分章

生物信息学知识点总结分章第一章:生物信息学概述生物信息学是一门综合性学科,结合计算机科学、数学、统计学和生物学的知识,主要研究生物系统的结构、功能和演化等方面的问题。

生物信息学的发展可以追溯到20世纪70年代,随着基因组学、蛋白质组学和生物技术的发展,生物信息学逐渐成为生物学研究的重要工具。

生物信息学的主要研究内容包括基因组学、蛋白质组学、代谢组学、系统生物学等。

生物信息学方法主要包括序列分析、结构分析、功能预测和系统分析等。

第二章:生物数据库生物数据库是生物信息学研究的重要基础,主要用于存储、管理和共享生物学数据。

生物数据库包括基因组数据库、蛋白质数据库、代谢数据库、生物通路数据库等。

常用的生物数据库有GenBank、EMBL、DDBJ等基因组数据库,Swiss-Prot、TrEMBL、PDB等蛋白质数据库,KEGG、MetaCyc等代谢数据库,Reactome、KeggPathway等生物通路数据库等。

生物数据库的建设和维护需要大量的人力和物力,目前国际上已建立了众多生物数据库,为生物信息学研究提供了丰富的数据资源。

第三章:序列分析序列分析是生物信息学研究的重要内容,主要应用于DNA、RNA、蛋白质序列的比对、搜索和分析。

常用的序列分析工具包括BLAST、FASTA、ClustalW等,这些工具可以帮助研究人员快速比对和分析生物序列数据,从而挖掘出序列的相似性、保守性和功能等信息。

序列分析在基因组学、蛋白质组学和系统生物学等领域发挥着重要作用,是生物信息学研究的基础工具之一。

第四章:结构分析结构分析是生物信息学研究的另一个重要内容,主要应用于蛋白质、核酸等生物分子的三维结构预测、模拟和分析。

常用的结构分析工具包括Swiss-Model、Modeller、Phyre2等,这些工具可以帮助研究人员预测蛋白质或核酸的三维结构,分析结构的稳定性、功能和相互作用等特性。

结构分析在蛋白质结构与功能研究、蛋白质药物设计等方面发挥着重要作用,为生物信息学研究提供了重要的技术支持。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学简答题1. 生物分子至少携带着三种信息遗传信息功能相关的结构信息进化信息2. 生物信息学的目标和任务收集和管理生物分子数据数据分析和挖掘开发分析工具和实用软件3. 生物信息学研究意义认识生物本质改变生物学的研究方式在医学上的重要意义4. 生物信息学与实验生物学的关系实验生物学(传统生物学or现代生物学):是实验性的;为生物信息学提供相应的数据生物信息学:生物信息的搜集、整理、注释、管理;建立并利用生物信息学数据库;开发生物信息学软件;研究生物信息学算法生物信息学对实验数据分析与利用的结果,为进一步合理、有效地设计实验方案,研究方向等提供有力的指导和合理的建议。

使得新的生物学研究的出发点是理论的生物信息学分析的结果必须通过生物实验科学来进一步验证5. 生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构与功能预测6、代谢途径分析与解析6. 生物分子数据库应满足:(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性(6)非冗余性7. 一个数据库记录(entry)一般由两部分组成:1. 原始序列数据2. 描述这些数据生物学信息的注释8. FASTA格式序列分析软件最常用的格式,包括三部分:在注释行的第一列用字符“>”标识,后面是序列的名字和来源;标准的单字符标记的序列;序列中没有数字或其他非字符。

可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。

9. SWISS-PROT的三个特点:注释、非冗余、交叉索引(1)注释 SWISS-PROT数据分为核心数据和注释两大类。

(2)最小冗余尽量将相关的数据归并,降低数据库的冗余程度。

如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。

(3)与其它数据库的连接:对于每一个登录项,有指向其它数据库的指针10. SWISS-PROT数据的来源:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据11. 导致的结果:冗余数据可能导致的潜在错误如果一组DNA或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大;序列间不同部分的显著相关,在数据样本抽样时可能是有偏的和不正确的;如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法—发生偏离12. 消除误差合理利用数据库:严格、合理地构建数据库去除污染的序列,合理地把握数据库的非冗余和冗余的标准合理、恰当地使用数据库结合实验研究,合理有效利用数据库坚持实验第一原则,实践是检验真理的唯一标准13. Entrez系统的使用进入NCBI主页(www.ncbi.nlm.nih),即可看到位于页面上部的数据库检索栏,其缺省检索选项为核酸序列数据库All Databases,应该先选择适当的数据库,然后在检索栏中输入需要查询的内容。

14. 如何设计科研计划资料查询资料汇总分析优劣寻找出路制定方案斗胆创新15. 序列比较的根本任务是:寻找序列之间的相似性辨别序列之间的差异16. 目的:1.相似序列:相似的结构,相似的功能2.判别序列之间的同源性3.推测序列之间的进化关系17. 序列比对的基本思想,是找出检测序列和目标序列的相似性。

比对过程中需要在检测序列或目标序列中引入空位(一般用”-”来表示),以表示插入或删除(图2)来比较两个(双序列比对)或多个序列(多序列比对),使得这些序列获得最大匹配。

18. 蛋白质打分矩阵等价矩阵氨基酸突变代价矩阵GCM疏水矩阵PAM矩阵BLOSUM矩阵PAM矩阵19. BLAST程序结果解读程序名称、版本号以及文献引用出处检索序列的名称、数据库名称;图示主要比对结果列出相似性值较高的序列条目,以及它们在数据库中的编号和简要说明,每个条目后面给出相似性分数值Score和期望频率值E,以相似性分数值大小为序排列,相似性分数越高,相似性越大;E值则表示随机击中(匹配)其他序列的可能性,E值越大,随机匹配的可能性也越大。

最后给出检测序列和目标序列的比对结果。

20. 核酸序列分析的主要任务预测基因的编码区分析基因表达的调控特点21. 分析的步骤(1)找出序列中的非编码区序列中载体污染的剔除重复元件的发现CpG岛启动子位点Poly-A位点间质缔合区(Matrix association region,MAR)转录因子结合位点(2)找到和鉴定基因序列的编码区(外显子)构建基因的外显子模型数据库相似性搜索与模式生物基因组的同源区比对22. 核酸序列分析应注意的问题对真核生物序列,首先遮蔽重复序列程序的特定生物物种适用性程序的序列特定性(DNA或cDNA)序列的长度多方面的证据与验证23. 序列污染的来源载体序列接头和引物序列转座子和插入序列DNA和RNA样品污染24. 序列污染的后果导致无意义的分析对序列的生物显著性作出错误的判断导致错误的叠连群拼接和ESTs分群导致数据库的污染25. 密码子偏好性编码区特有的序列组成特征编码区碱基频率的周期性模式碱基在密码子不同位置的倾向性分布密码子的使用频率26. 编码区特有的序列组成特征编码区碱基频率的周期性模式碱基在密码子不同位置的倾向性分布密码子的使用频率27. 常用的方法(1)碱基组成偏好性(base compositional bias)①编码序列中密码子的3个位置上,4种碱基出现的概率有明显差别②密码子的3个位置各有其特征碱基概率分布。

(2)密码子使用频率(codon usage)(3)密码子偏好性(codon bias)①氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致②大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子28. 密码子偏好性的分析作用⑴密码子偏好性分析可预测编码区⑵检测DNA测序错误导致的移码突变29. 为什么预测剪接位点和编码区尚不足以揭示基因结构?⑴编码区预测会错过短的外显子,难以可靠预测外显子内含子边界⑵剪接位点预测可能会产生大量假阳性位点⑶必须综合考虑功能性位点和编码区及非编码区的全局特征30. 核酸序列的物理性质分析:基本理化性质、统计信息限制性内切酶位点碱基组成、GC含量稳定性、解链温度31. 蛋白质数据库都具备三种功能⑴数据的注释(annotation)所有提交到数据库的数据都要由作者或数据库管理人员进行注释方能发布;⑵数据的检索(search)数据经注释之后,访问者可以通过数据库网页上提供的搜索引擎进行搜索,找到自己所需的蛋白质信息;⑶数据的生物信息分析(analysis)访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进行预测,如预测蛋白质的理化性质,预测蛋白质的二级结构,多重序列比对等等。

32. 蛋白质序列分析及结构预测策略⑴实验数据——蛋白质序列⑵理化特性分析——跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等⑶数据库搜索——多序列比对、结构域搜索⑷二级结构预测——如有PDB中同源体——蛋白质折叠识别——折叠家族分析——序列与结构比对——比较建模⑸三级结构预测⑹三维蛋白模型33. 序列特征的初步分析理化特性的预测修饰位点的预测是否为跨膜蛋白或片段是否包含螺旋卷曲结构是否还有低复杂度序列等等34. 折叠子分析和二级结构组分比对分析的几个方面①存在极多相似序列时,看其是否具有相似功能②弱相似时,只有结构相似,而无序列同源,预测可能的功能域,及与已知折叠子内部的核心二级结构的相似区域。

③如果不存在以上情况,只能考虑其中是否含有与已知折叠子中核心结构元件以外的其它区域相似的区域35. 蛋白质的结构预测理化特性分析蛋白质的鉴定二级结构预测几种重要结构分析36. 根据序列预测功能的一般过程①根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。

②比较未知蛋白序列与已知蛋白质序列的相似性;③查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。

37. 结构簇分类(1) 全α型: 三级结构主要是由α螺旋束组成(2) 全β型: 这里指的是蛋白质中所有的链全是β折叠。

折叠可以是反向平行,或者是平行的(3) α+β型: 其α螺旋区与β折叠区相对分离(4) α /β型: 大量β -α - β结构单元组成,β折叠之间相互平行,而α螺旋和β折叠之间呈一种连续的状态38. 三级结构预测的方法1)同源建模:先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。

2)折叠识别3)从头预测:是一种理想方法、是蛋白质预测的终极目标39. SCOP蛋白质结构分类折叠子(fold)——主要是结构相似超家族(superfamily)——可能具有相同的进化起源家族(Family)——进化关系清楚的蛋白质类群40. 基因突变1、核苷酸替代、插入/缺失、重组2、基因转换41. DNA序列突变对氨基酸序列的影响同义(沉默)替代:仍然为同义密码子的核苷酸替代非同义替代:导致产生非同义密码子的核苷酸替代无义突变:导致产生终止密码子的核苷酸突变42. 构造系统发育树的主要方法距离法根据每对物种之间的距离直接计算得到。

所生成的树的质量取决于距离尺度的质量简约法通过寻求物种间最小的变更数来完成的似然法通过标准的统计推断建立系统发育的概率模型其它方法:神经网络方法、Hadamard结合法……43. 构建系统发育树的主要过程数据收集,多序列比对建树评估系统发育信号和进化树的健壮性。

相关文档
最新文档