生物信息学名词解释

生物信息学名词解释
生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98

8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似

性)和实际进化距离(如PAM)两类方法。P29

9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个

或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现

象,这些中断的位点称为空位。P29

10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影

响,序列中的空位的引入不代表真正的进化事件,所以要对其进行

罚分,空位罚分的多少直接影响对比的结果。P37

值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以

找到与查询序列(query)相匹配的随机或无关序列的概率,E值越

接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似

性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。

P95

12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度

高的区域,如poly(A)。

13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,

Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)

加点,如果两条序列完全相同则会形成一条主对角线,如果两条序

列相似则会出现一条或者几条直线;如果完全没有相似性则不能连

成直线。

14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这

些序列做一个总体的比对,以观察它们在结构上的异同,来回答大

量的生物学问题。

15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而

可以通过分子进化推断出物种起源的时间。

16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或

其他性状,可以研究推断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个

父分支都只能被分成两个子分支。

系统发育图:用枝长表示进化时间的系统树称为系统发育图,是

引入时间概念的支序图。

18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中

的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)

20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。

21.有根树:能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。

23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。24.最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然

后综合所有位点,找到概率最大的进化树。最大似然法允许采用不

同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。

26.一致树(consensus tree):在同一算法中产生多个最优树,合

并这些最优树得到的树即一致树。

27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集

多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一

段可以编码蛋白的碱基序列。

29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率

与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那

些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好

性。

30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,

内含子与外显子边界,调控区,预测基因组序列中包含的基因。

31.结构域(domain):保守的结构单元,包含独特的二级结构

组合和疏水内核,可能单独存在,也可能与其他结构域组合。

相同功能的同源结构域具有序列的相似性。

32.超家族:进化上相关,功能可能不同的一类蛋白质。

33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质

不一定是同源的,一般10-20个残基。

34.序列表谱(profile):是一种特殊位点或模体序列,在多

序列比较的基础上,氨基酸的权值和空位罚分的表格。

矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另

一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间

的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白

质序列平均发生1%的替代量需要的进化时间。

矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局

部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,

在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。

:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。

:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。

(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。

:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。

41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中

根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集

成到SWISS-PROT数据库中。

(Molecular Modeling Database):是(NCBI)所开发的生物信息数

据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的

生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大

分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生

功能的机制、分子的进化历史等,还提供生物大分子三维结构模型

显示、结构分析和结构比较工具。

数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描

述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提

供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信

息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构

和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其

主要的层次依次是类(class)、折叠子(fold)、超家族(super

family)、家族(family)、单个PDB蛋白结构记录。

:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模

式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模

式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二

硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE

还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一

个序列是否具有相应的特征。

Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质

的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,

生物过程,细胞区室。

47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白

质家族,可以用来搜索序列数据库。

48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因

组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、

位置、功能、表达机制和物种进化的学科。

49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法

构建系统发育树时,如果每个位点的状态至少存在两种,每

种状态至少出现两次的位点。其它位点为都是非简约性信息位点。

1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。

2、2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。

3、3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。

4、4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。

5、5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

6、6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

7、7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程

度相似性的序列。

8、

1. 生物信息学:

1)生物信息学包含了生物信息的获取、处理、分析、和解释等

在内的一门交叉学科;

2)它综合运用了数学、计算机学和生物学的各种工具来进行研

究;

3)目的在于阐明大量生物学数据所包含的生物学意义。

2. BLAST(Basic Local Alignment Search Tool)

直译:基本局部排比搜索工具

意译:基于局部序列排比的常用数据库搜索工具

含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库

3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA

的相似序列发现率。

4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,

主要的缺点是除了在特定位置最常见的残基之外,它们不能表示

任何概率信息。

5.HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和

间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋

白质结构域家族序列的一种严格的统计模型,包括序列的匹配,

插入和缺失状态,并根据每种状态的概率分布和状态间的相互转

换来生成蛋白质序列。

6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分

开的位点。

7. 非信息位点:对于最大简约法来说没有意义的点。

8. 标度树:分支长度与相邻节点对的差异程度成正比的树。

9. 非标度树:只表示亲缘关系无差异程度信息。

10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯

一的路径历经进化到达其他任何节点。

11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过

引入外群或外部参考物种,可以在无根树中指派根节点。

12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是

指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。

13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大

规模数据集的方法。

14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类

型只决定于所使用的算法和数据本身的分析方法。

15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表

达模式分配到一个或多个预定义的类目中。

16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光

分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。

17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进

行的理论酶切(课件定义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)

的方法,从而使分子质量的准确确定成为可能。

质谱分析的两个工具

19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。

20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反

应和物质流的集合体。

21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优

化其药理特性而可能导致药物发现的特殊化合物。就是利用计

算机在含有大量化合物三维结构的数据库中,搜索能与生物大

分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合

物,又称原型物,简称先导物,是通过各种途径或方法得到的

具有生物活性的化学结构

22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配

中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可

能性均有一定的衡量方法(课件定义)。基础上针对特定的应用

目标而建立的数据库。

23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分

支。

24. 系统生物学(systems biology):是研究一个生物系统中所有

组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下

这些组分间的相互关系,并分析生物系统在一定时间内的动力

学过程

25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞

/组织的基因组所表达的全套蛋白质。

26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显

降解的质谱技术。

一、名词解释

1.GenBank:是美国全国卫生研究所维护的基因序列数据库,汇

集并注释了所有公开的核酸序列,与日本的DNA数据库DDBJ

以及欧洲分子实验室核酸序列数据库EMBL一起,都是国际核

苷酸序列数据库合作的成员。

2.EMBL:EMBL实验室—欧洲分子生物学实验室,EMBL数据库—

是非盈利性学术组织EMBL建立的综合性数据库,EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ数据库中的数据进行交换,并同步更新。

3.DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息并赋

予其数据存取号,信息来源主要是日本的研究机构,也接受其他国家呈递的序列。

4.BLAST:基本局部比对搜索工具的缩写,是一种序列类似性检

索工具。BLAST采用统计学几分系统,同时采用局部比对算法,BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST结果中的得分是对一种对相似性的统计说明。

5.BLASTn:是核酸序列到核酸库中的一种查询。库中存在的

每条已知序列都将同所查序列作一对一地核酸序列比

对。

6.BLASTp:是蛋白序列到蛋白库中的一种查询。库中存在的

每条已知序列将逐一地同每条所查序列作一对一的序列

比对。

7.Clustsl X:是CLUSTAL多重序列比对程序的Windows版

本,是用来对核酸与蛋白序列进行多序列比较的程序,

也可以对来自不同物种的功能或结构相似的序列进行比

对和聚类,通过重建系统发生树判断亲缘关系,并对序

列在生物进化过程中的保守性进行估计。

8.Entrez:是由NCBI主持的一个数据库检索系统,它包括

核酸,蛋白以及Medline文摘数据库,在这三个数据库

中建立了非常完善的联系。因此,可以从一个DNA序列

查询到蛋白产物以及相关文献,而且,每个条目均有一

个类邻(neighboring)信息,给出与查询条目接近的信

息。

9.SRS(sequence retrieval system):序列查询系统,是EBI提

供的多数据库查询工具之一。有与Entrez类似的功能外,还

提供了一系列的序列分析工具,可以直接进行在线序列分析处

理。

10.SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,

建立在已知生物大分子结构基础上,利用同源建模的方法对未

知序列的蛋白质三级结构进行预测。

11.homology modeling:是目前最为成功且实用的蛋白质结构预

测方法,它的前提是已知一个或多个同源蛋白质的结构。当两

个蛋白质的序列同源性高于35%,一般情况下认为他们的三维

结构基本相同。

12.Ab initio prediction:蛋白质三级结构预测方法—从头预测

法,在既没有已知结构的同源蛋白质、也没有已知结构的远程

同源蛋白质的情况下,只能采用从头预测方法,即(直接)仅

仅根据序列本身来预测其结构。

13.molecular phylogenetic tree:分子进化树,精确地反映物

种间或群体间在进化过程中发生的极微细的遗传变异,而且借

助化石提供的大分子类群的分化年代能定量地估计出物种间

或群体间的分化年代。

14.gene tree:基因树,表示一组基因或一组DNA顺序进化关系

的系统发生树。

15.neighbor—joining method:邻接法,基于最小进化原理经常

被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有效的的基于距离数据重建系统树的方法之一。

16.maximum parsimony method:最大简约法基于进化过程中所需

核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。

17.MEGA(Molecular Evolutionary Genetics Analysis):是一款

免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度评估等全套功能,能对DNA、mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。

18.BioEdit:BioEdit是一个序列编辑器与分析工具软件。功能

包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、

支持超过20000个序列的多序列文件、基本序列处理功能、质

粒图绘制等等。

19.EST:表达序列标签—是从一个随机选择的cDNA 克隆,

进行5’端和3’端单一次测序挑选出来获得的短的

cDNA 部分序列,代表一个完整基因的一小部分

20.GSS:基因组勘测序列,是基因组DNA克隆的一次性部分

测序得到的序列。包括随机的基因组勘测序列、

cosmid/BAC/YAC末端序列、通过Exon trapped获得基

因组序列、通过Alu PCR获得的序列、以及转座子标记

(序列等。

21.ORF:核酸序列的开放阅读框,一个ORF就是一个潜在的蛋白

质编码区。

22.promoter:启动子,是RNA聚合酶识别、结合并开始转录所必

需的一段DNA序列。

23.3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在

3’非翻译区的polyA。

24.CpG island:是DNA上的一个区域,富含GC,两者以磷酸酯

键相连,长度约几百到几千bp不等,常出现在管家基因或频

繁表达的基因的启动子附近,在这些部位,CpG岛具有阻止序

列甲基化的作用。

25.coiled coil:卷曲螺旋,是蛋白质中由2~7条α螺旋链相互

缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚

化的元件,在机体内执行着分子识别、代谢调控、细胞分化、

肌肉收缩、膜通道等生物学功能。

26.heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,

由多个七肽单元连接而成的重复序列。

27.structure domain:结构域,是在蛋白质三级结构中介于二级

和三级结构之间的可以明显区分但又相对独立的折叠单元,每

个结构域自身形成紧实的三维结构,可以独立存在或折叠,但

结构域与结构域之间关系较为松散。

28.motif:又称模体,实序列中局部的保守区域,或者是一组序

列中共有的一小段序列模式。通常由2、3个二级结构单位组成,一般为α螺旋、β折叠和环。motif作为结构域中的亚单位,表现结构域的各种生物学功能。

29.linux operating system:linux操作系统,Linux是一类Unix

计算机操作系统的统称。Linux操作系统也是自由软件和开放源代码发展中最著名的例子。

30.BioPerl:是Perl语言专门用于生物信息学、基因组学及其他

生命科学领域的工具与函数模块集。

31.PubMed:是一个免费的生物医学文摘数据库,提供部分论

文的摘要及指向全文的链接。作为 Entrez 资讯检索系统的一部分。

32.PDB(Protein Data Bank):PDB是目前最主要的收集生物

大分子(蛋白质、核酸和糖)三维结构的数据库,允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索。

33.HGP(human genome project);人类基因组计划,1990年由美

国能源部(DOE)和国立健康研究院(NIH)资助的一个研究计划。

目的是:①鉴定出人类的所有基因;②确定构成人类基因组

的约30亿个碱基对的序列;③将上述信息储存于专门的数据

库中,并开发出相应的分析工具;④研究由此而产生的伦理、

法律和社会问题并提出相应对策。

34.ncRNA:非编码RNA,是指没有编码蛋白质功能的所有RNA,它

缺乏开放阅读框,常由编码蛋白质的基因反转录而来。

35.miRNA:是一类小的非编码单链RNA,由19~25个核苷酸构成,

广泛存在于动植物中,调节着基因表达。

Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推

测目的基因的编码区序列, 辅助全长cDNA克隆的方法

BLAST:即基本局域联配搜索工具,Basic Local Alignment Search

Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数

据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许

比对中引入间隙。

Entrez :是由 NCBI 主持的一个数据库检索系统,它包括核酸,

蛋白以及 Medline 文摘数据库,在这三个数据库中建立了非常完善

的联系。因此,可以从一个 DNA 序列查询到蛋白产物以及相关文

献,而且,每个条目均有一个类邻 (neighboring)信息,给出与查

询条目接近的信息。 Entrez 中的数据库包括: Entrez 中核酸数

据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR,

PFR, PDB

PSI-BLAST:是一种迭代的搜索方法,可以提高 BLAST 和 FASTA 的

相似序列发现率。

ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋

白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接

成为一个连续的 ORF。当一个新基因被识别,其 DNA 序列被解读,

人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信

息的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,

对应三种不同的起始密码子)ORF 识别包括检测这六个阅读框架并

决定哪一个包含以启动子和终止子为界限的 DNA 。序列而其内部

不包含启动子或终止子,符合这些条件的序列有可能对应一个真正

的单一的基因产物。 ORF 的识别是证明一个新的 DNA 序列为特定的蛋白质编码基因的部分或全部的先决条件。

相似性(similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

生物数据库检索(database query,数据库查询):对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查找.

生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列.

E 值:对某个已识别出的相似度值 S,E 值是分值大于等于 S 的期望频率,改值可以被理解为期望随机得到等于 S 或大于 S 值的分值数目。

序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列.

同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.

Refseq:美国国家生物信息技术中心(NCBI)提供了具有生物意义

上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。

3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在 3’非

翻译区的: polyA。

CpG island:是 DNA 上的一个区域,富含 GC,两者以磷酸酯键相

连,长度:约几百到几千 bp 不等,常出现在管家基因或频繁表

达的基因的启动子附近,在这些部位,CpG 岛具有阻止序列甲基化

的作用。

GSS:基因组勘测序列,是基因组 DNA 克隆的一次性部分测序得到

的序:cosmid/BAC/YAC 末端序列、通过 Exon 列。包括随机的基

因组勘测序列、 trapped 获得基因组序列、通过 Alu PCR 获得的

序列、以及转座子标记(序列等。

EST:表达序列标签—是从一个随机选择的 cDNA 克隆,进行 5’端

和 3’端单一次测序挑选出来获得的短的 cDNA 部分序列,代表一

个完整基因的一小部分.。

MEGA(Molecular Evolutionary Genetics Analysis):是一款免费

的构树软件,:它提供了序列比对、格式转换、数据修订、距离

计算、系统树重建和可信度 mRNA 氨基酸序列及遗传距离进行系统

发生分评估等全套功能,能对 DNA、析以及基因分化年代的分析。

maximum parsimony method:最大简约法基于进化过程中所需核苷

酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构

进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。

neighbor—joining method:邻接法,基于最小进化原理经常被使

用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结

构和分支长度。在重建系统发生树时,认为在进化分子上,发生趋

异的次数可以不同,它是最有效的的基于距离数据重建系统树的方

法之一。

molecular phylogenetic tree:分子进化树,精确地反映物种间或

群体间在进:化过程中发生的极微细的遗传变异,而且借助化石

提供的大分子类群的分化年代能定量地估计出物种间或群体间的

分化年代。

Domain :功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。

EMBL:EMBL 实验室—欧洲分子生物学实验室,EMBL 数据库—是非盈利:性学术组织 EMBL 建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数据进行交换,并同步更新。

BLAST :Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。

SRS(sequence retrieval system):序列查询系统,是 EBI 提供的多数据库查询:工具之一。有与 Entrez 类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。dynamic programming:动态规划程序;它将一个问题合理分解成一些小的子问题,然后利用部分计算解得到最终答案。

Match score maximum likelihood approach methylation microarray microsatellite MIAME(the minimum information

about a microarray experiment) minisatellite mismatch score

molecular clock匹配得分最大似然法:序列比较算法对相同字符

匹配设置的得分。指在一系列的序列比对中,考虑每一个字符被替

代的概率的一种系统发生学方法;也是一种基于纯统计的系统发生

重建方法。一个甲基 ( —CH 3 ) 附着在一个核苷酸的含氮碱基

或者蛋白质上。在一个固体基片上的已知位置固定了 DNA 探针的

有序阵列。在基因组中很多非常短的核酸序列出现的区域,例如串

接出现 5 ‘-CA-3‘的重复序列;通常在个体间变化很大。

PAM unit:PAM 单位是一种进化单位;特别地,指被观察的对象中

每 100 个残基发生一个替换所需要的平均进化时间。对两条序列

进行编辑操作,通过字符匹配和替换,或者插入和删除。

PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要

及指:向全文的链接。作为 Entrez 资讯检索系统的一部分。

motif:又称模体,实序列中局部的保守区域,或者是一组序列中共

有的一小:段序列模式。通常由 2、个二级结构单位组成, 3 一

般为α螺旋、β折叠和环。 motif 作为结构域中的亚单位,表现

结构域的各种生物学功能。

tructure domain:结构域,是在蛋白质三级结构中介于二级和三级

结构之间:的可以明显区分但又相对独立的折叠单元,每个结构

域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结

构域之间关系较为松散。

coiled coil:卷曲螺旋,是蛋白质中由 2~7 条α螺旋链相互缠绕

形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元

件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、

膜通道等生物学功能。

NCBI :美国国立生物技术信息中心(National Center for

Biotechnology Information),1988 年设立,为美国国家医学图

书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学

领域的信息学服务,如世界三大核酸数据库之一的 GenBank 数据

库,PubMed 医学文献检索数据库等。。

Conserved sequence :保守序列。演化过程中基本上不变的 DNA 中

的碱基序列或蛋白质中的氨基酸序列。

Tandem repeat sequences:串联重复序列。染色体上同一碱基序列的多拷贝重复,在物理作图中用作标记物。

Sequence tagged site:序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的

基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。

Gene mapping:基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。

Physical map :物理图谱。不考虑遗传,DNA 中可识别的界标(如限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。UniGene :美国国家生物技术信息中心提供的公用数据库,该数据库将 GenBank 中属于同一条基因的所有片断拼接成完整的基因

进行收录。非蛋白质编码区:非蛋白质编码区(“Junk”DNA)占据

了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有

活力的不同类型的 DNA 的复合体,它们至少包括以下类型的 DNA

成份或由其表达的 RNA 成分:内含子(intron)、卫星(Satellite)

DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、

非均一核RNA (hmRNA)短散置元、(short interspersed

elements)长散置元、(long interspersed elements)、伪基

因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强

子等也属于非编码序列。

PAM方阵:指的是氨基酸置换矩阵,属于打分矩阵,用序列相似的

一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过

程中大部分可能的氨基酸变化。

BLAST(Basic Local Alignment Search Tool):基于局部序列排比

的常用数据库搜索工具。

二级数据库:对于原始生物分子进行整理、分类的结果。是在一级

数据库、实验数据和理论分析的基础上针对特定的应用目标而建立

的(存放从初级数据库派生而来的序列信息的数据库)

权重矩阵:基础上针对特定的应用目标而建立的数据库。

标度树(scaled tree):分支长度与相邻节点对的差异程度成正比

的树。

rooted tree有根树:含有一个被认为是公共祖先的节点、并且该

节点到其他节点只存在唯一路径的一棵系统发生树。

无根树(unrooted tree):只表明节点间的关系,无进化发生方向

的信息,通过引用外群或外部参照物种,可以在无根树中指派跟节

点。(一种系统发育树,所有在树中的种系的最后共同祖先不显示。)

信息位点:由位点产生的突变数目把其中的一颗树与其他树区分开

的位点。在这个位点上至少有两种不同的核苷酸,且这些核苷酸至

少出现两次。

HMM(隐式马尔科夫模型):一种统计模型,它考虑有关匹配,错配

和间隔的所有可能的组合来产生一组序列排列。①

距离法:首先通过各个物种之间的比较,根据一定的假设(进

化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。其次基于这个矩阵中的进化距离关系构建进化树。

近邻:任意一颗无根树中仅被一个内部节点分隔的一对物种。序列注释:是指从原始序列数据中获得有用的生物学信息。这主要是指基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。

系统发育学(phylogenetic):确定生物体间进化关系的科学分支。系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程。

分子途径:指一组连续起作用以到共同目标的蛋白质。

折叠识别法:寻找与已知蛋白最合适的模板,进行结构和序列比对,最终建立机构模型。

又称为线索化方法。(另一版本:先假设一个特定的蛋白构象,然后对这一构象进行评估的过程。)

蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。

虚拟筛选:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(Quantitative structure-activity relationships,QSAR)模型,从现有小分子数据库中,搜寻与靶标生物大分子结合或符合QSAR模型的化合物,进行筛选实验研究。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建 高芳銮(Raindy) 同源模建(homology modeling) ,也叫比较模建(Compatative modeling),其前提是一个或多个同源蛋白质的结构已知,当两个蛋白质的序列同源性高于35%,一般情况下认为它们的三维结构基本相同;序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法, SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器,创建于1993年,面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式:首选模式(First Approach mode)和 项目模式(Project mode)。 本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。 图1 SWISS-MODEL 的主界面 操作流程如下: 1.选择模式 单击左侧的“MENU ”菜单下方的“First Approach mode ”,右侧窗口自动SWISS-MODEL 工作窗口,在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列,SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号,如图2所示。 《生物信息学分析实践》样 稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置 当前版本只有一个选项可设置,如果用户需要使用指定的模板,可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码,其格式为“PDBCODE+ChainID ”,如“1uf2P ”。本例不使用指定模板,默认留空。完毕,点击“Submit Modeling Request ”提交模建请求,服务器返回提交成功的提示,如图3所示: 图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新,直至模建完成,如图4所示,同时模建结果也会发送到指定的邮箱。 3结果解读 点击下图右上方的“Print/Save this page as ”后的图标,可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息:模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。 《生物信息学分析实践》样稿

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

生物信息学名词解释(原创)

名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试) 基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。 基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。 负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。 正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。 一次数据库:记录实验的结果和一些初步的解释。 二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。 空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。 Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。 FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。 genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。 查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。 打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。 空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。 Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。 E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO? (3) GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3) GO注释的意义? (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息? (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4) 什么是差异蛋白的功能富集分析&WHY? (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程? (7) KEGG通路注释的意义? (7) 为什么有些蛋白没有KEGG通路注释信息? (8) 什么是差异蛋白的通路富集分析&WHY? (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析(Clustering) (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路? (12) 蛋白质相互作用网络分析结果文件解析 (12)

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

生物信息学分析

生物信息学分析 生物信息学难吗? 经常有人向我问这个问题,这有什么疑问吗?如果不难学,根本就不用问我这个问题。也无需投入那么多时间精力就能掌握,更无需花费三四千元参加线下的培训班,也不会月薪过万。所以,答案很肯定,道理很简单:生物信息比较难学。 为什么难学? 我总结里几点原因。首先,这是一个交叉学科,要求你既要有生物学的基础,又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类,有很多东西需要去学习,还需要学习计算机知识。很多人一门内容还没学明白,现在还得在加一门,这就属于祸不单行,雪上加霜,屋漏偏逢连夜雨。因此,这种既懂生物学,又懂计算机的复合型人才就比较短缺。而且,生物信息本质上属于数据挖掘,除了生物,计算机,到后面还需要极强的统计学知识才能做好数据分析,所以,还得加上统计学,也就是生物信息学=生物学+计算机科学+统计学三门学科的知识,这也就是为什么生物信息学比较难学。 第二个原因,生物信息本身就包括很多内容,比如DNA的分析,RNA的分析,甲基化的分析,蛋白质的分析等方面,每一

门类又完全不同,从物种方面来分,动物,植物,微生物,医学等有差别很大,很难有一劳永逸,放之四海而皆准的分析方法。 第三个原因就是生物信息是一门快速发展的学习,会出现很多新的测序方法,比如sanger测序,illumina,BGIseq,PacBio,IonTorrent,Nanopore等,每一个平台技术原理完全不同,因此数据特点也完全不同,这就需要针对每一个平台的数据做专门的学习,而且每个平台又在不断的推陈出现,可能今天你刚开发好的方法,产品升级了,都得推倒重来。还有很多新的技术,例如现在比较火的单细胞测序,Hi-C测序,Bionano测序等等内容,以后还出现更多新技术新方法,足够让你活到老,学到老。当然,你先要能活到老,吾生也有涯,而知也无涯。以有涯随无涯,殆已! 高风险才有高收益 当然啦,虽然你已经看到学习生物信息肯定是不容易了,门槛很高,但是呢,门槛高也有很多好处,就是挡住了一部分人,当你学会了,迈过门槛,你的身价就提高了。如果人人都很容易掌握了,那么也就不值钱了。所以,生物信息,前途是光明的,道路是曲折的。

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 ¥ 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 ? 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。[ 3) 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

相关文档
最新文档