生物信息学名词解释(原创)

合集下载

生物信息-名词解释

生物信息-名词解释

逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。

全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装。

单核苷酸多态性(SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。

遗传图谱又称连锁图谱,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。

遗传图谱的建立为基因识别和完成基因定位创造了条件。

物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。

绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。

转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。

比较基因组学:全基因组核苷酸序列的整体比较的研究。

特点是在整个基因组的层次上比较基因组的大小及基因数目、位置、顺序、特定基因的缺失等。

环境基因组学:研究基因多态性与环境之间的关系,建立环境反应基因多态性的目录,确定引起人类疾病的环境因素的科学。

宏基因组是特定环境全部生物遗传物质总和,决定生物群体生命现象。

转录组即一个活细胞所能转录出来的所有mRNA。

研究转录组的一个重要方法就是利用DNA芯片技术检测有机体基因组中基因的表达。

而研究生物细胞中转录组的发生和变化规律的科学就称为转录组学。

蛋白质组学:研究不同时相细胞内蛋白质的变化,揭示正常和疾病状态下,蛋白质表达的规律,从而研究疾病发生机理并发现新药。

蛋白组:基因组表达的全部蛋白质,是一个动态的概念,指的是某种细胞或组织中,基因组表达的所有蛋白质。

代谢组是指是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢过程中充当底物和产物的小分子物质,如脂质,糖,氨基酸等,可以揭示取样时该细胞的生理状态。

生物信息学名词解释(0001)

生物信息学名词解释(0001)

生物信息学名词解释1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

生物信息学名词解释

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。

2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。

3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。

代表测序方法:solid 测序。

4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。

焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。

在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。

例如:454测序仪:用蛋白质序列查找核苷酸序列。

:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。

它可用PCR方法加以验证。

将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。

在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。

:表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。

生物信息学常用名词解释(一)

生物信息学常用名词解释(一)

生物信息学常用名词解释(一)在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。

生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。

基因组(genome):是指一个物种的单倍体的染色体数目,又称染色体组。

它包含了该物种自身的所有基因。

基因(gene):是遗传信息的物理和功能单位,包含产生一条多肽链或功能RNA所必需的全部核苷酸序列。

基因组学(genomics):是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱)、核酸序列测定、基因定位和基因功能分析的科学。

基因组学包括结构基因组学(structural genomics)、功能基因组学(functional genomics)、比较基因组学(Comparative genomics)。

蛋白质组学(proteomics):阐明生物体各种生物基因组在细胞中表达的全部蛋白质的表达模式及功能模式的学科。

包括鉴定蛋白质的表达、存在方式(修饰形式)、结构、功能和相互作用等。

高通量测序:高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

下一代测序:英文名为Next Generation Sequencing,简称为NGS。

也叫做二代测序或者高通量测序。

生物信息学 名词解释

生物信息学 名词解释

生物信息学名词解释
嘿,你知道啥是生物信息学不?这可不是一般的玩意儿啊!生物信
息学就像是一个超级厉害的解密大师,专门破解生命的密码!比如说吧,基因就像是一串串神秘的代码,而生物信息学呢,就是那个能读
懂这些代码含义的高手。

想象一下,细胞就像一个个忙碌的小工厂,里面进行着各种复杂的
化学反应和活动。

而生物信息学要做的,就是搞清楚这些小工厂是怎
么运作的,它们的指令是什么。

这难道不神奇吗?
再打个比方,生物信息学如同一个智慧的导航员,在生命的海洋中
指引着我们前进。

它能帮助我们分析海量的生物数据,从那些看似杂
乱无章的信息中找出规律和意义。

比如说,通过对大量基因序列的分析,我们可以了解到不同物种之间的亲缘关系,这就像是在拼凑一幅
巨大的生命拼图啊!
它涉及到好多方面呢,像数据分析、算法设计、模型建立等等。


不就像是一个大厨,要准备各种食材,运用各种技巧,才能做出一道
美味佳肴嘛!
咱就说,要是没有生物信息学,我们对生命的理解能有这么深刻吗?它就像一把神奇的钥匙,打开了生命奥秘的大门,让我们能更深入地
探索和了解生命的本质。

所以啊,生物信息学可太重要啦,绝对是现
代生物学不可或缺的一部分!这就是我对生物信息学的理解,你觉得呢?。

生物信息学名词解释

生物信息学名词解释

什么是高通量测序?高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

什么是Sanger法测序(一代测序)Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。

直到掺入一种链终止核苷酸为止。

每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。

由于ddNTP 缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。

终止点由反应中相应的双脱氧而定。

每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。

它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

什么是基因组重测序(GenomeRe-sequencing)全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。

随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。

通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

什么是de novo测序de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息(bioinformation)学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。

生物信息学名词解释

生物信息学名词解释

名词解释:Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。

1、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

2、Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。

3、genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

4、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。

5、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

6、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

7、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

8、PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。

PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。

9、Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

生物信息学名词解释

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P37值:衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。

P9512.低复杂度区域:BLAST搜索的过滤选项。

指序列中包含的重复度高的区域,如poly(A)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试)基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。

基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。

负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。

正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。

一次数据库:记录实验的结果和一些初步的解释。

二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。

空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。

Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。

FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。

genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。

查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。

PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。

Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。

PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。

SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。

E值:衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。

点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。

MEGA:是一款免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度评估等全套功能,能对DNA、mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。

BioEdit:BioEdit是一个序列编辑器与分析工具软件。

功能包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。

GSS:基因组勘测序列,是基因组DNA克隆的一次性部分测序得到的序列。

包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基因组序列、通过Alu PCR获得的序列、以及转座子标记序列等。

coiled coil:卷曲螺旋,是蛋白质中由2~7条α螺旋链相互缠绕形成类似麻花状结构的总称。

卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。

基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。

31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。

相同功能的同源结构域具有序列的相似性。

一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。

超家族:进化上相关,功能可能不同的一类蛋白质。

33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。

GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。

数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。

41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。

TrEMBL:是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。

43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。

与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。

SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。

SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。

可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。

表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。

比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。

49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。

其它位点为都是非简约性信息位点。

DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,也接受其他国家呈递的序列。

4. BLAST:基本局部比对搜索工具的缩写,是一种序列类似性检索工具。

BLAST采用统计学几分系统,同时采用局部比对算法, BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST结果中的得分是对一种对相似性的统计说明。

BLASTn:是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

BLASTp:是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

Clustsl X:是CLUSTAL多重序列比对程序的Windows版本,是用来对核酸与蛋白序列进行多序列比较的程序,也可以对来自不同物种的功能或结构相似的序列进行比对和聚类,通过重建系统发生树判断亲缘关系,并对序列在生物进化过程中的保守性进行估计。

SRS:序列查询系统,是EBI提供的多数据库查询工具之一。

有与Entrez类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。

Ab initio prediction:蛋白质三级结构预测方法—从头预测法,在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方法,即(直接)仅仅根据序列本身来预测其结构。

分子进化树:精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。

gene tree:基因树,表示一组基因或一组DNA顺序进化关系的系统发生树。

MP:最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。

heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列。

structure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。

PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链接。

作为 Entrez 资讯检索系统的一部分。

PSI-BLAST:位点特异性迭代比对。

相关文档
最新文档