生物信息学名词解释
生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)名词解释或辨析。
1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。
利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。
3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。
其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。
20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。
5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。
如果两条系列有一个共同进化的祖先,那么他们是同源的。
这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。
1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。
生物信息-名词解释

逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。
全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装。
单核苷酸多态性(SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
遗传图谱又称连锁图谱,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
比较基因组学:全基因组核苷酸序列的整体比较的研究。
特点是在整个基因组的层次上比较基因组的大小及基因数目、位置、顺序、特定基因的缺失等。
环境基因组学:研究基因多态性与环境之间的关系,建立环境反应基因多态性的目录,确定引起人类疾病的环境因素的科学。
宏基因组是特定环境全部生物遗传物质总和,决定生物群体生命现象。
转录组即一个活细胞所能转录出来的所有mRNA。
研究转录组的一个重要方法就是利用DNA芯片技术检测有机体基因组中基因的表达。
而研究生物细胞中转录组的发生和变化规律的科学就称为转录组学。
蛋白质组学:研究不同时相细胞内蛋白质的变化,揭示正常和疾病状态下,蛋白质表达的规律,从而研究疾病发生机理并发现新药。
蛋白组:基因组表达的全部蛋白质,是一个动态的概念,指的是某种细胞或组织中,基因组表达的所有蛋白质。
代谢组是指是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢过程中充当底物和产物的小分子物质,如脂质,糖,氨基酸等,可以揭示取样时该细胞的生理状态。
生物信息学名词解释(0001)

生物信息学名词解释1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。
2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。
3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。
代表测序方法:solid 测序。
4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。
焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。
在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。
例如:454测序仪:用蛋白质序列查找核苷酸序列。
:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。
它可用PCR方法加以验证。
将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。
在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。
:表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。
生物信息学名词解释 重点

名词解释算法:是对解决问题的方法的一种精确描述。
聚类分析:就是将数据分成若干簇(cluster),簇内最大程度相似,簇间最大程度相异。
某一状态的出现概率仅取决于其前驱的k个状态,k阶马尔可夫模型数据结构:被计算机加工的数据彼此间存在着某些逻辑上的联系,这些联系需要在对数据进行存储和加工时反映出来。
程序:是对所要解决问题的各个对象和处理规则的描述,或者说是数据结构和算法的描述。
序列的比对:是一种关于序列相似性的定性描述:在什么区域相似,在什么区域存在差别。
最优比对:揭示两条序列的最大相似程度。
(又叫序列联配,其意义在于从核酸、氨基酸的层次分析序列的相似性,推测其结构功能及进化上的联系,是基因识别、分子进化、生命起源研究的基础。
)相似性(similarity):是可以量化的参数,是一种直接的数量关系,是量的判断,可多可少,如百分之几。
同源性(homology) :是指从一些数据库中推断出序列在进化上曾具有共同的祖先的结论,属于质的判断。
直系同源(orthology):(1)在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因;(2)分布于两种或两种以上物种的基因组;(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似。
旁系同源(paralogy)同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。
马尔可夫特性(无后效性):若已知现在的状态,将来与过去无关。
即根据当前的状态即可完全确定将来的状态。
马尔可夫链: 具有马尔可夫特性的离散状态随机过程。
顺式调控元件:位于起始点上游(基因5‘端)控制转录的DNA序列, 靠近它所调控的编码序列; 其结构是模块化的,即DNA序列能被分成各个单元。
反式调控元件:远离所调控的编码序列,通常位于不同的染色体上。
单基因回路:蛋白质与DNA启动子和增强子的相互作用。
生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科模型;处理及分析,并以生物学知识2.二级数据库:3.FASTA序列格式:是将DNA始,其他无特殊要求。
4.genbank序列格式:是GenBank身,以“//”结尾。
5.Entrez检索系统:是NCBI点。
6.BLAST:7.查询序列(query sequence)索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2918.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。
(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。
)19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。
(书:由于基因)UPGMA):最初,每个序列归为一类,然后找到):是一种不仅仅计算两两比对距算法要求进化速率保持恒定的缺陷。
):在一系列能够解释序列差异的的进化树中找):它对每个可能的进化位点分配一个概率,然tree):在同一算法中产生多个最优树,合并这):放回式抽样统计法。
通过对数据集多次):开放阅读框是基因序列的一部分,包含一段codon bias):氨基酸的同义密码子的使用频率与相量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。
30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。
31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。
生物信息学名词解释

名词解释:Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
1、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
2、Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
3、genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
4、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
5、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
6、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
7、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
8、PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
9、Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
生物信息学名词解释

生物信息学名词解释
嘿,你知道啥是生物信息学不?生物信息学啊,就好比是生物世界里的神奇密码解读员!比如说,基因就像是一本神秘的大书(例子:基因就如同一个装满了无数秘密的巨大宝库),生物信息学就是要去读懂这本书里的内容。
它要处理和分析海量的生物数据,找出其中隐藏的规律和奥秘。
再比如说蛋白质,那可是生物体内超级重要的角色(例子:蛋白质就好像是机器里的关键零部件)。
生物信息学要研究蛋白质的结构、功能,搞清楚它们是怎么工作的。
还有测序技术,这简直就是打开生物奥秘大门的钥匙(例子:测序技术如同照亮黑暗洞穴的那束光)!通过它,我们能知道生物的遗传信息。
生物信息学可不是简单的事儿,它需要好多厉害的工具和方法呢!它就像是一个勇敢的探险家,在生物的海洋里不断探索(例子:生物信息学如同无畏的航海家在广阔的知识海洋中奋勇前行)。
总之,生物信息学超级重要,它能帮助我们更好地理解生命的奥秘呀!
我的观点结论就是:生物信息学真的太神奇、太重要啦!。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、生物信息学:研究大量生物数据复杂关系的学科,其特征就是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2、二级数据库:在一级数据库、实验数据与理论分析的基础上针对特定目标衍生而来,就是对生物学知识与信息的进一步的整理。
3、FASTA序列格式:就是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其她无特殊要求。
4、genbank序列格式:就是GenBank 数据库的基本信息单位,就是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分就是引文区,提供了这个记录的科学依据;第四部分就是核苷酸序列本身,以“//”结尾。
5、Entrez检索系统:就是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6、BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸与氨基酸之间的类似性)与实际进化距离(如PAM)两类方法。
P299、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910、空位罚分:空位罚分就是为了补偿插入与缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
P3711、E值:衡量序列之间相似性就是否显著的期望值。
E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其她匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。
P9512、低复杂度区域:BLAST搜索的过滤选项。
指序列中包含的重复度高的区域,如poly(A)。
13、点矩阵(dot matrix):构建一个二维矩阵,其X轴就是一条序列,Y轴就是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。
14、多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。
15、分子钟:认为分子进化速率就是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。
16、系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其她性状,可以研究推断不同物种或基因之间的进化关系。
17、进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。
系统发育图:用枝长表示进化时间的系统树称为系统发育图,就是引入时间概念的支序图。
18、直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。
(书:在缺乏任何基因复制证据的情况下,具有共同祖先与相同功能的同源基因。
)19、旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。
(书:由于基因重复事件产生的相似序列。
)20、外类群:就是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
21、有根树:能够确定所有分析物种的共同祖先的进化树。
22、除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。
23、邻接法(neighbor-joining method):就是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。
24、最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。
25、最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。
最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。
26、一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。
27、自举法检验(Bootstrap):放回式抽样统计法。
通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。
28、开放阅读框(ORF):开放阅读框就是基因序列的一部分,包含一段可以编码蛋白的碱基序列。
29、密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。
30、基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。
31、结构域(domain):保守的结构单元,包含独特的二级结构组合与疏水内核,可能单独存在,也可能与其她结构域组合。
相同功能的同源结构域具有序列的相似性。
32、超家族:进化上相关,功能可能不同的一类蛋白质。
33、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定就是同源的,一般10-20个残基。
34、序列表谱(profile):就是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值与空位罚分的表格。
35、PAM矩阵:PAM指可接受突变百分率。
一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。
一个PAM单位就是蛋白质序列平均发生1%的替代量需要的进化时间。
36、BLOSUM矩阵:模块替代矩阵。
矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。
每个矩阵适合特定的进化距离。
例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。
37、PSI-BLAST:位点特异性迭代比对。
就是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。
38、RefSeq:给出了对应于基因与蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。
39、PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构与晶体结构的描述等。
PDB数据库的访问号由一个数字与三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
40、GenPept:就是由GenBank中的DNA序列翻译得到的蛋白质序列。
数据量很大,且随核酸序列数据库的更新而更新,但它们均就是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。
41、折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。
42、TrEMBL:就是与SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。
43、MMDB(Molecular Modeling Database):就是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。
与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析与结构比较工具。
44、SCOP数据库:提供关于已知结构的蛋白质之间结构与进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。
SCOP数据库除了提供蛋白质结构与进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。
可以按结构与进化关系对蛋白质分类,分类结果就是一个具有层次结构的树,其主要的层次依次就是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。
45、PROSITE:就是蛋白质家族与结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列就是否具有相应的特征。
46、Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。
从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。
47、表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。
48、比较基因组学:就是在基因组图谱与测序的基础上,利用某个基因组研究获得的信息推测其她原核生物、真核生物类群中的基因数目、位置、功能、表达机制与物种进化的学科。
49、简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。
其它位点为都就是非简约性信息位点。
1、生物信息学:生物分子信息的获取、存贮、分析与利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。
3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。
5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。
7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。