蛋白质数据库介绍
结构数据库

小蛋白
总和
90
1195
129
1962
219
3902
三、蛋白质分类数据库CATH
数据库的名称CATH分别是数据库中四种分类类 别的第一个字母,即: C:(class); A:(architecture); T:(topology); H:(homologous superfamily)。 CATH蛋白质分类数据库与另外一个蛋白质分类数据 库SCOP相比,后者更注重从蛋白质进化的角度来对 蛋白质进行分类,而CATH数据库偏重于从结构角度 对蛋白质分类。
Wang Y et al. Nucl. Acids Res. 2000;28:243-245
MMDB(molecular modeling database)
• MMDB 的 记 录 以 ASN.1 格 式 存 储 , 可 以 用 Cn3D, Rasmol, 或 Kinemage来显示。另外, 数据库中类似的结构已经被用 VAST 确认, 新的结构可以用VASTsearch来同数据库进行 比较。
CATH把蛋白质分为4类,即全 α、全β、α-β(α/β型和 α+β型)和低二级结构类。
以蛋白质1ucr为例的搜索结果
1ucr包括两个结构域,分别为 ‘1ucrA00’和‘1ucrB00’。这两个结 构域属于同一同源家族 1.10.10.10。 结果显示1ucr为二聚物,它的每 条链都有自己特异的链标识(如 1ucrA和1ucrB)。
第二节蛋白质结构数据库
Protein Structure Databases
一、蛋白质三维结构数据库PBD
/pdb
/pdbe/
/
Year 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 TOTAL
Uniprot数据库介绍及信息检索下载指南

UniProt数据库一、UniProt数据库简介蛋白质组常用数据库——UniProt数据库,是信息最丰富、资源最广的蛋白质数据库。
它由Swiss-Prot、TrEMBL 和PIR-PSD三大数据库的数据整合而成,数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列,并包含了大量来自文献的蛋白质生物功能的信息。
一般蛋白质组搜库首选数据库也是UniProt,所以对于通过UniProt库搜库的组学数据,可以在此网站中进行蛋白功能查询。
UniProt数据库可以提供的信息包括蛋白功能描述、GO条目、细胞定位、组织特异性表达情况、生理病理情况描述、互作蛋白、Domain、翻译后修饰位点等信息。
蛋白的信息描述段落均会标出引用文章,并且可以跳转到PubMed界面进行浏览。
UniProt 数据库由UniProt 知识库(UniProtKB )、UniProt 档案(UniParc )、UniProt 参考资料库(UniRef)以及UniProt元基因组学与环境微生物序列数据库(UniMES)构成。
UniProtKB全称 UniProt Knowledgebase(UniProt知识库)它是经过专家校验的数据集,主要由两部分组成:UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目)。
Swiss-Prot 数据库特点高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。
有质量保证的数据才被加入该数据库!TrEMBL数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。
它能注释所有可用的蛋白序列。
在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。
它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。
流行病学研究中的生物信息学数据库与资源应用

流行病学研究中的生物信息学数据库与资源应用随着科技的不断发展和进步,生物信息学在流行病学研究中的应用变得越来越重要。
生物信息学数据库和资源成为流行病学研究人员的重要工具,可以提供宝贵的数据和信息,帮助研究人员深入了解疾病的发生和传播机制。
本文将详细介绍流行病学研究中常用的生物信息学数据库和资源,以及它们的应用。
一、SNP数据库SNP(single nucleotide polymorphism)数据库是研究流行病学中最常用的数据库之一。
SNP是指基因组中的单个核苷酸变异,可用来研究人与人之间的遗传差异以及遗传变异与疾病之间的关系。
常见的SNP数据库包括dbSNP、HapMap和1000 Genome等。
这些数据库存储了大量的SNP信息,研究人员可通过检索和分析这些数据库中的数据,揭示SNP与疾病的相关性,为流行病学研究提供重要的依据。
二、基因表达数据库基因表达数据库存储了不同组织和细胞中的基因表达水平信息,对于分析疾病的遗传机制和发生发展过程起着重要作用。
常见的基因表达数据库包括Gene Expression Omnibus(GEO)和The Cancer Genome Atlas(TCGA)等。
研究人员可通过这些数据库获取基因在特定组织或疾病状态下的表达水平信息,进一步研究基因与疾病的关联性。
三、蛋白质数据库蛋白质数据库存储了大量的蛋白质序列和结构信息,对于研究疾病的发生机制和蛋白质功能起着重要作用。
常见的蛋白质数据库包括UniProt、Protein Data Bank(PDB)和STRING等。
研究人员可通过这些数据库获取蛋白质的序列、结构和功能信息,揭示蛋白质与疾病之间的关系,为流行病学研究提供有力支持。
四、基因组数据库基因组数据库存储了各种物种的基因组序列信息,为研究物种的遗传特性和基因功能提供了重要数据。
常见的基因组数据库包括GenBank、Ensembl和UCSC Genome Browser等。
PDB数据库中查找蛋白质结构数据

PDB数据库中查找蛋白质结构数据正文:1.简介1.1 PDB数据库简介1.2 目的和用途2.访问PDB数据库2.1 网页界面2.2 编程接口3.数据搜索与筛选3.1 关键字搜索3.2 高级搜索3.3 过滤和排序4.数据浏览与可视化4.1 蛋白质结构展示4.2 结构对比和比对4.3 可视化工具介绍5.数据与导出5.1 单个结构5.2 批量数据5.3 数据格式转换6.数据分析与挖掘6.1 结构功能预测6.2 蛋白质家族分析6.3 结构互作网络构建7.注释与文献引用7.1 结构注释7.2 文献数据库8.数据质量与验证8.1 数据质量评估8.2 结构验证工具9.数据更新与版本控制9.1 数据库更新频率9.2 PDB版本控制10.数据共享与知识产权10.1 数据共享原则10.2 PDB数据使用条款法律名词及注释:●PDB(Protein Data Bank):蛋白质数据银行,是全球共享蛋白质结构信息的数据库,由多个国家和组织合作维护。
●数据共享:指将数据向公众或特定用户共享,使其可以自由获取和使用的行为。
●知识产权:指人类创造的知识和智力成果的产权,包括专利权、著作权、商标权等。
●数据使用条款:规定了使用PDB数据库数据的条件和限制,包括使用目的、共享要求等。
法律名词及注释:●PDB(Protein Data Bank):蛋白质数据银行,是全球共享蛋白质结构信息的数据库,由多个国家和组织合作维护。
●数据共享:指将数据向公众或特定用户共享,使其可以自由获取和使用的行为。
●知识产权:指人类创造的知识和智力成果的产权,包括专利权、著作权、商标权等。
●数据使用条款:规定了使用PDB数据库数据的条件和限制,包括使用目的、共享要求等。
SMART:蛋白质结构域数据库

SMART:蛋⽩质结构域数据库SMART是蛋⽩结构域的数据库,该数据库最新版本为v8,收录了1300多个蛋⽩结构域信息,覆盖了来⾃uniprot, ensembl等多个数据库的蛋⽩。
官⽹如下http://smart.embl-heidelberg.de/该数据库有以下两种模式1. normal2. genomicnormal模式下包含了所有uniprot, ensembl的蛋⽩质信息,这些蛋⽩序列是存在冗余的,genomic模式下只包含了拥有完整蛋⽩质组的物种的信息。
两种模式可以通过SETUP菜单进⾏切换,通过颜⾊可以辨别所处的模式,⽰意如下通过右上⾓的Search SMART按钮,可以检索该数据库,⽀持以下蛋⽩名称和domain两种检索⽅式。
输⼊uniprot或者ensembl 数据库中的蛋⽩ID进⾏检索,⽰例如下,根据uniprot数据库中的蛋⽩ID C1S_HUMAN进⾏检索http://smart.embl-heidelberg.de/smart/show_motifs.pl?ID=C1S_HUMAN检索页⾯包含如下结果1. domian 结构图从图中,可以看出,该蛋⽩质包括以下5种domain1. CUB2. EGF_CA3. CCP4. Tryp_SPc还提供了每个结构域的位置信息2. 蛋⽩质相互作⽤提供了来⾃STRING数据库的蛋⽩相互作⽤信息,⽰意如下3. pathway 信息提供了Metabolic pathway 和 Kegg pathway 两个数据库的通路注释信息,⽰意如下4. orthology group 注释提供了来⾃eggNOG数据库的注释信息,⽰意如下5. 转录后修饰提供了来⾃PTM数据库的转录后修饰信息,⽰意如下按照domain进⾏检索,⽰例如下,根据domian名称CUB进⾏检索。
对于每个domain, 采⽤SM开头的编号唯⼀标识,同时提供了和其他数据库的关联信息,还⽀持下载多序列⽐对的结果。
pdb数据库蛋白结合位点

PDB数据库蛋白结合位点简介蛋白结合位点是指蛋白质与其他分子相互作用的区域,它在生物学中起着重要的作用。
了解蛋白结合位点的信息可以帮助我们理解蛋白质的功能和相互作用网络,从而有助于药物设计、蛋白工程等领域的研究。
PDB(Protein Data Bank)数据库是一个收集并存储蛋白质结构信息的国际性数据库。
它包含了大量蛋白质的三维结构数据,其中包括蛋白质的结合位点信息。
通过访问PDB数据库,我们可以获取并分析蛋白结合位点的相关信息。
本文将介绍PDB数据库蛋白结合位点的相关内容,包括PDB数据库的概述、蛋白结合位点的定义和分类、蛋白结合位点的分析方法等。
PDB数据库概述PDB数据库是一个由多个国际组织共同维护的数据库,旨在存储和发布蛋白质、核酸和其他生物大分子的结构信息。
该数据库提供了蛋白质结构的三维坐标数据、结合位点的信息以及相关的文献引用等内容。
PDB数据库中的每个结构都有一个唯一的标识符,称为PDB ID。
该ID由四个字母组成,代表了蛋白质结构的来源和类型。
通过PDB ID,我们可以在数据库中检索和查找特定的蛋白质结构。
蛋白结合位点的定义和分类蛋白结合位点是指蛋白质与其他分子相互作用的区域。
蛋白结合位点通常由一系列的氨基酸残基组成,这些残基能够与其他分子发生相互作用。
根据蛋白结合位点的性质和功能,可以将其分为以下几类:1.基质结合位点:用于结合小分子基质,如药物、阳离子等。
这些位点通常位于蛋白质的凹陷区域,通过非共价键或离子键与基质相互作用。
2.蛋白结合位点:用于结合其他蛋白质。
这些位点通常位于蛋白质的表面区域,通过非共价键形成蛋白质间的相互作用。
3.DNA/RNA结合位点:用于结合DNA或RNA分子。
这些位点通常位于蛋白质的凹陷区域,通过氢键、离子键或范德华力与核酸相互作用。
4.金属结合位点:用于结合金属离子。
这些位点通常由蛋白质中的残基提供配位位点,通过配位键与金属离子相互作用。
蛋白结合位点的分析方法为了分析蛋白结合位点的特征和性质,可以使用多种方法和工具。
蛋白结构数据库资料
SCOP首先从总体上将蛋白质进行分类,例如全 型,全型,以平行折叠为主的/型,以反平行 折叠为主的+型 等。
例如: SCOP1.73版本有46456个全型蛋白质,该结构类 型下有258个折叠类。在这258个折叠类中的第一 个超家族是类球蛋白;类球蛋白又包含4个家族, 其中第一个家族包含6个结构域;每个结构域下面 有很多蛋白质成员。
HETSYN FORMUL HELIX SHEET TURN SSBOND
非标准残基的同义字 非标准残基化学式 螺旋 折叠 转角 有二硫键存在
LINK
残基间化学键
HYDBND SLTBRG CISPEP SITE CRYST1 ORIGXn SCALEn MTRIXn TVECT
氢键 盐桥 顺势残基 特性位点 晶胞参数 直角-PDB坐标 直角部分结晶学坐标 非晶相对称 转换因子
③通过命令行方式。
(9)蛋白质三维立体结构图像的输出
习题: 1. PDB和RSCB的中英文全称分别是什么? 2. PDB中的数据主要来源于哪两种实验测定 的生物大分子三维结构? 3. PDB中的每条记录有哪两种序列信息? 4. PDB记录中的EXPDTA,HELIX,SSBOND
各代表什么含义?
4.3.2 MMDB数据库
(2)DSSP的输出文件 1adz.dssp
(3)DSSPcont查询 /services/DSSPcont/
习题:
1. MMDB,SCOP和DSSP的中英文全称分 别是什么? 2. DSSP数据库中二级结构共分为几类,分 别代表什么? 3. 简要描述一下SCOP数据库的分类层次。
PDB数据库的详细字段说明如下:
HEADER OBSLTE 分子类,公布日期,ID号 注明该ID号已改为新号
UNIPROT蛋白数据库概论
INDUCTION INTERACTION MASS SPECTROMETRY MISCELLANEOUS PATHWAY PHARMACEUTICAL POLYMORPHISM PTM RNA EDITING SIMILARITY SUBCELLULAR LOCATION SUBUNIT TISSUE SPECIFICITY TOXIC DOSE
UniProt相关网上工具列表
InterProScan: InterPro是个合作的方案, 目的是基于大多数普通的数据库之上,对蛋白 质家簇,区域、功能位点的进行独特的、无冗 余的描述。InterPro库结合了PROSITE、 PRINTS、P fam、ProDom、SMART和 TIGRFAMs这些数据库以及一些预置的数据 库。是一个用XML格式的、分布式的并且可以 在InterPro协会版权允范围下自由使用的。主 页地址是: /InterProScan。
描述刺激蛋白合成的成分或者环境 描述蛋白-蛋白相互作用的信息 报告通过质谱方法测定的蛋白或者其部分的分子重量 不属于其他已经定义的专题内容 描述蛋白的代谢通路 描述蛋白在制药学上的作用 描述蛋白多态性 描述翻译后的调节 描述RNA编辑是否引起一个或者多个的氨基酸改变 描述蛋白和其他蛋白序列是否有同源性 描述成熟蛋白的亚细胞定位 描述蛋白四级结构的一个亚单位信息 描述蛋白的组织特异性 描述蛋白的致命和致病剂量
InterPro相关数据库和算法
Pfam 收集了大量的多序列比对和Hmm,覆盖了几乎所有蛋白结 构域 PROSITE 关于蛋白质家族和结构域的数据库 ProDom 根据PSI-BLAST程序来查找同源蛋白结构域的数据库 SMART 用于发现和注释可移动蛋白多肽中得结构域 PRINTS 蛋白质指纹图谱数据库 Gene3D 通过HMMs预测蛋白结构,是CATH结构数据库得补充 TIGRFAMs 基于序列鉴定相关蛋白功能的工具 PANTHER 根据家族功能的特异性区分蛋白家族和亚家族 SUPERFAMILY 超家族和已知结构蛋白数据库
实验四 蛋白质数据库uniprotkb的使用
生命科学学院生物技术091 罗信旭 0907040118实验四蛋白质数据库—uniprotkb/swiss-prot的使用一、实验目的:掌握蛋白质数据库uniprotkb/swiss-prot的蛋白质序列的查询方法,了解uniprotkb/swiss-prot数据库提供的有关蛋白质的信息资源。
二、实验原理:uniprotkb/swiss-prot蛋白质序列数据库是由SIB和EBI共同维护和管理,并随EMBL 数据库一起发行。
目前,该数据库是最为常用、注释最全、包含独立项最多的数据库,它包括其他蛋白质序列库中经过验证的全部序列、其注释及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性等内容。
三、实验器材:计算机,uniprotkb/swiss-prot蛋白质序列数据库。
四、实验内容:应用我们需要查找的物种的拉丁学名或蛋白质的名称,在uniprotkb/swiss-prot蛋白质序列数据库中进行查询,由此获得我们所需要查找的蛋白质序列。
五、实验步骤:1、输入域名/,打开EBI主界面,找到主界面下方的database一栏,点击下拉菜单,点击protein目录下uniprotkb/swiss-prot一栏,进入蛋白质序列数据库的Search界面。
2、找到uniprotkb/swiss-prot蛋白质序列数据库界面上端的Find一栏,在方框中输入需要查询的关键词,即物种的拉丁文学名或蛋白质的名称,然后开始搜索。
3、在进入查询结果界面后,选择界面下方的protein sequence/uniprotkb中的序列,点击in uniprot或in SRS,可以看到与查询要求相关的各种结果,根据实验要求将其拷贝下来即可。
六、实验要求:每个组每个同学至少查找四个蛋白质的序列。
将查询结果中的Sequence、Accession、similarity、Organism source等结果拷贝下来作为实验结果。
UniProt蛋白质数据库简介
第17卷第3期2019年09月生物信息学Chinese Journal of BioinfbrmaticsVol.17No.3Sep.2019DOI:10.12113/j.issn.1672-5565.201903005UniProt蛋白质数据库简介罗静初(北京大学生命科学学院,北京100871)摘要:UniProt(https:///)是国际知名蛋白质数据库,主要包括UniProtKB知识库UniParc归档库和UniRef参考序列集三部分。
UniProtKB知识库是UniProt的核心,除蛋白质序列数据外,还包括大量注释信息。
UniProtKB知识库分Swiss-Prot和TrEMBL两个子库。
Swiss-Prot子库中50多万条序列均由人工审阅和注释,而TrEMBL子库中1.4亿多条序列是由核酸序列数据库EMBL中的蛋白质编码序列翻译所得,并由计算机根据一定规则进行注释。
UniParc归档库将存放于不同数据库中的同一个蛋白质归并到一个记录中以避免冗余,并赋予序列唯一性特定标识符。
UniRef参考序列集按相似性程度将UniProtKB和UniParc中的序列分为UniRefl00、UniRef90和UniRef50三个数据集。
UniProt网站为用户提供了高效实用的高级检索系统和大量帮助文档。
UniProt数据库每4周发布新版的同时也发布统计报表,用户可通过统计报表了解该数据库的数据量及更新情况、数据类别和物种分布等基本信息,查看常规注释信息、序列特征注释信息和数据库交叉链接等统计数据。
UniProt是目前国际上序列数据最完整、注释信息最丰富的非冗余蛋白质序列数据库,自本世纪初创建以来,为生命科学领域提供了宝贵资源。
关键词:数据库;蛋白质序列;蛋白质功能;数据库注释;数据库交叉链接;数据库高级检索中图分类号:Q51汀P392文献标志码:A文章编号:1672-5565(2019)03-131-14A brief introduction to UniProtLUO Jingchu(College of Life Sciences,Peking University,Beijing100871,China)Abstract:The Universal Protein Resource(https:///,UniProt)is a well-known protein database,which consists of the UniProt knowledgebase(UniProtKB),the UniProt unique protein identifier archive (UniParc),and the UniProt reference sequence clusters(UniRef).Apart from protein sequence data,the UniProtKB has comprehensive annotations and is the core of the database.UniProtKB/Swiss-Prot has more than500 thousand entries and is a manually reviewed and annotated subset of UniProtKB,while the UniProtKB/TrEMBL contains more than140million un-reviewed sequences which are translated from the coding sequences in the nucleotide database EMBL and computationally annotated based on certain rules.UniParc merges the same sequence stored in UniProtKB and other available protein sequence databases into a single record to avoid redundancy and gives each record a permanent and unique identifier.UniRef clusters the UniProtKB and the selected UniParc sequences into three different sets,i.e.,UniRefl00,UniRef90,and UniRef50,according to their sequence identity.The UniProt website provides users with an easy-to-use and highly efficient interface for advanced search and various help documents.The UniProt database releases statistics published online along with the update of the database every four weeks,which lists useful information such as the number of newly added and updated entries,the sequence types and their taxonomic sources,as well as general annotations,sequence features,and database cross-references.UniProt has been serving the user community of life sciences as the most-comprehensive, well-annotated,non-redundant,and freely-accessible resource of protein sequence and function since it was established at the beginning of this century.Keywords:Database;Protein sequence;Protein function;Database annotation;Database cross-reference; Database query收稿日期:2019-03-19;修回日期:2019-4-25.作者简介:罗静初,男,教授,研究方向:实用生物信息技术.E-mail:luojc@.132生勃信息学第17悪1UniProt数据库及其前身的创建历史1.1国际上最早创建的蛋白质序列数据库PIR-PSD蛋白质序列数据库的创建可以追溯到半个多世纪以前。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SWISS-PROT
或
TrEMBL /sprot
PIR
MIPS
JIPID
已经和
ExPASy
三、蛋白质二级结构预测网站(数据库)
4
始建于
基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。
数据库包括两个数据库文件:数据文件
Prosite
5
蛋白质二级结构构象参数数据库
DSSP
6
蛋白质家族数据库
FSSP
7
同源蛋白质数据库
HSSP
在前面已经述说过了。
第二节、蛋白质序列分析方法
一、多序列比对
双序列比对是序列分析的基础。
序列之间的关系,
生物学模式方面起着相当重要的作用。
多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,
法建立在某个数学或生物学模型之上。
因此,正如我们不能对双序列比对的结果得出
果也没有绝对正确和绝对错误之分,
相似性关系以及它们的生物学特征。
我们称比对前序列中残基的位置为绝对位置。
置Ⅰ
相对位置。
显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。
绝对位置是序列本身固有的属性,
也就比对过程赋予它的属性。
算法复杂性
多序列比对的计算量相当可观,
时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用
(
的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。
这样算法复杂性就变成了
(
例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。
颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。
用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。
多序列比对程序的另一个重要用途是定量估计序列间的关系,
关系。
关系。
相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处2
同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。
其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。
列数。
这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序列的比对3
这类方法中最常用的就是
Doolittle
因此大多数实用的多序列比对程序采用启发式算法,以降低运算复杂度。
Clustal
序列进行两两比对并计算它们的相似性分数值,
在每组之间进行比对,
间空位情况,确定如何在亲缘关系较远的序列之间插入空位。
同样,相似性较高的序列比对结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变
Clustal
,以
多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输出,并且在一定程度上反映它们之间的相似性。
多序列比对结果所提供的信息对于提高数据库搜索灵
目前,互联网上可用的多序列比对数据库已经不少。
其中一些利用计算机程序将一次数据库
来得到原始序结束。
对于一个未知的蛋白质序列在该序列库中查询,该序列库会给出匹配的可以看看PRINTS数据库关于TRANSFERRIN的比对信息,PRINTS数据库在自动比对的基础上进行了手工编辑,查寻PRINTS数据库中关于TRANSFERRIN这一类的比对信息,结果可以用模体(motif)形式显示也可以用点击链接调用JAVA APPLET进行图形显示,下图是关于TRANSFERRIN序列比对的局部图形,可见PRINTS数据库中TRANSFERRIN一类由更多的序列比对形成。
(一)、蛋白质功能预测
1、根据序列预测功能的一般过程
如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。
蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。
但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。
有2条主要途径可以进行上述的比较分析:
①比较未知蛋白序列与已知蛋白质序列的相似性;
②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。
2
具有相似序列的蛋白质具有相似的功能。
的相似性搜索。
一个显著的匹配应至少有
已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。
快速搜索工具
FASTA
所以,
也不能得到有关蛋白质功能的线索,
序,例如
BLITZ
但非常灵敏。
通常诸如
的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过
还应注意计分矩阵
用的矩阵必须与匹配水平相一致,
应用于不很相近的蛋白质序列,而
发现始终出现的匹配序列,这是一条减少误差的办法。
除了选用不同的计分矩阵,
蛋白序列数据库
复合蛋白质序列库。