Uniprot蛋白数据库

合集下载

uniprot 数据库格式介绍

uniprot 数据库格式介绍

一、Uniprot 数据库简介Uniprot 数据库是一个重要的蛋白质序列数据库,提供了丰富的蛋白质及其功能信息。

Uniprot 数据库由三个不同的部分组成,分别是UniprotKB、Uniparc 和Uniref。

UniprotKB 是最为广泛应用的部分,包含了蛋白质的序列及其相关的注释信息。

Uniparc 是一个备份数据库,存储了由不同来源提供的蛋白质序列。

Uniref 则是对UniprotKB 中的相似蛋白进行了聚类和注释,提供了更加全面和详细的信息。

二、Uniprot 数据库的格式介绍1. UniprotIDUniprotID 是Uniprot 数据库中用来唯一标识一个蛋白质的一组字母和数字。

每一个UniprotID 对应着一个蛋白质的基本信息和功能注释。

用户可以通过UniprotID 来快速查找感兴趣的蛋白质,获取其相关信息。

2. Entry nameEntry name 是Uniprot 数据库中的另一种标识蛋白质的方式。

每一个Entry name 对应着一个蛋白质的通用名,方便用户进行简单的查询和浏览。

3. Protein nameProtein name 是Uniprot 数据库中对蛋白质的命名,包括了其组成成分和功能。

Protein name 的格式通常是由多个部分组成,包括了蛋白质的家族、亚家族、结构域和功能等信息。

4. Gene namesGene names 是Uniprot 数据库中记录的蛋白质对应的基因名称。

每一个蛋白质都可以由一个或多个基因进行编码,因此在Uniprot 数据库中也会提供蛋白质对应的基因名称。

5. OrganismOrganism 记录了蛋白质来源的生物种属信息。

在Uniprot 数据库中,蛋白质来源于不同的生物种类,因此Organism 字段可以帮助用户区分不同来源的蛋白质。

6. SequenceSequence 是Uniprot 数据库中记录蛋白质序列的部分。

uniprot数据库名词解释

uniprot数据库名词解释

uniprot数据库名词解释
uniprot数据库名词解释形式可以采用以下方式进行:
1. 通俗易懂的形式,用简单易懂的语言解释名词的意义。

例如:UniProt数据库是一个全球公认的蛋白质信息库,包括大量蛋白质的序列、结构、功能等信息。

2. 专业术语表达形式,使用专业术语解释名词的含义。

例如:Uniprot数据库是一种生物信息学数据库,为研究人员提供了蛋白质序列、组成、功能及相互作用等信息。

3. 举例说明形式,通过实际案例展示名词所代表的含义。

例如:Uniprot数据库中包括了各种生物物种的蛋白质信息,例如P53蛋白等。

总的来说,uniprot数据库名词解释形式需要简明扼要,准确清晰,便于读者理解。

Uniprot数据库

Uniprot数据库
日出未必意味着光明太阳也无非是一颗晨星而已只有在我们醒着时Uniprot数据库是Universal Protein的英文缩写,是信息最丰富、资源最广的蛋白质数据库。 UniprotKB由两部分组成:
UniProtKB/Swiss-Prot 高质量的、手工注释的、非冗余的数据集,这些数据都是由质量保证的。 UniProtKB/TrEMBL 该数据集包含高质量的计算分析结果,需要我们手工注释。 当我们搜索蛋白质时,就会如下显示多个蛋白质的信息:
Entry:是Uniprot给每个蛋白质赋予的独一无二的ID Entry name:是蛋白ID的简要名字 Protein names:蛋白质的名字 Gene names:编码这个蛋白的Gene名字 Organism:蛋白质的种属来源 Length:氨基酸长度

Uniprot数据库介绍及信息检索下载指南

Uniprot数据库介绍及信息检索下载指南

UniProt数据库一、UniProt数据库简介蛋白质组常用数据库——UniProt数据库,是信息最丰富、资源最广的蛋白质数据库。

它由Swiss-Prot、TrEMBL 和PIR-PSD三大数据库的数据整合而成,数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列,并包含了大量来自文献的蛋白质生物功能的信息。

一般蛋白质组搜库首选数据库也是UniProt,所以对于通过UniProt库搜库的组学数据,可以在此网站中进行蛋白功能查询。

UniProt数据库可以提供的信息包括蛋白功能描述、GO条目、细胞定位、组织特异性表达情况、生理病理情况描述、互作蛋白、Domain、翻译后修饰位点等信息。

蛋白的信息描述段落均会标出引用文章,并且可以跳转到PubMed界面进行浏览。

UniProt 数据库由UniProt 知识库(UniProtKB )、UniProt 档案(UniParc )、UniProt 参考资料库(UniRef)以及UniProt元基因组学与环境微生物序列数据库(UniMES)构成。

UniProtKB全称 UniProt Knowledgebase(UniProt知识库)它是经过专家校验的数据集,主要由两部分组成:UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目)。

Swiss-Prot 数据库特点高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。

有质量保证的数据才被加入该数据库!TrEMBL数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。

它能注释所有可用的蛋白序列。

在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。

它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。

uniprot蛋白分区

uniprot蛋白分区

uniprot蛋白分区摘要:1.引言2.什么是uniprot3.uniprot 蛋白分区的概述4.uniprot 蛋白分区的具体分类5.uniprot 蛋白分区的应用6.结论正文:【引言】蛋白质是生命活动中不可或缺的重要组成部分,它们在细胞中承担着各种生物学功能。

对蛋白质的研究,有助于我们深入理解生命活动的本质。

uniprot 是一个关于蛋白质的数据库,它包含了全球科学家们在蛋白质研究领域所取得的成果。

今天我们将重点介绍uniprot 蛋白分区。

【什么是uniprot】uniprot(Universal Protein Resource)是一个蛋白质信息数据库,它旨在为全球科学家提供一个免费、开放、全面的蛋白质数据资源。

uniprot 收录了大量蛋白质的序列、结构、功能等方面的信息,是蛋白质研究领域最为重要的数据库之一。

【uniprot 蛋白分区的概述】uniprot 蛋白分区是对蛋白质进行系统性分类的一种方法。

通过对蛋白质的分区,有助于我们更好地了解蛋白质的结构、功能和调控机制,从而为相关领域的研究提供便利。

【uniprot 蛋白分区的具体分类】uniprot 蛋白分区主要根据蛋白质的功能、结构、调控机制等方面进行分类。

常见的分区包括:1.酶类:催化生物体内化学反应的蛋白质。

2.结构蛋白:构成细胞和组织结构的蛋白质。

3.调节蛋白:参与细胞内信号传导和调控的蛋白质。

4.转运蛋白:负责物质跨膜运输的蛋白质。

5.免疫相关蛋白:参与免疫应答的蛋白质。

6.核酸结合蛋白:与核酸结合并参与相关生物学过程的蛋白质。

7.代谢相关蛋白:参与生物体内代谢反应的蛋白质。

等等。

【uniprot 蛋白分区的应用】uniprot 蛋白分区在蛋白质研究领域具有广泛的应用,包括:1.蛋白质功能预测:通过分析蛋白质的分区信息,可以推测蛋白质可能具有的功能。

2.蛋白质互作网络构建:根据蛋白质的分区信息,可以推测蛋白质之间可能存在的相互作用。

第三讲:Uniprot蛋白数据库及其他蛋白质分析工具

第三讲:Uniprot蛋白数据库及其他蛋白质分析工具

第三讲Uniprot蛋白数据库及其他蛋白质分析工具2013/03/19Uniprot数据库•Uniprot(Universal protein resource)是蛋白质序列的联合数据库。

–SIB: Swiss Institute of Bioinformatics–EBI: European Bioinformatics Institute–PIR: Protein Information Resource–2002年三家联合形成了UniprotSwiss‐Prot•1986年建立•低冗余度•功能导向•由Swiss Institute of Bioinformatics 和EBI共同建立并维护TrEMBL •TrEMBL=Translation from EMBL •EBI建立并维护•是一个自动数据库•冗余度高,可信度低UniprotKB•部分经过专家注释的数据库•具有很高的可信度•包括两部分UniprotKB/Swiss‐Prot和UniprotKB/TrEMBL•UniprotKB/Swiss‐Prot包括539,165条序列•UniprotKB/TrEMBL包括29,769,971 条序列•具有非冗余性Uniparc•非冗余性•给予序列的特异性,非同一物种的相同序列被认为是同一个蛋白质•每一条序列被給予一个特异的编号Uniparc•INSDC EMBL‐Bank/DDBJ/GenBank nucleotide sequence databases•Ensembl•European Patent Office (EPO)•FlyBase•H‐Invitational Database (H‐Inv)•International Protein Index (IPI)•Japan Patent Office (JPO)•Protein Information Resource (PIR‐PSD)•Protein Data Bank (PDB)•Protein Research Foundation (PRF) RefSeq•Saccharomyces Genome Database (SGD)•The Arabidopsis Information Resource (TAIR)•TROME•US Patent Office (USPTO)•UniProtKB/Swiss‐Prot, UniProtKB/Swiss‐Prot protein isoforms, UniProtKB/TrEMBL •Vertebrate and Genome Annotation Database (VEGA)•WormBaseUniRef•包括UniRef100,UniRef90和UniRef50•分别包括了相似度为100%,90%和50%的序列的总和UniMES•UniMES是metagenomics和环境生物学的序列数据库•其中的数据可能是未知的•UniMES提供UniRef类似的聚类功能Uniprot的应用•在质谱领域有广泛的应用–因为其序列的非冗余性–举例:质谱分析–举例:Pyruvate: ferredoxin oxidoreductasesubunit alpha from Pyrococcus furiosus蛋白质的结构域‐‐二级库• 根据序列比对的策略不同存在较多的蛋白质序 列二级库,比如ProSite,PRINT, ProDom, Pfam,  Gene3D,PANTHER, PIRSF,Tigrfams等等 • 目前诸多蛋白质序列二级库已经被整合到 Interpro数据库中 • 利用Interpro可以查找并鉴定蛋白质的结构 域,可能的功能基团以及预测其生理功能等 • 举例:查询actin‐like protein,找到其三维结构 和功能 • 举例:查询4Fe‐4S cluster binding site蛋白质序列分析‐interproscan蛋白质的保守结构域• 举例:利用interpro分析gene symbol为 MA0658的蛋白质,并预测它可能结合什么 cofactorpI和分子量的预测• /compute_pi/• 举例:预测大肠杆菌中WrbA的pI和分子量对信号肽的预测• SignalP 4.0 • http://www.cbs.dtu.dk/services/SignalP/ • 利用神经网络和HMM模型预测信号肽 • VKLIMFLLMVPLFSYLAAASLRVLSPNPASCDSPEL GYQCNSETTHTWGQYSPFFSVPSEISPSVPEGCR对膜蛋白和跨膜区域的预测• 一般来说是一个20AA长的alpha helix • TMpred • /software/TMPRED_f orm.html • TMHMM • http://www.cbs.dtu.dk/services/TMHMM/ • msyntslgls enivaalcyp vgwlsglffl llerknkfvr fhamqsvllf mpialfiflv awiptigwfi adgagmtaml lilipmymaf rgskfkipii gniaynfayg eExPASy• SIB运作的一个蛋白质专业网站蛋白质结构和功能的分析与预测Blast寻找相似 蛋白功能 利用Uniprot 分析结构域 分析蛋白质 的位置 利用Interpro 分析结构域 分析蛋白质 的MW和pI 已知序列 阅读相似蛋 白的文献提出蛋白质 功能的假说已知名称寻找序列。

uniprot蛋白定位_概述及解释说明

uniprot蛋白定位概述及解释说明1. 引言1.1 概述蛋白质是生物体中具有重要功能的分子,其定位在细胞内发挥着至关重要的作用。

Uniprot蛋白定位是一种通过收集和整理蛋白质定位相关信息的数据库,为研究者提供了丰富的数据资源和工具,帮助他们深入了解蛋白质在细胞中的位置和功能。

1.2 文章结构本文将以Uniprot蛋白定位为主题,对其概念、应用以及相关信息来源和分类方法进行介绍。

随后,将详细探讨Uniprot数据库中关于蛋白定位的解释说明内容。

最后,给出文章总结并列举参考文献。

1.3 目的本文旨在向读者介绍Uniprot蛋白定位相关知识,并阐明其在生物学研究领域中的重要性和应用价值。

通过阅读本文,读者可以了解到不同细胞器、组织及亚细胞水平上如何对蛋白质进行准确地定位,以及相应的实验技术和方法。

以上所述是“1. 引言”部分内容,请按照这个思路进行详细的撰写。

2. Uniprot蛋白定位概述2.1 Uniprot数据库简介Uniprot是一个综合性的蛋白质序列和功能信息数据库,为科学家提供了全球最大、最全面的蛋白质数据资源。

Uniprot数据库包含了大量已知和预测的蛋白质序列及其相关信息,其中就包括了蛋白质的定位信息。

Uniprot通过整合来自各种来源的实验数据和基因组学研究数据,提供了关于蛋白质定位的重要信息。

2.2 蛋白定位的重要性和应用在细胞中,不同的蛋白质定位在维持正常生理功能中发挥着至关重要的作用。

准确了解蛋白质的定位信息对于揭示其生物学功能、疾病机制以及药物研发具有重要意义。

因此,蛋白质定位是现代生物学研究领域中一个非常活跃且备受关注的方向。

2.3 Uniprot中蛋白定位信息的来源和分类方法Uniprot数据库中关于蛋白定位信息主要来源于实验研究和预测算法。

实验技术如质谱分析、免疫组织化学染色和显微镜技术等可以直接观察或间接鉴定蛋白质的定位。

预测算法可以根据蛋白质的氨基酸序列特征和机器学习方法进行推断。

uniprot蛋白分区

uniprot蛋白分区摘要:一、前言二、UniProt蛋白数据库介绍三、UniProt蛋白分区概述1.蛋白质结构域2.功能域3.蛋白质家族域四、UniProt蛋白分区的应用1.蛋白质结构预测2.蛋白质功能预测3.蛋白质保守性分析五、结论正文:一、前言蛋白质是生命体系中功能最为多样的大分子,对于生物体的生长、发育、繁殖等过程起着至关重要的作用。

UniProt数据库作为目前最为全面的蛋白质信息资源库,提供了大量关于蛋白质的注释信息。

在这些注释信息中,蛋白分区是一个重要的组成部分,对于研究蛋白质的结构与功能有着重要的意义。

本文将对UniProt蛋白分区进行概述和分析,并探讨其在蛋白质结构预测、功能预测以及保守性分析等方面的应用。

二、UniProt蛋白数据库介绍UniProt是一个综合性的蛋白质信息数据库,它包含了来自多个物种的蛋白质序列、功能注释、保守性等信息。

UniProt数据库的建立旨在为生物学家、研究人员提供一个全面、准确、易于使用的蛋白质信息平台,以促进蛋白质科学的发展。

三、UniProt蛋白分区概述蛋白分区是根据蛋白质序列特征将蛋白质划分为不同结构域和功能域的过程。

UniProt蛋白分区主要包括以下三个方面:1.蛋白质结构域蛋白质结构域是指在蛋白质序列中具有一定功能的连续氨基酸残基。

结构域是蛋白质的三维结构中相对独立的部分,通常具有特定的功能和结构特征。

UniProt蛋白分区通过将蛋白质序列划分为结构域,有助于研究蛋白质的结构与功能关系。

2.功能域功能域是指在蛋白质序列中具有一定功能的连续氨基酸残基,通常与蛋白质的结构域不重叠。

功能域主要关注蛋白质的功能,而不关注其结构。

UniProt蛋白分区通过将蛋白质序列划分为功能域,有助于研究蛋白质的功能和结构域之间的关系。

3.蛋白质家族域蛋白质家族域是指在蛋白质序列中具有一定相似性和功能的连续氨基酸残基,通常来源于蛋白质家族成员之间的共享序列。

蛋白质家族域有助于研究蛋白质序列的保守性和进化关系,从而揭示蛋白质功能的起源和进化过程。

UniProt数据库检索方法及其应用

实用生物信息技术课程第2次作业UniProt数据库检索方法及其应用姓名________ 学号______________ 组号_____ 座位号_____________年___月___日1.UniProt蛋白质序列数据库由哪几部分组成?各有什么特点?2.认真阅读UniProt数据库SwissProt和TrEMBL统计报表(Release Statistics)1)列表说明这两个子库的总数据量,以及不同蛋白质证据(Protein Existence)的数据条目数。

2)列表说明这两个子库中数据条目数列前10位的物种。

3)说明这两个子库中序列长度分布特征。

3.以人血红蛋白alpha亚基(HBA_HUMAN)为例,说明SwissProt注释信息主要包括哪几部分4.以人血红蛋白alpha亚基(HBA_HUMAN)为例,说明SwissProt一般注释信息(GeneralAnnotation)主要包括哪些内容。

5.以人血红蛋白alpha亚基(HBA_HUMAN)为例,说明SwissProt序列注释信息(SequenceAnnotation)主要包括哪些内容。

6.以人血红蛋白alpha亚基(HBA_HUMAN)为例,说明SwissProt数据库交叉链接(CrossReference)主要包括哪些数据库。

7.简述如何利用高级检索(Advanced Search)功能,从SwissProt数据库中检索人珠蛋白家族12个亚基,进行多序列比对,说明其序列相似性异同。

8.简述如何利用高级检索(Advanced Search)功能,从SwissProt数据库中检索你课题相关蛋白质家族,进行多序列比对,说明其序列相似性异同。

1。

uniprot使用方法

uniprot使用方法一、什么是UniProt?UniProt(Universal Protein Resource)是一个全球性的蛋白质数据库,致力于提供蛋白质序列、结构、功能和概述相关信息的公共资源。

UniProt 由三个组件组成:UniProtKB、UniRef和UniParc。

其中,UniProtKB是最主要的组件,它包含了三个子数据库:Swiss-Prot、TrEMBL和PROSITE。

1. Swiss-Prot:Swiss-Prot是一个经过人工注释和校正的蛋白质序列数据库,提供了详细的蛋白质功能和注释信息。

2. TrEMBL:TrEMBL是一个基于计算的蛋白质序列数据库,它包含了从未经过详细注释的Swiss-Prot数据集中的序列。

这些序列待进一步注释和校正后会被转移到Swiss-Prot数据库中。

3. PROSITE:PROSITE是一个用于识别蛋白质序列中保守结构域和模体的数据库。

它提供了一系列的蛋白质域和模体的特征模式和描述。

UniRef是一个聚类蛋白质序列数据库,用于提高蛋白质注释效率,减少重复注释。

UniParc是一个蛋白质数据库,用于记录已知和未知蛋白质序列的标识符。

二、使用UniProt的步骤使用UniProt数据库可以帮助研究者快速获取蛋白质信息,查找已知蛋白质、发现新的蛋白质序列和结构等。

以下是使用UniProt的步骤:1. 访问UniProt官方网站,地址为2. 在搜索框中输入要查询的蛋白质名称、序列或标识符等关键词,并选择搜索类型。

3. 点击“搜索”按钮进行搜索。

4. UniProt将会显示与搜索关键词相关的蛋白质信息列表。

用户可以根据需求筛选蛋白质数据库(如Swiss-Prot或TrEMBL)或其他过滤条件,以缩小搜索范围。

5. 点击感兴趣的蛋白质条目,将显示该蛋白质的详细信息页面。

用户可以阅读蛋白质的注释信息、功能描述、序列特征、结构域、文献引用等内容。

6. 若需要进一步了解蛋白质的结构、亚细胞定位等信息,用户可以点击相关链接或标签,以跳转到其他相关数据库或工具。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
红框3区是主题区,这里列出了所有UniProt数据库的蛋白质条目,因为数据太多(这个数字其实是Swiss-Pro与 TrEMBL两部分的总和),每页显示25条(您可以自己选择每页的显示数目 10、25、50、100或200),
Entry:是UniProt的给每个蛋白质赋予的独一无二的ID号 Entry name: 是蛋白ID简要名字 Protein names: 蛋白质的名字 Gene names: 编码这个蛋白的Gene名字 Organism:蛋白质的种属来源 Length: 氨基酸长度
蛋白质序列从哪里来?
由UniProtKB提供的超过95%的蛋白质序列来源于已经提交给公共核酸数据库, EMBL-Bank / GenBank / DDBJ数据库(INSDC)的编码序列(CDS)的翻译。所 有这些序列以及作者提交的相关数据都自动整合到UniProtKB / TrEMBL中。
除翻译的CDS之外,UniProtKB蛋白质序列可以来自:
1、在PDB数据库。 2、通过直接蛋白质测序实验获得的序列,通过Edman降解或MS / MS实验并提交给 UniProtKB / Swiss-Prot。只有约5%的UniProtKB / Swiss-Prot条目包含通过直接蛋 白质测序获得的序列数据(具有关键字的条目列表'Direct protein sequencing')。 3、从文献(ig PRF或其他期刊扫描项目)扫描的序列。 4、从基因预测,没有提交的序列EMBL-Bank / GenBank登录/ DDBJ。 5、序列来源于内部基因预测,在非常特殊的情况下。
UniParc是一个主要的序列库,是一个全面的存储库,它反映了所有蛋白质序列的历史。联合研究中心为所有来自不同 来源的新的和经过修改的蛋白质序列提供了所有的信息,以确保完整的覆盖在一个单一的站点。它包括不仅UniProtKB 还翻译从EMBL-Bank / DDBJ基因库核苷酸序列数据库,运用数据库的真核基因组,H-Invitational数据库(H-Inv),国际蛋白质 指数(IPI),蛋白质数据库(PDB),蛋白质研究基金会(脉冲),NCBI年代的参考序列集合(RefSeq),数据库模式,SGD,TAIR拟南 芥和WormBase TROME和蛋白质序列。为了避免冗余,序列被作为字符串处理,所有序列在整个长度上都是完全相同 的,不管源组织是什么。新的和更新的序列每天都被加载,交叉引用源数据库的加入号,并提供一个序列版本,在对底 层序列的更改上增加。每个UniParc条目中存储的基本信息是标识符、序列、循环冗余检查号、源数据库(s)和添加和版 本号,以及时间戳。
基本局部比对搜索工具 i Align: t BLAST是对单个蛋白序列与数据库数据进行比对,i Align可以让你对多个蛋白质的序列之间进行相似性比对, 这种分析可以让你找到这些蛋白之间的结构保守区域,还可以根据蛋白质的相似性,分析这些蛋白之间的亲缘关系,进 化的先后顺序等。
= Download:这个容易理解,您可以下载蛋白的序列数据,可以下载选中的蛋白,也可以下载全部蛋白(做蛋白质组 学分析的人经常用,否则没有必要全部下载,不过有时候最好定期下载更新一下,还是很有必要的)下载的格式也多种 多样,比如FASTA,Text,Excel,XML,List等,如果数据量大,还可以选择压缩以后下载。 b Add to basket: 这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加400条数 据,呵呵,这个不是超市的购物篮,是不收费的。
Uniprot蛋白数据库
Uniport的前世今生
之前,世界上最广泛使用的蛋白数据库为瑞士的SWISS-PROT计划建立的数据库, NHGRI的项目主任Peter Good介绍说。但由于编辑详细蛋白结构数据库时间紧迫,再加上 资金短缺,SWISS-PROT无法跟上基因组学飞速前进的步伐,Good说。这种形势导致了 TrEMBL的产生,这是计算机注释的SWISS-PROT分支数据库,目的是暂时储存日益增多 的蛋白质结构信息。另外,美国的蛋白信息资源(Protein Information Resource ,PIR)也 独立编辑其自己的数据库。后来,这三个计划的领导人将展开合作,将三大数据库合并为 一个。联合起来的力量将“减少重复工作,由此也可以节省不必要的费用。”SWISSPROT的领导人、英国剑桥欧洲生物信息研究院的Rolf Apweiler说道。,UniProt将是 SWISS-PROT、TrEMBL和PIR三大数据库的最佳整合 一个集中化的数据库十分重要,密歇根大学的肿瘤学家Samir Hanash对此表示同意。他同 时也是人类蛋白组组织(Human Proteome Organisation)的主席。然而,Hanash提醒说, UniProt只是一个开始,还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动 的信息,他说。(2002年) 这句话不仅代表了Uniport数据库,也是代表了整个生物信息学,科研本就是站在巨人的肩 膀上发展的,那么这个肩膀也得与时俱进了!
UniProt(全称Universal Protein),它整合了三个老字号数据库(Swiss-Prot、 TrEMBL 和 PIR-PSD ) 的数据。是目前信息最丰富、资源最广的免费蛋白质数据库(注意没有之一哦!)。 UniProt知识库(UniProtKB)是收集蛋白质功能信息的中心枢纽,具有准确,一致和丰富的注释。除了捕 获每个UniProtKB条目强制的核心数据(主要是氨基酸序列,蛋白名称或描述,分类数据和引用信息)外, 还会添加尽可能多的注释信息。这包括广泛接受的生物本体论,分类和交叉引用,以及以实验数据和计算 数据的证据归属形式的注释质量的明确指示。
Uniprot主要功能
查询蛋白质序列以及其他多种信息 查询蛋白质组 找相似的蛋白质 对比多种蛋白质序列 查询蛋白质相关文献
网站的网址为/,先来看看全景图吧!这个数据库 可以大致分为6个主题部分,如上图红框所示1、UniProtKB;2、UniRef; 3、UNIParc;4、Proteomics;5、Supporting data。6、检索区
UniProt参考群集(UniRef)提供来自UniProt知识库(包括同种型)和选定的UniParc记录的序列集合集合,以便以多 种分辨率获得对序列空间的全面覆盖,同时从视图中隐藏冗余序列(但不包括其描述)。与UniParc不同,序列片段被 合并到UniRef中:UniRef100数据库将具有来自任何生物体的11个或更多残基的相同序列和亚片段组合成单个UniRef 条目,显示代表性蛋白质的序列,所有合并的登录号条目和链接到相应的UniProtKB和UniParc记录。UniRef90是通过 用UniRef100序列对11个或更多残基进行聚类而构建的CD-HIT算法(Li W.和Godzik A.,Bioinformatics,22:16581659,2006),使得每个簇由与最长序列(aka)具有至少90%序列同一性和80%种子序列)。同样,UniRef50是通过 对UniRef90种子序列进行聚类构建的,这些序列与聚类中最长的序列具有至少50%的序列同一性,并且具有至少80% 的重叠性。在2013年之前,没有重叠阈值,所以簇的长度更加不均匀。UniRef90和UniRef50产生的数据库大小分别减 少约58%和79%,提供显着更快的序列相似性搜索。种子序列是群集中最长的成员。然而,最长的序列并不总是最丰 富的。其他集群成员往往有更多的生物相关信息(名称,功能,交叉引用)
红框2区只看专属于某个物种的蛋白质
红框3区第一行 t BLAST: 这个按钮可以让你用感兴趣的蛋白质序列做BLAST分析(就是查一下在UniProt数据库中,还有哪些蛋白质 的氨基酸序列与你感兴趣的蛋白质相同或相似),别小瞧这个功能,知道哪些蛋白与目的蛋白序列相似,就有可能知道 这个蛋白具有哪些生物系功能,如果恰好还有其他相似蛋白的结构信息,就能帮助你大致知道这个蛋白的空间结构。使 用这个功能必须先选中,只能选中一个蛋白质。
e Columns: 这个可以让您定制蛋白数据列信息,就是自己定制显示哪些列信息,这个内容非常多,包括名称和分类学 信息,序列信息(氨基酸长度,分子量,SNP等),功能信息(EC number, 信号通路,活性位点,各种结合位点等), 相互作用信息,表达信息,亚细胞定位信息, 翻译后修饰,结构,家族及结构域信息, 序列信息.........太多了,感兴趣 的自己进去看吧! b Add to basket: 这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加400条数 据,呵呵,这个不是超市的购物篮,是不收费的
首先sp表示,Swiss-Prot数据库是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated) 。 P02769是蛋白在uniprot上的ID号,即蛋白的身份证号。 ALBU_BOVIN是蛋白在uniprot上的登录名,跟P02769是一个作用。 Serum albumin是蛋白名称,即蛋白的姓名啦。 OS表示Organism,也就是物种名称,数据库中的物种名称一般为拉丁名称,牛血清白蛋白Bostaurus当然是牛的拉丁。 GN表示gene name,即基因名称 PE表示ProteinExistence,即蛋白的可靠性,PE=1、2、3、4、5分别对应如下,可以看出数字越小可靠性越高: 1. Experimental evidence at protein level 蛋白质水平实验证据 2. Experimental evidence at tran level 转录水平实验证据 3. Protein inferred from homology 从同源蛋白质推断 4. Protein predicted 蛋白质预测 5. Protein uncertain 蛋白质不确定 SV表示SequenceVersion,即序列版本,即蛋白的身份证第二代,第三代…… 这里需要指出的是,除了sp,有时还会出现TR。
相关文档
最新文档