蛋白质数据库使用说明

1.高级查询 (1)

2.限定词说明 (1)

3.显示格式说明 (2)

3.1.Summary显示格式 (2)

3.2.FASTA显示格式 (3)

3.3.SwissProt显示格式 (4)

4.数据下载流程 (5)

5.数据提交 (6)

6.附录 (6)

6.1.蛋白质研究的历史 (6)

6.2.蛋白质组学与生物信息学 (7)

2009年10月16日

1.高级查询

在首页上点击“数据库”按钮，选择“蛋白数据库”进入蛋白质数据库主页。在蛋白质主页的左侧栏点击“高级检索”，进入如下图的高级检索页面：

蛋白质数据库的高级检索可以最多使用三个限定词来进行更精确的检索，三个限定词之间可以用“AND”和“OR”相连接，其中“AND”表示查询的结果中必须包含它所连接的两个关键词，“OR”表示查询的结果中至少包含它所连接的关键词中的一个。

在左侧的限定词框中可以选择的限定词包括：CAC、AC、Entry Name、Description、Tax ID、Organism、Keywords、Gene Name、Organelle、Length以及Molecular Weight等十一个限定词。其中Length和Molecular Weight可以进行范围查询。

2.限定词说明

蛋白质数据库中相关的限定词说明如下：

限定词描述

CAC国内用户提交的数据编号

AC SwissProt的序列或记录唯一的接收编号

Entry Name录入名

Description描述

Tax ID物种分类号

Organism与蛋白质有关的物种的学名和通用名

Keywords与其它数据库专用词汇有关的索引名词

Gene Name基因的标准名和通用名

Organelle细胞器官

Length序列的总长度

Molecular Weight蛋白质的分子量，单位为道尔顿（Da）

3.显示格式说明

蛋白质数据库的查询结果有三种显示结果：Summary、FASTA和SwissProt。

3.1.Summary显示格式

Summary格式显示了蛋白质条目的摘要信息，主要有两部分组成：

1）蛋白质的名称，AC号以及来源物种

2）对蛋白质的简要描述信息，如该组成该蛋白质的亚基和生物功能等

3.2.FASTA显示格式

FASTA格式第一行显示信息包括蛋白质录入名、AC号以及来源物种。（下载保存后不保留）第二行为序列的注释信息，以“>”开头，后跟蛋白质的来源数据库、AC号、录入名以及来源物种。

第三行为蛋白质序列数据。

3.3.SwissProt显示格式

SwissProt格式的每行由两个字符的Tags标识，后接三个空格，然后是具体的信息，有关的Tags如下表：

Tag Content注释

ID Identification蛋白质的标识符

AC Accession numbers蛋白质的唯一标识号

DT Date创建以及最后修改的日期

DE Description对蛋白质的简要描述

GN Gene name(s)基因的名称

OS Organism species物种来源

OG Organelle来源器官

OC Organism classification物种分类信息

OX Taxonomy cross-reference物种分类的参考信息

OH Organism host只存在于病毒的条目中，指病毒宿主的信息

RN Reference number参考号

RP Reference position参考位置

RC Reference comment(s)相关评论

RX Reference cross-reference(s)相关交叉参考信息

RG Reference group相关组

RA Reference authors参考文献作者

RT Reference title参考文献标题

RL Reference location参考文献位置

CC Comments or notes评论

DR Database cross-references交叉参考数据库

KW Keywords关键词

FT Feature table data特征表

SQ Sequence header序列

(blanks)Sequence data序列数据

//Termination line条目结束符

4.数据下载流程

蛋白质数据库提供如下两种数据下载方式：

1）下载打包的蛋白质数据

我们提供了蛋白质数据的FTP下载，点击蛋白质数据库页面的左侧栏中的“数据下载”，你就可以通过FTP来登录我们的下载中心，然后选择你需要的数据来进行下载。

2）下载查询到的蛋白质序列数据

在查询结果的页面，选择“Summary”、“FASTA”和“SwissProt”三种格式中的一种，然后点击“下载”按钮，即可下载你所查询到的结果中你选中的蛋白质序列数据，如果你没有选中，则下载当前显示页面上的的全部蛋白质序列数据。

5.数据提交

如果您有新的已经实验证实，且Uniprot尚未收录的蛋白质序列需要提交，请直接联系我们。联系方式：lifecenter@https://www.360docs.net/doc/af11411332.html,

6.附录

6.1.蛋白质研究的历史

在18世纪，安东尼奥·弗朗索瓦（Antoine Fourcroy）和其他一些研究者发现蛋白质是一类独特的生物分子，他们发现用酸处理一些分子能够使其凝结或絮凝。当时他们注意到的例子有来自蛋清、血液、血清白蛋白、纤维素和小麦面筋里的蛋白质。荷兰化学家Gerhardus Johannes Mulder对一般的蛋白质进行元素分析发现几乎所有的蛋白质都有相同的实验公式。用“蛋白质”这一名词来描述这类分子是由Mulder的合作者永斯·贝采利乌斯于1838年提出。Mulder随后鉴定出蛋白质的降解产物，并发现其中含有为氨基酸的亮氨酸，并且得到它（非常接近正确值）的分子量为131Da。

对于早期的生物化学家来说，研究蛋白质的困难在于难以纯化大量的蛋白质以用于研究。因此，早期的研究工作集中于能够容易地纯化的蛋白质，如血液、蛋清、各种毒素中的蛋白质以及消化性和代谢酶（获取自屠宰场）。1950年代后期，Armour Hot Dog Co.公司纯化了一公斤纯的牛胰腺中的核糖核酸酶A，并免费提供给全世界科学家使用。目前，科学家可以从生物公司购买越来越多的各类纯蛋白质。

著名化学家萊納斯·鮑林成功地预测了基于氢键的规则蛋白质二级结构，而这一构想最早是由威廉·阿斯特伯里于1933年提出。随后，Walter Kauzman在总结自己对变性的研究成果和之前Kaj Linderstrom-Lang的研究工作的基础上，提出了蛋白质折叠是由疏水相互作用所介导的。1949年，弗雷德里克·桑格首次正确地测定了胰岛素的氨基酸序列，并验证了蛋白质是由氨基酸所形成的线性（不具有分叉或其他形式）多聚体。原子分辨率的蛋白质结构首先在1960年代通过X射线晶体学获得解析；到了1980年代，NMR也被应用于蛋白质结

构的解析；近年来，冷冻电子显微学被广泛用于对于超大分子复合体的结构进行解析。截至到2008年2月，蛋白质数据库中已存有接近50,000个原子分辨率的蛋白质及其相关复合物的三维结构的坐标。

6.2.蛋白质组学与生物信息学

在一定时间内一个细胞或一类细胞中存在的所有蛋白质被称为蛋白质组，研究如此大规模的数据的领域就被称为蛋白质组学，与基因组学的命名方式相似。蛋白质组学中关键的实验技术包括用于检测细胞中大量种类蛋白质相对水平的蛋白质微阵列技术，和用于系统性研究蛋白-蛋白相互作用的双杂交筛选技术。此外，还有探究所有组分之间的可能的生物学相互作用的相互作用组学，以及系统性地解析蛋白质结构，并揭示其中的可能的折叠类型的结构基因组学。

目前各类数据库中含有许多种类的生物体的大量的基因组和蛋白质组数据，包括人类基因组的数据；要对这些数据进行分析已获得有用的信息，就需要用到近来来发展起来的新兴学科──生物信息学。生物信息学的发展使得现在研究者可以通过序列比对有效地鉴定相关生物体的同源蛋白质。利用序列信息推导工具（sequence profiling tool）可以对更特异地对序列进行分析，如限制酶图谱、针对核酸序列的开放阅读框架分析以及二级结构预测。利用特定软件，如ClustalW，可以从序列信息中可以构造出系统树并进行进化分析。生物信息学的研究领域包括集合、注释和分析基因组和蛋白质组数据，这就需要应用计算技术于生物学问题，如基因识别和支序分类。

蛋白质序列分析

蛋白质序列、性质、功能和结构分析基于网络的蛋白质序列检索与核酸类似，从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序（https://www.360docs.net/doc/af11411332.html,/cgi-bin/protscale.pl）可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析蛋白质跨膜区域分析的网络资源有： TMPRED：https://www.360docs.net/doc/af11411332.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.360docs.net/doc/af11411332.html, 3、前导肽和蛋白质定位一般认为，蛋白质定位的信息存在于该蛋白自身结构中，并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为，穿膜蛋白质是由mRNA编码的。在起始密码子后，有一段疏水性氨基酸序列的RNA片段，这个氨基酸序列就称为信号序列（signal sequence）。蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案（http://genome.cbs.dtu.dk/services /SignalP/mailserver.html），e-mail 地址为signalp@ genome.cbs.dtu.dk。蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动，如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中，通过线粒体膜的蛋白质在转运之前大多数以前体形式存在，它由成熟蛋白质和N端延伸出的一段前导肽或引肽（leader peptide）共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明，它们约含有20~80个氨基酸残基，当前体蛋白跨膜时，前导肽被一种或两种多肽酶所水解转变成成熟蛋白质，同时失去继续跨膜能力。前导肽一般具有如下性质：①带正电荷的碱性氨基酸（特别是精氨酸）含量较丰富，它们分散于不带电荷的氨基酸序列中间；②缺失带负电荷的酸性

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域 1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一常用蛋白质数据库网址可能有更新氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

蛋白质数据库

生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录 1、蛋白质数据库 PPI - JCB 蛋白质与蛋白质相互作用网络 ?Swiss-Prot - 蛋白质序列注释数据库 ?Kabat - 免疫蛋白质序列数据库 ?PMD - 蛋白质突变数据库 ?InterPro - 蛋白质结构域和功能位点 ?PROSITE - 蛋白质位点和模型 ?BLOCKS - 生物序列分析数据库 ?Pfam - 蛋白质家族数据库 [镜像： St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] ?PRINTS - 蛋白质 Motif 数据库 ?ProDom - 蛋白质结构域数据库 (自动产生) ?PROTOMAP - Swiss-Prot蛋白质自动分类系统 ?SBASE - SBASE 结构域预测数据库 ?SMART - 模式结构研究工具 ?STRING - 相互作用的蛋白质和基因的研究工具

?TIGRFAMs - TIGR 蛋白质家族数据库 ?BIND - 生物分子相互作用数据库 ?DIP - 蛋白质相互作用数据库 ?MINT - 分子相互作用数据库 ?HPRD - 人类蛋白质查询数据库 ?IntAct - EBI 蛋白质相互作用数据库 ?GRID - 相互作用综合数据库 ?PPI - JCB 蛋白质与蛋白质相互作用网络 2、蛋白质三级结构数据库 ?PDB - 蛋白质数据银行 ?BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库?SWISS-MODEL Repository - 自动产生蛋白质模型的数据库 ?ModBase - 蛋白质结构模型数据库 ?CATH - 蛋白质结构分类数据库 ?SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia] ?Molecules To Go - PDB数据库查询 ?BMM Domain Server - 生物分子模型数据库 ?ReLiBase - 受体/配体复合物数据库 [镜像： USA] ?TOPS - 蛋白质拓扑图 ?CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5 摘要：在后基因组时代生物信息学的研究当中，离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中，目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展，目前的蛋白质数据库不论是所包含数据量还是功能都日新月异，新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓，作为自己蛋白质研究入门的一个引导。关键词：蛋白质；数据库 0 引言随着科技的发展，个人的知识往往赶不上快速膨胀的信息量，人们为了解决这个问题，便创建了形形色色的数据库。蛋白质数据库是指：在蛋白质研究领域根据实际需要，对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类：蛋白质序列数据库和蛋白质结构数据库，蛋白质序列数据库来自序列测定，结构数据库来自X-衍射和核磁共振结构测定（详见图1）。这些数据库是分子生物信息学的基本数据资源。上世纪90年代，我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快，同时伴随着计算机和因特网发展，蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后，我们所用的各种蛋白质数据库都发展成为存储在网络服务器上，基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据，新手往往感到无从下手，在需要时找不到自己需要的合适数据库。本文从目前蛋白质数据库建立的的逻辑层次出发，系统地简绍了常用蛋白质数据的概况，它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术，为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

蛋白常用数据库

搞蛋白质的童鞋们，甭要只查NCBI了~蛋白质相关数据库启蒙~ ★ 小木虫(金币+1):奖励一下，谢谢提供资源 qinhy:恭喜，您的帖子被版主审核为资源贴了，别人回复您的帖子对资源进行评价后，您就可以获得金币了理由:资源贴2011-11-26 16:56 本来是带图的，可是弄过来就变成米图了，附件里面一个是PDF版、一个是WORD版均是带图的，童鞋们看带图的可能比较方便点哦~ 基于蛋白质序列的蛋白质相互作用位点预测（闲谈版）这个不是论文不是论文啊~~这个是应某某的要求帮他找的，所以都是用现成的免费的网站数据库做的预测分析。无论文为依托，无原理为根据，纯粹就是流连各大网站作个的闲谈。 1、用这些网站先查查你要研究的蛋白质的底细。这些网站的数据库大多数是实验或者一些相关文献报道的数据的组成。 ★String http://string.embl.de/ 输入你要搜寻的蛋白，它就把这个蛋白相关的数据反映给你，分confidence、evidence的数据可信度参考，同时还具有actions选项，反应它们之间可能是激活/抑制的关系。按按+、-号可以扩大缩小关联蛋白的数量范围。往下拉一点点就是数据,哈哈，我们都要看数据吃饭啊~~ 分析的数据源自Neighborhood、Fusion、Occurrence、Coexpression、Experiments Database、Textminin及Homology，表示点得证明有数据，根据各项数据给出综合评分。评分越高相互存在关系可能性越高。点击下方各项图标等详细看到各项数据内容。设条件确定筛选范围。 ★DIP https://www.360docs.net/doc/af11411332.html,/dip/Main.cgi 跟上面的大同小异的功能，装上它附带的软件可能操作性会好一点，不过我米有试过哦。倒是跟它有链接的几个数据库都很强大，大家可以点击看看。 ★BIND http://www.bind.ca 文献有介绍的网站，不过我不能理解为什么我注册就注不了……. 2、继续查，用这些网站将要研究的蛋白质的家庭背景，月收入也大起底。这里的网站可能跟相互作用方面的关系不大，但是如果知道这些，可以对研究的蛋白有更深的了解。 ★PDB https://www.360docs.net/doc/af11411332.html,/pdb/home/home.do 要查3D结构就往这里查~通常说的PDB号为文献号末4位。 ★PIR https://www.360docs.net/doc/af11411332.html,/pirwww/index.shtml 在蛋白质方面如NCBI般强大的网站，去上面晃荡下吧，会有收获滴。 ★KEGG http://www.genome.jp/kegg/ 粉强大的一个网站，我只说说它的KEGG PA THW AY子项，能迅速掌握一个蛋白质的功能通路，对于小白的偶们来说，很有用，有木有。 3、正题正题，做完上面那些后，接着就是纯预测的成分。也因为如此，要找着这些网站是很悲催的一件事。就算你找着了，你不懂语言，不懂算法，到底结果的可靠性怎样，见人见智。需要PDB号作分析： promate http://bioinfo.weizmann.ac.il/promate/

SWISS-MODEL_蛋白质结构预测教程

SWISS-MODEL 蛋白质结构预测 SWISS-MODEL是一项预测蛋白质三级结构的服务，它利用同源建模的方法实现对一段未知序列的三级结构的预测。该服务创建于1993年,开创了自动建模的先河,并且它是讫今为止应用最广泛的免费服务之一。同源建模法预测蛋白质三级结构一般由四步完成： 1. 从待测蛋白质序列出发，搜索蛋白质结构数据库（如PDB,SWISS-PROT等），得到许多相似序列（同源序列），选定其中一个（或几个）作为待测蛋白质序列的模板； 2. 待测蛋白质序列与选定的模板进行再次比对，插入各种可能的空位使两者的保守位置尽量对齐； 3. 建模：调整待测蛋白序列中主链各个原子的位置，产生与模板相同或相似的空间结构——待测蛋白质空间结构模型； 4. 利用能量最小化原理，使待测蛋白质侧链基团处于能量最小的位置。最后提供给用户的是经过如上四步（或重复其中某几步）后得到的蛋白质三级结构。 SWISS-MODEL工作模式 SWISS-MODEL服务器是以用户输入信息的最小化为目的设计的，即在最简单的情况下，用户仅提供一条目标蛋白的氨基酸序列。由于比较建模程序可以具有不同的复杂性，用户输入一些额外信息对建模程序的运行有时是有必要的，比如，选择不同的模板或者调整目标模板序列比对。该服务主要有以下三种方式: ?First Approach mode(简捷模式）：这种模式提供一个简捷的用户介面：用户只需要输入一条氨基酸序列，服务器就会自动选择合适的模板。或者，用户也可以自己指定模板（最多5条），这些模板可以来自ExPDB 模板数据库（也可以是用户选择的含坐标参数的模板文件）。如果一条模板与提交的目标序列相似度大于25%，建模程序就会自动开始运行。但是，模板的可靠性会随着模板与目标序列之间的相似度的降低而降低，如果相似度不到50%往往就需要用手工来调整序列比对。这种模式只能进行大于25个残基的单链蛋白三维结构预测。 ?Alignment Interface（比对界面）：这种模式要求用户提供两条已经比对好的序列，并指定哪一条是目标序列，哪一条是模板序列（模板序列应该对应于ExPDB模板数据库中一条已经知道其空间结构的蛋白序列）。服务器会依据用户提供的信息进行建模预测。 ?Project mode(工程模式）：手工操作建模过程：该模式需要用户首先构建一个DeepView工程文件，这个工程文件包括模板的结构信息和目标序列与模板序列间的比对信息。这种模式让用户可以控制许多参数，例如：模板的选择，比对中的缺口位置等。此外，这个模式也可以用于“first approach mode简捷模式”输出结果的进一步加工完善。此外，SWISS-MODEL还具有其他两种内容上的模式： ?Oligomer modeling(寡聚蛋白建模):对于具有四级结构的目标蛋白,SWISS-MODEL提供多聚模板的模式，用于多单体的蛋白质建模。这一模式弥补了简捷模式中只能提交单个目标序列,不能同时预测两条及以上目标序列的蛋白三维结构的不足。 ?GPCR mode(G蛋白偶联受体模式)：是专门对7次跨膜G蛋白偶联受体的结构预测。

蛋白质相互作用数据库和分析方法

蛋白质相互作用数据库和分析方法 1. 蛋白质相互作用的数据库蛋白质相互作用数据库见下表所示：数据库名说明网址 BIND 生物分子相互作用数据库 http://bind.ca/ DIP 蛋白质相互作用数据库 https://www.360docs.net/doc/af11411332.html,/ IntAct 蛋白质相互作用数据库 https://www.360docs.net/doc/af11411332.html,/intact/index.html InterDom 结构域相互作用数据库 https://www.360docs.net/doc/af11411332.html,.sg/ MINT 生物分子相互作用数据库 http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库 http://string.embl.de/ HPRD 人类蛋白质参考数据库 https://www.360docs.net/doc/af11411332.html,/ HPID 人类蛋白质相互作用数据库 http://wilab.inha.ac.kr/hpid/ MPPI 脯乳动物相互作用数据库 http://fantom21.gsc.riken.go.jp/PPI/ biogrid 蛋白和遗传相互作用数据，主要来自于酵母、线虫、果蝇和人 https://www.360docs.net/doc/af11411332.html,/ PDZbase 包含PDZ 结构域的蛋白质相互作用数据库 https://www.360docs.net/doc/af11411332.html,/services/pdz/start Reactome 生物学通路的辅助知识库 https://www.360docs.net/doc/af11411332.html,/ 2. 蛋白质相互作用的预测方法蛋白质相互作用的预测方法很非常多，以下作了简单的介绍 1) 系统发生谱这个方法基于如下假定：功能相关的(functionally related)基因，在一组完全测序的基因组中预期同时存在或不存在，这种存在或不存在的模式(pattern)被称作系统发育谱；如果两个基因，它们的序列没有同源性，但它们的系统发育谱一致或相似．可以推断它们在功能上是相关的。

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测：? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到：“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序（?）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如，bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

整理(蛋白质序列数据库)

蛋白质序列数据库我们可以根据基因组序列预测新基因，预测编码区域，并推测其产物（即蛋白质）的序列。因此，随着基因组序列的不断增长，蛋白质序列也在不断增加。 PIR 历史上，蛋白质数据库的出现先于核酸数据库。在1960年左右，Dayhoff和其同事们搜集了当时所有已知的氨基酸序列，编著了《蛋白质序列与结构图册》。从这本图册中的数据，演化为后来的蛋白质信息资源数据库PIR（Protein Information Resource）。 PIR是由美国生物医学基金会NBRF（National Biomedical Research Foundation）于1984年建立的，其目的是帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组，进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统，用户可以迅速查找、比较蛋白质序列，得到与蛋白质相关的众多信息。目前，PIR已经成为一个集成的生物信息数据源，支持基因组研究和蛋白质组研究。至2004年，PIR 有近30万个蛋白质的登录数据项，包括来自不同生物体的蛋白质序列。除了蛋白质序列数据之外，PIR还包含以下信息：（1）蛋白质名称、蛋白质的分类、蛋白质的来源；（2）关于原始数据的参考文献；（3）蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；（4）序列中相关的位点、功能区域。对于数据库中的每一个登录项，有与其它数据库的交叉索引，包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。

第三讲：Uniprot蛋白数据库及其他蛋白质分析工具

第三讲 Uniprot蛋白数据库及其他蛋白质分析工具
2013/03/19

Uniprot数据库
? Uniprot（Universal?protein?resource)是蛋白质序列的联合数据库。
– SIB:?Swiss?Institute?of?Bioinformatics – EBI:?European?Bioinformatics?Institute – PIR:?Protein?Information?Resource – 2002年三家联合形成了Uniprot

Swiss‐Prot
? 1986年建立 ? 低冗余度 ? 功能导向 ? 由Swiss?Institute?of?Bioinformatics?和EBI共同建立并维护

TrEMBL
? TrEMBL=Translation?from?EMBL ? EBI建立并维护 ? 是一个自动数据库 ? 冗余度高，可信度低

UniprotKB
? 部分经过专家注释的数据库 ? 具有很高的可信度 ? 包括两部分UniprotKB/Swiss‐Prot和 UniprotKB/TrEMBL ? UniprotKB/Swiss‐Prot包括539,165条序列 ? UniprotKB/TrEMBL包括29,769,971?条序列 ? 具有非冗余性

Uniparc
? 非冗余性 ? 给予序列的特异性，非同一物种的相同序列被认为是同一个蛋白质 ? 每一条序列被給予一个特异的编号

蛋白质的功能域、结构及其药物设计----6

第六章蛋白质的功能域、结构及其药物设计随着人类基因组全序列测定的完成，预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术，也可以基于蛋白质技术，即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的，而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应，均是一个整体概念，但是两者又有根本的不同：一个有机体只有一个确定的基因组，组成该有机体的所有不同细胞都共享有一个基因组；但是，基因组内各个基因表达的条件、时间和部位等不同，因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此，蛋白质组又是一个动态的概念。由于以上原因，再加上由于基因剪接，蛋白质翻译后修饰和蛋白质剪接，基因遗传信息的表达规律更趋复杂，不再是经典的一个基因一个蛋白的对应关系，而是一个基因可以表达的蛋白质数目大于一。由此可见，蛋白质组研究是一项复杂而艰巨的任务。蛋白质结构与功能的研究已有相当长的历史，由于其复杂性，对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中，如Chou和Fasman提出的经验参数法便是最突出的例子。该方法统计分析了各种氨基酸的二级结构分布特征，得出相应参数(P а,P β 和P t )并用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。第一节蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区，则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得，如疏水性，它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是，总的来说，我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻，比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析： ①比较未知蛋白序列与已知蛋白质序列的相似性； ②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线，所得出的分析结果并不会总是相一致。一般来说，数据库相似性搜索获得的结果最为可靠，而来自PROSITE的结果相对不可靠。

UniProt：蛋白质的全信息数据库

Nucleic Acids Research, 2004, Vol. 32, Database issue D115-D119? 2004 Oxford University Press UniProt：蛋白质的全信息数据库摘要为了给科学界提供一个专门，集中，权威的蛋白质序列和功能的信息资源，瑞士－Prot，TrEMBL 和PIR蛋白质数据库已经合作组成了蛋白质的全信息数据库 (UniProt)。我们的目的是用广泛的对照和询问接口来提供一个全面的，分类完全的，丰富并且准确的蛋白质序列信息。中心数据库将有两个部分：符合熟悉的瑞士－Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类，注释和广泛的对照)。为方便序列查寻，UniProt也提供几个无冗余的序列数据库。 UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。数据库那些UniProt接口可在线访问(https://www.360docs.net/doc/af11411332.html,)或者以几个形式下载(ftp：//https://www.360docs.net/doc/af11411332.html,/pub)。我们鼓励科学界人士向UniProt 提供数据。介绍近来，瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。 2002年，在生物信息科学(SIB)的瑞士研究所和欧洲生物信息科学研究所的瑞士-Prot + TrEMBL 组 (EBI)和蛋白质信息资源(PIR)组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。新联合的组织的主要任务是通过建立一个综合，详细分类，丰富并且准确注释蛋白质序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口

SwissProt 数据库蛋白质类别

类别类别 14-3-3 proteins 14-3-3蛋白ABC transport membrane comp. ABC转运膜蛋白 dehydrogenases 醇脱氢酶 ADP-ribosylation factors ADP糖基化因子 Alcohol α-晶体蛋白Aldehyde dehydrogenases 醛脱氢酶 Alpha-crystallins/HSP-20 Alpha-2-macroglobulins α-2巨球蛋白 Alpha-mannosidases α-甘露糖苷酶 V型转转氨酶 V class Aminotransferases 转氨酶 Aminotransferases AA-tRNA synthetases class II II类AA-tRNA合成酶AraC family HTH proteins 阿糖家族螺旋-转角-螺旋蛋白 Arginases 精氨酸酶 Arrestins (视紫红质)抑制蛋白Asparaginase / glutaminase 门冬酰氨酶/谷氨酰胺酶ATP synthase c subunit ATP合酶C亚基Avidin 抗生素蛋白Band 4.1 family proteins 4.1条带家族蛋白 domain 溴基结构域 Beta-lactamases β-内酰氨酶 Bromo BTG1 family BTG1家族 C1q domain C1q结构域 domain C型凝集素 C2 domain C2结构域 C-type lectin type-B 羧酸脂酶 Cadherins Carboxylesterases domain CBS结构域Cathelicidins CBS Chaperonins cpn10/cpn60 分子伴侣 Chalcone/stilbene synthases 查耳酮1.2-而苯乙烯合酶 Chaperonins TCP1 family 分子伴侣TCP1家族 Chitinases 几丁质酶 Chromo domain Claudins Clostridium cellul. repeat. Clusterin Coiled coil domains 无规卷曲结构域Cold shock domain 冷激结构域Crystallins beta/gamma β/γ晶体蛋白 CTF/NF-I CCAAT转录因子/核因子 proteins 表皮蛋白 CUB domain CUB结构域 Cuticle P450 细胞色素P450 Cytochrome c oxidase 细胞色素C氧化酶 Cytochromes Cytosolic fatty acid bind. 细胞质脂肪酸结合蛋白DEAD-box hef1licases Dead-box解旋酶 I 脱氧核糖核酸酶I Death domain 死亡结构域 Deoxyribonuclease family DnaJ家族Dichloromethane dehalogenase 二氯甲脱卤素酶 DnaJ DNA/RNA non-spec. Nucleases DNA/RNA非特异性核 EF-hand calcium-binding EF-手型钙结合蛋白酶 1 伸展因子I factor EGF-like domain, Ca++ EGF样结构域 Elongation Enoyl-CoA hydratase 乙烯辅酶 Ependymins Fatty acid desaturases 脂肪酸去饱和酶 Fibrinogens 纤维蛋白原Fibronectin type III 纤连蛋白III型Fimbrial usher proteins FKBP-type Ppiase Follistatin domain Forkhead-associated domain 双头结构域GltP family of transporters 转运蛋白 synthetase 谷氨酰胺合成酶Glucanases 葡聚糖酶 Glutamine Glycerol-3-P dehydr. FAD 甘油脱氢酶黄素腺嘌呤 Glycoprotease family 糖蛋白家族二核苷酸 hydrolases 糖基水解酶Glycoprotein hormones 糖蛋白激素 Glycosyl Glycosyl transferases (Euk.) 糖基转移酶 G-proteins G蛋白 family Grp家族 G-protein coupled receptors G蛋白偶合受体 grpE

蛋白质结构预测网址

蛋白质结构预测网址物理性质预测： Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序（）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如， bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得()，参见表一

蛋白质数据库应用swiss-port和PPD

摘要本文对SWISS-PROT和PDB两个数据库进行了简要介绍以及如何进行序列的单个下载和批量下载进行了说明。关键词：SWISS-PROT PDB 下载

ABSTRACT In this paper,I make a brief introduction about SWISS-PROT and PDB and how to make a single download and batch download about sequence. Key words：SWISS-PROT PDB download

摘要 0 ABSTRACT (1) 一Swiss-Port的使用方法 (4) 1.1网站简介 (4) 1.2数据下载： (5) 二 PDB的使用方法 (5) 2.1网站简介 (5) 2.2数据下载 (9)

一Swiss-Port的使用方法 SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。Swiss-Port的网址为http://www.expasy.ch/sprot。 1.1网站简介打开网站后可以找到如下所示部分：在处可以查询序列。点击后会有如下界面：在输入区输入序列：MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHL VLRLRGG，点击按钮可以进行查找（查找时还可以在其下方进行一系列的筛选条件控制）。查询后会看到如下界面，在这里可以看到你进行查询的时间，查询所用时间，

蛋白质分析相关数据库及网站

表1蛋白质相互作用分析相关数据库及网站蛋白质序列分析和结构预测【实验目的】 1、掌握蛋白质序列检索的操作方法； 2、熟悉蛋白质基本性质分析； 3、熟悉基于序列同源性分析的蛋白质功能预测，了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测； 4、了解蛋白质结构预测。【实验内容】 1、使用Entrez或SRS信息查询系统检索人脂联素（adiponectin）蛋白质序列； 2、使用BioEdit软件对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析； 3、对人脂联素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析； 4、对人脂联素蛋白质序列进行motif结构分析； 5、对人脂联素蛋白质序列进行二级结构和三维结构预测。【实验方法】 1、人脂联素蛋白质序列的检索：

（1）调用Internet浏览器并在其地址栏输入Entrez网址（https://www.360docs.net/doc/af11411332.html,/Entrez）；（2）在Search后的选择栏中选择protein；（3）在输入栏输入homo sapiens adiponectin；（4）点击go后显示序列接受号及序列名称；（5）点击序列接受号NP_004788 （adiponectin precursor；adipose most abundant gene transcript 1 [Homo sapiens]）后显示序列详细信息；（6）将序列转为FASTA格式保存（参考上述步骤使用SRS信息查询系统检索人脂联素蛋白质序列）； 2、使用BioEdit软件对人脂联素蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性质分析：打开BioEdit软件→将人脂联素蛋白质序列的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择protein→点击Amino Acid Composition→查看该蛋白质分子质量和氨基酸组成；或者选择protein后，点击Kyte & Doolittle Mean Hydrophobicity Profile→查看该蛋白质分子疏水性水平； 3、人脂联素蛋白质序列的蛋白质同源性分析：（1）进入NCBI/Blast网页；（2）选择Protein-protein BLAST （blastp）；（3）将FASTA格式序列贴入输入栏；（4）点击BLAST；（5）查看与之同源的蛋白质； 4、人脂联素蛋白质序列的motif结构分析：（1）进入http://hits.isb-sib.ch/cgi-bin/PFSCAN网页；（2）将人脂联素蛋白质序列的FASTA格式序列贴入输入栏；（3）点击Scan；（4）查看分析结果（注意Prosite Profile中的motif information）； 5、人脂联素蛋白质序列的二级结构预测：（1）进入下列蛋白结构预测服务器网址http://www.embl-heidelberg.de/predictprotein//predictprotein.html

蛋白数据库汇总

3.1蛋白质数据库及蛋白质序列分析生物信息学2010-12-21 11:09:05 阅读29 评论0 字号：大中小订阅https://www.360docs.net/doc/af11411332.html,/blog/cns!73F6908582B81E1B!456.entry 3.1蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库

三、蛋白质二级结构预测网站（数据库）

常与生物学功能相关。

说，我们要建立多个序列之间的关系，这样才能揭示整列比对在阐明一组相关序列的重要生物学模式方面起着列之间的相似性关系，序列比对一样，多序列比对的方法建立在某个数学或生样，型在多大程度上反映了序列之间的相似性关系以及它们

甘氨酸我们称比对后序列中残基的位置为相对位置。置相同，而每个残基的绝对位置不同，因为它们来自不是经过比对后的位置，也就比对过程赋予它的属性。列比对所需要的计算时间和内存空间与这两个序列的长两个序列长度的乘积，三序列比对则可以理解为将双序列比对的两维空间扩展面上增加一条坐标轴。这样算法复杂性就变成了第三条序列的长度。

行少量的较短的序列的比对出的（阵来进行序列的比对不太现实，法，以降低运算复杂度。程中，性分数值将它们分成若干组，并在每组之间进行比对，相似性分数值继续分组比对，直到得到最终比对结果。较高的序列先进行比对，而距离较远的序列添加在后面Clusal ），根据对亲缘关系较近的序列间空位情况，确定如何在亲缘关系较远的序列之间插入空位。同样，相似性较高的序列比对结果中的残基突变信息，可用于是免费软件，很容易从互联网上下载，和其它软件一起，广本身定义的格式。 GCG 照特定的格式输出，并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此，计算机程序将一次数据库按家族分类；另外一些则是通过手工或自动方法它将大量具有结构相似性的序列归为一类，比如各种不同种类动物的转铁蛋白的基因列比对信息，开头是一些注释信息，然后给出了比对序列的名字，再下是对于一个未知的蛋白质序列在该序列可以看看PRINTS数据库关于TRANSFERRIN的据库在自动比对的基础上进行了手工编辑，查寻PRIN TRANSFERRIN这一类的比对信息，结果可以用模体（用点击链接调用JAVA APPLET进行图形显示，下图是列比对的局部图形，可见PRINTS数据库中TRANSFE 比对形成。

蛋白质分析路线、方法

次阅读2010-9-7 17:04|个人分类:名家名言|系统分类:科研笔记|关键词:蛋白分析物理性质预测： Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.360docs.net/doc/af11411332.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html

二级结构和折叠类预测 nnpredict https://www.360docs.net/doc/af11411332.html,/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.htmlSSPRED http://www.embl-heidelberg.de/sspred/ssprd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe https://www.360docs.net/doc/af11411332.html,/matsudaira/macstripe.html 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“https://www.360docs.net/doc/af11411332.html,:80/entrz/query.fcgi?db=protein”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：https://www.360docs.net/doc/af11411332.html,/”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序（ https://www.360docs.net/doc/af11411332.html,/cgi-bin/protscale.pl）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如， bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得(http://www.isrec.isb-sib.ch/ftp-server/tmbase)，参见表一资源名称网址说明 TMPRED https://www.360docs.net/doc/af11411332.html,/software/TMPRED_form.html 基于对tmpred数据库的统计分析PHDhtm