蛋白质序列分析

合集下载

蛋白质序列分析

蛋白质序列、性质、功能和结构分析基于网络的蛋白质序列检索与核酸类似，从NCBI或利用SRS系统从EMBL检索。

1、疏水性分析ExPASy的ProtScale程序（/cgi-bin/protscale.pl）可用来计算蛋白质的疏水性图谱。

输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。

也可用BioEdit、DNAMAN等软件进行分析。

2、跨膜区分析蛋白质跨膜区域分析的网络资源有：TMPRED：/software/TMPRED_form.htmlPHDhtm:http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.htmlMEMSAT: ftp://3、前导肽和蛋白质定位一般认为，蛋白质定位的信息存在于该蛋白自身结构中，并且通过与膜上特殊受体的相互作用得以表达。

这就是信号肽假说的基础。

这一假说认为，穿膜蛋白质是由mRNA编码的。

在起始密码子后，有一段疏水性氨基酸序列的RNA片段，这个氨基酸序列就称为信号序列（signal sequence）。

蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk/services/SignalP/或其二版网址http://genome.cbs.dtu.dk/services/SignalP-2.0/。

该服务器也提供利用e-mail进行批量蛋白质序列信号肽分析的方案（http://genome.cbs.dtu.dk/services /SignalP/mailserver.html），e-mail 地址为signalp@ genome.cbs.dtu.dk。

蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动，如前导肽和面向特定细胞器的靶向肽。

在线粒体蛋白质的跨膜运输过程中，通过线粒体膜的蛋白质在转运之前大多数以前体形式存在，它由成熟蛋白质和N端延伸出的一段前导肽或引肽（leader peptide）共同组成。

蛋白质序列分析

百泰派克生物科技
蛋白质序列分析
蛋白质序列分析是指对构成蛋白质一级结构的氨基酸残基进行鉴定，以及对氨基酸残基的排列顺序进行分析，常用的蛋白质序列分析方法主要包括质谱法和非质谱法（Edman降解法）两类。

质谱法是目前使用最为广泛的一种蛋白质序列分析方法，基于质谱的蛋白质序列分析结合对应算法和生物信息学技术，可以实现蛋白的N/C末端序列分析、全序列分析和从头测序分析，其可用于已知蛋白的表达验证和未知蛋白的氨基酸序列分析。

基于质谱的蛋白序列分析通过特异性蛋白酶将目标蛋白酶切为肽段，再经过MS/MS
或LC-MS/MS检测得到肽段二级质谱图，解析谱图获得肽段的氨基酸序列，最后根
据肽段间的重合互补性完成各肽段的拼接，由此可实现完整蛋白质的序列分析。

百泰派克使用Thermo公司推出的Obitrap Fusion Lumos质谱仪提供蛋白测序服务，该服务可对蛋白样品的序列分析。

Obitrap Fusion Lumos质谱仪是现在分辨率和
灵敏度最高的质谱仪，保证了低丰度肽段碎裂片段鉴定的灵敏度；同时在肽段碎裂过程中采取HCD与ETD结合的模式，保证肽段碎裂片段的完整性。

可以实现蛋白样品的N端，C端序列分析以及蛋白全长序列分析。

蛋白质序列分析

例子1：利用ExPASy服务器中的ProtScale程序分析绵羊BMPR-1B蛋白的疏水性。具体操作： ⑴输入ExPASy-ProtScale，序列框中输入 Uniprot数据库中绵羊BMPR-1B氨基酸序列，选择Hphob./Kyte&Doolittle，即计算基于K-D法的蛋白质疏水性，其他程序默认，点击提交。
2. MMDB数据库
分子模型数据库 (MMDB ，Molecular Modeling Database)是一个关于三维生物分子结构的数据库，是美国生物技术信息中心(NCBI) 所开发的生物信息数据库集成系统的一个部分。 MMDB是来源于PDB三维结构的一部分，经重新组织和验证PDB三维结构信息，从而保证在化学和大分子三维结构之间的交叉参考。
⑶TMHMM结果如下
TMHMM 2.0预测结果显示：绵羊BMPR-1B蛋白的 1-126位氨基酸位于细胞膜表面（outside），在127-149 位氨基酸之间形成一个典型的跨膜螺旋区（TMhelix）， 150-502位氨基酸位于细胞膜内（inside）。结果与该蛋白的疏水性区域分析结果一致，表明BMPR-1B蛋白可能是一个与细胞信号传导有关的膜受体蛋白，与文献报道BMPR-1B参与TGF-β等信号转导通路一致。
例子：使用SignalP 3.0 server对绵羊
GDF9蛋白进行信号肽预测。 SignalP是一款由丹麦技术大学生物序列分析中心开发的强大的信号肽检测工具，主要采用人工神经网络和HMM模型两种算法，预测蛋白质N端信号肽的有无及其剪切位点。
具体操作： ⑴打开SignalP 3.0 server服务器（http://www.cbs.dtu.dk/services/SignalP/），导入GDF9序列（FASTA格式）。

蛋白质序列分析与结构预测

蛋白质序列分析与结构预测概述：蛋白质是生物体内重要的功能分子，其结构与功能密切相关。

蛋白质序列分析和结构预测是在理解蛋白质结构和功能的基础上，对蛋白质进行更深入研究的重要工具。

本文将对蛋白质序列分析和结构预测进行详细介绍。

一、蛋白质序列分析1.1序列比对1.2序列标记蛋白质序列标记是根据其中一种特定的准则来标记氨基酸序列的功能或结构信息。

常用的标记方法有结构标记和功能标记。

结构标记根据氨基酸的二级结构特征来进行，如α-螺旋、β-折叠等；功能标记则是根据氨基酸序列所具有的特定功能进行，如酶活性、配体结合等。

1.3序列定位蛋白质序列定位是指确定蛋白质序列中特定区域的位置和范围。

常用的序列定位方法有Motif分析和Domain分析。

Motif分析可以识别蛋白质序列中的保守序列模式，从而找出具有特定功能的序列片段；Domain 分析可以识别蛋白质中具有自稳定结构和特定功能的结构域。

1.4序列功能预测二、蛋白质结构预测蛋白质结构预测是根据蛋白质的氨基酸序列预测蛋白质的三维结构。

蛋白质的结构决定了其功能和相互作用，因此准确预测蛋白质的结构对于理解蛋白质的功能和机制至关重要。

蛋白质结构预测的主要方法包括基于模板的建模方法和基于物理性质的全原子或粗粒化力场模拟方法。

2.1基于模板的建模方法基于模板的建模方法是利用已知的蛋白质结构作为模板，通过序列比对和结构比对来模拟未知蛋白质的结构。

常用的基于模板的建模方法有比对、模型构建和模型评估等。

2.2基于物理性质的模拟方法基于物理性质的模拟方法是使用物理原理和力场模拟来预测蛋白质的结构。

常用的模拟方法有分子力学模拟、蒙特卡洛模拟和蛋白质力场等。

结论：蛋白质序列分析和结构预测是对蛋白质进行深入研究的重要工具。

通过蛋白质序列分析可以了解蛋白质的进化关系、功能特征和结构信息；而蛋白质结构预测可以揭示蛋白质的三维结构，从而理解其功能和相互作用。

随着技术的不断发展，蛋白质序列分析和结构预测方法也在不断改进和完善，为研究蛋白质的机制和功能提供了更有力的工具。

蛋白质序列分析方法比较和性能评估

蛋白质序列分析方法比较和性能评估蛋白质是生物体内功能最为复杂且多样的分子之一，对于深入了解蛋白质的结构、功能和相互作用等方面至关重要。

蛋白质序列分析方法在质谱学、生物信息学等领域得到广泛应用，以帮助科研人员研究和解决与蛋白质相关的各种问题。

本文将对常用的蛋白质序列分析方法进行比较和性能评估，以期提供科研人员选择合适的方法和工具的参考。

一、蛋白质序列分析方法概述1.1 蛋白质序列比对蛋白质序列比对是指将目标蛋白质序列与数据库中已知的蛋白质序列进行比较，以发现序列间的相似性和结构域等信息。

常见的蛋白质序列比对方法包括基于局部序列相似性的BLAST（Basic Local Alignment Search Tool）和基于全局序列相似性的Smith-Waterman算法。

1.2 蛋白质二级结构预测蛋白质二级结构预测是指根据蛋白质的氨基酸序列预测其二级结构（α-螺旋、β-折叠、无规卷曲等）。

常用的预测方法包括基于机器学习的PSIPRED和基于深度学习的CNFold。

1.3 蛋白质三维结构建模蛋白质三维结构建模是指通过蛋白质的氨基酸序列预测其三维结构，包括全原子模拟方法、基于比较模型和基于序列模型等。

常见的工具有I-TASSER、SWISS-MODEL和ROSETTA等。

1.4 蛋白质功能注释蛋白质功能注释是指对已知蛋白质序列进行功能预测和注释，以了解蛋白质在细胞内的作用和功能。

常见的工具包括InterPro、SMART和Pfam等。

二、蛋白质序列分析方法比较和性能评估2.1 准确性准确性是评估蛋白质序列分析方法优劣的重要指标。

对于蛋白质序列比对方法，准确性表示在给定的阈值下，对于已知结构和功能的蛋白质序列，能够找到多少相似性高的序列。

对于蛋白质二级和三维结构预测方法，准确性表示预测结果与实际结构的一致性程度。

对于蛋白质功能注释方法，准确性表示对已知功能的蛋白质能够正确预测其功能。

2.2 效率效率是评估蛋白质序列分析方法性能的另一个关键指标。

蛋白质序列分析

蛋白质序列分析蛋白质是构成生命体的基本组成部分之一，是生命体内最重要的物质之一。

蛋白质序列分析是指对蛋白质分子的氨基酸序列进行分析，以获得关于该蛋白质分子结构和功能的信息。

目前，蛋白质序列分析已经成为了生命科学领域里面最重要的研究方法之一，在生命科学领域中有着广泛的应用。

蛋白质序列的确定蛋白质序列的确定是指将蛋白质分子中的每一个氨基酸序列进行测定，以此来确定蛋白质的完整氨基酸序列。

目前，蛋白质序列的测定可以通过两种主要的方法来完成：一种是质谱法，另一种则是氨基酸分析法。

质谱法是通过将蛋白质样品进行向光电离或者激光解离，然后将离子化的蛋白质进行分离，并利用质谱测量仪器来测定蛋白质中的各个氨基酸残基类型和数量。

质谱法的优点是能够快速准确地测定蛋白质序列，缺点是该方法需要高度纯净的蛋白质样品，并且需要高效的仪器设备和技术支持。

氨基酸分析法是将蛋白质样品进行水解或者重氮化处理，然后通过电泳的方式来分离样品中的各个氨基酸残基。

然后，通过对每一个氨基酸的去除和测量，来确定蛋白质中的完整氨基酸序列。

该方法的缺点是需要比较大的蛋白质样品，而且该方法需要比质谱法更长的时间才能得到完整的蛋白质序列信息。

蛋白质序列分析的应用在生命科学领域中，蛋白质序列分析已经成为了最广泛的研究方法之一。

该方法被广泛地应用于各种不同的研究和应用领域，包括生物基因工程、生物医学、药物发现以及农业、食品、环境等领域。

生物基因工程：在生物基因工程领域中，蛋白质序列分析被用来确定基因对蛋白质的编码和翻译的正确性。

当基因缺陷或异常时，蛋白质分子中可能会产生氨基酸序列的变化，这些变化可能会影响到蛋白质分子的结构和功能。

生物医学：在生物医学领域中，蛋白质序列分析被用来确定疾病和疾病治疗方案中所涉及的蛋白质的结构和功能。

这种信息可以用于指导新药物筛选和治疗研究，以及帮助科学家开发更加有效的治疗手段。

药物发现：在药物发现领域中，蛋白质序列分析被用来确定药物分子的靶点和药物-受体作用机制。

BIOINF_蛋白质序列分析

蛋白质序列分析电子科技大学生命科学与技术学院生物信息学中心周鹏博士/副教授理化性质: 分子量、等电点、氨基酸组成等结构分析：一级结构、二级结构、三级结构功能预测：motif、domain、信号肽、跨膜区、亚细胞定位、GO等一、蛋白序列的获得1. 基因序列翻译推导得到2. 氨基酸测序（多肽）得到3. 双向电泳、质谱分析得到4. 数据库得到SRS（Sequence Retrieval System )序列检索系统胶质纤维酸性蛋白（glial fibrillary acidic protein, GFAP)二、蛋白质理化性质分析三、蛋白质结构分析（一）、二级结构预测二级结构。

– α螺旋，是蛋白质中最常见最典型含量最丰富的二级结构元件.在α螺旋中，每轮卷曲的螺旋包含3.6氨基酸残基，残基侧链伸向外侧,同一肽链上的每个残基的酰胺氢和位于它后面的第4个残基上的羰基氧彼此之间形成氢键。

这种氢键大致与螺旋轴平行。

在水环境中，肽键上的酰胺氢和羰基氧既能形成内部(α-螺旋内)的氢键，也能与水分子形成氢键。

– 不同的氨基酸对α螺旋形成的影响是不同的。

– β折叠是通过肽链间或肽段间的氢键维系。

可以把它们想象为由折叠的条状纸片侧向并排而成,每条纸片可看成是一条肽链, 称为β折叠股或β股(β－strand),肽主链沿纸条形成锯齿状。

需要注意的是在折叠片上的侧链都垂直于折叠片的平面,并交替的从平面上下二侧伸出。

－无规则卷曲（randon coil)无规则卷曲或称卷曲(coil)，泛指那些不能被归入明确的二级结构如折叠片或螺旋的多肽区段。

实际上这些区段大多数既不是卷曲，也不是完全无规的，虽然也存在少数柔性的无序片段。

它们也像其他二级结构那样是明确而稳定的结构。

它们受侧链相互作用的影响很大，经常构成酶活性部位和其他蛋白质特异的功能部位如许多钙结合蛋白中结合钙离子的EF 手结构（E-F hand structure)的中央环二级结构预测面临的困难二级结构在不同的溶剂环境中构象可能会不同同一肽段在不同的蛋白质中的结构也不一样预测序列模体和结构域都是通过对相关蛋白质的多序列比对分析而获得的– 线性模体(Linear motif)，较短的特定序列模式。

蛋白质序列分析及其应用

蛋白质序列分析及其应用蛋白质序列分析是生物信息学领域的一个重要研究方向，它通过计算和比较蛋白质的氨基酸序列，揭示蛋白质的结构、功能和进化的信息。

蛋白质序列分析的应用广泛，包括预测蛋白质结构、功能注释、蛋白质家族分类、药物设计等。

本文将简要介绍蛋白质序列分析的方法和应用。

一、蛋白质序列分析的方法1.氨基酸组成分析：通过计算蛋白质序列中各种氨基酸的相对数量，可以了解蛋白质的氨基酸组成，比较不同蛋白质之间的差异和相似性。

2.序列比对分析：序列比对是蛋白质序列分析的基础工具，可以找到序列之间的相似区域，并推测彼此之间的进化关系。

常用的序列比对方法有全局比对、局部比对和多序列比对等。

3.蛋白质结构预测：蛋白质结构预测是蛋白质序列分析的核心任务之一、常见的方法包括二级结构预测、三级结构预测和蛋白质折叠模拟等。

4.功能注释：根据蛋白质序列的特征和结构，可以预测蛋白质的功能。

常用的方法包括保守区域分析、功能域识别和模式等。

5.蛋白质家族分类：通过比较蛋白质序列的相似性，可以将蛋白质分为不同的家族或超家族，用于进一步研究蛋白质的结构和功能。

二、蛋白质序列分析的应用1.药物设计：蛋白质序列分析可以为药物设计提供重要的信息。

通过分析蛋白质序列的结构和功能，可以预测药物与目标蛋白质之间的相互作用，优化药物的设计。

2.疾病预测与诊断：蛋白质序列分析可以帮助预测蛋白质的功能异常和突变，从而预测患者的疾病风险和诊断结果。

3.进化研究：通过比较不同物种的蛋白质序列，可以推测它们之间的进化关系。

这有助于了解物种的进化历史和基因家族的起源。

4.蛋白质工程：通过分析蛋白质序列和结构，可以对蛋白质进行工程改造，使其具有更好的特性和功能，用于生物工艺和生物医药等领域。

5.新蛋白质发现：通过对未知蛋白质序列的分析，可以发现新的蛋白质，并探索其结构和功能，为新药物和生物材料的开发提供新思路。

三、现阶段的挑战和发展方向尽管蛋白质序列分析已经取得了很大的进展，但仍面临一些挑战。

生物信息学中的蛋白质序列分析

生物信息学中的蛋白质序列分析随着生物技术的不断发展，人们对于生物体内各种蛋白质的研究愈发深入。

而蛋白质序列分析则是生物信息学中重要的一环，可以用于蛋白质结构预测、功能分析、进化研究等方面。

在这篇文章中，我们将探讨蛋白质序列分析在生物信息学中的应用以及涉及到的技术和算法。

一、蛋白质序列的组成蛋白质由氨基酸组成，而蛋白质序列指的是氨基酸连接的线性序列。

氨基酸是构成蛋白质的基本单元，不同的氨基酸组合构成不同的蛋白质。

目前已知的氨基酸有20种，它们由不同的侧链和碳氮骨架组成，这种多样性导致了蛋白质具有丰富多样的结构和功能。

二、蛋白质序列分析的应用1、预测蛋白质结构蛋白质结构与其功能息息相关，因此对于蛋白质结构的预测一直是研究的热点问题。

蛋白质序列是进行蛋白质结构预测的重要依据之一。

一般来说，蛋白质结构预测可分为二级结构和三级结构预测。

二级结构指的是蛋白质中α-螺旋、β-折叠和无规则卷曲等局部的结构。

目前，常用的二级结构预测方法有Chou-Fasman算法、GOR算法等。

而三级结构预测指的是蛋白质整体的三维结构，其预测难度更大，目前还没有完全解决。

但是，针对蛋白质结构的许多研究都是基于蛋白质序列的分析和预测。

2、鉴定蛋白质功能蛋白质的功能与其序列和结构有关，因此通过分析蛋白质序列也可以预测蛋白质的功能。

一般来说，蛋白质的功能可以分为三类：催化、结构和调节。

催化作用指的是酶类蛋白质对化学反应的促进作用。

结构作用指的是蛋白质形成结构，对于细胞和组织的形态和机能具有重要作用。

调节作用指的是蛋白质对细胞、胚胎、发育和免疫系统等的调节作用。

对于蛋白质功能的鉴定，目前的方法主要有以下几种：1）基于序列的比对方法；2）结构基因学方法；3）基于基因组的方法。

三、蛋白质序列分析的技术和算法1、BLAST算法BLAST（Basic Local Alignment Search Tool）算法是常用的序列比对算法之一，它通过比对两条序列后，计算两个序列之间的相似性得分。

实验五蛋白质序列分析

输入SwissProt/TrEMBL AC号打开protein.txt，将一条蛋白质序列粘贴在搜索框中
13
计算窗口（7-11）相对权重值权重值变化趋势是否归一化
氨基酸标度
14
输出结果
所用氨基酸标度信息
分析所用参数信息
15
文本结果序列图形结果参数
每个位置的得分
16
蛋白质序列分析
选择滑动窗口大小
选择打分矩阵和权重
选择输入格式，选择 “SwissProtID or AC” 查询内容，输入 Q9H2G9
/software/COILS_ form.html
图形结果
33
33
预测为卷曲螺旋的区域
34
蛋白质序列分析
6
输出结果
• 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段 • 以P02699为例
功能域
用户自定义区段
7
点击不同功能域得到以下结果
氨基酸数目相对分子质量理论 pI 值
氨基酸组成
正/负电荷残基数
8
原子组成
分子式总原子数
消光系数
半衰期
9
不稳定系数 <40 stable >40 unstable 脂肪系数总平均亲水性
序列在线提交形式： • 如果分析SWISS-PORT和TrEMBL数据库中序列 – 直接填写Swiss-Prot/TrEMBL AC号(accession number) • 如果分析新序列： – 直接在搜索框中粘贴氨基酸序列
输入Swiss-Prot/TrEMBL AC号打开protein.txt，将蛋白质序列粘贴在搜索框中

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

8.2蛋白质序列的同源分析
同源蛋白：生物大分子序列是分子进化的产物，从共同祖先序列进化而来
的蛋白质通常称为同源蛋白
蛋白质同源分析：基于检测的同源蛋白从而外推得到某特定蛋白的某些特
性的方法称为蛋白质的同源分析常有的软件有：BLAST等 PSI-BLAST和隐马尔可夫模型(HMMs)
PSI-BLAST（迭代搜索）把查找到的每一击中项作为第二次迭代的查询序列得到更多的进化关系，第二次及以后的迭代不是对第一次输出的每一序列执行BLAST，而是所有击中项形成的序列轮廓（家族保守序列）进行BLAST搜索，查到收敛为止。
序列中的多重保守片段
Profiles（序列概貌数据库）
Pfam（蛋白质序列家族数据库）采用了隐马尔可夫模型 Identify（蛋白质序列识别数据库）
它们的共同特点是都基于多序列比对，不同之处是处理比对结果的原则和方法各有特色
②蛋白质模式(protein patterin)数据库
Prosite数据库：是第一个蛋白质序列二次数据库基于对蛋白质家族中同源序列的多序列比对得到的保守性区域，与生物学功能有关，酶的活性位点、配体或金属结合位点等。它实际上是蛋白质序列功能位点数据库。可用来判断该序列包含什么样的功能位点，从而推测其可能属于哪一个蛋白质家族。
①蛋白质序列的二级数据库
同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。因此，将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了，存储这些信息的数据库称为蛋白质二级数据库。通过对二级数据库中序列的比对搜索，可以把一条新的蛋白质序列分配到蛋白质家族中，从而预测蛋白质功能。
– – – – – – – – – – G A L M F W K Q E S Glycine Alanine Leucine Methionine Phenylalanine Tryptophan Lysine Glutamine Glutamic Acid Serine Gly Ala Leu Met Phe Trp Lys Gln Glu Ser P V I C Y H R N D T Proline Pro Valine Val Isoleucine Ile Cysteine Cys Tyrosine Tyr Histidine His Arginine Arg Asparagine Asn Aspartic AcidAsp Threonine Thr
Prosite的序列描述模式可以由正则文法描述。例如与丝氨酸蛋白酶家族有关的两个序列模式如下：
一类是提交一条未知蛋白质序列，通过搜索给出相应的序列模式，一类是输入一个序列模式，针对特定数据库，如SwissProt、TrEMBL、 PDB等，给出符合该序列模式的蛋白质序列条目
• e.g., b-barrels, bab units, Greek keys, etc..
• Tertiary structure
– the overall chain fold that results from packing of secondary structure elements
• Quaternary structure
– regions of local regularity
• i.e., a-helices, b-strands, -sheets & -turns
• Super-secondary structure
– the packing of secondary structure elements into stable units
保守残基出现的原因是：维持某种功能或特定结构
多序列联配信息的表示方法有很多种，包括联配本身、一致序列、保守
残基和残基模式、序列轮廓和其它的序列家族的概率模型。 Prosite数据库：基于多序列比较得到的单一保守序列片段，或称序列模体 Prints（蛋白质序列指纹图谱数据库） Blocks（蛋白质序列模块数据库）
生物信息学 bioinHale Waihona Puke ormatics蛋白质序列分析
Analysis of protein sequence
生物工程教研室孙继政
生物科学学院生物工程教研室
通过预测蛋白质的结构、功能特征分析，可为我们的研究提供指导信息
8.1 温故而知新
蛋白质的组成 • Single- & three-letter amino acid codes
核心区域（core region）
在蛋白质中有些区域对于维持蛋白质的结构和功能具有至关重要的作用，进化过程中变化的非常缓慢，这样的区域称作蛋白质核心区域（core
region）。
结构与功能
蛋白质结构重要位点
一些氨基酸残基对于某些结构的稳定具有关键的作用，这样的关键角色在蛋白质中显得尤为重要，
蛋白质同源分析进行蛋白质功能或结构的预测仍然存在困难
相似与同源的问题直系与旁系同源
计算机程序自动生成的功能注释不少是错误的
有的序列会彼此相似，却不是进化关系或生物功能相近的缘故
8.3蛋白质序列的结构域及结合位点分析
蛋白质的进化过程并不都是从头开始，而是利用现有材料，通过改造，使其产生新的功能，或者是把几种不同的系统整合到一起，形成更好的新系统。而这些现有材料，就是蛋白质序列中的“模块” ，他们对应蛋白质分子中重要的结构或功能区域。这些区域在蛋白质家族中通常是保守的。
X Any amino acid
• Additional codes
– B Asn/Asp Z Gln/Glu
蛋白质的结构层次
• Primary structure
– the linear sequence of amino acids in a protein
• Secondary structure
– the arrangement of separate chains within a protein that has more than one subunit
• e.g., haemoglobin
结构域（domain）
多肽链在二级结构或超二级结构的基础上形成的三级结构局部折叠区是相对独立的紧密球状实体，被称作结构域（domain）。