蛋白质比对

合集下载

蛋白质多序列比对

蛋白质多序列比对蛋白质是生物体内很重要的分子之一，具有生命活动所需的功能性和结构性特征。

多个蛋白质之间存在着相似性和差异性，因此需要对它们进行多序列比对以了解其在进化过程中的变化和功能上的差异性。

下面是关于蛋白质多序列比对的一些知识点和相关工具：1. 多序列比对的意义多序列比对可以帮助我们寻找蛋白质序列中的保守区域和变异区域，揭示它们在进化过程中的演化轨迹，并进一步推断它们在生命活动中的功能和相互关系。

此外，多序列比对还可以为新蛋白质的发现和功能预测提供重要的线索。

2. 多序列比对的挑战由于蛋白质序列的长度和复杂性，进行多序列比对有许多技术上的挑战。

比如，如何解决序列长度不同的问题、如何选取合适的序列比对算法、如何处理多重比对结果等等。

3. 常用的序列比对工具常用的蛋白质序列比对工具包括 ClustalW、MUSCLE、T-Coffee、MAFFT 等。

其中，ClustalW 是最早和最常用的序列比对工具之一，适用于大多数简单的序列比对问题。

而 MUSCLE 和 T-Coffee 则比ClustalW 更适用于复杂的序列比对问题，可以处理包括 RNA、DNA 和蛋白质等在内的多种生物序列。

4. 序列比对结果的解析序列比对结果可以通过一些可视化工具进行解析，如Jalview、BioEdit、GeneDoc 等。

这些工具可以帮助我们更好地理解序列比对结果，发现保守区域和变异区域，了解序列间的相似性和差异性。

总之，蛋白质多序列比对是揭示生命机理和蛋白质结构功能的重要手段之一。

通过适当选择比对工具和解析工具，我们可以更好地理解蛋白质序列的演化和功能，为生命科学和医学领域的研究提供有力支持。

同源蛋白序列比对

同源蛋白序列比对同源蛋白序列比对是生物信息学中常用的一种分析方法，主要用于研究不同物种或同一物种不同亚型之间蛋白质的相似性和差异性。

下面将从比对原理、比对工具、结果解析等方面来介绍同源蛋白序列比对的相关知识。

一、比对原理蛋白质比对主要是对两个或多个蛋白质序列进行比较，通过计算序列之间的差异来寻找序列的相同或相似区域。

一般来说，蛋白质比对分为全局比对和局部比对两种，全局比对适用于序列相似度高的情况，局部比对适用于序列相似度低的情况。

比对原理主要包括两个步骤：算法选取和比对评价。

算法选取决定了比对的方式和结果，常用的算法包括全局比对算法（如Needleman-Wunsch算法）、局部比对算法（如Smith-Waterman算法）和快速比对算法（如BLAST算法）等。

比对评价主要是对比对结果进行评价，一般采用得分矩阵（如BLOSUM矩阵）和gap penalty（间隙罚分）等参数来对比对结果进行评估。

二、比对工具目前比对工具比较丰富，常用的有NCBI Blast、ClustalW、MUSCLE、MAFFT等。

NCBI Blast速度快，适合快速筛选序列，但准确度相对较低；ClustalW适合比对多个序列，但对长序列的比对速度比较慢；MUSCLE和MAFFT适合比对大量序列，但相应的计算资源也比较消耗。

三、结果解析比对结果常常通过比对得分矩阵、比对图、多序列比对等方式来展示。

其中，得分矩阵一般用于比较不同序列之间的相似性程度，得分越高表示相似性越高；比对图一般用于分析比对结果并找出前后序列的相同或相似区域；多序列比对一般用于比较多个序列之间的关系，其中多序列比对结果一般采用Phylogenetic tree（系统发育树）来表示序列之间的演化关系。

综上所述，同源蛋白序列比对是生物信息学中常用的分析方法，它能够帮助我们分析不同物种和亚型之间的蛋白质同源性，为研究生物进化和功能研究提供了有力的数据支持。

三种分析蛋白结构域的方法

三种分析蛋白结构域的方法蛋白质是生命体内重要的功能分子，它们通过其特有的三维结构来实现其功能。

蛋白结构域是指蛋白质结构中具有独立功能和收缩性的区域。

分析蛋白结构域的方法对于理解蛋白的功能和机制有重要意义。

以下是三种常用的分析蛋白结构域的方法。

第一种方法是比对分析。

比对分析是通过比对已知结构域的蛋白质序列和结构与待研究蛋白质序列和结构进行对比，以此来鉴定待研究蛋白质中的结构域。

比对分析常用的工具有BLAST和HMMER等。

BLAST（基本局部序列比对工具）通过比对两个蛋白序列的共同片段来确定相似性，可以帮助确定蛋白质的结构域。

HMMER（隐含马尔可夫模型比对工具）则建立了一个隐含马尔可夫模型，将待研究的蛋白质序列与已知结构域的蛋白质序列进行比对，以此来确定结构域。

第二种方法是结构预测。

结构预测是通过计算机程序对蛋白质序列进行建模，以预测其三维结构。

常见的结构预测方法有基于比对的序列相似性建模、基于物理力学的方法和基于机器学习的方法等。

基于比对的序列相似性建模方法通过比对已知结构域的蛋白质序列与待研究蛋白质序列来构建模型，以此来预测待研究蛋白质的结构域。

基于物理力学的方法则基于分子力学和物理化学原理，通过计算机模拟来推测蛋白质的结构。

基于机器学习的方法则使用已知结构域的蛋白质数据来训练算法，以此来预测待研究蛋白质的结构域。

第三种方法是功能簇分析。

功能簇分析是通过聚类算法来将蛋白质分为不同的簇，以确定其中的结构域。

常见的聚类算法有层次聚类、基于密度的聚类和K均值聚类等。

层次聚类是将样本逐步合并成不同的簇，直到达到预定的停止条件。

基于密度的聚类则是根据样本的密度将其分为不同的簇。

K均值聚类是将样本分为K个不同的簇，使得簇内的样本之间的差异最小化。

通过功能簇分析可以鉴定出具有相似功能的蛋白质结构域。

综上所述，比对分析、结构预测和功能簇分析是常用的分析蛋白结构域的方法。

这些方法能够帮助鉴定蛋白质中的结构域，进而理解其功能和机制。

蛋白质-配体结合亲和力预测方法

蛋白质-配体结合亲和力预测方法关于蛋白质-配体结合亲和力预测的方法有许多种，以下是其中的50种，并展开详细描述。

1. 分子对接：分子对接是一种常用的蛋白质-配体结合亲和力预测方法。

它通过计算蛋白质和配体之间的相互作用能来预测它们的结合亲和力。

2. 反向分子对接：反向分子对接是一种从已知的配体库中筛选出与目标蛋白质结合亲和力高的配体的方法。

通过将分子库中的配体依次与蛋白质进行对接，并计算它们的结合亲和力，从而预测与蛋白质相互作用较强的配体。

3. 蛋白质结构模拟：蛋白质结构模拟是通过计算机模拟的方式，预测蛋白质和配体之间的结合亲和力。

常用的结构模拟方法包括分子动力学模拟和蒙特卡洛模拟等。

4. 蛋白质序列分析：蛋白质序列分析可以通过比较目标蛋白质与已知结合亲和力的蛋白质序列，找出相似性较高的蛋白质，并预测它们的结合亲和力。

5. 蛋白质结构比对：蛋白质结构比对是通过比较目标蛋白质的结构与已知结合亲和力的蛋白质结构之间的相似性，预测目标蛋白质的结合亲和力。

6. 蛋白质动力学模拟：蛋白质动力学模拟是通过模拟蛋白质在溶液中的运动，预测蛋白质和配体之间的结合亲和力。

常用的动力学模拟方法包括分子动力学模拟和蒙特卡洛模拟等。

7. 功能位点分析：功能位点分析是通过分析蛋白质上的功能位点，预测蛋白质和配体之间的结合亲和力。

常用的功能位点分析方法包括密码子重编码和靶标酶标记位点识别等。

8. 蛋白质结构基因组学：蛋白质结构基因组学是通过对已知的蛋白质结构进行系统性的研究和分析，预测蛋白质和配体之间的结合亲和力。

9. 蛋白质互作网络分析：蛋白质互作网络分析是通过分析蛋白质与其他蛋白质之间的相互作用关系，预测蛋白质和配体之间的结合亲和力。

10. 弱相互作用分析：弱相互作用分析是通过分析蛋白质和配体之间的弱相互作用，预测它们的结合亲和力。

常用的弱相互作用分析方法包括核磁共振和质谱分析等。

11. 蛋白质折叠机制分析：蛋白质折叠机制分析是通过分析蛋白质的折叠机制，预测蛋白质和配体之间的结合亲和力。

蛋白质结构预测方法总结

蛋白质结构预测方法总结蛋白质是生物体内最为重要的分子之一，其结构决定了功能和活性。

然而，实验性确定蛋白质的三维结构是一项复杂且昂贵的任务。

因此，研究人员发展了多种计算方法来预测蛋白质的结构。

本文将总结几种常见的蛋白质结构预测方法。

1. 基于比对的方法一种常用的蛋白质结构预测方法是基于比对。

这种方法使用已知结构的蛋白质作为模板，将目标蛋白质的序列与模板进行比对，从而预测其结构。

比对可以使用多种方法，如BLAST、PSI-BLAST和HHpred等。

这些方法根据序列之间的相似性来预测结构，通常适用于那些与已知结构相似的蛋白质。

2. 基于折叠的方法基于折叠的方法是通过在能量最小化的条件下预测蛋白质的结构。

这些方法利用原子间相互作用的物理性质来预测蛋白质的稳定结构。

其中，分子力学模拟是常用的方法之一，通过计算分子中原子的相互作用以及能量最小化来预测蛋白质的结构。

此外，还有蒙特卡洛模拟和分子动力学模拟等方法用于蛋白质结构的预测。

3. 基于碱基预测的方法基于碱基预测的方法是根据目标蛋白质的氨基酸序列来预测其结构。

这些方法利用氨基酸的特性，如溶解度、疏水性和电荷分布等，来推断蛋白质的结构。

在这种方法中，常用的技术包括人工神经网络和随机森林等。

4. 基于演化信息的方法基于演化信息的方法是利用多个序列的比较来预测蛋白质的结构。

这些方法假设在进化过程中，保守的残基通常对于结构和功能至关重要，因此可以通过比较不同蛋白质序列之间的保守性来预测其结构。

常用的技术包括多序列比对和物种树建构等。

5. 基于统计的方法基于统计的方法是从大量已知结构的蛋白质中提取统计学规律，以预测新蛋白质的结构。

在这种方法中，通过分析蛋白质的物理特性和氨基酸残基之间的相互作用，建立统计学模型，从而预测目标蛋白质的结构。

常见的方法包括聚类分析、SVM和隐马尔可夫模型等。

综上所述，蛋白质的结构预测是一项复杂而具有挑战性的任务。

虽然没有一种方法能够完美地预测蛋白质的结构，但结合不同的预测方法可以提高预测的准确性和可靠性。

蛋白序列相似度比对

蛋白序列相似度比对蛋白序列相似度比对简介蛋白序列相似度比对（Protein Sequence Alignment）是分析蛋白质序列之间的相似性的一种方法。

蛋白序列相似度比对是了解全基因组的演化规律、寻找生物学功能和设计基因工程等领域的必要工具。

在此文章中，我们将讨论蛋白序列相似度比对的常见算法和相关应用。

1. 常见蛋白序列比对算法1.1 Needleman-Wunsch算法Needleman-Wunsch算法是全局比对算法，适用于两个序列之间长度相等的情况。

该算法是动态规划算法的一种，它首先构建一个矩阵来存放序列的比对得分，然后回溯从得分矩阵中推断出最佳的比对方式。

1.2 Smith-Waterman算法Smith-Waterman算法是局部比对算法，它可以对两个序列之间的片段进行比对，而无需比对整个序列。

该算法使用类似于Needleman-Wunsch算法的方法来构建得分矩阵，并从矩阵中推导出相似片段。

1.3 BLAST算法BLAST算法是一种常用的快速比对算法。

该算法首先将相似性序列摆放在数据库中，然后使用一种称为“seed”的技术来搜索数据库中与查询序列相似的片段。

BLAST算法可以快速处理大量的序列数据，因此是许多生物信息学研究的首选比对算法。

2. 蛋白序列相似度比对的应用2.1 生物信息学蛋白序列相似度比对是生物信息学的一个主要领域。

比对两个或多个不同物种的蛋白序列可以帮助我们了解它们的进化过程和基因功能的演化。

物种间蛋白序列相似性的比对也可以为我们提供进一步了解人和其他物种之间的异同所必需的关键信息。

2.2 基因工程在基因工程领域，蛋白序列相似度比对可以帮助研究人员设计更好的重组蛋白和药物。

通过比对相似的蛋白序列，科学家们可以了解其在不同生物系统中的结构和功能更多信息，以创建更有效和安全的药物。

3. 结论总之，蛋白序列相似度比对是一个重要的分析工具，在生物学、生物化学、基础医学等领域都发挥着重要的作用。

蛋白质msa算法

蛋白质msa算法
蛋白质多序列比对(Multiple Sequence Alignment, MSA)是一种重要的生物信息学算法，用于研究蛋白质序列的相似性和差异性，从而揭示蛋白质的结构和功能信息。

以下是一些常用的蛋白质多序列比对算法：
1. Clustal算法：这是一种经典的蛋白质多序列比对算法，其基于动态规划的方法来寻找最佳的比对方式。

该算法可以处理多个序列之间的全局或局部比对，并且可以处理序列之间的插入和删除操作。

2. Muscle算法：Muscle算法是一种基于概率模型的蛋白质多序列比对算法，它通过估计序列之间的进化关系来构建比对。

该算法采用了迭代的方法，逐步优化比对的得分和序列的进化模型。

3. T-Coffee算法：T-Coffee算法是一种整合了多种比对方法的蛋白质多序列比对算法。

该算法可以综合利用局部比对和全局比对的结果，提高比对的准确性和覆盖度。

T-Coffee算法还能够处理缺失序列和多个序列之间的插入和删除操作。

4. MAFFT算法：MAFFT算法是一种基于最大似然估计的蛋白质多序列比对算法。

该算法采用迭代的方法，逐步优化比对的得分和序列的进化模型。

MAFFT算法具有较高的比对精度和计算效率，被广泛应用于生物信息学领域。

5. Dialign算法：Dialign算法是一种基于对齐概率模型的蛋白质多序列比对算法。

该算法采用动态规划的方法来寻找最佳的比对方式，并利用概率模型来估计序列之间的进化关系。

Dialign算法的比对结果
较为准确，尤其适用于处理具有较大差异的序列比对问题。

以上算法各有特点，可根据具体需求选择适合的方法进行蛋白质多序列比对。

蛋白质序列比对

蛋白质序列比对蛋白质序列比对是生物信息学领域中的一项重要技术，是分析和理解蛋白质功能及演化关系的关键手段。

在蛋白质序列比对中，通过将不同蛋白质序列进行比对，发现它们之间的相似性和差异性，进而推断它们之间可能存在的共同祖先以及演化历程。

本文将对蛋白质序列比对的原理、方法及应用进行详细介绍。

一、蛋白质序列比对的原理蛋白质序列比对的原理是将两个或多个蛋白质序列进行比较，并找出它们之间的相同或相似的部分。

蛋白质序列比对的基本思想是根据它们的氨基酸序列相似性来推断它们之间的同源性和演化关系。

在蛋白质序列比对中，一般通过计算不同蛋白质序列之间的匹配得分来评估它们之间的相似性。

匹配得分是指在相同的位置上出现相同的氨基酸所得到的分数，而不同位置上出现不同氨基酸的得分则为不匹配得分。

匹配得分越高，说明相同位置上的氨基酸越多，相似性越高。

不匹配得分越低，说明不同位置上的氨基酸越少，相似性越高。

在蛋白质序列比对中常常用到的方法包括全局比对和局部比对。

全局比对是将整个蛋白质序列进行比对，适用于相似性较高的序列比对。

局部比对则是将蛋白质序列中较短的区域进行比对，适用于相似性较低的序列比对。

在进行蛋白质序列比对时，同时需要考虑序列长度、序列特征、突变率等因素。

二、蛋白质序列比对的方法1、精确比对方法精确比对方法是指根据序列相同的部分进行比对并得出匹配得分。

其中最常用的方法包括Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法是一种全局比对算法，其基本思想是基于动态规划方法将两个蛋白质序列进行比对，通过计算匹配得分推断它们的相似性。

该算法的核心是构建一个m×n的得分矩阵，并在矩阵中进行搜索，以求得最优匹配路径。

Smith-Waterman算法是一种局部比对算法，与Needleman-Wunsch算法相似，但它将注意力集中在两个序列中的相似性最高处，从而得到更精细的匹配结果。

生信python蛋白序列比对

生信python蛋白序列比对在生物信息学中，蛋白质序列比对是一项常见的任务，它可以帮助我们了解不同蛋白质之间的相似性和差异性。

Python 中有一些库可以用于蛋白质序列比对，其中BioPython 是一个常用的工具库。

以下是一个使用BioPython 进行蛋白质序列比对的简单示例：```pythonfrom Bio import pairwise2from Bio.Seq import Seq# 定义两个蛋白质序列protein_seq1 = Seq("MAGSAAALGALAALAGAA")protein_seq2 = Seq("MAGAAAAAGAAA")# 进行全局比对alignments = pairwise2.align.globalxx(protein_seq1, protein_seq2, one_alignment_only=True)# 获取比对结果alignment = alignments[0]# 打印比对结果print("蛋白质1序列:", alignment.seqA)print("蛋白质2序列:", alignment.seqB)print("比对得分:", alignment.score)```在这个示例中，`pairwise2.align.globalxx` 函数执行全局比对，其中`globalxx` 表示使用简单的相似性分数（+1 相同，-1 不同）。

你可以根据需要选择其他比对算法和参数。

确保你已经安装了BioPython，你可以使用以下命令进行安装：```bashpip install biopython```请注意，蛋白质序列比对是一个复杂的任务，因为蛋白质的结构和功能往往更为重要。

在实际应用中，你可能需要使用专业工具，如BLAST 或者专门用于蛋白质的比对工具。

蛋白结构同源比对

蛋白结构同源比对蛋白结构同源比对是一种重要的生物信息学方法，用于研究不同蛋白质之间的结构和功能关系。

通过比对蛋白质的氨基酸序列，可以找到具有相似结构和功能的蛋白质，从而推测其生物学功能和相应的结构特征。

蛋白质是生物体内最重要的功能分子之一，它们通过特定的三维结构实现其生物学功能。

而蛋白质的结构和功能关系是一个基本的科学问题，也是药物设计和生物工程领域的重要研究内容。

蛋白结构同源比对就是为了解决这些问题而发展起来的一种方法。

在进行蛋白结构同源比对时，首先需要获取待比对蛋白的氨基酸序列。

这可以通过实验手段获得，也可以通过生物信息学方法从基因组中预测得到。

然后，将待比对的氨基酸序列与已知结构的蛋白质进行比对，寻找相似的结构和功能。

蛋白结构同源比对的核心是通过比对蛋白质的氨基酸序列来推测其结构和功能。

这是因为蛋白质的结构和功能在很大程度上受到其氨基酸序列的决定。

在进行比对时，通常会使用一种叫做“序列比对算法”的方法，该方法可以将两个或多个氨基酸序列进行比对，并给出它们之间的相似程度。

蛋白结构同源比对的结果通常以“比对得分”或“相似度”来表示。

比对得分越高，表示两个蛋白质的结构和功能越相似。

在实际应用中，常常将比对得分高于某个阈值的蛋白质认为是同源蛋白，即具有相似的结构和功能。

蛋白结构同源比对在生物信息学和结构生物学领域有着广泛的应用。

首先，它可以用于预测未知蛋白质的结构和功能。

通过比对已知结构的蛋白质，可以推测未知蛋白质的结构和功能，为后续的实验研究提供有价值的信息。

其次，蛋白结构同源比对还可以用于寻找药物靶点和设计新药物。

通过比对已知蛋白质的结构和功能，可以筛选出与特定疾病相关的蛋白质，为药物设计提供线索。

此外，蛋白结构同源比对还可以用于研究物种进化和亲缘关系。

通过比对不同物种的蛋白质，可以推测它们之间的进化关系和共同祖先。

蛋白结构同源比对是一种重要的生物信息学方法，可以用于研究蛋白质的结构和功能关系。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1Seminar 21.DNA 和蛋白质的序列比对2.蛋白质结构生物信息学2Session 1 Alignment•Pairwise Sequence Alignment–Local Alignment –Global Alignment•Multiple Sequence Alignment (MSA)3Session 1 Alignment•Pairwise Sequence Alignment–Local Alignment–Global Alignment•Multiple Sequence Alignment (MSA)4Considerations•Why are you aligning two sequences? Are you looking for strict identity or similarity? Which database to use?•Protein or DNA?•Global or local alignment?•Specific algorithm/program–Global•Dynamic Programming (Needleman-Wunsch)–Local•Dynamic Programming (Smith-Waterman)•BLAST •FASTA•Scoring table (similarity matrix): PAM (percent accepted mutation) or BLOSUM (blocks substitution matrix)•Gap penalty5Local vs.Global Alignment•Local is used for searches of a query sequence in sequence databases. The alignments should be made as fast as possible .•Global is used to find the optimal alignment from two (or more) known sequences. The alignment should be as good as possible .•Local looks for matches of regions of the shorter sequence in regions of the larger sequence. Global looks for the optimal match all along both sequences.6Global alignment of:gctggaaggcat gcagagcactUsing PAM 47 matrix:Match = 5Mismatch = -4Open gap = 0Extend gap = -7Examples:gctggaag-gca-t gctggaaggcat gc----agagcact gc-ag-agcact Score = -2 Score = -10Given these rules, try to make an optimal (highest score) global alignment .QUESTION?13BLASTBLAST (Basic Local Alignment Search Tool)Search a protein sequence database with a protein query sequenceblastp Search for distant protein homologs in a sequence database by iterated profile searchpsi-blastSearch the six-frame translations of a nucleotide sequence database using the six frame translations of a nucleotide query sequencetblastxSearch a protein sequence database with anucleotide query sequence (translated in six frames) blastx Search a nucleotide sequence database translated in all six frames with a protein query sequence tblastn Search a nucleotide sequence database with a nucleotide query sequenceblastn BLAST performs a centered restricted Smith-Waterman.14FASTASearch a nucleotide database translated in all six frames with a protein query sequence, allowing frameshifts within codonstfastySearch a protein database with a nucleotide sequence, allowing frameshifts within codons fasty Search a nucleotide database translated in all six frames with a protein query sequence, allowing frameshifts between codonstfastxSearch a protein database with a nucleotide sequence, allowing frameshifts between codons fastx Search a nucleotide database translated in all six frames with a protein query sequence, ignoring frameshiftstfastaSearch for database sequences similar to a query sequencefasta FASTA performs a bounded (by window size) restricted Smith-Waterman.15Comparison of SearchAlgorithms•FASTA and BLAST will compute the same score for each alignment as the full Smith-Waterman if:–the heuristic correctly identifies the proper region of optimal local alignment.–The initial screening decision to continue the analysis is correct.–The final alignment is correctly described by the restricted Smith-Waterman.•The Smith-Waterman shows a small advantage in sensitivity over FASTA and BLAST; BLAST has a small advantage in selectivity . This is because the initial word search and screening tend to eliminate more diverged true positive sequences and false positives.•For proteins, BLAST is usually more sensitive than FASTA; for nucleic acids, FASTA is more sensitive than BLAST, and should be used instead of BLAST.•Default settings for the algorithms are for moderate levels of sequence divergence. Ideally, the degree of divergence should be taken into account in the search, by appropriately changing the default settings for the algorithms.16200.36PAM2500.38BLOSUM45250.51PAM2000.52BLOSUM52300.70PAM1600.66BLOSUM60380.98PAM1200.99BLOSUM80431.18PAM1001.18BLOSUM90% identity Entropy Matrix Entropy Matrix How to select a matrix?BLOSUM matrices (Henikoff & Henikoff (1992)PAM matrices (Dayhoff et al, 1978)default17identity 100% similarityorthologyproteins that perform the same function in different speciesparalogyproteins that perform different but related functions within 1 organismhomologyrelated by divergence from acommon ancestoranalogyrelated from convergence to similar biological solutionsnonidentitySimilaritySimilarity, identity, homology18Session 1 Alignment•Pairwise Sequence Alignment–Local Alignment –Global Alignment•Multiple Sequence Alignment (MSA)PseudogenesProtein StructuresAmino acids are linked by peptide bonds303537Transmembrane Helices•HMMTOPhttp://www.enzim.hu/hmmtop/•SUSHIhttp://sosui.proteome.bio.tuat.ac.jp/sosuiframe0.html•TMHMMhttp://www.cbs.dtu.dk/services/TMHMM-2.0/38Coils•Coiled-coils/cgi-bin/paircoil39Session 2 Structural Bioinformatics•一级结构分析•二级结构预测•三级结构模拟•蛋白质相互作用预测40Protein Structure Determination•Experimental methods •X-ray crystallography •NMR •EM•Predicted by homology modeling •Ab initio protein folding •Inverse protein folding41Homology Modeling•SWISS-MODEL/DeepView//SWISS-MODEL.html•PROSPECT •MODELLA •123D42Ab Initio Protein Folding•Directly compute a protein’s structure from its sequence based on biophysical features •Representation of structure/conformation •Likelihood of conformation is characterized by the conformation’s potential energy ROSETTA, MONSTER434849Bayesian Networks ApproachL cut = 600Jansen R, et al. SCIENCE, 302: 449-453, 200355。