挖掘新基因资源的方法

合集下载

基因簇挖掘

基因簇挖掘介绍基因簇挖掘是生物信息学中的一个重要任务，通过对基因组数据的分析和挖掘，可以发现具有相似功能或相关调控的基因组中的一组基因。

基因簇挖掘可以帮助我们理解基因之间的相互作用和功能，进而揭示生物体的生命过程和遗传调控机制。

任务目标基因簇挖掘的主要目标是识别出一组在基因组中相互靠近的基因，并推断它们可能具有相似的功能或参与共同的生物过程。

通过基因簇挖掘，我们可以发现新的基因家族、功能相关的基因群以及潜在的调控网络。

方法与流程基因簇挖掘的方法通常包括以下几个步骤：1. 基因组数据收集与预处理首先，我们需要收集待挖掘的基因组数据，这可以是已公开发布的基因组序列，也可以是实验室内部产生的新数据。

然后，对基因组数据进行预处理，包括去除低质量的序列、去除冗余信息等，以提高后续分析的准确性和效率。

2. 基因定位与注释接下来，我们需要对基因组数据进行基因定位和注释，确定每个基因在基因组中的位置和功能。

基因定位可以通过比对基因组序列与参考基因组序列进行实现，注释则可以通过比对已知的基因序列数据库，如GenBank等，来确定基因的功能和相关信息。

3. 基因簇定义与聚类在完成基因定位和注释后，我们可以根据基因在基因组中的位置信息，定义基因簇的范围。

一般情况下，相互靠近的基因往往具有相似的功能或参与相同的生物过程。

因此，我们可以使用聚类算法，如k-means、层次聚类等，将相互靠近的基因划分为同一个簇。

4. 基因簇功能注释与分析一旦完成基因簇的聚类，我们可以对每个簇中的基因进行功能注释和分析。

功能注释可以通过比对已知的基因功能数据库，如Gene Ontology、KEGG等，来确定基因簇的功能和相关生物过程。

此外，还可以使用基因表达数据，如RNA-seq、微阵列等，来分析基因簇在不同组织、不同发育阶段或不同环境条件下的表达模式，揭示其潜在的调控网络。

5. 结果可视化与解释最后，我们需要将基因簇挖掘的结果进行可视化和解释。

基因组学中的数据挖掘技术

基因组学中的数据挖掘技术生物信息学是一个跨学科的领域，综合了计算机科学、生物学和统计学等多个学科的知识。

而基因组学则是生物信息学中的一个重要分支，主要研究基因组的结构和功能，以及与人类健康和疾病相关的基因。

在基因组学研究中，数据挖掘技术发挥着重要作用，可以帮助我们从海量的基因组数据中挖掘出有价值的信息。

一、基因组数据的挖掘随着DNA测序技术的不断发展，我们现在可以得到大量的基因组数据。

但是，这些数据中包含着大量的噪声和冗余信息，如何从中筛选出有用的信息成为了一个巨大的挑战。

这时候，数据挖掘技术就可以派上用场了。

基因组数据挖掘的主要目的是从基因组序列、基因表达和基因调控等多个方面挖掘出有用的信息。

例如，在基因组序列中挖掘出编码蛋白质的基因和非编码RNA的序列，推断出基因的结构和功能；在基因表达数据中挖掘出不同组织和疾病状态下的差异表达基因，预测其功能和调控机制；在基因调控数据中挖掘出转录因子、组蛋白修饰和DNA甲基化等调控因子，分析其在基因表达中的作用等。

二、基因组数据挖掘技术基因组数据挖掘技术主要包括序列比对、拼接、拼图、注释、聚类、预测和网络分析等多个子领域。

（1）序列比对序列比对是基因组数据挖掘中最基本的一项技术，主要用于比对新的序列与已知序列，推断其结构和功能。

常用的序列比对工具包括BLAST、BWA、Bowtie和SOAP等，其中BLAST是最常用的工具之一，可以用于比对多种类型的序列，如蛋白质、核酸和基因组序列等。

（2）拼接由于测序技术的限制，我们得到的基因组数据通常是碎片化的。

因此，拼接技术成为了基因组拼装的重要工具。

拼接技术主要包括Overlap-Layout-Consensus（OLC）和de Bruijn图（DBG）两种方法。

OLC方法通常用于长序列的拼接，DBG方法则适用于短序列的拼接。

（3）拼图拼图技术是一种用于检测基因组中的重复序列的方法。

由于重复序列在基因组中占据了大量的比例，因此对于基因组结构的分析具有重要意义。

挖掘新基因资源的方法

挖掘新基因资源的方法概述随着生物科技和基因工程技术的发展，酶制剂的开发和研究越来越需要更多的酶基因资源，目前国内研究方法主要有以下几种：一通过寻找新的微生物资源我们寻找新的基因资源最直接和最传统的方法就是通过对自然界的微生物进行筛选，获得更多的优良的微生物资源，然后通过分子生物学手段获取基因资源，早期的研究大多数局限于此。

微生物筛选的基本流程大致如下：1.根据不同的目的选取特定的地点采集样品，常选取比较极端的环境。

2.对采集的样品进行处理，稀释培养，或者富集培养3.很据不同的样品和目的进行初筛，复筛。

菌种筛选的手段筛选的手段必需配合不同筛选阶段的要求，对于初筛，要力求快速、简便，对于复筛，应该做到精确，测得的数据要能够反映将来的生产水平。

1)从菌体形态变异分析有时，有些菌体的形态变异与产量的变异存在着一定的相关性，这就能很容易地将变异菌株筛选出来。

尽管相当多的突变菌株并不存在这种相关性，但是在筛选工作中应尽可能捕捉、利用这些直接的形态特征性变化。

当然，这种鉴别方法只能用于初筛。

2)平皿快速检测法平皿快速检测法是利用菌体在特定固体培养基平板上的生理生化反应，将肉眼观察不到的产量性状转化成可见的"形态"变化。

具体的有纸片培养显色法、变色圈法、透明圈法、生长圈法和抑制圈法等。

这些方法较粗放，一般只能定性或半定量用，常只用于初筛，但它们可以大大提高筛选的效率。

它的缺点是由于培养平皿上种种条件与摇瓶培养，尤其是发酵罐深层液体培养时的条件有很大的差别，有时会造成两者的结果不一致。

平皿快速检测法操作时应将培养的菌体充分分散，形成单菌落，以避免多菌落混杂一起，引起"形态"大小测定的偏差。

4.细菌的生理生化试验，各种代谢产物的测定。

5.细菌培养鉴定，性能测定，克隆基因，表达分析。

缺点：开发周期太长；优点：操作方法简单，获得较多的菌种资源。

大型设备：电子天平、超净工作台、高低温恒振荡培养箱、恒温水浴锅、可见光分光光度计、高压蒸汽灭菌锅、PCR仪，紫外成像系统。

重要基因的发掘和功能研究

重要基因的发掘和功能研究随着基因技术的不断发展，我们有了更多的机会来对人类基因进行研究和探索。

这项研究也为人类医疗和健康提供了更好的解决方案。

在这个领域中，发现重要基因并研究它们的功能是一项重要的任务。

在这篇文章中，我们将探索如何发掘重要基因以及分析它们的功能。

基因是生物体遗传信息的载体，控制了生物体的所有生命活动。

为发掘重要基因，首先需要通过基因测序技术对基因组进行扫描。

在不同生物体中，基因和其组成的表达网络存在差异，基因测序可以帮助我们发现这些差异并分析它们的含义。

具体来说，基因测序可以帮助我们发现基因的变异和序列重复，这些变异和重复在某些情况下会导致基因表达的改变，影响人们的健康和生命质量。

以人类疾病为例，如若要发掘与疾病有关的基因，研究者可以通过疾病患者和健康人士的基因测序结果进行比对。

对比结果可以发现在患病人群中出现频率较高的变异，这些变异可能与疾病的发生和发展密切相关。

例如，BRCA1和BRCA2基因的突变与乳腺癌和卵巢癌的发生率有很大关系，因此这两个基因被认为是致癌基因。

因此，通过基因测序技术可以发现与疾病相关的基因，从而在发现和治疗疾病方面产生重大影响。

一旦确定了重要基因，接下来就需要对这些基因的功能进行深入研究。

基因的功能可以通过多种方法进行分析和验证，其中包括基因敲除技术、基因过表达技术、功能性基因组学和CRISPR/Cas9等现代基因编辑技术。

基因敲除技术是将基因从生物体中彻底删除，从而研究其对生命活动的影响。

例如，通过将BRCA1和BRCA2基因从小鼠中敲除，研究人员发现小鼠的卵巢和乳房会产生不同的变化，这进一步确认了这两个基因与癌症有关。

同样的，基因过表达技术是将基因在生物体中过度表达，从而研究其对生命活动的影响。

这些技术可以帮助我们更深入地理解基因的功能和生物体的生命活动规律。

除了基于基因编辑技术的研究方法，功能性基因组学也是对基因功能进行分析的重要方法。

功能性基因组学通过对基因产物进行组学分析，了解其对蛋白质相互作用、代谢途径和信号转导的影响，从而深入挖掘基因的功能。

基因组信息数据挖掘的新方法及应用

基因组信息数据挖掘的新方法及应用近年来，随着高通量测序技术的突破和全基因组测序的广泛应用，生命科学研究进入了一个全新的时代。

基因组数据量爆炸式增长，但如何从海量的数据中挖掘有用的信息，成为了当前生命科学研究面临的重要任务之一。

这时候，数据挖掘技术便成为生命科学的重要工具之一。

一、基因组信息数据挖掘的基本方法基因组信息数据挖掘主要涉及DNA序列、RNA表达、蛋白质结构和功能等方面的信息。

数据挖掘的基本方法通常包括：特征选择、模型构建和评价、特征重要性分析和模型解释等步骤。

特征选择（Feature selection）是从众多基因的数据中选取最具代表性的一些特征，以便建立适当的模型。

常用的特征选择方法包括：过滤式（Filter）、包裹式（Wrapper）和嵌入式（Embedded）三种方法。

模型构建和评价（Model building and evaluation）是建立预测模型的重要步骤。

常见的预测模型包括实数值预测模型和分类预测模型。

实数值预测模型可以预测蛋白质的性质，例如氨基酸序列的稳定性等；分类预测模型则可以预测基因是否参与某种代谢途径，或者是否与某一疾病有关等。

特征重要性分析（Feature importance analysis）通过量化每个特征对模型预测性能的贡献，为后续模型分析提供重要指导。

模型解释（Model interpretation）通过分析模型权重等信息，理解模型预测结果的物理含义，探究基因或蛋白质与特定生物过程的关联。

二、现代基因组信息数据挖掘的新方法随着大数据和人工智能潮流的崛起，现代基因组信息数据挖掘也涌现出多种新方法。

我们在这里简单介绍两种。

1.深度学习（Deep Learning）深度学习是一种运用多层神经网络算法从大量数据中自动学习特征表示的技术。

深度学习已经广泛应用于图像和语音识别等领域，并逐渐被引入到生物医学研究中。

例如，基于深度学习的蛋白质结构预测已逐渐成为热门的研究方向。

生物信息学中的基因组挖掘与分析方法研究

生物信息学中的基因组挖掘与分析方法研究生物信息学是一门融合了生物学、计算机科学和统计学的学科，它的目标是利用计算机和数据分析技术来解读生物学中的大数据。

在现代生物学中，基因组挖掘与分析方法是非常关键的研究领域。

基因组是一种组织体的遗传物质，它包含了一个生物体内所有基因的DNA序列。

基因组挖掘与分析的目的是通过分析基因组数据来获取与基因相关的信息，并深入了解生物体的遗传特征和功能。

基因组挖掘与分析的方法可以分为两个主要方面：基因组序列分析和功能注释。

基因组序列分析主要是对基因组DNA序列进行注释和分析，以确定其中的潜在基因和其他功能元素。

功能注释则是将已知的生物学功能与基因组中的DNA序列关联起来，以确定基因的功能和影响。

下面将详细介绍一些常见的基因组挖掘与分析方法。

基因组序列分析的一项重要任务是基因预测，即确定DNA序列中的潜在基因和其编码蛋白质的序列。

这一任务通常通过比对DNA序列至已知的基因序列数据库来实现。

常用的方法包括同源比对、基于隐马尔可夫模型的预测和基于RNA序列的预测。

同源比对通过比对目标基因组与已知基因组的相似性来预测潜在基因。

隐马尔可夫模型结合了DNA序列中的统计特征来预测基因的位置和结构。

而基于RNA序列的预测是通过检测mRNA或转录本序列以确定基因的位置和结构。

功能注释是基因组挖掘与分析中的另一个关键任务。

它可以通过分析DNA序列的保守性和结构特征来预测基因的功能。

其中，保守性分析可以利用不同物种间基因组序列的比对来确定是否存在保守的序列区域，从而推断这些区域可能具有重要的生物学功能。

结构特征分析则通过预测RNA二级结构、蛋白质结构和DNA/RNA的特定结构域来推测基因的功能。

在基因组挖掘与分析中，还有其他一些重要的任务，比如基因组组装和基因表达分析。

基因组组装是将原始测序数据拼接成连续的DNA序列，通常需要使用算法和统计模型进行。

基因组组装可以帮助研究人员更好地理解基因组结构和演化，以及揭示基因组间的差异和变异。

生物基因数据挖掘的方法研究

生物基因数据挖掘的方法研究随着生物技术的发展，越来越多的生物基因数据被产生和存储。

如何从这些数据中挖掘出有价值的信息，帮助我们更好地理解生命机制和研究疾病治疗，已成为生物学领域的重要课题。

本文将就生物基因数据挖掘的方法进行讨论。

一、数据预处理生物基因数据通常非常复杂，需要进行预处理以获得准确的数据。

常见的预处理方法包括数据清理、数据集成、数据变换、数据归约和数据离散化等。

数据清理通常是指删除或修复数据中的错误或不完整的记录，以确保数据是准确可靠的。

数据集成是指将来自不同来源、不同格式或不同类型的数据进行整合，使得数据可以在一个统一的平台上处理和分析。

数据变换是指对原始数据进行变换，以便更好地适应挖掘任务的要求。

数据归约是指减少数据中的冗余信息，以避免过多的数据被处理。

数据离散化是指将连续的数值变量转化为离散的类别变量，以方便进行分类和聚类分析等任务。

二、分类与聚类分类和聚类是生物基因数据挖掘中常用的方法。

分类是指将数据分为不同的类别，以便识别出不同类别之间的差异。

常见的分类方法包括决策树、支持向量机和朴素贝叶斯分类器等。

聚类是指将数据聚集在一起，以便找出数据之间的相似性和差异性。

常见的聚类方法包括K均值聚类、层次聚类和密度聚类等。

三、关联规则挖掘关联规则挖掘是生物基因数据分析中的一种重要方法，主要用于寻找不同基因之间的联系和规律。

它是从大量的基因数据中，挖掘出不同基因之间的相互依存关系的有效方法。

如果多个基因在一定条件下一起出现的概率非常高，则可以认为它们之间存在一定的关联性。

常见的关联规则挖掘方法包括Apriori算法、FP-Growth算法和关联规则算法等。

四、模式识别模式识别是指将数据分为不同的类别，以便识别出不同类别之间的差异。

它是生物基因数据分析中的一种重要方法，主要用于从大量的基因数据中挖掘出有价值的知识和规律。

常见的模式识别方法包括神经网络、支持向量机、K近邻和朴素贝叶斯等。

五、网络分析网络分析是通过构建基因网络，了解基因之间的相互关系，从而挖掘出有价值的知识和规律的一种方法。

植物基因组解析及功能基因挖掘

植物基因组解析及功能基因挖掘植物基因组解析及功能基因挖掘是生物学领域的重要研究方向之一。

随着高通量测序技术的发展，我们能够快速、高效地获取植物基因组的序列信息，并进一步挖掘其中的功能基因。

本文将以植物基因组解析与功能基因挖掘为主题，介绍其重要性、方法和应用。

一、植物基因组解析的重要性植物基因组解析的重要性在于为我们深入了解植物的基因组结构和功能基因提供了重要的基础。

通过解析植物基因组，我们可以揭示植物基因的组织和调控方式，进而了解植物的形态特征、适应环境的机制以及与其他生物的亲缘关系等。

此外，植物基因组解析还可以为植物育种和基因工程提供理论依据和技术支持，推动农业领域的发展。

二、植物基因组解析的方法目前，植物基因组解析的主要方法是高通量测序技术。

高通量测序技术的出现，使得我们能够在较短的时间内获取大量的基因组序列数据，快速解析植物基因组。

其中，最常用的高通量测序技术包括Illumina测序和PacBio测序。

Illumina测序以其高通量、低成本和高准确性的特点，成为了目前最常用的测序平台。

而PacBio测序则以其长读长的特点，可以提供更长的基因组序列，对植物基因组解析中的复杂区域具有重要意义。

此外，还有一些其他的测序技术，如Nanopore测序和454测序，也在植物基因组解析中得到了一定的应用。

三、功能基因挖掘的意义和方法功能基因挖掘是在植物基因组解析的基础上，进一步分析和挖掘基因的功能和作用。

功能基因挖掘的意义在于揭示植物基因的功能，理解植物生长发育和适应环境的分子机制，为农业生产和基因工程研究提供理论和技术支持。

功能基因挖掘的方法主要有三种：生物信息学分析、转基因和基因敲除实验。

生物信息学分析是通过基因组序列数据进行计算，预测基因的结构和功能。

转基因是通过外源基因的导入，观察基因功能的变化和效果。

基因敲除则是通过基因编辑技术来删去某个特定基因，观察植物表型的变化，并进一步分析这个基因在植物生长和发育过程中的功能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

微生物筛选的基本流程大致如下：1.根据不同的目的选取特定的地点采集样品，常选取比较极端的环境。

2.对采集的样品进行处理，稀释培养，或者富集培养3.很据不同的样品和目的进行初筛，复筛。

1)从菌体形态变异分析有时，有些菌体的形态变异与产量的变异存在着一定的相关性，这就能很容易地将变异菌株筛选出来。

尽管相当多的突变菌株并不存在这种相关性，但是在筛选工作中应尽可能捕捉、利用这些直接的形态特征性变化。

当然，这种鉴别方法只能用于初筛。

2)平皿快速检测法平皿快速检测法是利用菌体在特定固体培养基平板上的生理生化反应，将肉眼观察不到的产量性状转化成可见的"形态"变化。

具体的有纸片培养显色法、变色圈法、透明圈法、生长圈法和抑制圈法等。

这些方法较粗放，一般只能定性或半定量用，常只用于初筛，但它们可以大大提高筛选的效率。

它的缺点是由于培养平皿上种种条件与摇瓶培养，尤其是发酵罐深层液体培养时的条件有很大的差别，有时会造成两者的结果不一致。

平皿快速检测法操作时应将培养的菌体充分分散，形成单菌落，以避免多菌落混杂一起，引起"形态"大小测定的偏差。

4.细菌的生理生化试验，各种代谢产物的测定。

5.细菌培养鉴定，性能测定，克隆基因，表达分析。

缺点：开发周期太长；优点：操作方法简单，获得较多的菌种资源。

大型设备：电子天平、超净工作台、高低温恒振荡培养箱、恒温水浴锅、可见光分光光度计、高压蒸汽灭菌锅、PCR仪，紫外成像系统。

实例：筛选高温淀粉酶产生菌及克隆基因（广西大学薛蓓2009年硕士毕业论文）i.采样在在高温环境（广西象州温泉）采样，共选择三个采样点，即热泉口（温度80℃，pH7.0）、温泉水（温度73℃，pH6.5）及温泉旁边的底泥（温度65℃，pH6.8）。

ii.产α-淀粉酶产生菌的菌株筛选将采集的样品分级稀释，涂布在以可溶性淀粉为唯一碳源的M9培养基上，于60℃-80℃倒置培养24h，待长出菌落后，将平板置于4℃，直到淀粉板上透明圈明显后取出，观察透明圈大小，并测量菌落直径（C）及透明圈直径(H)，计算透明圈与菌落直径比值(H/C)作为初筛指标，初步筛选出产淀粉酶高的优良菌株进行进一步的纯培养。

再以这些菌株为材料，液体培养检测其淀粉酶的活力以复筛选出了淀粉酶产量高的菌株。

iii.菌株鉴定，酶学性质测定选取复筛优良菌株65℃，200rpm振荡培养24h，测定发酵液酶活，并初测其性质，并鉴定该菌株。

iv.克隆高温淀粉酶基因根据GeneBank已公布的与所筛选菌株同源性最高的菌株里淀粉酶的序列设计引物进行PRC扩增得到目的基因。

该基因编码的淀粉酶在80℃下保温20min,残留活性在85%以上。

二宏基因组技术挖掘新基因资源分子微生物生态学的研究业已证明环境中大量存在未能培养的微生物，某些环境中采用现有培养技术能够培养的微生物不到1%，超过99%的微生物尚未能培养(Amann RI, Ludwig W,1995)，可见基于微生物分离培养的技术途径开发利用微生物资源受到了极大的限制。

为了突破上述限制，充分挖掘和利用微生物的多样性基因资源，人们在寻找新技术方法上倾注了极大的热情。

“宏基因组”即指生境中全部微小生物遗传物质的总和，目前主要指环境样品中的细菌和真菌的基因组总和（Handelsman J., Rondon M.R. Brady, 1998 ）。

宏基因组文库既包含了可培养的又包含了未能培养的微生物基因，避开了微生物分离培养的问题，极大地扩展了微生物资源的利用空间。

目前已采用土壤、海水、海洋浮游生物、海棉、甲虫、人唾液等环境样品成功构建了宏基因组文库，已筛选到的生物活性物质有各种酶类及一些次生代谢产物，包括脂酶/酯酶、蛋白酶、淀粉酶、氧化酶、几丁质酶、核酸酶、膜蛋白、4-羟基丁酸代谢酶系、生物素合成酶系、色素、抗菌抗肿瘤活性物质及抗生素抗性基因等。

宏基因组文库技术的主要流程如下：1从环境中提取宏基因组DNA；先采集环境样品，处理，裂解，抽提总DNA ，一般按处理样品方式的不同划分为直接提取法和间接提取法。

顾名思义，直接提取法就是直接对样品进行裂解，释放其中的DNA；间接提取法则是先分离样品中的微生物，后对微生物进行裂解用核酸内切酶切割成一定长度的DNA片段并连接到合适的载体上。

2转化宿主菌，形成一个重组的DNA文库即宏基因组文库。

将提取的高质量的总DNA用合适的酶切、回收，然后和处理好的合适的载体进行连接，转化宿主。

3宏基因组文库筛选。

由于环境样品中微生物种类繁多，宏基因组文库容量一般较大，活性克隆子的筛选是新活性物质筛选的瓶颈，根据研究目的, 可从生物活性水平、化合物结构水平以及DNA序列水平设计不同的筛选方案。

1）生物活性水平的筛选又称为功能驱动筛选(function-driven screening), 根据重组克隆产生的新活性进行筛选。

采用各种活性检测手段检测挑选活性物活性克隆子，进行生化分析和插入DNA片段序列分析，进而对其深入研究。

这一策略以生为线索能够发现全新的活性物质或基因，能够快速鉴别有开发潜力的克隆子，但工作量大，效率低，并且受检测手段的局限。

2）DNA序列水平的筛选又称为序列驱动筛选(sequence-driven screening), 以序列相似性为基础，执行某类功能的酶可能具有相识的基因序列。

根据某些已知的相关功能基因的保守序列或相似序列设计杂交探针或PCR引物，通过杂交或PCR扩增挑选阳性克隆。

这一策略有可能筛选到某一类结构或功能的蛋白质中的新分子，而且基于DNA的操作有可能利用基因芯片技术大大提高筛选效率，但必须对相关基因序列有一定的了解，较难发现全新的活性物质。

仪器设备：恒温摇床，电热恒温培养箱，台式高速离心机，高速冷冻离心机，无菌工作台，低温冰箱, 恒温水浴锅, 制冰机, 分光光度计，微量移液枪，PCR 仪，精密移液器等。

该方法的难点是提取到高质量的DNA及高通量的筛选方法的建立。

优点：筛选范围广，获得全新基因资源几率大缺点：对实验操作人员要求高，技术复杂，实验经费较昂贵目前也有很多研究者直接省略构建文库的步骤，以宏基因组DNA为模板，设计兼并引物或其他引物探针进行扩增基因。

如华南农业大学生物质研究所（林俊芳，2009年7月）就从海南，广州，新疆等地的环境样品中克隆到12个漆酶基因片段。

三从蛋白质纯化着手的方法（纯化后克隆）常规的基因克隆都是先通过构建基因文库或者PCR技术克隆到基因，然后通过对基因进行分析，来展开对该基因所编码的蛋白质研究。

随着蛋白质化学和蛋白质技术的发展，越来越多的研究者从天然的蛋白质出发，然后对蛋白质部分或者全部测序，从而分子生物学手段获取基因。

若研究者可得到足够多的纯化目的蛋白可根据目的蛋白的生物学功能, 利用同位素标记的配体来筛选受体表达的阳性克隆。

当所分离的目的蛋白较难大量获得, 但纯度较高时, 可利用其中的一段氨基酸序列, 反推出其基因序列, 据此合成寡核苷酸用于cDNA 文库的筛选; 或根据所获得的基因序列, 指导5′ 端的引物合成, 根据mRNA 3′ 端po ly2 A 序列指导合成po ly2 T 的3′ 端引物, 用PCR 技术从制备细胞的mRNA 或直接从胞浆内溶物物中合成相应的cDNA , 将该cDNA 克隆到表达载体上进行产物表达。

方法流程：1 培养微生物，收集培养物。

2分离纯化目标蛋白质，检测蛋白性质和纯度。

蛋白纯化主要有超滤，盐析（硫酸铵沉淀等），有机溶剂沉淀，离子交换层析，凝胶过滤层析，亲和层析等方法，一般在纯化过程中，以上方法组合使用。

3 将纯化后的蛋白进行N端测序或者质谱分析，获得蛋白质全序列或者部分肽链序列。

4分析测序结果，设计引物，扩增基因（合成基因），进行表达分析。

以Bacillus sp.酸性淀粉酶克隆为例：（广西大学2010年谢建华硕士毕业论目的基因进行表达和产物性质分析该方法中，纯化蛋白和设计合适的兼并引物是关键和难点。

仪器设备：恒温摇床，恒温培养箱，PCR仪，凝胶成像仪，冷冻离心机，核酸电泳仪，超净台，水浴锅，台式离心机，蛋白纯化系统等优点：目的明确，创新性强缺点：费用高，流程复杂四利用生物学数据库需找新基因资源基因组测序技术的飞速发展使得生物数据库中基因和基因组序列数据呈爆炸式增长。

根据基因组测序计划统计网站GOLD ()截止到2012年3月12日的统计数据，已有3173种生物的全基因组完成测序，其中2874种属于细菌，353种属于古细菌，173种属于真核生物；而全球正在进行的全基因组测序计划还有10479个．另有1970个宏基因组测序计划正在进行或已经完成。

美国国家生物技术信息中心(NCBI)网站的统计数据显示(http：///Genbank/index.html)．截止到2011年4月．该网站中传统的Genbank数据库中已有近1.3亿多条序列．而全基因组鸟枪法(wholegenome shotgun,WGS)测序数据库记录的来自个体和宏基因组的序列已有6200多万条．碱基数量累计1480亿个。

在如此庞大的基因组数据库中无疑包含着海量的工业酶基因资源。

新的基因资源的发现也从“挖土”筛选微生物转向从数据库中“挖基因”，也就是所谓的“基因组打猎”(genome hunting)或”数据挖掘”(datamining)，该方法实际上是根据某一已知的探针酶的基因序列去搜索数据库来发现结构和功能类似的同源酶的编码序列。

在此基础上，研究者可以方便地设计引物，利用聚合酶链反应(PCR)技术从目标物种中大量地扩增获得目的酶基因．并进行异源重组表达。

基本流程：1.从数据库(GenBank,EMBL,DDBJ等)中查询目标酶在不同物种中的编码基因信息和序列(或者相关生物的基因组数据)。

2.分析相关的基因（同源基因或物种相近的基因）序列，从中寻找目标酶的编码基因的全ORF或EST序列。

3.设计引物进行扩增或者进行基因合成，表达分析。

实例克隆碱性脂肪酶基因：1 查阅现有的相关碱性脂肪酶报道文献，了解碱性脂肪酶的信息。

2 可在GenBank,EMBL,DDBJ数据库中检索碱性脂肪酶基因信息。

以GenBank为例检索。