核酸序列分析软件介绍

合集下载

Blast

Blast(来自丁香园)BLAST序列相似性检索<zt>＝＝＝＝＝＝＝＝＝＝＝＝＝＝Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。

序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索，找出与之相似的序列，从而评判新测定的序列是重复别人的工作，还是在前人的基础上有所创新，或是发现了新的序列。

现在用于序列类似性检索的软件很多，下面主要介绍GenBank的序列类似性检索工具棗BLAST。

1. BLAST简介BLAST是Basic Local Alignment Search Tool的英文缩写，意即碱基局部对准检索工具，是一种序列类似性检索工具。

它采用统计学记分系统，能将真正配对的序列同随机产生的干扰序列区别开来；同时采用启发式算法系统，即采用的是局部对准算法(Local Alignment Algorithm)，而不是全序列对准算法(Global Alignment Algorithm)。

全序列对准算法是在检索结果中两个被比较序列所有片断均类似；而局部对准算法是找出两个被比较序列的“最类似”片断，并得出可能只包含两个序列的某个部分的对准结果。

在BLAST的基础上，NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。

BLAST 2.0•是一种新的BLAST检索工具，它对BLAST作了改进，运行速度更快，灵敏度更高，同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。

Gapped BLAST允许在对准的序列中引入空位(•碱基缺失或插入)，引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。

这些空位对准的记分系统更能反映相关序列的类似程度。

PSI-BLAST的全称是Position-Specific •Iterated BLAST，意即特殊位置重复BLAST，它提供了自动、易用的概貌(Profile)检索，是查找序列同源(Sequence Homologues)的有效方法。

blastx用法

blastx用法blastx是一种生物信息学工具，用于在蛋白质数据库中查找和比对核酸序列的编码蛋白质序列。

blastx是Blast（Basic Local Alignment Search Tool）软件家族的一员，它使用NCBI（National Center for Biotechnology Information）的非冗余蛋白质序列数据库（nr）或其他用户指定的数据库进行比对。

blastx的用法包括以下几个步骤：1.准备核酸序列文件：将需要查询的核酸序列保存在一个文本文件中，一般是FASTA格式。

2.选择合适的数据库：根据研究目的和问题的特点，选择适当的蛋白质数据库。

通常使用NCBI的nr数据库，它包含了全球各个物种已知的非冗余蛋白质序列信息。

3.运行blastx：在命令行或者图形化界面中输入blastx的命令或进行相应的设置，指定核酸序列文件和数据库，然后运行blastx。

4.解析输出结果：blastx会生成一个比对结果文件，其中包含了核酸序列与蛋白质数据库中蛋白质序列的比对信息。

可以通过查看比对分数、E-value、比对位置等指标来评估比对的质量和可靠性。

5.进一步分析和解释：基于比对结果，进一步分析和解释核酸序列与已知蛋白质序列的关系和功能。

可以通过比对的结果来预测未知序列的功能、推断物种间的亲缘关系等。

除了上述基本用法，blastx还可以通过设置不同的参数来定制化分析，例如调整比对的严格度、限定比对结果的最小阈值、特定的序列过滤等。

此外，使用blastx，还可以进行基因功能注释、找到同源蛋白、寻找变异位点等研究。

同时，blastx也可以被用于大规模的基因组、转录组以及六框架的翻译产品比对。

总的来说，blastx是一种强大的工具，被广泛应用于生物信息学领域，有助于研究人员更好地理解基因组和蛋白质的功能与演化关系。

序列分析软件DNAMAN 的使用方法简介

序列分析软件DNAMAN 的使用方法简介DNAMAN 是一种常用的核酸序列分析软件。

由于它功能强大，使用方便，已成为一种普遍使用的DNA 序列分析工具。

本文以DNAMAN 5.2.9 Demo version 为例，简单介绍其使用方法。

打开DNAMAN，可以看到如下界面：第一栏为主菜单栏。

除了帮助菜单外，有十个常用主菜单，第二栏为工具栏：第三栏为浏览器栏：在浏览器栏下方的工作区左侧，可见Channel 工具条，DNAMAN 提供20 个Channel，(如左所示：)点击Channel 工具条上相应的数字，即可击活相应的Channel。

每个Channel 可以装入一个序列。

将要分析的序列（DNA 序列或氨基酸序列）放入Channel 中可以节约存取序列时间，加快分析速度。

此版本DNAMAN 提供自动载入功能，用户只需激活某个Channel，然后打开一个序列文件，则打开的序列自动载入被激活的Channel 中。

本文以具体使用DNAMAN 的过程为例来说明如何使用DNAMAN 分析序列。

1．将待分析序列装入Channel（１）通过File Open 命令打开待分析序列文件，则打开的序列自动装入默认Channel。

（初始为channel1）可以通过激活不同的channel (例如：channel5)来改变序列装入的Channel。

（２）通过Sequence/Load Sequence 菜单的子菜单打开文件或将选定的部分序列装入Channel 。

通过Sequence/Current Sequence/Analysis Defination 命令打开一个对话框，通过此对话框可以设定序列的性质（DNA 或蛋白质），名称，要分析的片段等参数。

2．以不同形式显示序列通过Sequence//Display Sequence 命令打开对话框，如下图所示：根据不同的需要，可以选择显示不同的序列转换形式。

对话框选项说明如下：Sequence &Composition 显示序列和成分Reverse Complement Sequence 显示待分析序列的反向互补序列Reverse Sequence 显示待分析序列的反向序列Complement Sequence 显示待分析序列的互补序列Double Stranded Sequence 显示待分析序列的双链序列RNA Sequence 显示待分析序列的对应RNA 序列3．DNA 序列的限制性酶切位点分析将待分析的序列装入Channel，点击要分析的Channel，然后通过Restriction/Analysis 命令打开对话框，如下所示：参数说明如下：Results 分析结果显示其中包括：Show summary（显示概要） Show sites on sequence（在结果中显示酶切位点）Draw restriction map（显示限制性酶切图）Draw restriction pattern（显示限制性酶切模式图）Ignore enzymes with more than（忽略大于某设定值的酶切位点）Ignore enzymes with less than（忽略小于某设定值的酶切位点）Target DNA （目标DNA 特性）circular（环型DNA），dam/dcm methylation（dam/dcm 甲基化）all DNA in Sequence Channel（选择此项，在Sequence Channel 中的所有序列将被分析，如果选择了Draw restriction pattern，那么当所有的channel 中共有两条DNA 时，则只能选择两个酶分析，如果共有三个以上DNA 时，则只能用一个酶分析。

DNAman使用说明

查看文章DNAMAN使用说明书（中文）2008年04月16日星期三下午10:50DNAMAN 是一种常用的核酸序列分析软件。

由于它功能强大，使用方便，已成为一种普遍使用的DNA 序列分析工具。

本文以DNAMAN 5.2.9 Demo version 为例，简单介绍其使用方法。

打开DNAMAN，可以看到如下界面：第一栏为主菜单栏。

每个Channel 可以装入一个序列。

将要分析的序列（DNA 序列或氨基酸序列）放入Channel 中可以节约存取序列时间，加快分析速度。

此版本DNAMAN 提供自动载入功能，用户只需激活某个Channel，然后打开一个序列文件，则打开的序列自动载入被激活的Channel 中。

本文以具体使用DNAMAN 的过程为例来说明如何使用DNAMAN 分析序列。

1．将待分析序列装入Channel（１）通过File Open 命令打开待分析序列文件，则打开的序列自动装入默认Channel。

（初始为channel1）可以通过激活不同的channel (例如：channel5)来改变序列装入的Channel。

（２）通过Sequence/Load Sequence 菜单的子菜单打开文件或将选定的部分序列装入Channel 。

通过Sequence/Current Sequence/Analysis Defination 命令打开一个对话框，通过此对话框可以设定序列的性质（DNA 或蛋白质），名称，要分析的片段等参数。

2．以不同形式显示序列通过Sequence//Display Sequence 命令打开对话框，如下图所示：根据不同的需要，可以选择显示不同的序列转换形式。

生物信息学软件 (2)

生物信息学软件
生物信息学软件是一类专门用于处理、分析和解释生物学
数据的软件工具。

这些软件通常用于基因组学、蛋白质组学、转录组学和代谢组学研究中。

以下是一些常用的生物
信息学软件：
1. BLAST：用于快速在数据库中搜索相似序列的工具，对
于序列比对和亲缘关系分析非常有用。

2. ClustalW：用于多序列比对的软件，可以比较多个序列
之间的相似性和差异。

3. GROMACS：用于分子动力学模拟和分子力学计算的软件，可以模拟蛋白质、核酸等生物分子的结构和动态行为。

4. PHYLIP：用于构建进化树和系统发育分析的软件，可以根据序列的差异性推断出生物物种之间的进化关系。

5. R：一种统计软件，提供了广泛的生物信息学功能和数据处理方法。

6. Cytoscape：用于网络分析和可视化的软件，可以分析和可视化基因调控网络、蛋白质相互作用网络等。

7. NCBI工具包：由美国国家生物技术信息中心（NCBI）开发的一组工具，包括BLAST、Entrez等，用于生物序列和文献检索。

8. Galaxy：一个基于云计算的生物信息学分析平台，提供了大量的工具和工作流，方便生物学家进行数据分析和可视化。

9. MetaboAnalyst：用于代谢组学数据分析的软件，可以进行代谢物注释、统计分析、通路分析等。

10. Geneious：用于序列分析和比对、系统发育分析、基因预测等多种生物信息学任务的集成软件。

以上只是一小部分常用的生物信息学软件，随着科学研究的进展，新的软件工具不断涌现。

序列分析软件DNAMAN的使用方法

DNAMAN 是一种常用的核酸序列分析软件。由于它功能强大，使用方便，已成为一种普遍使用的DNA 序列分析工具。
打开DNAMAN，可以看到如下界面：

第一栏为主菜单栏。除了帮助菜单外，有十个常用主菜单，第二栏为工具栏：第三栏为浏览器栏：在浏览器栏下方的工作区左侧，可见Channel 工具条，DNAMAN 提供20 个Channel，点击Channel 工具条上相应的数字，即可击活相应的Channel。每个Channel 可以装入一个序列。将要分析的序列（DNA 序列或氨基酸序列）放入 Channel 中可以节约存取序列时间，加快分析速度。

Annotations 是否显示注释 Comparision 比对参数，其中Window 代表Window size（单位比对长度）， Mismatch 代表Mismatch size（单位比对长度中许可的错配值）要快速比对，需将此项设为0。 Both stran 代表Both strand（双链比对）选择此项，是指用Sequence 2 中的序列的正链和负链分别和 Sequence 1 比较。 Sequence 2 正链与Sequence 1 比较结果用黑色点表示，Sequence 2 负链比对结果用红色点表示。
ห้องสมุดไป่ตู้

选择所需的项目，然后按提示操作点击按扭，出现下列对话框：参数说明如下： Enzyme 代表（enzyme data file），点击旁边的下拉按钮，出现两个默认选项，restrict.enz 和dnamane.enz，如果添加过自制的酶列表，则附加显示自制酶列表文件名。其中restrict.enz 数据文件包含180 种限制酶， dnamane.enz 数据文件包含2524 种限制酶。选择其中一个数据文件，相应的酶在左边的显示框中列出（按酶名称字母表顺序），鼠标双击酶名称，则对应的酶被选中，在右边空白框中列出。

序列分析软件DNAMAN的使用方法中文演示文稿

序列分析软件DNAMAN的使用方法中文演示文稿第一部分：软件介绍1.DNAMAN是什么？-DNAMAN是一款用于DNA和蛋白质序列分析的软件。

-它提供多种功能，包括序列比对、引物设计、限制酶分析和进化树构建等。

2.DNAMAN的应用领域-DNAMAN广泛应用于生物学、生物技术和医药领域。

-它可以帮助研究人员进行序列分析、设计实验方案和解读实验结果。

第二部分：基本序列比对1.创建新项目-打开DNAMAN软件，点击“新建”按钮创建新项目。

-输入项目名称和序列信息，保存并打开该项目。

2.导入序列-点击“导入”按钮，选择需要比对的序列文件，点击“确定”导入。

-系统会自动将序列导入到项目中。

3.序列比对-选择需要比对的序列，点击“比对”按钮进行序列比对。

-系统会自动比对序列并生成比对结果。

4.结果解读-比对结果以图形和文本形式展示。

-可以通过选择不同的比对算法和调整参数来优化比对结果。

第三部分：引物设计1.创建新项目-打开DNAMAN软件，点击“新建”按钮创建新项目。

-输入项目名称和序列信息，保存并打开该项目。

2.导入标记序列-点击“导入”按钮，选择需要设计引物的标记序列文件，点击“确定”导入。

-系统会自动将标记序列导入到项目中。

3.引物设计-点击“引物设计”按钮，选择设计引物的参数和算法。

-系统会根据所选参数和算法自动生成引物设计结果。

4.结果解读-引物设计结果以图形和文本形式展示。

-可以通过选择不同的参数和算法来优化引物设计结果。

第四部分：限制酶分析1.创建新项目-打开DNAMAN软件，点击“新建”按钮创建新项目。

-输入项目名称和序列信息，保存并打开该项目。

2.导入限制酶序列-点击“导入”按钮，选择需要分析的限制酶序列文件，点击“确定”导入。

-系统会自动将限制酶序列导入到项目中。

3.限制酶分析-点击“限制酶分析”按钮，选择分析参数和算法。

-系统会根据所选参数和算法自动进行限制酶分析。

4.结果解读-限制酶分析结果以图形和文本形式展示。

NCBI_BLAST使用

NCBI的BLast最好生物核酸的数据库NCBI是在NIH的国立医学图书馆（NLM）的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

BLAST是一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBI提供的附加的软件工具有：开放阅读框寻觅器（ORF Finder），电子PCR，和序列提交工具，Sequin和BankIt。

所有的NCBI数据库和软件工具可以从WWW或FTP来获得。

NCBI还有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。

NCBI的BLast种类介绍? Gapped BLAST （2.0）—一种BLAST版本，允许在它产生的对齐（alignments）中存在缺口。

统计有效性的评估是基於使用随机序列的优先模拟。

在不久的将来，所有对Gapped BLAST的访问都要通过QBLAST。

? QBLAST —一种新的系统，允许用户以他们方便的方式检索Gapped BLAST结果，并且可以用各种格式选项多次格式化他们的结果。

这个系统也使NCBI更有效的使用计算资源，更好的为大家服务。

到1999年秋季，QBLAST系统用於所有的BLAST搜索。

? PSI-BLAST —位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。

所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐，从这个对齐，一个位置特异的分值矩阵建立起来。

这个矩阵被用来搜索资料库，以找到额外的显著对齐，这个过程可能被反复迭代一直到没有新的对齐可以被发现。

? PHI-BLAST —模式发现迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索，也可用EBI的SRS服务器进行检索。

在同时检索多条序列时，可通过罗逻辑关系式按照GenBank接受号进行批量检索。

如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。

其中“[ac]”是序列接受号的描述字段。

2、核酸序列的基本分析（1）分子质量、碱基组成、碱基分布分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。

如:BioEdit（/BioEdit/bioedit.html），DNAMAN（）。

（2）序列变换进行序列分析时，经常需要对DNA序列进行各种变换，例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。

这些用DNAMAN软件可很容易实现，这些功能集中在Sequence→Display，从中可选择不同的序列变换方式对当前通道的序列进行转换。

（3）限制性酶切分析该方面最好的资源是限制酶数据库（Restriction Enzyme Database，REBASE）。

REBASE数据库（，/rebase）中含有限制酶的所有信息，包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。

其它资源还有：WebGene：/~tjyin/WebGene/RE.html，/personal/tyin.htmlWebCutter2：http://www//firstmarkert/firstmarket/cutter/cut2.html同时，很多软件也能够识别REBASE限制酶数据库。

强烈推荐使用集成化的软件如BioEdit和DNAMAN等。

所得出的结果给出指定DNA序列的酶切位点信息，为克隆鉴定和亚克隆提供了重要信息。

在实际进行分子生物学实验中，有时需要对多条相关序列（如发生突变的一批序列）同时进行酶切分析，以便为后续的克隆鉴定提供参考。

此时DNAMAN软件是一个良好的选择。

在对所有序列进行多重对齐后，其输出项“Output”中即有“Restriction Analysis”选项，执行后即可完成对所有参与对齐序列的酶切分析，能够得到所有序列的差异酶切图谱和一致酶切图谱。

（4）克隆测序分析得到测序结果后，需要对所测序列进行后续分析，其中主要包括对测序峰图的查看和载体序列的去除等过程。

a. 测序峰图的查看最简单的程序是澳大利亚的Conor McCarthy（.au./~conor/）开发的Chromas.exe程序，但该程N 序不支持Windows 95以上的长文件名。

其实，集成化的软件如BioEdit和DNAMA 也具有此功能。

b. 载体序列的去除许多数据库中收集了常用的测序载体序列，如：vector-ig: ftp:///repository/vector-igftp:///repository/vectorUniVec数据库: /VecScreen/VecScreen.html /blast/db/vector.ZVectorDB: /vectordb/如果用户面对的是大批量序列的分析任务，则需要将这些载体数据库下载后进行分析。

使用Blast程序（/VecScreen/VecScreen.html ）对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。

如果是，那么在对测序列数据进行进一步分析之前必须将载体序列去除。

此过程虽然简单，在核酸序列数据库中仍有一些序列含有载体序列的污染。

美国基因编码公司（Gene Codes Corp/）所开发的SequencherTM软件在识别载体序列方面具有很强的功能。

SequencherTM软件被多个公司用于测序数据的分析和管理。

该分司同时提供该软件的演示版，可通过其网址（/home.html ）获得。

运行SequencherTM软件后，选择File→Import→Sequences，选择待进行载体序列分析的测序文件。

该测序文件可为文本格式的序列文件，也可为测序峰图文件，甚至可将一个目录下的所有的文件一次性输入。

编辑载体序列文件，在Name中填写载体名称，在PolyL 处填写克隆插入位点的两侧序列，中间插入位点用星号（＊）标识。

选中待进行载体序列切除的序列图标，选择Sequence→Trim Vector，将得到切除结果。

点最上方的Show Bases按钮，将显示具体序列。

SequencherTM软件可识别的载体序列文件也可来自VecBase数据库。

（5）核酸序列的电子延伸核酸序列的电子延伸的基本过程是：①将待分析的核酸序列（称为种子序列）采用Blast软件搜索GenBank的EST（expressed sequence tag，表达序列标签）数据库，选择与种子序列具有较高同源性的EST序列（一般要求在重叠40个碱基范围内有95%以上的同源性），称为匹配序列。

②将匹配序列和种子序列装配产生新生序列，此过程称为片段重叠群分析（contig analysis）。

③然后再以此新生序列作为种子序列，重复上述过程，直到没有新的匹配序列入选，从而生成最后的新生序列，作子种子序列的延伸产物。

在GCG软件包中，以下分析工具用于完成序列的电子延伸：gelstart程序为测序工程创建一个新的数据库；gelenter程序将克隆序列输入数据库；gelmerge程序自动分析克隆和片段末端重复情况；gelassemble调整片段重叠群的对齐结果；gelview显示单个片段重叠群中的重叠情况；geldisassemble将片段重叠群中的克隆分解为单个克隆序列。

GenBank和UniGene数据库、Tigem的EST Machine、EMBL的EST Cluster Project、美国Pangea的EST Assembly Project以及我国南方基因组中心的EST Assembly Project基本上采用此方式进行。

由于该过程的计算需要大量计算机资源，所以目前沿无通过Web直接进行片段重叠群分析的资源。

在实际分析时，用户一般将自己的序列向上述数据库提交，可直接从其中获得已经完成拼接得较长的cDNA 序列。

序列拼接的有关生物学资源如下：UniGene：inker /UniGene/，GenBank中EST序列按照基因簇分类结果。

STACK：http://www.sanbi.ac.za/Dbases.html ，南非国家生物信息中心SANBI 维护的一个序列标记联配和代表序列知识库。

及与之密切有关的一个数据库SANIGENE。

Staden可供下载进行片段重叠群分析的软件包网址：/pubseq/；/Registered/Option/staden.html 。

以UniGene数据库进行电子延伸为例，首先用进行序列同源性检索。

通常可从EST 数据库中检索到一批与待分析序列高度同源的EST序列。

选择同源性比分最高的一条EST序列，从UniGene数据库中进行检索，得到相应的UniGene编号。

获得待分析序列的UniGene编号后，就可将参与形成UniGene Cluster的所有序列下载到本地，利用SequencherTM软件或其他序列装配软件进行组装，形成较长的新生序列。

真正的cDNA序列还需要通过实验验证。

通过对延伸后的序列设计全长引物，经过反转录PCR即可验证是否是对原序列的有效延伸。

（6）基因的电子表达谱分析核酸序列对应基因的组织表达谱分析原理是，将待分析序列与EST数据库进行序列对库检索，随后用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断，从而得到该基因的组织表达谱。

可用UniGene Cluster序列的组织/细胞来源来间接地反映待分析序列在何种组织中表达，体现在字段“cDNA sources”中。

也可用Tigem服务器的电子原位杂交软件及其数据库（http://gcg.tigem.it/INSITU/insitublast.html ）也同机关报可获得组织/细胞表达谱。

（7）核酸序列的电子基因定位分析对核酸序列进行电子基因定位（即基因的染色体定位）有三种策略，其一利用STS （sequence tagged site）数据库，联网到NCBI电子PCR资源（/genome/sts/eper.cgi ），输入待分析序列进行；其二是利用UniGene数据库进行，但首先要获得待分析序列所对应的UniGene 编号，大部分UniGene序列已经具有较为明确的利用放射性杂交（radiation hybrid，RH）技术给出的定位信息，根据UniGene/RH技术进行定位。

其三是直接利用基因组序列进行电子基因定位。

先将待分析序列进行对基因组数据库的同源性检索，得到确定的基因组序列后点击“Genome view”按钮观察其基因组结构，点击用红色标记所指示的染色体列表中选择所对应的染色体区域，浏览器中将显示详细的基因定位结果，相关的基因谱数据库如RHdb、mouse RH、GeneMA HuGeMap。

（8）cDNA对应的基因组序列分析可通过NCBI查询全部基因组数据库进行基因组序列分析，也可通过Sanger中心查询基因组数据库进行分析（P’99、/HGP/blast_server.shtml ）。

（9）基于核酸序列对齐分析的功能预测主要内容如对库比较、多序列以及序列之间的两两比较、同源性比较及结果的显著性评价、分子进化树的绘制等。

可用BioEdit、Omiga、DNAMAN等集成了的Clusta W/X软件分析，其分析结果可用来给制分子进化树。

（10）可读框架分析AUG可能是真核生物惟一的翻译起始点。

Kozak调查了200多种真核生物mRNA中l5′末端第一个AUG前后序列发现，除此17个例外，其余都是A/GNNAUGG。

具有生物学功能的起始密码子AUG总是出现在一定的核苷酸阅读框架内。

首先，AUG上游（即5′方向）的第三个核苷酸常常是嘌呤，且多数是A（即-3A）；其次，紧跟在AUG后面的核苷酸，常常也是嘌呤，且多数情况下是G（即+4G）。

实验表明，AUG附近的核苷酸序中以ANNAUGN和GNNAUGPu的利用率最高，而没有起始功能的AUG附近核苷酸则无此保守性，即所谓的“Kozak序列”。

对于真核生物而言，一条全长cDNA序列将只含有单一的开放阅读框（openreading frame，ORF）。

非全长cDNA的序列如ESTs，通过将核苷酸序列中的所有相位进行搜索可很快获得结果。