细菌的基因预测以及注释

合集下载

大肠杆菌基因组的解析与分析

大肠杆菌基因组的解析与分析大肠杆菌是一种归属于肠道菌群的细菌，在它们的代谢过程中，产生了多种有益物质，它们也是研究细菌基因组较多的一个物种。

解析大肠杆菌基因组可以对其生物学特性进行深入地研究，这对我们了解大肠杆菌的生态、代谢、药物耐受性等方面的知识都有着重要的意义。

一、基因组结构大肠杆菌的基因组是一个圆形DNA分子，长度为4.6-4.8万个碱基对。

它包含了约4000个基因和多个重复序列。

基因组中的核酸序列与其它生物存在许多相似之处，但也有一些不同之处，其中一部分与肠道菌群的生境有关。

大肠杆菌基因组的核心区域是一些绝大部分菌株都拥有的共同区域，这些区域包含许多重要的代谢与生物学功能。

大肠杆菌基因组的核心区域中还包含了许多编码极具特征性的蛋白质的基因，比如E. coli长链脂肽合成酶（LspA）等等。

基因组中的其它序列则表现为大肠杆菌的型态和性状上的差异，又称为可变区域。

可变区域存在于E. coli的质粒、组蛋白和定位元件等区域，并受到不同环境条件的选择作用。

在细胞适应环境因素改变的过程中，这些可变区域的序列稳定性将会受到调节从而使适应尽可能进行。

二、基因组分析方法现在，我们可以应用基因芯片、传统文库测序和全基因组测序等多种手段来分析大肠杆菌的基因组，以解析其完整的DNA序列和各个基因在DNA中的位置。

其中，全基因组测序技术是最常用的、最为可靠的分析方法。

全基因组测序技术可以对大肠杆菌的每一个基因进行测序，找到这些基因的开放阅读框，进而进行基因识别和编码区域分析。

同时，利用基因组之间的比对技术，在大肠杆菌之间进行多个比较，进一步鉴定相关基因以及相关区域的同源性程度，比如发现可移动元件等。

使用全基因组测序技术可以快速且准确地鉴定基因组间的差异，比如序列变异、基因缺失和其他基因的扩增，同时，还可以分析表达的途径，预测潜在的功能以及分析大肠杆菌的分子演化史。

三、分析结果基于全基因组测序的分析方法，我们可以得到大肠杆菌的完整的基因组序列，开发出了大肠杆菌的功能基因组。

antismash的原理和应用

ANTISMASH的原理和应用介绍ANTISMASH是一种用于分析次级代谢产物基因簇在细菌、真菌和植物中的存在和特征的工具。

它可以通过分析基因组序列来预测和注释这些基因簇，帮助科研人员理解次级代谢产物在生物体中的合成和功能。

原理ANTISMASH利用计算机算法来分析基因组序列中的次级代谢产物基因簇。

它首先会使用预训练的模型来识别基因组中的潜在基因簇，然后利用多种算法对这些基因簇进行进一步的分析和注释。

这些算法包括拟合HMM（隐马尔可夫模型），识别保守的主要酶基因，预测次级代谢物的结构类型等。

最后，ANTISMASH会生成详细的报告，其中包含关于基因簇中基因的功能注释、预测次级代谢物的结构类型和潜在活性等信息。

应用ANTISMASH在生物研究中有着广泛的应用。

以下是一些常见的应用领域：1.生物药物研发：ANTISMASH可以帮助科研人员发现潜在的次级代谢产物基因簇，从而开发新的生物药物。

通过分析基因组序列，ANTISMASH可以预测次级代谢物的结构类型和潜在活性，为药物研发提供重要的信息。

2.农业和食品科学：ANTISMASH可以帮助农业科学家和食品科学家研究植物中的次级代谢产物。

通过分析基因组序列，ANTISMASH可以帮助研究人员了解植物中次级代谢产物的合成途径和功能，从而改良农作物和提高食品质量。

3.微生物生态学：ANTISMASH可以在微生物生态学中发挥重要的作用。

通过分析微生物基因组序列，ANTISMASH可以帮助科研人员了解微生物群落中的次级代谢产物合成的多样性和功能。

这对于理解微生物在生态系统中的作用十分重要。

4.天然产物研究：ANTISMASH可以用于研究和发现天然产物。

通过分析基因组序列，ANTISMASH可以帮助研究人员预测潜在的次级代谢产物基因簇，这对于发现新的天然产物具有重要意义。

总结ANTISMASH是一种用于分析次级代谢产物基因簇的工具，通过分析基因组序列可以帮助科研人员预测和注释基因簇，并理解次级代谢产物在生物体中的合成和功能。

细菌的基因预测以及注释

Whole-genome Annotation of an A.baumannii strain A.baumannii ACICU摘要随着新一代测序技术的发展，微生物全基因组测序的成本大大减少，DNA序列的生成速度已远远超过其基因的注释速度。

功能基因组学的研究已经成为当今研究的主流。

然而如此多的数据对现有的基因注释工具提出了巨大的挑战。

本研究通过对A.baumanii ACICU染色体序列使用GeneMarks进行基因预测，预测到了3718个基因，然后使用RAST进行基因注释，共注释到了3683个功能基因，将得到的结果与原文献中所注释到的基因进行对比。

最后得到结论，基因的预测与注释都需要综合不同软件的结果进行分析，才能得到较为准确的结果。

本研究为原核生物全基因组的注释提方法供了参考。

关键字：基因注释全基因组鲍曼不动杆菌GeneMarks RAST目录1.引言（Introduction） (2)1.1.背景介绍 (2)1.2.全基因组注释软件 (3)1.3. A.baumannii ACICU相关 (4)2.材料与方法（Methods and Materials） (5)2.1.使用GeneMarks进行ORF预测 (5)2.2.使用RAST进行功能基因注释 (6)3.结果与讨论（Results and Discussion） (8)3.1.使用GeneMarks预测ORF的结果以及分析 (8)3.2.使用RAST进行功能基因注释结果以及分析 (9)3.3.综合分析 (10)参考文献 (10)1.引言（Introduction）1.1.背景介绍一个完整的基因组是指组成一个生物体全部DNA的集合。

想要完全了解一个生命体，首先需要知道它的全基因组序列，因为生命体本身的遗传信息是不会轻易改变的。

基因组研究包括两方面内容：（1）以全基因组测序为目标的结构基因组学（2）以基因功能鉴定为目标的功能基因组学，也叫后基因组（postgenome）研究。

细菌菌株基因型及基因符号说明

大肠杆菌基因型及遗传符号说明前言：实验室的一般大肠杆菌拥有4288条基因，每条基因的长度约为950bp，基因间的平均间隔为118bp（基因Ⅷ）。

E.coli基因组中还包含有许多插入序列，如λ-噬菌体片段和一些其他特殊组份的片段，这些插入的片段都是由基因的水平转移和基因重组而形成的，由此表明了基因组具有它的可塑造性。

利用大肠杆菌基因组的这种特性对其进行改造，使其中的某些基因发生突变或缺失，从而给大肠杆菌带来可以观察到的变化，这种能观察到的特征叫做大肠杆菌的表现型(Phenotype)，把引起这种变化的基因构成叫做大肠杆菌的基因型（Genotype）。

具有不同基因型的菌株表现出不同的特性。

分子克隆中常用的大肠杆菌及其遗传标记按Demerec等1966年提出的命名原则，采用的菌株所有的基因都假定处于野生型状态，除非在基因型上另外注明。

大肠杆菌基因型的表示方法（Demerec, et, al. 1966）：一、一般规则：1、根据基因产物或其作用产物的英文名称的第一个字母缩写成3个小写斜体字母来表示。

例如：DNA Adenine Methylase→dam。

2、不同的基因座，其中任何一个突变所产生的表型变化可能相同，其表示方法是在3个小写斜体字母后加上一个斜体大写字母来表示区别。

例如：Recombination→recA、recB、recC。

3、突变位点应通过在突变基因符号后加不同数字表示。

如supE44（sup基因座E的44位突变）。

如果不知道几个等位基因中哪一/几个发生了功能性突变，则用连字符“-”代替大写字母，如trp-31。

4、细菌的基因型中应该包含关于其携带的质粒或附加体的的信息。

这些符号包括菌株携带的质粒或附加体、质粒或附加体上的突变基因座和突变位点。

其基因符号应与基因座的表示符号明显区别，符号的第一个字母大写、不斜体并位于括号内；质粒或附加体上的突变基因座和突变位点的基因符号的表示方法与染色体上突变基因座、突变位点的符号相同。

细菌宏基因组学和代谢组学

细菌宏基因组学和代谢组学一、细菌宏基因组学1. 基因组测序技术细菌宏基因组学主要利用基因组测序技术对环境中的细菌进行大规模的基因测序。

测序技术包括第二代测序技术和第三代测序技术，如Illumina、PacBio等。

这些技术可以产生大量的序列数据，为后续的基因组组装和分析提供基础。

2. 基因组组装与注释在得到大量测序数据后，需要对这些数据进行基因组组装，将测序读段组装成完整的细菌基因组。

同时，还需要对基因组进行注释，识别出基因的编码区和调控序列，从而揭示细菌的遗传特征和功能。

3. 基因功能与进化分析通过对细菌基因组的注释和功能分析，可以揭示细菌的生理功能、代谢途径以及进化关系。

这对于理解细菌在环境中的作用、传播机制以及与宿主之间的相互作用具有重要意义。

4. 宏基因组学在环境中的应用宏基因组学可以用于研究环境中的微生物群落结构、功能和进化特征。

通过对环境样本进行宏基因组测序和分析，可以了解环境中细菌的多样性、丰度和分布情况，为环境保护和生态修复提供科学依据。

二、细菌代谢组学1. 代谢产物的提取与分离代谢组学主要研究细胞内小分子代谢物的种类、含量及其变化规律。

首先需要对细菌样本进行代谢产物的提取和分离，常用的方法包括有机溶剂萃取、色谱分离等。

2. 代谢产物的鉴定与分类提取得到的代谢产物需要进行鉴定和分类，常用的方法包括质谱分析、核磁共振分析等。

通过这些方法可以确定代谢产物的化学结构、分子量和类别。

3. 代谢产物的定量分析除了鉴定代谢产物的种类外，还需要对代谢产物进行定量分析，以了解其在不同条件下的含量变化。

常用的定量方法包括色谱-质谱联用技术、荧光光谱分析等。

这些方法可以提供定性和定量信息，有助于深入了解细菌的代谢过程和调控机制。

4. 代谢组学在疾病诊断和治疗中的应用代谢组学在疾病诊断和治疗方面具有广泛应用。

通过对细菌代谢产物的分析，可以了解细菌在感染过程中的代谢变化，为疾病诊断提供依据。

同时，通过对代谢产物的调控和干预，可以开发新的治疗策略和方法，提高疾病的治疗效果。

原核生物自动注释流程

原核生物自动注释流程
原核生物自动注释是指利用计算机程序对原核生物基因组序列
进行预测和注释的过程。

原核生物包括细菌和古细菌，其基因组序
列相对较小，但仍然具有复杂的结构和功能。

自动注释流程通过识
别基因、预测蛋白质编码区域、注释基因功能以及进行基因组结构
分析，为研究人员提供了重要的信息，有助于理解原核生物的生物
学特性和基因组变异。

自动注释流程通常包括以下几个步骤：
1. 基因预测，利用计算机程序对基因组序列进行分析，识别潜
在的基因编码区域。

基因预测算法通常基于基因的开放阅读框（ORF）长度、启动子序列、终止子序列和编码蛋白质的保守性等特征进行
预测。

2. 蛋白质功能注释，对预测的蛋白质进行功能注释，包括预测
蛋白质的结构、功能域、亚细胞定位等信息。

这些信息有助于理解
蛋白质的生物学功能和相互作用。

3. 基因组结构分析，对基因组序列进行结构分析，包括基因的
排列、基因组的重复序列、基因组的GC含量等特征。

这些信息有助
于理解基因组的结构和进化特征。

自动注释流程的结果可以为研究人员提供大量的基因组信息，
有助于理解原核生物的基因组结构和功能。

此外，自动注释流程还
可以为基因组工程、新基因发现和分子进化研究提供重要的参考信息。

总之，原核生物自动注释流程是一项重要的基因组学研究工具，为研究人员提供了丰富的基因组信息，有助于深入理解原核生物的
生物学特性和基因组结构。

随着计算机技术和生物信息学方法的不
断发展，自动注释流程将在原核生物基因组研究中发挥越来越重要
的作用。

细菌的遗传演化和基因表达调节机制

细菌的遗传演化和基因表达调节机制从科学角度来看，细菌是一种具有高度适应性的生物，它们可以在不同环境下存活并繁殖。

这种适应性的来源在于细菌的遗传演化和基因表达调节机制。

想要深入了解这一话题，我们需要先了解细菌的基本概念。

细菌是一种原核生物，即不具备真核生物的核膜和细胞器，其基因组以环形DNA分子的方式存在于细胞质中。

与真核生物相比，细菌的基因组非常紧凑，一个细菌细胞中的基因数目通常为数百个到几千个不等，而真核生物的基因数目可能达到数万个。

这种紧凑的基因组结构为细菌提供了适应各种环境变化的优势。

细菌的遗传演化机制细菌的遗传演化主要包括基因突变、重组和水平基因转移。

基因突变是指基因序列的改变，这种改变可能发生在DNA复制过程中，也可能由外部环境因素引起。

细菌的繁殖速度非常快，其复制速度可以达到每20分钟分裂一次，因此细菌群体的基因突变在短时间内积累起来，从而形成了细菌的遗传多样性。

重组是指细菌的DNA序列通过横向基因转移来进行重组。

细菌可以通过生殖和代谢的过程来直接交换基因信息，这种基因转移方式被称为“共轭转移”。

细菌还可以通过外源DNA的摄取和吸收来进行基因重组，这种机制称为“转化”。

此外，细菌还可以通过病毒感染来进行基因重组，这种机制被称为“转导”。

水平基因转移是细菌遗传演化的另一种重要机制。

在这种机制下，细菌可以将基因序列和其他细胞之间的短片段DNA直接传递，这种传递方式称为“转座子移动”。

转座子是一个可以自主移动到基因组的不同位置的DNA序列，它可以在不同细菌中进行传递。

转座子移动不受制于细菌中的限制酶，也不受限制于基因重组的限制位点，因此它在水平基因转移中的作用非常重要。

基因表达调节机制除了基因组学上的适应性之外，细菌还拥有一种基因表达调节机制，这种机制使得细菌可以在不同的环境中通过启动或关闭不同的基因而产生不同的表型。

这种机制可以使得细菌在特定环境下更加适应，并且发挥更好的生存竞争能力。

细菌基因表达的调节主要是通过转录调节实现的。

细菌的遗传变异讲解专家讲座

毒性噬菌体，温和噬菌体
包装错误：任何部位细菌DNA片段
转导性噬菌体：宿主菌DNA，无噬菌体DNA
受菌接收转导噬菌体(供菌)DNA
受菌取得供菌性状
第32页
不足转导：温和性噬菌体
脱落错误：前噬菌体及两边细菌DNA 转导性噬菌体：噬菌体DNA及细菌DNA
细菌的遗传变异讲解
第33页
溶原性转换（lysogenic conversion）噬菌体DNA与菌染色体整合受菌取得新性状如白喉杆菌：β-噬菌体-外毒素基因不产毒白喉杆菌产毒白喉杆菌
细菌的遗传变异讲解
第6页
噬菌体生物学性状
1.形态与结构
噬菌体有三种基本形态，即蝌蚪形、微球形和细杆形。大多数噬菌体呈蝌蚪形。
细菌的遗传变异讲解
第7页
• 结构：由头部和尾部组成； • 化学组成：蛋白质与核酸； • 核酸类型：为DNA或RNA，大多数DNA噬菌体
DNA为线状双链；
• 噬菌体含有抗原性； • 抵抗力：比普通细菌繁殖体强。
稳定不受影响
个别
未变可逆不稳定受影响全体
细菌的遗传变异讲解
第3页
一、细菌染色体
细菌染色体：dsDNA，3.2～5×106 bp 复制快：105 bp/min 无组蛋白，无内含子，为连续基因单倍体：突变后更易表现
细菌的遗传变异讲解
第4页
二、染色体外遗传物质（一）质粒
复制能力转移能力整合能力相容性丢失或消除
功效与分类：F质粒－转移；Vi质粒－毒力 R质粒－耐药；Col质粒－细菌素
细菌的遗传变异讲解
第5页
（二）噬菌体与前噬菌体
★噬菌体是感染细菌、真菌、放线菌或螺旋体等微生物病毒；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

功能基因组学的研究已经成为当今研究的主流。

然而如此多的数据对现有的基因注释工具提出了巨大的挑战。

最后得到结论，基因的预测与注释都需要综合不同软件的结果进行分析，才能得到较为准确的结果。

本研究为原核生物全基因组的注释提方法供了参考。

想要完全了解一个生命体，首先需要知道它的全基因组序列，因为生命体本身的遗传信息是不会轻易改变的。

基因组研究包括两方面内容：（1）以全基因组测序为目标的结构基因组学（2）以基因功能鉴定为目标的功能基因组学，也叫后基因组（postgenome）研究。

其中结构基因组学的重点就是利用高通量测序仪进行全基因组测序。

随着测序的完成，功能基因组学研究成为研究的主流。

功能基因组学的研究内容很多，主要包括：基因组表达调控的研究、基因信息的识别和鉴定、基因功能信息的提取和鉴定、基因多样性分析、比较基因组学等。

随着新一代测序技术的发展，微生物全基因组测序的成本大大减少，DNA序列的生成速度已远远超过其基因的注释速度。

现阶段超过300个细菌基因组序列已可以在公开数据库中查询，同时有更多的微生物基因组序列测序工作即将完成并在近期发布。

如何利用这些原始序列信息来更好的了解微生物中诸如基因的识别和注释、蛋白质的结构和功能等生物学知识，这是我们现阶段要做的重要工作。

传统上，人们用实验方法验证基因组中的蛋白质编码基因，但这种方法费时费力，且带有较大的盲目性。

因此，基因组注释不可避免要依靠自动化注释软件，采用自动化注释对生物序列特别是大规模的基因组序列进行分析和注释，从而对传统生物学实验产生有益的方向性指引是当前研究的热点。

然而，自动化注释必然会引进和传播一些错误的注释信息，其结果往往需要人工修正，数据库中收录的已测序和注释的基因序列数量巨大，手工修正所有的注释序列也是不可行的[1]。

基因组注释的准确性已变得越来越为重要，新的注释方法不断研发，如根据序列组成特征或核苷酸出现频率模式等多种参数对蛋白质编码基因起始位点、假蛋白基因和RBS位点的的识别方法。

这些研究加上不断完善的数据库信息和新的实验验证知识，在不久的将来无疑会对基因组注释的准确度起到更好的作用。

1.2.全基因组注释软件目前，针对基因组学研究的各个方向都有许多现成的软件。

这些软件都是研究者或商业公司针对某些分析方法开发的，为后来研究者提供了巨大的便捷。

基因组注释是在得到全基因组序列后首先要做的。

它是利用生物信息学方法，对基因组所有基因的生物学功能进行功能注释，包括基因预测和基因功能注释两个方面。

目前已经有许多的基因预测工具或者在线注释网站。

基因预测的方法主要有3 种：(1)分析mRNA和EST数据直接得到结果；(2)通过相似性比对从已知基因和蛋白质序列得到间接证据；(3)基于各种统计模型和算法从头预测，比如隐马可夫模型。

其中通过相似性比对得到预测基因的方法最常见。

例如，现在流行的做法是先通过Glimmer、GeneMarks等软件预测出基因组的ORF。

然后通过Blast方法将ORF同其他物种的基因进行比对。

有同源基因的ORF被注释为同样功能的基因，没有同源性的ORF被舍去或注释为假说蛋白（hypothetical protein）。

由于注释需要大量的数据库，为了使注释变得简单，一些研究机构将不同功能的注释软件整合在一起，提供在线的注释服务。

如RAST[2]、Xbase 等，NCBI的PGAAP能提供人工的注释服务。

这些网站只需要用户将序列和序列的所属物种分类信息提交即可。

注释好的结果为gbk 格式文件（包含序列和注释信息）[3]。

GeneMarks[4]软件的原理都是使用统计学模型的从头预测(ab initio)方法，不依赖任何先验知识和经验参数，通过描述DNA序列中核苷酸的离散模型，利用编码区和非编码区的核苷酸分布概率不同来进行基因预测。

GeneMarks是不需要人为干预和相关DNA或rRNA基因的资料即可对新的细菌基因组进行预测，测试表明GeneMarks对GeneBank数据库中已注释的枯草芽孢杆菌的预测准确度达到82.9%，而对已通过实验方法证实注释功能的大肠杆菌的预测高达93.8%，其对新测序基因组的预测与Glimmer存在同样问题，即相当一部分基因在数据库并不能发现同源，只能作为假蛋白基因存在。

如何在没有明确实验证据的前提下鉴定此类基因预测的准确性，切实可行的方法就是综合利用多个预测软件对预测结果进行比较，分析其中的异同点[1]。

1.3.A.baumannii ACICU相关本研究所采用的菌株A.baumannii ACICU是鲍曼不动杆菌比较有代表性的菌株，关于这株菌的具体信息可查看Iacono M et.al[5]。

近年来由于鲍曼不动杆菌的耐药性的不断增强，关于鲍曼不动杆菌耐药机制进行了大量研究，已经有35株鲍曼不动杆菌完成了全基因组基因测序与注释。

上表格显示了A.baumannii ACICU 菌株的全基因组的注释状况其由整个染色体以及两个质粒组成。

其中染色体大小为3904116bp，编码区占整个基因组的84.78%，含有预测基因数（ORF）为3758个，其中编码蛋白质的基因数为3670个[5]。

上图为NCBI上所显示的A.baumannii ACICU的相关状况，其中编码蛋白质基因数为3613，与原文献中所载有较大差别，可能是随着时间的推移，基因注释方法有所改进，有所变化所致。

本研究主要以A.baumannii ACICU染色体序列为例对基因预测与注释的方法进行分析，以找到合适的基因预测与注释的方法。

2.材料与方法（Methods and Materials）下面我们利用从NCBI上下载的A.baumannii ACICU全基因组染色体序列（不包含质粒序列）（.fasta格式）为例，分别使用GeneMarks （/GeneMark/genemarks.cgi）进行ORF（开放阅读框）基因预测，RAST（/）进行功能基因（CDS）注释，对比原结果进行分析。

2.1.使用GeneMarks进行ORF预测（1）第一步是上传A.baumanii ACICU染色体序列，并设置合适的参数，填加自己的邮箱。

全部设置好之后，点击[Start GeneMarks]开始注释。

如下图所示：（2）第一步上传结束序列之后，会出现如下界面，提示序列已成功提交，注释好的文件会发到所填邮箱。

2.2.使用RAST进行功能基因注释（1）上传A.baumanii ACICU（.fasta格式）序列，上传结束后点击[Use this data and go to step 2]进行下一步。

如下图所示：（2）第二步填加必须的的参数，Domain选择[Bacteria]，Genetic Code选择[11]，然后点击[Use this data and go to step 3]进行下一步操作。

如下图所示：（3）如下图所示，选择好合适的参数后点击[Finish the upload]，即可等待结果，注释结束后，其会发邮件告知3.结果与讨论（Results and Discussion）3.1.使用GeneMarks预测ORF的结果以及分析使用GeneMarks进行预测后，生成了gms.out gms.out.faa gms.out.fnn gms.out.ps四个文件：其中gms.out文件如下显示（其中一部分，使用linux系统cat或者head命令查看）：Gene Strand LeftEnd RightEnd Gene Class# Length1 -76 468 393 12 -506 2974 2469 13 -3027 4109 1083 14 -4124 5272 1149 15 -5370 6767 1398 16 + 7438 7572 135 17 + 7602 7994 393 18 + 8005 8325 321 19 + 8331 10091 1761 110 + 10182 11537 1356 1…………3711 + 3894879 3896006 1128 13712 + 3896134 3896979 846 13713 -3897035 3897370 336 13714 -3897495 3898499 1005 13715 -3898842 3899849 1008 13716 -3900105 3901109 1005 13717 + 3901366 3903297 1932 13718 + 3903549 3904106 558 1其中gms.out.faa氨基酸序列文件显示如下（其中之一）：>gene_3718|GeneMark.hmm|185_aa|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genome MNFIDFITNFEQFLPILIQEYGAWVY AILFLIIFSETAFVFMFFLPGDSLLLTVGALCSV VELMHLGYMITLLTVAA TLGYIVNYSIGRHFGNRIFEAKSRFIKKEYLNKTNRYFLQHGG KTILLARFIPFARSFAPLAAGSSNMSYGKFLIYNV AGAILWICILLTAGYLFGHALIQVT DFVEN其中gms.out.fnn核苷酸序列如下所示，起始密码子为ATG，终止密码子为TAA TGA和TAG（其中之一）：>gene_3718|GeneMark.hmm|558_nt|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genome ATGAATTTTATTGATTTTATTACTAATTTTGAACAA TTTTTACCTATTTTGATTCAGGAG TA TGGTGCATGGGTTTATGCCATACTCTTTTTGATTATTTTTTCTGAAACTGCTTTTGTG TTTA TGTTCTTTTTACCTGGAGATAGCTTACTTTTAACTGTAGGTGCACTGTGCTCGGTGGTTGAACTGATGCA TCTTGGTTATATGATTACTCTGCTCACCGTTGCAGCAACA TTAGGC TA TA TCGTCAATTA TTCTA TTGGCCGCCATTTTGGAAACCGTATTTTTGAAGCAAAATCA CGTTTTATTAAAAAAGAATATTTGAA TAAAACGAACCGCTATTTCTTGCAACATGGCGG TAAAACTATTCTTTTAGCACGTTTTATTCCTTTCGCACGTTCTTTTGCACCCCTCGCTGC CGGCTCAAGCAA TA TGAGCTATGGAAAATTTTTGATTTACAATGTGGCAGGAGCTA TTT TGTGGATCTGCATCCTTTTAACGGCTGGCTACCTA TTTGGCCA TGCACTCA TTCAAGTTA CAGATTTTGTTGAAAATTAA由此可知A.baumannii ACICU全基因组经GeneMarks预测到了3718个基因。