上机实习二:数据格式和数据转换(bioedit和readseq)
bioedit中文使用手册

来自生物软件网谢谢jerry(xujz602@)和Huang(candycat719@)辛苦的翻译工作翻译说明1 原英文稿中附有许多示例如输出窗口序列等译文一般用参见英文稿表示在阅读此段时请参见英文中的图示对于一些较小的示例如等式的推导译文中保留2 原英文稿中也给出了许多算法和程序的原始文献和网址译者认为这是BioEdit的一个优点如果想深入的学习不能不读一读原始的文献译文中用REFERENCE表示请参考英文原稿3 译文中对专业的词汇采用以下办法处理即一般采用国内已有人使用的译法如果未见到则译者给出一种译法并在旁边列出英文译文中各节的标题都是这样处理的前者如最简单的例子Aligment一词有比对对比对排等多种翻译郝柏林院士建议译做联配见生物信息学手册p175方舟子译做排列对比见新语丝网页本译文采用联配的译法后者如mask一词文中专门有一节解释其含义此词的普通含义有面具遮饰译文中使用屏蔽并在旁边写mask总之此类词汇使用多了自然明了其内在的含义4 偶尔译者会对某处略做解释旁边用译者注表示表示译者的理解请注意5 翻译时在词汇的翻译和算法的理解上参考了以下资料A 生物信息学手册郝柏林等著上海科学技术出版社 2000年B 生物信息学基因和蛋白质分析的实用指南 Andreas D.Baxebanis等原著李衍达等译清华大学出版社 2000年6 由于译者占有的资料不多水平有限在译文中肯定有漏译译的不全面甚至理解完全错误的地方(尤其是算法上)敬请指正Email me at: xujz602@关于BioEdit介绍BioEdit版本5.0.6版权©1997-2001汤姆霍尔当前版本制作于2001.12.2BioEdit是一个生物序列编辑器可在Windows 95/98/NT/2000中运行它的基本功能是提供蛋白质核酸序列的编辑排列处理和分析 1.0α版本是最早的未完成的并有瑕疵的版本 1.0α版本也一直未完成并有很多问题但是比较前一个还是增加了一点东西修正了一些问题在2.0版本中在增加和配置附加分析应用程序上增加了一个界面使其能通过BioEdit得到一个图形界面而且还增加了位置排列的信息基础动态描影版本3中增加了疏水亲水面互交的2-D浮雕数据绘图和一些更多的序列操作法版本4为绘制和注解质粒载体增加了一个图形界面在4.7.1版本中修改了处理序列信息和存储方法而且增加了一个二进制文件格式允许快速保存和打开大的排列序列容量增加到20,000在版本5中增加了自动注解序列或手动使用所有的标准Genbank功能部件定义而且在Isis Pharmaceuticals公司的请求下增加了序列排序和分型组控制注解行以及残基和非残基字符的鉴别BioEdit并不打算成为一个强序列分析程序但是打算成为一个序列分析的友好用户界面并连接其他在局域网和万维网上的更多的序列分析程序它现在使用于大的排列>2000序列文件界面最初模仿于一个非常好的程序――Don Gilbert 编写的SeqApp and SeqPup印地安那州大学免费提供SeqApp (用于个人计算机) and SeqPup (用于交换平台)地址是ftp:///molbio/seqpup/GeneDoc是一个特别的排列程序能够自由的在Windows 9x 和NT上使用也是一个非常专业的程序有很好的蛋白质排列注解和分析描影和结构定义功能部件就象一个反映排列的内在的进化树而这些在BioEdit中是没有的GeneDoc的网址是/biomed/genedocGeneDoc有比BioEdit更好的描影和分类选项有助于手工排列序列还有更好的图形处理缠绕和伸展的排列视图选项动态共有序列和更平滑和更快速的排列卷曲和刷新BioEdit是用Borland's C++ Builder编写的C++程序我是北卡罗来纳州大学微生物系的研究生不是专业的程序员这是我学习C++语言的入门必然是个非专业的设计这不是我博士工作的一部分这个程序非常小而且很有效率BioEdit为序列排列输出和一些分析提供容易的工具BioEdit功能BioEdit的主要目的是为那些不愿意被迫详细了解一个程序的使用方法的生物学家提供一个有用的工具BioEdit是直观的菜单式的并有大量的图示提供用户一个外部分析程序的图形界面主要功能是提供明显的容易使用的菜单选项5.0.6版本提供以下功能用于序列处理和编辑的简单的图形界面使用编辑选项包括残基的select and drag选择和拖动和grab and drag抓取和拖动变量选择选项鼠标点击插入和删除缺口全框选择全屏编辑中剪切复制和粘贴编辑窗口的自动刷新固定序列框保护排列中的固定残基使用各种功能部件内含子外显子促进子CDS和所有标准GenBank功能部件类型自动的和手动的注解序列使用一个模板序列自动注解同一排列中的其他序列序列分组分为各个颜色编码家族为同步手动排列锁定组成员用户定义的适当功能部件能够设定考虑任何功能部件就像用于类似性描影序列同一性矩阵和保存图表视图的核酸或氨基酸序列中的相关碱基用户定义的基序搜索使用标准的Prosite命名法和IUPAC功能部件允许搜索核酸或氨基酸序列还有精确的文本搜索包括或忽略缺口程序行可以定义为DNA RNA核酸蛋白质未定义或注解注解可以用于保存普通的注释或东西就象二级结构模糊定义但是不能保存计算根本的多基因树图阅读器支持节点翻转和打印链接多基因树图到排列并保存到BioEdit格式排列文件在一个排列末端添加另一个排列配置附件应用程序界面进入一个有BioEdit产生的图形界面的外部分析程序在外部应用程序中自动提供信息和找回文件外部应用程序进入分开的调度单位允许同步应用BioEdit外部程序的输出文件可以自动被其他程序打开在ABI自动序列模型3773733700中显示打印和编辑ABI痕迹文件在版本2和3中有SCF文件就象用Licor序列输出文件RNA比较分析工具包括共变可能配对和互交信息分析使用鼠标指示的动态数据视图的互交信息输出2D矩阵图表关于互交信息矩阵行和框的互交式的1D图表用BioEdit或GanBank格式保存序列注解信息通过氨基酸翻译排列蛋白质编码核酸序列在排列中搜索保存的残基寻找好的PCR目标或帮助定义基序在核酸或蛋白质序列中搜索用户定义的基序或用通配符搜索精确的文本并选择包括或忽略缺口用支持最多20,000序列每个文档进行循环存储器分配最多可以成功测定四百六十万个碱基 E. coli基因组核糖体数据库中的原核细胞16SRNA排列29 Mb, 6205个序列将会被单独处理在配置为Pentium 233 Mhz80 Mb RAM的计算机中用BioEdit计划文件格式最多只需要10秒种可以写入一个16S RNA排列内部的读写GenBank Fasta Phylip和NBRF/PIR文件用Don Gilbert’s ReadSeq导入输出一些其他格式的文件使用BioEdit计划文件格式快速读写大排列文件使用自动更新的排列蛋白质全标题和GenBank区域信息进行ClustalW多序列排列Des Higgins et. al.编写的内部界面外部程序就象排列来自于核苷酸序列的蛋白质视图时的核苷酸编码序列将残基块状复制到剪贴板允许将全不排列或部分排列粘贴到文字处理器基本序列处理在文档之间复制粘贴序列翻译和还原编码RNAÆDNAÆRNA反转互补大写字母小写字母多文档界面最多同时打开20个文档但是在其他打开的窗口不能设置限制六框翻译核酸序列为Fasta格式ORF表用矢量图进行半自动质粒矢量绘图和注解自动酶切位点和位置标记自动多接头视图和用户控制绘图工具将质粒文件保存为可编辑的矢量图形文件如位图复制到其他图形程序并可以打印氨基酸和核苷酸成分摘要和图表Revert to Saved恢复保存和undo撤销功能编辑氨基酸和核酸序列简单的指定色彩表编辑蛋白质和核酸序列使用不同的色彩表排列易感的描影法以信息为根据其中包括排列位置BioEdit 能够读写GenBank, Fasta, NBRF/PIR, Phylip 3.2 和 Phylip 4格式能够读ClustalW 和 GCG格式.10个附加格式的导入输出过滤器使用Don Gilbert的ReadSeq导入/添加一个文件到最后的另一个文件上(不考虑文件格式)基本的多文本编辑器限制性内切酶图谱用于任何或所有形式的翻译复酶和输出选项包括酶的提供者和环状DNA选项游览限制性内切酶创造商自动连接到你喜欢的网页游览器如Netscape或Internet Explorer程序和程序组的概述BioEdit是用Borland C++ Builder 3.0编写的(开始时是用C++ Builder 1.0)这是曾经是Borland公司的最新C++产品它结合了Borland C++ 5和Delphi的可视要素库VCL允许用户界面的可视开发使用快速申请开发RAD环境的好处在于它能够容易的创造出大量的图形界面它的缺点是编码不轻便BioEdit只能在Windows 95, 98, NT and 2000中使用我原来计划可以使BioEdit在Win16使用但是自从Windows 3.x过时了以后我就不再计划这样做了组织BioEdit当前支持同时编辑最多50个文件主要的控制形式包括打开文件的菜单创建新文档调整球形选项如色彩表密码子表分析参数选择和一个窗口管理器最初每个文档有它自己的整套处理菜单可以限制文档然而这被一个更传统的多文档界面所替代BioEdit没有使用额外的物理存储器除非编辑大的排列但是它看起来像占用了很多资源BioEdit每个文档最多可以有20,000个序列但在序列大小上没有限制在80MbRAM的233MHz的个人计算机上可以很好的处理一个来自于核糖体数据库的完整的原核16S rRNA排列6205个序列每一个有3319个字符一旦用BioEdit格式保存这个文件可以在几秒钟打开用GenBank格式要几分钟才能打开程序文件(BioEdit.exe)可以在主安装目录中找到可能还有以下子目录apps附件程序网页和网页书签通常以下文件会出现在apps文件夹按名称排列accApp.ini (在首次安装时为accApp.def)Bblast.htmlBioEdit.htmlblast_adv.gifblast_form_0.gifblastall.exe (在没有BLAST的版本中不出现)blastcl3.exe (在没有BLAST的版本中不出现) blast.txtbookmark.txtcap.doccap.execlear_inp.gifclustalw.execlustalw.txtcutter.htmlDnadist.docDnadist.exeDnamlk.docDnamlk.exeDos4gw.exe (PHYLIP 程序需要)Expasy.giffastDNAml.docfastdnaml.exeFitch.docFitch.exeformatdb.exe (在没有BLAST的版本中不出现) IdPlot.exeisrecsmall.gifKitsch.docKitsch.exemod_ad.gifmod_submit.gifnnpredict.htmlNote.gifPFSCAN_form.htmlphi_blast.gifPHIBlast.htmlPhylip.mapProtdist.docProtdist.exeProtpars.docProtpars.exepsi_blast.gifPSIBlast.htmlReadseq.exeReadSeq.txtscnpsit1.htmlSiblogo.gifsmweb.gifdatabase (是局部的BLAST数据库安装的版本必须有BLAST工具).BioEdit (全版本) 有以下文件在database文件夹Ecoli.phrEcoli.pinEcoli.psqEcoli_ORFs.txt (E. coli 开放读码框架的文本文件).helptBioEdit.GID (不是安装来的出现在帮助文件第一次使用后)Bioedit.hlptablesBlosum62codon.tabcolor.tabdayhoffdefcolor.tabenzyme.tabGc.valgonnetIdentifymatchPam120Pam250Pam40Pam80Seqcode.val安装文件夹通常包括以下文件_deisreg.isr (安装相关文件)_isreg32.dll (安装相关文件)BioEdit.exe (BioEdit 执行文件)DeIsL1.isu (安装相关文件)RNaseP_prot.gb (蛋白质排列示例)RNaseP_prot_genes.gb (DNA排列示例)RNaseP_RNA.gb (RNA排列示例)PBSSK_plus.pmd (质粒绘图示例)bacterio.gb (附带GenBank 信息的蛋白质排列示例)bacterio.bio (附带GenBank信息图式注解记号标记和序列族的BioEdit文件示例) YopD.gb (附带GenBank信息的另一个示例文件)TreeView.zip (Roderic D.M. Page编写的极好的系统进化树阅读器完全安装才有) TreeView.txt (记录TreeView的安装信息和配置BioEdit与tree-generating附件的连接)license.txt (BioEdit 许可证协议)ReadMe.txt (总说明)重要的是文件夹和文件的名字不能更改如果更改了BioEdit将不能正确安装将会有一个BioEdit.ini文件出现在你的Windows主目录下它包含BioEdit的初始化默认值和参数选择虽然这个文件可以手动编辑但是我们推荐不要编辑和手动编辑这个文件当前被支持功能部件和已知问题的列表请看BioEdit的功能和已知问题局限性已知问题和局限性BioEdit想要成为一个处理个别简单序列的多用途界面带有适合于自动化多重排列选项的综合序列排列最佳成对排列并且着重于使手工排列更容易随着时间的推移增加了一些附件的功能质粒绘图限制性内切酶图谱ABI和SCF查阅RNA比较分析和其他功能中的图式注解然而常用的查找功能特殊化分析如蛋白质二级结构三级结构的预测RNA结构的热动力学预测排列性质的统计学分析序列模式的概率或神经网络模型排列和结构的预测不包括在这个程序之内虽然用户可以配置命令行附件应用软件有程序链接连到ClustalW局域BLAST和BLAST client 3但是在ClustalW程序或BLAST程序升级后不能保证这些链接正确工作虽然在BioEdit安装程序中提供的局域BLAST和Clustal程序将会继续工作但在下一次NCBI决定改变它的委托人时BLAST client 3将不能正常工作我也不再一直支持这个程序源代码将在稍后提供下载但是会有一些紊乱没有很好注释限制于Borland C++ Builder这是我毫无疑惑的发布源代码的原因同样自动网页链接为网页如BLAST PSI-BLAST PROSITE轮廓扫描网页提供一个选择序列它们的工作依赖于网页的局域HTML模板BioEdit编辑的资源包括查询文本区域的选择序列因为万维网的高度易变性这些也许不能长时间正常工作如果一些地址变化或者HTML界面充分改变这些将不再能正确工作它们可能可以在BioEdit/apps文件夹中局部的被新的同名更新网页所替代但是它们是否能正常工作将依赖于网页中必需的URL定位是否被指定为绝对路径或相对路径它们是否依赖于局域CGI或Java程序和其他潜在的问题想要配置命名行分析程序的界面很好的工作可能不需要复杂的scripting语言然而因为这个界面及其选项的静态特点可能有程序不能正确的通过BioEdit运行虽然绝大多数接受命令行的程序可以被设置总之许多人可能宁愿为了更好的控制选项而从命令行运行程序BioEidt可以很好显示合适大小的排列然而对于一次打开的排列文档数量有限制同样一个单一排列中的序列数量也有限制现在最多一次打开50个排列文档一个排列中的最多序列数是20,000序列数量的限制和序列长度是无关的排列的绝对大小是有效的系统内存决定的如果文档在系统中全部进入虚拟内存编辑将会变得很慢如果排列中有几千个rRNA基因或者全部基因组的序列列表在Win95/98或NT系统中至少需要64到128Mb的内存在Win2000系统中至少需要128Mb内存在排列矩阵N× M > 40,000,000 (N = 序列数M=最长序列长度)时Undo撤消选项自动失效BioEdit是由Borland C++ Builder编写的是100% Windows基础它是不可移植的因为这个程序的大部分是图形界面在UNIX或Mac中可能不好使用BioEdit使用手册序列编辑处理手工序列排列下面是基本的BioEdit排列文档窗口如果你不喜欢现在的样子不要当心字体大小背景颜色残基颜色和标题窗口宽度都可以改变鼠标箭头右下方的黄色条幅显示的是当前序列的绝对位置这同样显示在控制栏的Position标题选择关闭黄色条幅就进入View->show sequence position by mouse arrow总的手工排序功能是在编辑窗口有三个可应用的基本模式选项可在Sequence->Edit Mode中找到Select / Slide mode(选择/调整模式)用鼠标左键选择框住的残基用鼠标来回的拖动选择默认值是朝你滑动的方向忽略unlocked gaps并在所选择的另一边开启新的unlockedgaps为了移动所选择的全部序列的下游不管缺口在移动时按住shift键你也可以在按钮板上切换合适的按钮见后改变默认值为移动所选择的全部序列的下游选定选项后在滑动时用shift键忽略unlocked gaps用shift键选择所有在现在选定的和新选择的残基CTRL键可以在当前选择上增加一个新的选择例如你也许想在三个互不相连的序列中选择残基Edit mode编辑模式在编辑残基模式中你可以在文档的任何位置除了标题放置任何类型的光标用箭头你可以在序列中走来走去编辑有两种形式插入和改写当编辑器在编辑模式可以看见在编辑模式的下拉菜单中有一个选项在其它两个排列模式,这个选项不会出现.Grab & Drag mode(抓取/拖动模式)从mode目录中选择Grab & Drag或者切换G/D按钮见后你可以从屏幕上动态的抓取和拖动单个残基用shift键移动整个残基序列的下游或者在按钮板上切换成合适的按钮――见后Grouping of sequences序列分组Sequences may be grouped into groups (or"families").序列可以进行分组或分成家族一个组的序列排列可以相互锁定意味着手动调节用可调整的残基插入或和删除缺口将自动同步调节一个锁定的组This only applies to sliding resides (Select / slide mode or Grab & Drag mode), not to single insertions and deletions of gaps with right mouse clicks. For information on grouping sequences and locking the alignment of groups of sequences, see grouping sequences.这只适合于可调整的残基Select / slide mode或Grab & Drag mode不能用鼠标右键进行单个缺口的插入和删除想了解有关序列分组和其排列锁定的信息看grouping sequences工具条 / 加速按钮锁定和开启全部序列的所有缺口当打开一个排列这个按钮是在开启状态但是缺口是现在的虽然它们过去被保存在这个按钮被按下去后才能进行改变为了开启当前序列的所有缺口你必须按这个按钮两次进行切换到这个状态第一状态是锁定所有缺口上个按钮的锁定状态按下这个按钮可以用鼠标右键插入单个缺口用鼠标右键删除缺口在所有序列中插入缺口除了在用鼠标右键点击这个按钮的位置在所有序列中插入缺口除了在用鼠标右键点击这个按钮的位置在选择位置没有缺口的序列将不会改变但是有这个按钮在那儿缺口将始终被删除转换鼠标左键和右键的默认值功能切换Grab & Drag模式按下这个按钮可调整残基的默认值是忽略或扩展到下游缺口使用shift键可以调整转换这个功能按下这个按钮可调整残基的默认值是移动全部所选序列的下游胜过忽略或扩展到下游缺口使用shift键可以调整转换这个功能普通视图模式当序列颜色显示时残基根据当前的色彩表着色这个选项用于序列是单色视图时所有其他视图覆盖单色视图反转颜色视图模式背景栏根据每一个残基的色彩表描影残基的颜色是它们普通颜色的反转排列的强度――残基根据每一栏的信息内容灰度描影残基背景根据每一栏的信息内容描影把文档窗口中一致的和类似的残基描影按下这个按钮控制条上将会出现一个下拉菜单可以控制隐藏的百分比开端蛋白质排列的类似性隐藏的矩阵文件可以在Alignment->Similarity Matrix菜单中详细说明绘出功能部件其上有层次的序列只绘出功能部件没有序列根据当前的色彩表序列彩色视图根据当前选择的序列颜色序列单色视图只用于normal view按钮也被按下用一个字符默认值是.显示序列的同一性默认值是top.如果按下前一个按钮这个下拉菜单能够选择标记同一性的字符显示或隐藏交互信息检查器只用于RNA分析引出色彩表编辑对话窗切换ignore anchor points模式如果这个按钮没有按下固定栏限制排列的范围按下这个按钮固定栏被忽视卷屏速度控制器控制水平卷屏条卷屏是因残基增加增加或移去位置标记旗增加或移去一个栏的固定点在编辑盒中编辑在一个文本窗口中进行一个序列主要的编辑会十分方便为一个序列开启一个编辑窗口双击序列的标题或选中序列并从Sequence菜单中选择Edit Sequence为了使改变生效必须按下Apply或Apply and Close按钮取消将不会改变序列在一个序列第一次编辑时将会出现下面的窗口在Sequence Type下拉菜单中下列选项是可用的如果一个序列是未知的蛋白质色彩表通常是彩色的就像一个已经经过类似性底纹处理的蛋白质序列可以保留一个关于排列的每一行的屏幕信息的注解但是不能计算类似性和同一性不服从标准的处理如翻译互补自动排列等在单个序列编辑器中你可以用lock sequence选项选择锁定任何序列应用这个选项时selecting/dragging或抓取和拖动将不能使用但是用鼠标右键增加或删除缺口始终可以使用按下按钮可以展开窗口看相关的GenBank的信息窗口扩展如下按钮可以用于提出在大的编辑窗口中的相关领域**注意GenBank信息将只能用GenBank或BioEdit格式保存***注意GenBank信息包括功能部件领域是内部独立于用户定义的图示注解窗口隐藏一个文档可以进行窗口隐藏就是双击窗口的标题栏可以隐藏标题栏再次双击可以使其变回原来的大小它也可以最小化和最大化增加一个新序列通过以下方式增加新序列1.在Sequence菜单下选择New Sequence选项序列可以像原始文本一样被键入或复制进序列窗口按下Apply按钮可以在文档中增加序列2.通过Edit菜单的Copy Sequence(s)和Paste Sequence(s)命令复制或粘贴来自其他BioEdit文档的序列同样也可以使用当前菜单快捷键(默认值Ctrl+F8复制Ctrl+F9粘贴)全屏编辑序列可以在全屏编辑就像在一个文字处理器上一样必须首先设定Mode选项为Edit Residues(BioEdit在安装后默认模式为Slide Residue)在编辑模式下你可以使用箭头在屏幕上移动输入像在文本编辑器中一样编辑有两种选项插入模式和改写模式它们类似于在文字编辑器中的功能选择序列点击序列的标题可以选中序列拖划出一个方框可以选中多个序列或用shift键选择两个选择序列之间的所有序列用Ctrl键加鼠标可以分别选择标题或给选中的序列加上详细的标题双击标题将会打开一个单序列编辑器再次点击原先选中的标题使其进入全屏编辑模式你可以编辑标题后按下< return >或点击序列标题板的任何位置使对标题的改动生效移动序列想移动一个序列(或一些序列)选中它(用鼠标左键点击它的标题使其变亮)把它拖放到你想要的位置Cut Copy Paste剪切复制粘贴Copy复制编辑窗口的文本(序列残基)用鼠标选择文本并从Edit菜单选择Copy不像文字编辑器你可以复制你想选择的区域而不是复制文本的全部行这种方式复制的区域可以粘贴在任何能够进行文本编辑的程序中如果只是如果你没有选中在全部序列中任何残基序列的标题将会以BioEdit序列结构形式复制到BioEdit的剪贴板在选择Paste Sequence(s)时全部序列将会被粘贴到文档全部序列用鼠标选择序列标题并从Edit菜单选择Copy Sequence(s)标题被选中的序列将以Fasta格式被复制到Windows剪贴板多于一个被选中的序列将以Fasta序列目录的形式复制到剪贴板中并在BioEdit内部复制成一组全部BioEdit序列结构能够被粘贴在任何BioEdit文档中注意BioEdit剪贴板中包括所有序列相关数据Genbank信息图示注解是在BioEdit 同一步骤的内部它们不能在独立的步骤之间转移为了在BioEdit排列文档之间复制序列必须确定两个文档是在程序的同一步骤打开的只有Fasta格式的序列可以被复制到普通的Windows剪贴板Paste粘贴在编辑窗中的文本为了把一个序列粘贴入主编辑窗界面必须是Edit Residues模式见全屏编辑如果文本的一个区域被粘贴到一个序列只有第一行用回车键定义将会被粘贴这避免了在粘贴文本进入序列时可能出现的问题也避免了不注意的使错误的序列在其下为了把文本的片段粘贴到排列的一个区域片段必须一次一个的粘贴进序列如果文档在Slide Residues或Grab and Drag模式Paste粘贴的功能将会和Paste Sequence(s)粘贴序列的功能一样见后全部序列从文档菜单到粘贴序列从Edit菜单中选择Paste Sequence(s)序列将会增加到文档的最后它们可以移动到文档的任何位置Cut剪切和Cut Sequence(s)剪切序列就象Copy复制和CopySequences复制序列一样但是其功能是从文档中删除复制的信息然而只有在Edit Residues模式下残基才能从文档中删除同样当在没有选中任何残基的情况下使用剪切功能时标题被选中的序列将以Fasta格式被复制到Windows剪贴板并以序列结构的形式复制到BioEdit剪贴板中但是它们不能从文档中删除为了适当的从文档中剪切序列可以选择Cut Sequence(s)。
Bioedit操作指南PPT课件

1. 目的:纯菌种16S rRNA,利用Sanger方法双端测序,然后检查测序质量,将双端测序 的序列拼接成一条完整的序列,利用这个长序列去与数据库比对,判断这个序列最 可能是从哪个微生物来的。
2. 具体操作过程:以一个纯菌种的16S rRNA测序为例,练习序列拼接(assembly). 用Sanger方法,从两端测序,引物为27F和1492R。
正向引物27F测得的序列
Overlap
反向引物1492R测得的序列
拼接 (assembly)
Contig
.
1
Biedit软件的应用介绍:DNA序列基本操作
第一步:Sanger测序下机文件为.abi文件,可以用Bioedit打开查看测序质量。峰型好 的碱基质量较好,把质量好的碱基部分提取出来,存成fasta文件。
.
2
Biedit软件的应用介绍:DNA序列基本操作
第二步:将27F和1492R测得的序列都整接成 一个长的contig。
操作如下:file----new alignment-----file----import ------sequence alignment file---同时选择 Seq27F.fas和seq1492R.fas-----file-----save as 27F+1492R.fas-----file----open 27F+1492R.fas ---点击选择两个文件名-----accessory applications-----CAP assembly contig program-----run application-----enter----随即产生了contig序列,delete原始的序列(seq27F.fas和 Seq1492R.fas),给contig命名,另存为Seq27F+1492R_contig.fas。
数据转换及处理实验报告

数据转换及处理实验报告实习⼆空间数据的转换与处理实习内容1:某地区地块的拓扑关系建⽴背景:拓扑关系对于数据处理和空间分析具有重要意义,拓扑分析经常⽤于地块查询、⼟地利⽤类型更新等。
⽬的:通过本例,掌握创建拓扑关系的具体操作流程,包括拓扑创建、拓扑错误检测、拓扑错误修改、拓扑编辑等基本操作。
要求:在Topology数据集中导⼊两个shapefile ,建⽴该要素数据集的拓扑关系,进⾏拓扑检验,修改拓扑错误,并进⾏拓扑编辑。
数据:blocks.shp、parcels.shp,分别为某地区的总体规划和细节规划的地块⽮量数据,在data-1中。
操作步骤:流程如下:创建本地Geodatabase----创建数据集----导⼊两个shapefile⽂件----分别对两个要素类建⽴⼦类型----创建拓扑----拓扑检查----修改拓扑错误----拓扑编辑(1)创建Geodatabase在ArcCatalog树中,右键单击⽂件夹连接,单击连接⽂件夹,确定新建的Geodatabase存放的⽂件夹,右键选定的⽂件夹,新建⽂件地理数据库,输⼊所建的Geodatabase名称NewGeodatabase,在新建的Geodatabase上右键选择新建中的要素数据集,创建要素数据集。
在打开的新要素数据集对话框中,将数据集命名为Topology,单击下⼀步按钮,打开新建要素数据集对话框,单击导⼊按钮,为新建的数据集匹配坐标系统,选择Block.shp(已存在的shapefile⽂件),单击添加按钮,返回新建要素数据集对话框,这时要素数据集定义了坐标系统。
点击两次下⼀步,点击完成,这时就创建了名为Topology的要素数据集。
(2)向数据集中导⼊数据在ArcCatalog树中,右键单击Topology要素数据集,单击导⼊,选择要素类多个。
在打开的要素类⾄地理数据库(Geodatabase)(批量)对话框中,导⼊Block.shp 和Parcels.shp⽂件,点击添加,对居民地的地块建⽴拓扑。
生物学的数据格式

生物学的数据格式生物学的数据格式多种多样,这主要是由于生物学的多样性和复杂性。
以下是几种常见的生物学数据格式:1. FASTA格式:这是一种用于表示核酸序列或蛋白质序列的文本格式。
每个序列都以“>”符号开始,后面跟着序列的描述信息。
然后是序列本身,每个字符代表一个碱基或氨基酸。
2. FASTQ格式:与FASTA格式类似,FASTQ也用于表示核酸序列,但还包含测序质量信息。
每个read由@符号开始,然后是序列名称,接下来是测序的碱基序列,最后是一个+符号,后面跟着测序质量信息。
3. GFF/GTF格式:这是一种用于表示基因组注释信息的格式。
它包含了基因组上的特征位置和类型信息,如启动子、外显子、内含子等。
4. BED格式:这是一种用于表示基因组位置信息的格式,常用于基因组学研究中。
它包含了基因组上的位置信息,如染色体、起始位置、结束位置等。
5. PIR格式:这是一种早期的蛋白质序列格式,用于表示蛋白质序列信息。
6. SWISS-PROT格式:这是一种标准的蛋白质序列数据库格式,包含了蛋白质的序列信息和注释信息。
7. GenBank格式:这是一种用于表示核酸序列的格式,包含了序列信息和注释信息。
它是NCBI的主要核酸序列数据库格式。
8. PDB格式:这是一种用于表示蛋白质三维结构的格式,由蛋白质数据银行(Protein Data Bank)维护。
9. VCF格式:这是一种用于表示基因组变异信息的格式,常用于遗传学和基因组学研究中。
它包含了基因组上的变异位点和相关信息。
以上是一些常见的生物学数据格式,每种格式都有其特定的用途和特点。
在实际应用中,根据需要选择合适的数据格式进行存储和交流。
大学计算机基础实验2-Word文档的基本操作及排版

Word文档的基本操作及排版(一)文档的基本操作【实验目的】1.掌握Word的启动与退出。
2.掌握文档的建立、保存与打开。
3.熟练掌握文档的基本编辑:文本输入、内容选定、复制、删除及移动等。
4.熟练掌握文档编辑中的快速编辑:文本的替换与校对。
5.掌握文档的不同显示方式。
【实验内容】1.输入以下内容(段首暂不要空格),并以W1.DOC为文件名(保存类型为“Word 文档”)保存在桌面上,然后关闭该文档。
【样张】2.打开所建立的W1.DOC文件,在文本的最前面插入一行标题“第三章文字处理系统”在两段之间加标题“3.1 Word2000概述”。
3.使“近年来,MICROSOFT公司……成为当前流行的文字处理软件之一”另起一段;将后面两段正文互换位置,然后将正文的第一段,复制到文档的最后。
4.将文本中所有的英文单词改为首字母大写,其余小写字母,将所有的字母更改为红色的字母并加着重号。
【提示】⑴要将“英文单词改为首字母大写”,只要选定要更改的文本,然后执行“格式∣更改大小写”命令,在其对话框中先单击“小写”单选按钮,转换成小写字母;再在该对话框内单击“词首字母大写”单选按钮即可。
⑵要将所有英文字母改为红色并加着重号,只要在“编辑∣替换”对话框中,先将插入点定位在“查找内容”文本框,单击“高级”按钮和“特殊字符”按钮,选择“任意字母”命令,这时在“查找内容”文本框显示“^$”符号,表示任意字母;然后将插入点定位在“替换为”文本框,单击“格式”按钮后选择“字体”命令,在其对话框中进行格式设置。
5.利用拼写检查功能检查所输入的英文单词是否拼写错误,如果存在拼写错误,请将其改正。
6.将文档以原名W1.DOC保存到软盘;分别以“页面、大纲、普通、打印浏览”等不同的显示方式显示文档,观察各自显示的特点。
(二)文档的排版【实验目的】1.熟练掌握字符的格式化。
2.熟练掌握段落的格式化。
3.熟练掌握项目符号和编号的使用。
4.熟练掌握分栏操作。
南理工微机实验报告

南理工微机实验报告篇一:南京理工大学微机实验报告微机实验报告实验2.1汇编语言程序的调试与运行思考题:1、带进位加法程序:DISP MACRO XMOV DL,XMOV AH,02HINT 21HENDMDATA SEGMENTDATA1 DB'65087'DATA2 DB'75087'N EQU $-DATA2DATA ENDSSTACK SEGMENT STACKSTA DB 20 DUP (?)TOP EQU $-STASTACK ENDSCODE SEGMENTASSUME CS:CODE,DS:DATA,SS:STACK,ES:DATA START:MOV AX,DATAMOV DS,AXMOV AX,STACKMOV SS,AXMOV AX,TOPMOV SP,AXLEA SI,DATA1MOV BX,0MOV CX,NCALL DISPLDISP '+'LEA SI,DATA2MOV BX,0MOV CX,NCALL DISPLDISP '='LEA DI,DATA1MOV CX,NCALL ADDALEA SI,DATA1MOV BX,0MOV CX,NCMP DL,0JZ NEXTDISP '1'NEXT: CALL DISPLDISP 0DHDISP 0AHMOV AX,4C00HINT 21HDISPL PROCDS1:MOV AH,02HMOV DL,[SI+BX]INT 21HINC BXLOOP DS1RETDISPL ENDPADDA PROCPUSH CXMOV BX,0AD1:SUB BYTE PTR [SI+BX],30H SUB BYTE PTR [DI+BX],30HINC BXLOOP AD1POP CXPUSH CXMOV BX,N-1CLCAD2:MOV AL,[SI+BX]ADC AL,[DI+BX]AAAMOV [DI+BX],ALDEC BXLOOP AD2POP CXPUSH CXMOV BX,0MOV DL,0JNC AD3MOV DL,1AD3:ADD BYTE PTR [DI+BX],30H INC BXLOOP AD3POP CXRETADDA ENDPCODE ENDSEND START结果截图:2、上机步骤,调试方法:1、写代码完成功能要求,文件格式为.asm文件(如21si.asm),将文件放入带汇编工具的文件夹中,即含有汇编工具(MASM.EXE)和链接工具(LINK.EXE)的文件夹。
数据转换指令实习报告

数据转换指令实习报告
在本次数据转换实习中,我们主要学习了数据转换的基本概念和常见的转换指令。
通过实际操作,我们深入了解了数据转换的流程和操作步骤。
在实习过程中,我们主要使用了一些常见的数据转换指令,如SELECT、JOIN、GROUP BY等,通过
这些指令的灵活运用,我们成功地将原始数据转换成了我们需要的格式。
通过本次实习,我们不仅加深了对数据转换的理解,也掌握了一些常见的数据转换技巧,这对我们日后的数据处理工作将会有很大帮助。
数据的导入导出-实验二

新疆师范大学实验报告科目数据库实验题目导入导出数据系别计算机科学与技术班级10-1 时间2012-3-20实验者组员指导教师栾老师【实验目的】1.导入和导出数据2.了解数据导入导出的原因(1)数据迁移(2)转换异构数据3.学会数据传输工具的使用【实验内容】1.使用DTS向导分别在pubs数据库中选取3个表导出到Excel文件中,选取3个表导出到文本文件中,选3个表导出到Microsoft Access数据库中;2.用自己名字创建数据库,在该库创建一个表,将Excel文件中的一个sheet 某些列导入到新创建的表中,完成部分数据的导入工作,Excel中的其它sheet 直接导入到库中。
3.使用DTS向导将txt格式的文件导入到自己的数据库中,注意检查导入表中各字段的长度;4.使用DTS向导将Microsoft Access数据文件导入到自己的数据库中,检查表结构与pubs中的表结构有无变化;在Microsoft Access打开查看一下表结构与pubs中的结构是否一致。
【实验步骤】1.使用DTS向导将pubs库中的sales, employee, jobs表导出,分别存为相应的xls、txt和Microsoft Access数据表。
1.将sales表导出转为xls数据表步骤如下。
(1)点击椭圆内的命令。
(2)如下图椭圆内所示,按要求完成数据源等的改写。
(3)如下图,将目标数据源改成Excel,并选择之前建好的Excel表。
(4)选择要到处的sales表(5)点击完成,实现将sales表成功导成Excel.2.将employee表导出转成txt数据表,第(1)、(2)步不变。
(3)将目标选为文本文件,并选择之前建好的txt文档。
(4)修改参数如下图。
(5)点击完成,成功将employee表导出转成txt数据表。
3.将jobs表导出,转成Access数据表,(1)(2)步于1相同。
(3)将目的改为Microsoft Access,并选择建好的Access表。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析方法-翻译选择的DNA序列区段(举例2)
在SRS检索主页()点击“Tools” 在Tool网页选择“Nucleic Tools→Nucleic Translation →Transeq”,点击“Launch” 在Transeq网页选择阅读框和遗传密码类型,输入编 码区,粘贴序列 分析结果
File:文件菜单
Edit:编辑菜单 Sequence: 序列菜单 Alignment: 排列菜单 View:视图菜单 Accessory Application:应用程序菜单 RNA:RNA序列分析菜单 World wide web:网络菜单 Options:选项菜单 Window:窗口菜单 Help:帮助菜单
6. 上机操作
分别在Genbank数据库中检索NM_015013 ,并查 看该序列的文本(flat file)文件内容; 试比较Genbank和EMBL格式中主要字段的异同 ; 熟悉Bioedit综合序列分析软件,会利用该软件对 NM_015013 序列进行以下分析: 1. 确定DNA序列的分子量和碱基组成 2. 序列变换 3.分析限制性内切酶切割位点 4.DNA序列格式修饰 会利用readseq在线程序进行序列格式的转换。
互补序列 (complement)
反向序列 (reverse)
AGAGCACTCTAGATCGTAAGTAGAGTGACGCACACCTGGGTACCGGTAAAAA
反向互补序列 TCTCGTGAGATCTAGCATTCATCTCACTGCGTGTGGACCCATGGCCATTTTT (reverse complement) RNA序列
2. 序列变A-RNA序列之间变换
原始DNA序列
AAAAATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGA TTTTTACCGGTACCCAGGTGTGCGTCACTCTACTTACGATCTAGAGTGCTCT
选择被粘贴序列的名称,在“Sequence”栏目点击“Nucleic Acid→Complete”获得互补序列、“Nucleic Acid→Reverse Complete”获得反向互补序列、“Nucleic Acid→DNA-RNA”获 得RNA序列 在“Edit”栏目选择“Copy Sequence to clipboard (Fasta Format)”将获得的序列粘贴到另一个文件
分析结果
3.分析限制性内切酶(restriction endonuclease)消化 位点
展示DNA序列的酶切位点图
可选择限制性内切酶
分析方法(举例)
在本地计算机上利用BioEdit工具进行分析 打开要分析序列的文件并copy序列,在BioEdit分析工 具的“File”栏目选择“New from Clipboard”粘贴序列 选择被粘贴序列的名称,在“Sequence”栏目点击 “Nucleic Acid→Restriction Map”
上机实习 核酸序列的基本分析方法
序列检索(NM_015013 )
Bioedit软件介绍和部分功能使用
序列格式转换 序列比对
序列检索 Bioedit软件介绍和部分功能使用
序列格式转换
序列比对
Bioedit软件介绍和部分功能使用
• Lasergene • Bioedit软件的菜单
AAAAAUGGCCAUGGGUCCACACGCAGUGAGAUGAAUGCUAGAUCUCACGAGA
分析方法(举例)
在本地计算机上利用BioEdit工具进行分析 打开要分析序列的文件并copy序列,在BioEdit分析工 具的“File”栏目选择“New from Clipboard”粘贴序列
核酸序列的分析方法
序列检索 Bioedit软件介绍和部分功能使用
序列格式转换
序列比对
DNA序列格式转换
根据需要转换DNA序列
SeqVerter 1.3
ForCon 1.0
Readseq 2.1.22
/molbio/readseq/
在本地计算机上利用BioEdit工具进行分析 打开要分析序列的文件并copy序列,在BioEdit分析工 具的“File”栏目选择“New from Clipboard”粘贴序列 选择被粘贴序列的名称,在“Sequence”栏目点击 “Nucleic Acid→Nucleotide Composition” 文字分析结果和图形结果
1. 确定DNA序列的分子量和碱基组成 分子量(molecular weight) 单链DNA(single strand DNA,ssDNA)
双链DNA(double strand DNA,dsDNA)
碱基组成(composition) 各种碱基数量 各种碱基比例
分析举例
分析方法-翻译选择的DNA序列区段,显示DNA和 氨基酸序列(举例3)
在SRS检索主页()点击“Tools” 在Tool网页选择“Nucleic Tools→Nucleic Translation →ShowseqN”,点击“Launch”
在ShowseqN网页在“display format”栏目选择“one frame translation”、选择阅读框和遗传密码类型,输入编码区,粘 贴序列
阅读框 1 阅读框 2 阅读框 3
分析方法-翻译全长DNA序列(举例1)
在本地计算机上利用BioEdit工具进行分析 打开要分析序列的文件并copy序列,在BioEdit分析工 具的“File”栏目选择“New from Clipboard”粘贴序列 选择被粘贴序列的名称,在“Sequence”栏目点击 “Nucleic Acid→Translate →Frame 1”获得氨基酸序列 分析结果
在“Create Restriction Map”页面中选择限制性内切酶种 类、选择阅读框等后点击“Generate Map”
分析结果
4. DNA序列格式修饰
根据需要展示DNA序列
10个碱基一列,每行n列
用数字刻度显示每个碱基位置
用颜色显示不同碱基
在序列左侧标注序列名称
分析方法(举例)
DNA-蛋白质序列之间变换
AAAAATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAG K N G H G S T R S E M N A R S H E K K M W A P M W G V P H H T A Q V * R D * E M C L * D I L S T R R