4章-核酸序列分析报告

合集下载

生物信息学核酸序列分析

用 Edit 菜单中 Consensus 操作计算对比结果的共有序列。如果保守模式可被辨识，从 Functions 菜单中选取 FindPatterns 选项。从共有序列中剪切下此特征序列模式并把它粘贴到 FindPatterns 模式选择器中，并在数据库中搜索包含这一模式的序列。
此外，运行 Motif 程序可在共有序列中搜索已知的蛋白质模式。Motif 在蛋白质序列中搜索在 PROSITE，蛋白质位点和模式的 PROSITE 字典中已知的蛋白质模式。如果辨识出一个 Motif，则给所有序列增加一个特征，并标出它的位置。图 4.9 显示了一个蛋白质序列的匹配、一个共有序列以及 Motif 搜索的结果。
(3)用查询序列搜索数据库，将找到的条目与查询序列进行对比并产生进化系统树
克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了，用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。
往 SeqLab Editor 中添加一个查询序列并从 Functions 菜单中选取 FASTA 程序。FASTA 程序在数据库中搜索与查询序列相似的序列。输出文件可从 Output Manager 窗口中加以显示并直接添加到 SeqLab Editor 中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话，每个数据库条目只有这种区域可以显示在 SeqLab Editor 中。不要的条目可以从 SeqLab Editor 中一起被删除。
(5)对比相关的蛋白质序列，计算对比结果的共有序列，辨识序列中新的特征序列模式，在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式，用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。

第四章核酸序列分析-1.

31
1）对于已知蛋白，可进行数据库搜索判断序列的可靠性。 2）对于未知新基因，则需要参考序列的其他特定信息。
32
33
许多程序对DNA序列一次进行全部6个阅读框的翻译。
程序之一：EBI著名软件包EMBOSS中的Transeq
/emboss/transeq/
特点： 1）输入序列可以是原始序列，也可以是GCG，Fasta， EMBL，GenBank，PIR等格式。 2）可一次翻译成1条，同向3条，双向6条蛋白质序列。 3）翻译时可选择标准密码子或其他类型的密码子
4 具有复杂的基因转录调控方式
5 具有丰富的可变剪接 6 有明显的CpG岛、密码子使用具有偏好性
四、DNA序列分析基本内容
9
序列一般性分析基因识别与鉴定
非编码区分析及调控元件识别
§4.2 DNA序列的一般分析
11
重要分析工具网站
华北制药集团的谈杰创建的一个非常有用的生物信息学资源网站。 /index.html
34
Transeq主页
翻译结果（6框架）
35
36
程序之二： ExPASy的Translate Tool /tools/dna.html 特点： 1）程序简单，没有太多的可选项，运行速度快。
2）一次翻译双向6条蛋白质序列。
3）输出结果较Transeq清楚，不仅将终止密码子用 Stop英文单词表示，还将起始密码子以MET标记出来
国外主要网站 http://mobyle.pasteur.fr/cgi-bin/portal.py/ /Tools/index.html /
12
各种生物信息学软件
法国巴斯德研究所：http://mobyle.pasteur.fr/cgibin/portal.py#forms::revseq

核酸序列分析

思考题
1.第一代DNA测序技术的核心技术 A.Sanger的双脱氧链终止法 B.Maxam和Gilbert的化学降解法 C.荧光标记技术 D.PCR技术 E.DNA自动分析技术
2. Sanger双脱氧链终止法使用的链终止物
A. NTP
B. dNTP
C. ddNTP
D. a-32P-dNTP E. a-35S-dNTP
• 反应体系中包含：模板 DNA,
Taq酶, dNTPs, ddNTPs和测序引物；
• 反应过程：
变性－复性－延伸－终止
双脱氧链终止法基本原理：
➢利用DNA聚合酶不能
够区分dNTP和ddNTP的
特性，使ddNTP参入到
寡核苷酸链的3’-末端。
因为ddNTP 3’不是-OH，
不能与下一个核苷酸聚
合延伸，从而终止DNA 链的增长。
目前，应用最广泛的应用生物系统公司(applied biosystems ，ABI)3730系列自动测序仪即是基于毛细管电泳和荧光标记技术的DNA测序仪。
如ABI3730XL测序仪拥有96道毛细管，4种双脱氧核苷酸的碱基分别用不同的荧光标记，在通过毛细管时不同长度的DNA片段上的4种荧光基团被激光激发，发出不同颜色的荧光，被CCD检测系统识别，并直接翻译成DNA序列。
2011：5000美元测定一个人类基因组 2014：上万元测定一个人类基因组
未来目标：1000/100 美元测定一个人类基因组
1、第一代DNA测序技术
第一代DNA测序技术：传统的双脱氧链终止法、化学降解法以及在它们的基
础上发展来的各种DNA测序技术。
第一代DNA测序技术包括：双脱氧链终止法、化学降解法、荧光自动测序技术。

核酸序列分析泛讲

基因结构分析（1）原核基因结构
• 原核生物基因组小，基因密度高，很少存在重复序列，一个基因是由编码一个蛋白质或RNA的开封阅读框构成，中间没有间断。 • 细菌的起始密码子为: ATG, GTG, TTG • 核糖体结合位点(Shine-Delgaron sequence) • 终止密码子较容易确定 • 转录终止子 • 密码子偏好性翻译终止位点
8
名称
TATA框（TATA box）
CAAT框（CAAT box）
GC框（GC box）
转录起始点上游位于转录起始点上有两个拷贝，所处位约19～27bp处游70～80bp 分别位于 CAAT 置框的两侧组成 TATA(A/T)A(A/T) GG(T/C)CAATCT GGCGGG
密码子使用频度
不同生物对密码子的使用有不同的偏好，在编码区和非编码区，特定氨基酸密码子的出现频率是不同的，因而蛋白质编码区密码存在一定的规则性。 CodonW /
2、内含子/外显子分析
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
mRNA
GC区
增强子
CAAT区
TATAAT
PyAPy
上游启动子元件，UPE
核心启动子元件
转录起始位点
9
转录终止信号
加polyA信号：AAUAAA
mRNA前体 5’ AAUAAA CA GU 3’
成熟mRNA
5’
AAUAAA
CAAAAAAAAAAAAA
3’
转录终止信号：GC rich二重对称区、UUUUUU

第四章_核酸序列分析

基本思路：
•找出基因两端的功能区域: 转录启动区（启动子）、终止区 • 在启动区下游位置寻找翻译起始密码子 • 转录剪切分析
启动子分析启动子分析启动子是DNA分子可以与RNA聚合酶特异结合的部位，也就是使转录开始的部位。识别出启动子对于基因辨识十分重要，启动子一般可分为两类: (1)一类是RNA聚合酶可以直接识别的启动子。 (2)另一类启动子在和聚合酶结和时需要有蛋白质辅助因子（转录因子）的存在。
同源性检索
一般来说，数据库相似性搜索是进行基因辨识的最初手段，也是 DNA序列分析的最基本步骤。在同源性检索中，通过查询DNA数据库来判断查询序列是否与已知基因的序列相同或相似。例如，如果通过搜索发现待分析的序列与已知蛋白质编码序列相似，则可以推测待分析的序列是基因序列。
基因分析
序列翻译与开放阅读框（ORF）预测序列翻译指利用计算机程序将核酸序列按照三联体密码规则翻译成蛋白质序列，还可以将氨基酸序列倒翻成核酸序列。阅读框（阅读框（reading frames））对于任何给定的单链核酸序列，根据密码子的起始位置，可以按照三种方式进行解释，这三种阅读顺序称为阅读框。
http://www.cbs.dtu.dk/services/NetGene2/
/software
BCM Gene Finder
/urllists/genefind.htm
IDB ExInt Intronerator GenScan

启动子分析方法：启动子分析方法
•利用模型描述几种转录因子结合部位定向及其侧翼结构特点，然后进行其它DNA
序列的启动子预测的启发式方法；
•根据启动子与转录因子结合的特性，从转录因子结合部位的密度推测出启动子区

第四章核酸序列分析2

pcDNA.3.1TM/myc-His(-)，A质粒
pcDNA.3.1TM/myc-His(-)，A 多克隆位点
基因克隆
• 基因克隆的步骤.f4v
限制性酶切分析的常用软件
DNAMAN 、 SeqQCDemo、BioEdit 1. 载入序列
DNAMAN载入序列界面
2. 参数设置
限制性酶切分析结果设置
上可供选择的限制性内切酶有多少种？并附上限制性酶切分析结果窗口图。
EcoRⅠ酶切位点
5' GAATTC 3 ' 3' CTTAAG 5'
平末端 3' 突出粘性末端
5' 突出粘性末端
• 限制性核酸内切酶是基因克隆中常用的工具酶。
• 基因克隆是指在体外将目的基因同能够自我复制的载体DNA连接，然后将其转入宿主细胞或受体生物，进行表达或进一步研究的分子操作的过程，又称分子克隆或重组DNA技术。
• 常规分析 • 比对分析 • 基因结构识别
4.1.1 核酸序列的检索 4.1.2 核酸序列组分分析 4.1.3 序列变换 4.1.4 限制性酶切分析
4.1.1 核酸序列的检索
4.1.2 核酸序列组分分析
常用软件：BioEdit、DNAMAN 1. 载入序列
双击打开文件
2. 输出结果
单击选中文件
序列组分显示结果
核苷酸组成的直方图
4.1.3 序列变换
常用软件：SeqQCDemo、DNASTAR、DNAMAN
反向反向互补
4.1.4 限制性酶切分析
限制性核酸内切酶（restriction endonuclease）: 识别并切割特异的双链DNA序列的一种内切核酸酶。

核酸序列分析

概念：概念：电泳 electrophoresis 带电的物质在电场中的趋向运动。带电的物质在电场中的趋向运动。凝胶电泳 Gel electrophoresis 以琼脂糖和聚丙酰胺为支持介质的电泳技术。的电泳技术。
琼脂糖凝胶电泳
在PH3.5时，碱基上的氨基基团解离， PH3.5时碱基上的氨基基团解离，而三个磷酸基团只有一个解离，而三个磷酸基团只有一个解离，整个核酸分子带正电荷。酸分子带正电荷。 PH值为8.0-8.3时碱基几乎不解离，值为8.0 在PH值为8.0-8.3时，碱基几乎不解离，磷酸全部解离，核酸分子带负电荷。磷酸全部解离，核酸分子带负电荷。若将由PH8.0 PH8.0电泳缓冲液制成的凝胶置于电将由PH8.0电泳缓冲液制成的凝胶置于电场中，场中，核酸分子由于带负电会向正极泳动。
Maxam-Gibert
，
化学修饰法测定 DNA序列的原理
，
5 -GATCACTACTG-3
，
5 -GATCACTACTG-3
，
G
G+A
C+T
C
G
G+A
T+C
C
DNA测序自动化和大规模测序
双脱氧法和化学修饰法的缺点：双脱氧法和化学修饰法的缺点：放射性操作步骤烦琐效率低读片过程慢
激光测序法通过ddNTP 随机竞争终止新合成DNA DNA的互通过ddNTP 随机竞争终止新合成DNA的互补链。补链。引物标记系统：引物标记系统：四种不同的荧光染料标记引物。记引物。终止标记系统：终止标记系统：4种不同的荧光染料标记四种双脱氧核糖核酸
：
大片段DNA 大片段DNA 序列测定的策略
鸟枪法互套式缺失法引物延伸法

第四章核酸序列分析

相同的一些区域(motif)。
40
精品PPT
影响(yǐngxiǎng)相似性分数的因素
WORD SIZE 的设定是否(shìfǒu)允许空位且空位罚分策略
相似性分数矩阵（PAM和BLOSUM）
41
精品PPT
点阵图
评估两条序列相似度最简单的方法之一是利用点阵图。第一条被比较(bǐjiào)的序列排列在点阵图空间的横轴，第二条序列则排列在纵轴。点阵空间中两条序列中的残基相同时，在对应的位点上画上圆点，两条序列间连续相同的区域在图中会形成由圆点组成的上斜线。
核酸序列组分分析（BioEdit、DNAMAN、 Dnastar）分析核酸序列的分子质量、碱基组成、碱基分布等。
序列变换(BioEdit、DNAMAN 、 Dnastar）
根据分析需要，对核酸序列进行(jìnxíng)各种变换，如寻找序列的互补序列、反向序列、反向互补序列等。
限制性内切酶分析(BioEdit、DNAMAN 、 Dnastar）
42
精品PPT
具有(jùyǒu)连续相似区域的两条DNA序列的简单点阵图
精品PPT
对人类与黑猩猩的β球蛋白基因序列(xùliè)进行比较的完整点阵图
43
滑动窗口技术
使用滑动窗口代替一次一个位点的比较是解决噪音问题的有效方法。
假设窗口大小(dàxiǎo)为10，相似度阈值为8，则每次比较取10个连续的字符，如相同的字符超过8个，则标记
假设两条序列长度分别是12和9 假设这两条序列是真正的同源序列，那么它们之间长度的
差异可以解释为 (1)较长的序列有核苷酸的插入，或者 (2) 较短的序列发生了核苷酸的删除，或者(3) 两者都发生了。在不知道(zhī dào)原始父辈序列的情况下，无法判断导致空位的原因是由于一条序列的插入事件还是另一条的删除事件，通常把这类事件称为插入/删除事件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

检测序列、目标序列
• 检测序列（查询序列）：新测定的，希望通过数据库搜索确定其性质或功能的序列
• 目标序列: 通过数据库搜索得到的和检测序列具有一定相似性的序列
序列比对基本类型
• 两两比对：蛋白质序列之间核酸序列之间
• 多序列比对：多个蛋白质或核酸同时比较
常用的序列比对工具BLAST、Clustal X
• 推测结构功能及进化上的联系，是基因识别，分子进化，生命起源研究的基础。
• 序列
结构
功能
• 序列比对理论基础：进化学说如果两个序列之间具有足够的相似性，
就推测二者可能有共同的进化祖先，经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
序列比较的基本操作是比对，两条序列中各个字符的一种对应关系，或字符对比排列。
任务
寻找VPI 10463 标准株毒素B的编码序列（X53138）。利用DNASTAR 寻找毒素B基因的开放阅读框寻找CDB3区（氨基酸 1751- 2366）的编码序列采用实验室仅有的Pgex-4t-1质粒载体进行表达，请选择合适的限制性内切酶设计引物
4.2 序列比对
为什么要序列比对
• 序列比对又叫序列联配 , 对排核酸、氨基酸序Biblioteka 的相似性第四章核酸序列分析
4.1 常规分析
核酸序列的常规分析包括核酸序列的检索,核酸序列组分分析,序列变换,限制性酶切分析等等
4.1.1 核酸序列的检索
在相关序列数据库中,选择合适的查询方法检索某个物种的核酸序列信息.如使用NCBI的Entrez查询系统和EMBL的SRS查询系统
4.1.2 核酸序列组分分析
比对过程中需要在检测序列或目标序列中引入空位，表示插入或删除
空位
• 两条或多条序列比对时，如果考虑到插入与删除时间发生的可能性，那么候选的比对数量就会大大增加，也就导致了比对的复杂性。
等等……
序列C D
• 序列C： CTGC • 序列D： ACCTAGATCG
匹配得分：1 失配得分：0
上例中三个比对从左至右分别是 4、 1、 3
• SEQ 1 和SEQ 2:
1 2 3 4 5 6 7 8 9 10 11 12.。。。。。。。。
AATTGATTGCGCATTTAAAGGG AACTGACGCATCTTAAGGG
AATTGATTGCGCATTTAAAGGG AACTGA------CGCATCTTAAGGG
用DNASTAR （editseq）寻找ORF
背景：艰难梭菌(Clostridium difficile,CD) 是肠道感染中仅次于弯曲杆菌的常见致病菌，我们根据Genth 的文章（New Method
to generate enzymatically deficient clostridium difficile toxin B as an antigen for immunization）．将CD标准株 VIP10463毒素B分成 3个氨基酸片段： CDB1(氨基酸 1-546，包含接触反应区)，CDB2(氨基酸 90-1750，含有假定的跨膜区)， CDB3(氨基酸 1751- 2366，被认为是受体结合区)，发现抗毒素 B抗体与毒素B羧基末端 (氨基酸 175-2366)可以发生强烈反应，说明该段很有可能成为制备疫苗和诊断抗原的重要候选蛋白．故我们选取了毒素B羧基末端CDB3(氨基酸1751- 2366)进行克隆与表达，为以后的疫苗和抗原鉴定的研究建立基础．
实例分析使用DNASTAR 的EditSeq程序进行序列转换.
1 载入序列运行DNASTAR,依次打开File—new—new DNA
载入待分析的目的序列.
2 寻找原序列的反向序列和反向互补序列依次点击Edit—select all sequence
菜单Goodies----Reverse Reverse complement
序列比对
• DNA : A T G C • Protein: ARNDCQEGHILK……
例： • TTCGCAGCGC • TTAGGACCTC
（偶然相似性）
量化相似性比对
• 考虑这样的两条核苷酸序列： AATCTATA和AAGATA 仅有三种比对方式
不考虑空位的简单比对，它的打分函数是由对比奖励和罚分的和来决定
3 结果解读片段长度,分子量大小,GC含量, AT含量核苷酸组成直方图
4.1.3 序列变换
在序列分析过程中,根据不同的分析需要,经常要对核酸序列进行各种变换,如寻找序列的互补序列,反向序列,反向互补等,常见生物学软件就集成这类功能,很容易实现序列的自由变换,如 DNAMAN,Primer premier,DNASTAR等
核酸序列的组分分析一般包括分子质量,碱基组成, 碱基分布等
实例分析:使用BioEdit分析水稻瘤矮病毒基因组S8片段编码序列的基本性质.
1 载入序列运行BioEdit,依次打开File-open,载入待分析的目的序列.
2 输出结果依次点击sequence ---nucleic acid ---nucleotide composition
用DNAMAN对RGDV S8片段编码区进行限制性酶切分析
搜索查询序列
选择CDS
从文件载入序列
复制粘贴载入序列
限制性酶切进行参数设置
酶选择
结果分析
在线限制性酶切分析工具（例如NEBcutter）
NEBcutter序列提交界面
分析结果
附加内容
• 用DNASTAR （editseq）将 DNA序列翻译为蛋白质
4.1.4 限制性酶切分析
在克隆和基因工程中,通常要对基因序列的限制性酶切位点行分析,使用DNASTAR（mapdraw）对RGDV S8片断编码区序
列进行限制性内切酶分析.
研究背景: 为揭示水稻瘤矮病毒外层衣壳蛋白质P8在大肠杆菌中的表
达特性,需要将P8基因克隆到Pgex-4t-1上,以BamHI 和Xhol作为克隆位点.设计表达引物时,考虑是否能在P8基因的两端分别引入BamHI 和Xhol 酶切位点,此时需要进行限制性酶切分析.

4章-核酸序列分析报告

生物信息学核酸序列分析

第四章 核酸序列分析-1.

核酸序列分析

核酸序列分析泛讲

第四章_核酸序列分析

第四章 核酸序列分析2

核酸序列分析

第四章核酸序列分析

第四章核酸序列分析-1.

第四章核酸序列分析2