序列数据相似性查询技术研究综述

合集下载

关于信息检索技术的文献综述

关于信息检索技术的文献综述

关于信息检索技术的文献综述一、信息检索技术现状【1】梁鸿雁,信息检索技术综述,2010(9),软件导刊,35~37,在现有研究的基础上,信息检索技术实现了把信息检索从基于关键词层面提高到知识层面。

从传统的基于关键词的检索到吸引广大研究者眼球的语义检索。

实现了把信息检索从基于关键词层面提高到知识层面。

传统的基于关键词信息检索,已取得了很大的成功,但是它不能从根本上表达用户的查询请求。

语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能。

但由于自然语言理解和人工智能等领域的局限,语义检索技术将有一个长期深入研究的过程。

【2】陆娟,浅析当前网络信息检索与过滤技术,科技情报开发与经济,2006,16(23),目前,信息检索搜索引擎已经把浏览与检索功能进行了整合,使用户可以在一个网站同时利用两种功能,而且可以在某个类目下实施检索,提高了检索的准确率;鉴于网络面对的是全世界的用户,这些用户层次不一、知识背景各不相同,实现了自然语言检索功能;通过信息智能检索(Agent)技术来学习用户兴趣,使客户端检索软件具备智能性,自主地在Internet网上漫游,收集用户感兴趣的信息,用户Agent可以根据用户的爱好对它们的任务进行动态调整,搜索网上潜在的有用信息,按照一定的规则进行过滤,并以一定的优先方式提供给用户;为更加客观公正地对检索结果进行排序,让用户快速获得最需要的信息,产生了一些新的排序算法根据其他网站指向某个网站链接的数量多少,决定该网站的重要性,数量越多越重要。

二、信息检索技术类型及方法【1】赵阳,浅谈信息检索技术,2012年11月,科技创新与应用,45,介绍了当今比较热门的两种信息检索技术:第一,智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,智能检索利用分词词典、同义词典,同音词典等改善检索效果,还可在知识层面或者概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

时序数据分析方法综述

时序数据分析方法综述
1 / 20
学家根据星星和卫星相对位置的数据序列预测天文学事件对卫星运动的观察是开普勒 三大定律的基础。 Graunt 在探究病人和死亡在时间上的模式关系时提出了一阶差分的萌 芽思想,首次提出生命表的概念,并对人口问题进行预测与估计,并对黑死病大流行的 两个年份 1603 年和 1625 年中有关数据的可信性提出怀疑,并进行处理。虽然他的具体 计算方法比较简单和粗糙,但其关于时间序列的萌芽思想,为现代时间序列分析打下了 基础。 但受到当时科学发展的限制,这些使人们发现了重要规律的早期时序分析主要依赖 于对数据的直观比较或者是简单的绘图观测。 随着研究领域的逐渐拓宽和研究问题的复 杂化,这种单纯的描述性分析不能满足需要、概率理论中随机变量的发展以及统计数学 中一些结论和方法的提出,使研究重心从对表面现象的总结,逐渐转移到分析随机序列 内在本质的相关关系上,从而开辟了统计时序分析的时代。 2.2 统计性时序分析 17 世纪当帕斯卡 (Blaise Pascal, 1623~1662) 和费马 (Pierse de Fermat, 1601-1665) 等学者以机会游戏为基础讨论稳定的概率比率时, 欧洲的商人没有借鉴这些自然哲学家 的数学方法而是借助不同的定量推理计算自己在市场变化中的利益得失。 他们利用商人 的独特方法分析市场波动情形无意中为商业实践转入统计性时序分析奠定了基础。 19 世纪的数学家正是在欣赏并应用上述金融算术的过程中逐步开始讨论对时间现 象的建模问题。他们处理数据的工具主要是一阶差分指数和滑动平均等。这些基本概念 都经历了从金融算术到政治算术最后进入科学算术阶段及现代化数学领域的发展过程。 他们最初只是金融家进行贸易猜测、欺骗大众和掩盖真相的工具。有两条主线贯穿统计 性时序分析的历史发展明线是技术工具从商业实践转入时间序列分析的过程暗线, 是对 这些概念从描述性直观说明到严格定量推理的发展过程。 2.3 频域分析的发展 时间序列分析旨在从系统模式或行为中分离随机白噪声,通过分析数据,最终发现 序列的真实过程或现象特征,如平稳性水平、季节性长度、振幅频率和相位等。其中振 幅频率和相位属于时间序列的频域性质,对他们的研究常称为频域分析或谱分析。 谱概念与物理学的渊源关系历史悠久。物理学中常用余弦曲线方程 A cos(wt ) 表 示系统的振动时间序列,可视为振幅频率和相位互不相同的正余弦波的叠加。因此时间 序列的频域发展首先源于 1807 年法国数学家傅里叶(Jean Baptiste Joseph Fourier, 1768-1830)宣称“任何级数可用正、余弦项之和逼近”的思想,随着 Fourier 理论的发 展,任何时间序列也被展开成无限逼近于该序列的正余弦项之和

生物序列比对算法综述

生物序列比对算法综述

生物序列比对算法综述作者:艾冬梅赵清玉张德坤来源:《中国科技纵横》2013年第18期【摘要】随着生物信息学的快速发展,序列比对算法成为研究的热点问题。

本文介绍序列比对算法的概念及研究,并针对几种常用的序列比对算法进行比较。

同时也简单说明序列比对算法的改进方向。

【关键词】生物信息学序列比对准确率时空效率随着生命科学研究的兴起和计算机技术的飞速发展,生物信息学已成为自然科学的核心领域之一[1]。

基因序列比对是生物信息处理的最基本方法,对发现基因功能、比较基因、探究生物进化等具有非常重要的作用。

1 序列比对算法概述所谓序列比对[2],是指两个或多个序列按字母比较,尽可能确切地反映它们之间的相似和相异性,用于阐明序列之间的同源关系。

通过序列比对,找出序列之间的相似性,发现与结构相联系的保守序列片段,以及检测新测定序列与数据库中已知结构和功能的序列之间的相似性关系,从而以足够的可信度确定新序列的结构和功能信息。

目前已知的序列比对方法很多。

本文主要针对常用的算法,按照比对的序列数目进行相关介绍:1.1 双序列比对根据算法结构的不同,将双序列比对算法分为三类[3]:动态规划的优化方法,启发式算法和大型数据库搜索设计的概率方法。

1.1.1 动态规划的优化算法Needleman-Wunsch算法是最早的序列比对算法,属于全局序列比对,在生物信息处理中应用广泛。

Smith-Waterman算法是一种局部相似性的动态规划算法,在识别局部相似性时具有很高的灵敏度,是双序列比对算法中最基本的算法。

1.1.2 启发式算法1)FASTA算法FASTA是双序列比对启发式算法,采用了改进的wilbllr和Lipmall算法以集中反映具有显著意义的比对结果。

它的基本思想是:一个能揭示出真实序列关系的比对至少包含一个两条序列都拥有的片段,把查询序列中的所有片段编成Hash表,然后在数据库搜索时查询这个Hash表,以检索出可能的匹配,这样命中的片段就能很快地被鉴定出来。

序列数据相似度计算

序列数据相似度计算

序列数据相似度计算
摘要:
1.序列数据相似度计算的定义与重要性
2.常用的序列数据相似度计算方法
3.实例分析
4.总结
正文:
序列数据相似度计算是研究序列数据之间相似性的一种方法,它在生物学、语言学、信息检索等领域有着广泛的应用。

对于序列数据,我们通常关心的是它们之间的相似程度,而序列数据相似度计算就是用来量化这种相似程度的。

常用的序列数据相似度计算方法有动态规划法、最长公共子序列法、最小编辑距离法等。

动态规划法是一种基于数学模型的算法,它通过计算两个序列之间的最长递增子序列来确定它们的相似度。

最长公共子序列法则是通过寻找两个序列中最长的公共子序列来计算它们的相似度。

最小编辑距离法则是通过计算将一个序列转换成另一个序列所需的最小操作次数来计算它们的相似度。

以蛋白质序列比对为例,科学家们可以通过比较两个蛋白质序列的相似度,来推测它们的功能和结构是否相似。

这种方法在生物信息学领域被广泛应用,有助于我们理解基因和蛋白质之间的关系。

总的来说,序列数据相似度计算是一种重要的数据分析方法,它在许多领域都有着广泛的应用。

第三章 序列相似性比较

第三章 序列相似性比较

序列比对问题
基因在进化中存在插入/缺失突变,序列比对时应该 将这些考虑这些突变,以便获得到更好的对齐结果。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
等价矩阵 BLAST矩阵 转移矩阵 7 31 6
t= ACACACTGA Alignment-2 s= ACACAC-CA |||||| | t= ACACACTGA
7 31 2
氨基酸计分矩阵
氨基酸计分矩阵 —— 等价矩阵 —— 遗传密码矩阵 —— 疏水矩阵 —— PAM矩阵 —— BLOSUM矩阵
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

DNA序列的图形表示及其相似性分析

DNA序列的图形表示及其相似性分析
摘 要 近二十年来,DNA序列的图形表示方法在研究DNA序列局部和整体的比 较分掇孛静作用越塞越太,并豆弓之攘对应静数菹籍延及襁{矬性分辑毽这些直瑕 静视觉惑翔雯翔趱程凭。 在本篇论文中,我们首先给出了一个关于DNA序列的潮 形表示方法较为详细的综述,其中我们先从3维表示方法入手,然后根据氓化性的 有无对2维表示方法进行了介绍,并给出了一种基于3条特征啦线的新的2维豳形 方法。然而,本文的中心内容并不仅是对图形表示方法的研究,丽从基予嘲形表示 的数值特缎自量去进行DN婧捌之裁豹楣毂挫分掇。在接下寒兹三、毅章中,透过 上一一辜绘蠢的新匿形方法Y}lYau{11〕的匿形袭示法我髓薅裂了Q怒簿, 并秘用Q矩簿豹标准化主特征德得到三种表示DNA序列的数值特征向量方法。根 据向量之间的欧氏距离,我们分析了11种生物的肛globin基因的第一外照 子序列的相似性,并同其它文献中的相似性分析的结果避行了比较。摄后,作为D NA序列比较的一种参照,我们从簸长公共子序列的角艘考虑了DNA序列的糖毂 性分析,并进行了筠单静讨论。藜中三、霾章中的数馕褥翟囊量黍l穗毅性绻袋均 氆殛MatIab 7。0完成。关键词:DNA序列,图形表示,数慎特征,相似 性分析,最长公共子序列 Abstract years,graphical r epresentation techniques of DNA In rec ent sc- twentyquences haw been found to be very useful in highlighting local an d global DNAsequence comparison analys is,and corresponding numerical charact erizationsand analysis。£similexity ha ve been de、jeloped that help quantify t he visualpatterns, In this thesis we st art out with a review of 3D DNA graphica l represen- to degeneracy,tations,and t hen present reCent 2D representations accordingMeanwhile we propOse a new 2D graphical method based on a cJassifica tion ofDNA bases,which is suitable to m ake numerical analysis later.Neverthel ess,thefocus of this thesis is not only t。introduce graphical representations but alsoto describe several numerical analysis methods based 011 graphical r epresenta-tions for the comparison of different DNA sequences.In chapter 3 an d 4,we usethe new graphical representat ion and Yau〔111‟s representation to mak e numericalDNA analysis.Moreover,we il lustrate these methods by examining di ssimilar-ity of exon—l of芦-globin gene

实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。

用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。

如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。

在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。

如果输入多个关键词,它们之间默认的是“与”(AND)的关系。

Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。

但“transcription factor”这样有一定范围的词是可以接受的。

可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。

 输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。

点击进入对应的数据库,可以查看搜索到的条目。

如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。

也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。

点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。

序列相似性搜索

序列相似性搜索

三、序列的BLAST分析
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and webaccessible. 基本局域联配搜寻工具
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST)
blastp (protein BLAST)
blastx (translated BLAST)
tblastn (translated BLAST)
BLAST searching is fundamental to understanding the relatedness of any favorite query sequence to other known proteins or DNA sequences.
Applications include • identifying orthologs and paralogs • discovering new genes or proteins • discovering variants of genes or proteins • investigating expressed sequence tags (ESTs) • exploring protein structure and function
Four components to a BLAST search
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A Survey of the Research on Similarity Query Technique of Sequence Data
Zhu Yangyo ng , Dai Do ngbo , and Xio ng Yun
( S chool of Com p uter S cience , Fu dan U ni versit y , S han g hai 200433)
序列相似性查询的基础就是相似性的度量问 题. 设有两条长度分别为 m常见的序列距离函数 :
计算机研究与发展 Jo urnal of Co mp uter Research and Develop ment
ISSN 100021239ΠCN 1121777ΠTP 47 (2) : 2642276 , 2010
序列数据相似性查询技术研究综述
朱扬勇 戴东波 熊 赟
(复旦大学计算机科学技术学院 上海 200433) (daidongbo @f udan. edu. cn)
1) 序列具有序关系信息 ,这些序关系信息是以 元素位置或时间先后关系来体现. 为了保证查询结 果的质量 ,在选用序列的相似性度量或设计算法时 除了要考虑元素值外 ,还需要考虑元素间的序关系.
2) 序列特征难以抽取和紧凑地表达. 文本一般 用关键单词 ( key wo rd) 来表征其特征 ,而 DNA 序 列或蛋白质序列没有明显的单词概念 ,简单而紧凑 地表达其特征十分困难.
中图法分类号 TP274
收稿日期 :2009 - 01 - 23 ;修回日期 :2009 - 06 - 23 基金项目 :国家自然科学基金项目 (60573093) ; 国家“八六三”高技术研究发展计划基金项目 (2006AA02Z329)
朱扬勇等 :序列数据相似性查询技术研究综述
265
序列数据是一种重要的数据类型 ,在许多应用 领域普遍 存在[123] , 如 文本 中的 单词 ( wo rd) 序列 、 Web 日志文件中的用户访问事件 (access event ) 序 列以及生物数据库中的 DNA 序列和蛋白质序列 等. 序列数据由值元素和对应的序关系两部分组成 , 这两部分信息对分析和挖掘各种序列数据缺一不可.
3) 事件序列 ( event sequence) . 电视和广播所 产生的视频流和音频流以及 Web 上用户的访问序 列等都可看作是事件序列. 此序列所隐含的序信息 是时间序 ,且各序列元素值是某时刻所发生事件的 描述信息 (可用关系模式来表示) .
4) 时间序列 ( time series) . 虽然时间序列的序 信息也是时间序 ,但和事件序列不同的是时间序列 各元素一般是数值类型. 所以 ,时间序列中各元素可 以进行各种数学运算和数学变换 ,如由于 Parseval 定理的保证 ,可以在时间序列上进行 D F T 变换或 FF T 变换等[6] . 时间序列在金融 、天气预报等领域 中普遍存在.
5) 数据流 (data st ream) . 数据流是指高速到达 的数据信息 ,一般是对到达数据一遍扫描且不保存 在本地的方式进行处理和分析[7] . 在保持序信息的 数据流中 ,如文本流 、传感器网络产生的数值流、监测 设备产生的视频流 ,由于数据的高度动态性和数据流 处理方式的苛刻性 ,对这种序列数据的分析一般要综 合数据流处理 、文本处理和视频处理等多种方法.
Abstract Sequence data is ubiquito us in many do mains such as text , Web access log and biological database. Similarit y query in sequence data is a very important means fo r ext racting usef ul informatio n. Recently , wit h t he develop ment of vario us scientific co mp uting and t he generatio n of large scale sequence data , similarit y query o n sequence data is beco ming a hot research topic. So me important issues related to it are : similarit y met rics used in different applicatio n fields and t he mut ual co nnectio ns bet ween t hem ; statistical informatio n of distance dist ributio n o n rando m sequence collectio ns as well as it s f unctio n for analyzing t he performance of query algorit hms ; different kinds of key techniques fo r efficiently answering similarit y queries in large scale dataset s and t he co mpariso ns bet ween t heir merit s and demerit s. In t his survey , t he classificatio n and characteristics of sequence data is summarized. So me kinds of similarit y met rics and statistical informatio n abo ut distance bet ween rando m sequences are al so p resented and t he relatio nship s amo ng t hese similarit y met rics are f urt her analyzed. Then , so me t ypes of similarit y query and key issues in point are int roduced. Based o n t hese fo undatio ns , t his paper focuses o n t he classificatio n and evaluatio n of key techniques o n sequence similarit y search. Finally , so me challenges o n similarit y query of sequence data are discussed and f ut ure research t rends are also summarized. Key words sequence data ; similarit y met ric ; distance dist ributio n ; filtering technique ; similarit y query
根据不同的应用领域 , 序列数据可以分为以下 几类 :
1) 文本 (text) . 各种语言的文本都是单词序列 的集合体 ,在各种电子新闻 、邮件系统和 Web 页面
中广泛存在. 由于文本可以通过分词 (英文等语言不 必分词) 预处理提取有语义的最小构成单元 ,所以文 本一般以单词频率向量来表征其语义特征 ,如 TF2 IDF 加权方法[4] . 但这种方法基本丢失了单词之间 的序信息.
3) 序列一般长度很长 ,且其相似性度量计算很 费时.
因此 ,在海量的序列数据中快速找到所需信息 是一项重要的研究工作. 目前 ,对序列数据进行高效 查询成为研究热点.
1 序列相似性度量及其距离分布的统计信息
1. 1 序列数据的基本概念及其分类 序列数据可以定义如下 :给定字母表 Σ, 一条序
列 S 是 (值 , 序) 信息对的有序链表 , 记作 S = { ( s1 , o1 ) , ( s2 , o2 ) , …, ( sn , on ) } , 其中 , si 是序列 S 的第 i 个元素 值 , 且 si ∈Σ, oi 是元 素 s i 对 应 的 序 信 息 值 (1 ≤i ≤n) . 序列 S 的长度记作| S| , 即| S| = n. 对于 任意的 1 ≤i ≤j ≤n , S [ i , j ] = { ( si , oi ) , …, ( sj , oj ) } 称为序列 S 的子串 ,也称为q2gram ,其中 , q = j - i + 1. 序列 S 所有的 n - q + 1 个 q2gram可以通过在序 列 S 上每次移动一个大小为 q 的窗口来获得. { ( si1 , oi1 ) , ( si2 , oi2 ) , …, ( sik , oik ) } 称为序列 S 的子序列 , 其中 1 ≤I1 ≤I2 ≤…≤Ik , k ≤n. S [ 1 , i ]和 S [ j , n ] (1 ≤i , j ≤n) 分别称为序列 S 的前缀和后缀.
事件序列中元素值可 以是 多种 数据 类型 , 且 序信息是时间序 ,与文本 、生物序列等字符序列本质 不同 ,且时间序列和数据流是属于两个比较独立的 研究领域 ,都有自己独特的模型构建方式和分析方 法 ,本文只对字符序列如文本和生物序列等相似性 查询技术的各个方面进行综述. 如不作特别说明 ,本 文以后论述的序列就是字符序列. 1. 2 序列相似性度量
2) 生物序列 ( biological sequence) . DNA ( RNA) 和蛋白质是最基本的两种生物序列 ,分别由核苷酸 和氨基酸排列组成. DNA 序列的字母表是Σ= { A , G , C , T} ,蛋白质序列的字母表大小为 20. DNA 和 蛋白质可以看作是很长的字串 ,没有明显的“单词” 概念. 生物序列中的 motif (有一定生物学功能的序 列片段) 可以用来表征序列特征 ,但在生物信息领域 寻找 motif 本身就是一个很有挑战的问题[5] ,且不 同序列的 motif 有可能不同 ,这使得抽取生物序列 的特征十分困难.
相关文档
最新文档