第2章之数据库查询与搜索

合集下载

第二章文献信息检索基本知识(2).概要

（大学生or本科生or研究生）-（大专生or高职生） and 就业
（2）截词检索表达式
用截词符号“*”、“？”或“$”加在检索词的前后或中间，以检索一组概念相关或同一词根的词。按截断的位置可分为：
前截断、中间截断、后截断按截断的字符数量可分为：有限截断（？）、无限截断（*）
如：输入检索式“Comput*”，将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果。
第二章信息检索基础知识
2.3 文献信息检索的工具
1、文献信息检索工具概述检索工具是将大量分散无序的文献资料经过加工整理，按照一定的规则和方法编制起来，用来报道、存储和查找文献的工具，是附有检索标识
的某一范围文献条目的集合。
传统的检索工具是人们利用手工方法编制的
工具书，有字典、词典、目录、百科全书、名录、类书、政书、表谱、图录等。这些工具书是人们
题录示例
（3）索引（引得）索引是将书刊内容中所论及的篇名、语词、主题等项目，按照一定的排检方法加以编制，注明出处，供读者查检使用的检索工具。索引与目录的根本区别就在于著录的对象不同，目录所著录的是一个完整的出版单位，索引所著录的则是完整的出版物的某一部分、某一观点、某一知识单元，提高文献检索的深度和检索效率。
完全一致（精确匹配）、任意一致（模糊匹配）
等。
讨论1: 我馆书目查询系统共有多少种检索方式？其基本检索有多少个检索字段?
讨论2： “中国学术期刊网络出版总库”有哪些检索方式？
？
？？中国科技期刊数据库初级检索界面
2、信息检索方法
（1）常用法 ①顺查法 ②倒查法 ③抽查法（2）回溯法（3）循环法

生物信息学概论第二章数据库搜索与两两比对

0 -1 -2 -3 -4 -5 -6 -7 -1
C
-2
T
-3
C
-4
G
-5
1-1=0，表示在横向序列中插入，一个空位，一个空位，然后与纵向序列中比较，的C比较，空位罚分。比较空位罚分-1。 -1+0=-1，表示横向，序列的A与纵向序序列的与纵向序列的C进行比较进行比较，列的进行比较，失配得分0。失配得分。 -2-1=-3，表示在纵，向序列中插入一个空位，空位，然后与横向序列中的A比较比较，序列中的比较，空位罚分-1。空位罚分。 A
除以m 利用每个氨基酸出现的频度对起进行标准化，得到PAM-1矩矩以Aij除以 a 利用每个氨基酸出现的频度对起进行标准化，得到阵中的元素R 阵中的元素 ij
式①中Mab为任意氨基酸b替代a的概率式②中pa为氨基酸a未被替换的概率
100个残基发生一次替换的PAM-1矩阵
针对不同的进化距离采用PAM 矩阵针对不同的进化距离采用
打分矩阵（打分矩阵（Scoring Matrix））
核酸打分矩阵设DNA序列所用的字母表为 Α = { A，C，G，T }
a. 单位矩阵 b. BLAST矩阵 c. 转换-颠换矩阵（transition，transversion）（嘌呤：腺嘌呤A，鸟嘌呤G；嘧啶：胞嘧啶C，胸腺嘧啶T）
单位矩阵 A A T C G 1 0 0 0 T 0 1 0 0 C 0 0 1 0 G 0 0 0 1 A T C G BLAST矩阵矩阵 A 5 T -4 C -4 -4 5 -4 G -4 -4 -4 5 A T C G 转换-颠换矩阵转换颠换矩阵 A 1 -5 -5 -1 T 1 C G -5 -5 -1 -1 -5 -5 -1 1

数据库实验-第二章课后题-SPJ表-SQL数据查询

针对数据库系统概论第四版第二章SQL实现--数据库系统原理表以及数据create table S (SNO varchar(8) not null primary key, SNAME nvarchar(20) unique,STATUS int ,CITY nvarchar(20));create table P (PNO varchar(8) not null primary key, PNAME nvarchar(20),COLOR nvarchar(10),WEIGHT int);create table J(JNO varchar(8) not null primary key, JNAME nvarchar(30),CITY nvarchar(20));create table SPJ (SNO varchar(8),PNO varchar(8),JNO varchar(8),QTY int ,primary key (SNO,PNO,JNO),foreign key (SNO) references S(SNO), foreign key (PNO) references P(PNO), foreign key (JNO) references J(JNO));delete from s;delete from J;delete from P;delete from SPJ;--S表：供应商表；insert into s values('S1','精益',20,'天津'); insert into s values('S2','盛锡',10,'北京'); insert into s values('S3','东方红',30,'北京'); insert into s values('S4','丰泰盛',20,'天津');--P表：零件表：insert into P values('P1','螺母','红',12); insert into P values('P2','螺丝','绿',17); insert into P values('P3','螺丝刀','蓝',14); insert into P values('P4','螺丝刀','红',14); insert into P values('P5','凸轮','蓝',40); insert into P values('P6','齿轮','红',30);--J表：工程项目表：insert into J values('J1','三建','北京'); insert into J values('J2','一汽','长春'); insert into J values('J3','弹簧厂','天津'); insert into J values('J4','造船厂','天津'); insert into J values('J5','机车厂','唐山'); insert into J values('J6','无线电厂','常州'); insert into J values('J7','半导体厂','南京');--SPJ表：供应情况表：insert into SPJ values('S1','P1','J1',200); insert into SPJ values('S1','P1','J3',100); insert into SPJ values('S1','P1','J4',700); insert into SPJ values('S1','P2','J2',100);insert into SPJ values('S2','P3','J1',400); insert into SPJ values('S2','P3','J2',200); insert into SPJ values('S2','P3','J4',500); insert into SPJ values('S2','P3','J5',400); insert into SPJ values('S2','P5','J1',400); insert into SPJ values('S2','P5','J2',100);insert into SPJ values('S3','P1','J1',200); insert into SPJ values('S3','P3','J1',200);insert into SPJ values('S4','P5','J1',100); insert into SPJ values('S4','P6','J3',300); insert into SPJ values('S4','P6','J4',200);insert into SPJ values('S5','P2','J4',100); insert into SPJ values('S5','P3','J1',200);insert into SPJ values('S5','P6','J4',500);insert into SPJ values('S1','P1','J2',5000);--①、求供应工程J1零件的供应商的号码SNO：select distinct SNO '供应商号码'from SPJwhere JNO = 'J1';--②、求供应工程J1零件P1的供应商号码:SNO:select distinct SNO '供应商号码'from SPJwhere JNO = 'J1' and PNO = 'P1';--③、求供应工程J1零件为红色的供应商号码SNO：select distinct SNO '供应商号码'from SPJwhere JNO = 'J1' and exists(select * from P where SPJ.PNO = P.PNO and p.COLOR = '红' );--④、求没有使用天津供应商生产的红色零件的工程号JNO：--select distinct SPJ.SNO from S,P,SPJ where S.SNO = SPJ.SNO and P.PNO = SPJ.PNO and P.COLOR = '红' and S.CITY = '天津';select distinct JNO '工程号'from SPJwhere SNO not in (select distinct SPJ.SNOfrom S,P,SPJwhere S.SNO = SPJ.SNO and P.PNO = SPJ.PNO and P.COLOR = '红' and S.CITY = '天津');--⑤、求至少用了供应商S1供应的所有零件的工程号JNO：--也就是说：不存在一个JNO（工程号）,它S1供应的零件它没有使用。

数据查询与检索

数据查询与检索数据查询与检索是指通过信息系统（如数据库）对大量数据进行快速查找和获取需要的信息的一种技术和方法。

随着科技的发展和数据的爆炸式增长，数据查询与检索在各行各业中起到了至关重要的作用。

本文将介绍数据查询与检索的基本概念、常见的查询与检索方法以及其在实际应用中的应用场景。

一、数据查询与检索的概述数据查询与检索是指通过数据库管理系统（DBMS）或其他信息系统来获取所需数据的过程。

它主要涉及到数据的提取、过滤和排序等操作，以满足用户对数据的需求。

数据查询与检索的目标是提供快速、准确的数据访问和信息提取服务，以支持决策分析和业务运营。

二、常见的查询与检索方法1. 结构化查询语言（SQL）结构化查询语言（Structured Query Language，简称SQL）是一种用于管理关系型数据库的标准化语言。

通过SQL语句，用户可以快速查询和操作数据库中的数据。

SQL具有简单易学、功能强大和跨平台等特点，广泛应用于各种数据库系统。

2. 关键字查询关键字查询是一种基于特定关键词进行的数据查询方式。

用户输入关键词后，系统会根据关键词的匹配程度返回相应的结果。

关键字查询适用于文本检索、搜索引擎和网页检索等领域。

3. 全文检索全文检索是一种通过对文本内容进行分词、索引和匹配来完成数据检索的技术。

与关键字查询不同，全文检索考虑了单词的位置、频率和语义等因素，能够更准确地匹配用户的查询意图。

4. 基于内容的检索基于内容的检索是一种通过分析文档内容的特征和结构来进行数据查询的方法。

它可以根据文档的属性、关键词和语义等信息对数据进行分类和匹配，实现精确的检索结果。

三、数据查询与检索的应用场景1. 电子商务在电子商务领域，数据查询与检索用于商品搜索、库存管理和订单跟踪等业务。

用户可以通过关键字查询或基于内容的检索找到需要的商品信息，并实时获取库存状态和物流信息。

2. 银行与金融银行与金融机构需要对大量的客户数据进行查询与分析。

实验二数据查询与索引

实验⼆数据查询与索引实验⼆数据查询与索引实验2.1 数据查询⼀、实验⽬的1．掌握利⽤T-SQL语⾔对数据库数据进⾏查询的⽅法，包括简单查询、多表连接查询以及嵌套查询。

2.理解在数据库表中对数据的NULL值的处理⽅式。

3.掌握T-SQL集合运算。

⼆、实验内容对提供的数据库LibraryLib，按以下要求进⾏查询操作：1.查询图书价格在15～30元之间的所有图书的书名、书号、出版⽇期、价格和库存册书，且结果按书号进⾏升序排列。

2.查询图书名称中包含“计算机”的所有图书信息。

3．查询借书应归还⽇期在2009年8⽉1⽇前的⽤户帐户。

4.找出还没有联系电话的出版社信息。

5.查询所有图书的平均价格。

6.查询各个出版社的图书的平均价格。

7.查询已经归还且超期图书数⾄少超过2本的借书证号及其超期图书总数。

8.查询库存册数低于10的图书书名、库存数和其出版该图书的出版社名称。

9．查询⼀年相同⽉份⾥出版的不同图书的书名、出版⽇期和出版社标识。

10.查询⽤户信息和该⽤户的借出图书标识、应归还⽇期。

如果该⽤户没有借阅图书，只显⽰该⽤户信息。

11.查询借阅了“清华⼤学出版社”出版的图书且尚未归还的⽤户总⼈数。

12.查询借阅了书名包含“Delphi”和“编程”的图书且还未归还这些图书的⽤户姓名、图书名、应归还⽇期。

13.查询借阅图书应归还⽇期为“2009年8⽉1⽇”前且库存册数⼩于10的图书的⽤户姓名、所在的院系、联系电话、借阅图书的出版社名称、书名。

14.找出和书号为“730200899X”的图书有相同购书数量的图书名称、书号、出版社标识和图书价格。

15、查询图书价格⾼于出版该图书的出版社的所有图书平均价格的图书名称、出版社标识和图书价格。

16.查询在书库中的从来没有被读者借阅过的图书信息。

17.查询有图书价格⼤于或等于标识为“2”的出版社的所有图书价格的出版社标识。

18.查询每⼀本图书的书名、图书书号、出版社标识、图书价格及该图书书号的前⼀个书号。

数据库检索与网络检索(第2篇)

•
第四章
电子图书及报纸的检索与利用
（四）电子图书的作用 1.电子对图书馆资源建设的价值作为馆藏资源的一部分与纸质馆藏形成互补 2.电子图书对读者的利用价值解决纸质图书的复本少的问题方便检索和下载 (五)电子图书的发展趋势
第四章
电子图书及报纸的检索与利用
二、国内主要的数字图书馆介绍
（一）超星数字图书馆本馆镜像：http://192.168.103.57:8000/ 中心网站：/ （二）书生数字图书馆中心网站：/ (三)方正（Apabi）数字图书馆中心网站：/
1.清华同方CNKI数据库
1.2《 1.2《中国优秀硕士学位论文全文数据库》
简介：《中国优秀硕士学位论文全文数据库》简称 CMFD，是国内内容最全、质量最高、出版周期最短、数据最规范、最实用的硕士学位论文全文数据库。出版内容：覆盖基础科学、工程技术、农业、哲学、医学、哲学、人文、社会科学等各个领域。截止至2010年10月，收录来自561家培养单位的优秀硕士学位论文107多万篇。资源特色：重点收录985、211高校、中国科学院、社会科学院等重点院校高校的优秀硕士论文、重要特色学科如通信、军事学、中医药等专业的优秀硕士论文。专辑专题：产品分为十大专辑：基础科学、工程科技Ⅰ、工程科技Ⅱ、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ、社会科学Ⅱ、信息科技、经济与管理科学。十大专辑下分为168个专题。 •收录年限：从1984年至今的硕士学位论文。产品形式：WEB版（网上包库）、镜像站版、光盘版、流量计费。出版时间： 1、中心网站版、网络镜像版，每工作日出版，法定节假日（春节假日一般为15天，每年假日前10天公布起止日期）除外。 2、镜像版、光盘版，每月10日出版。
第二节

第2章数据库的基本操作-PPT精品

1. 确定新建数据库所要完成任务的目的
设计Access数据库的第一个步骤是确定新建数据库所要完成任务的目的。用户需要明确希望从数据库得到什么信息，数据库开发人员应该首先与用户进行充分交流，讨论需要解决的问题，并描述需要生成的报表，同时需要收集当前用于记录数据的表格。
3
在有条件的情况下，也可以参考某个设计得很好且与当前要设计的数据库相似的数据库。
12
图2.3
13
图2.4
14
(5) 选择完毕之后，单击“下一步”按钮，屏幕上出现下一个“数据库向导”对话框（如图2.5所示）。在该对话框中，向导要求用户选择一种窗体显示外观的样式，包括背景、输入字段形状等。向导提供了10种样式，如果在某种样式上单击，则在样式列表左方的预览窗口中会显示出所选择样式的模拟显示图，在这里我们选择“国际”样式，在左侧预览窗口中可以看到其效果。
在这里选择数据库存放的位置，并输入所要创建
的数据库的名称，然后单击“创建”按钮。
9
图2.1 10
图2.2
11
此时Access就以所选模板为基础创建了一个数据库。接着 Access 打开新创建的数据库，并进入 “数据库向导”对话框（如图2.3所示），在该对话框中显示出该数据库可以存储的信息范围，如 “讲座管理”数据库可以存储讲座信息、讲座参加者信息、讲座报名信息、雇员信息和讲座价格信息等。
图2.16
37
打开控制菜单盒后，就可以从中选择需要的命令。在图2.16所示的Access系统的控制菜单中，有下述命令：
还原：恢复应用程序窗口原来的大小；移动：移动应用程序窗口的位置；大小：改变应用程序窗口的大小；最小化：将应用程序窗口以图标方式显示；

数据库第2章2.1-2.3

候选码主码Fra bibliotek有意义的关系及其值：
导师专业研究生姓名研究生学号 1001 1002 1003
张清玫信息专业李勇张清玫信息专业刘晨刘逸信息专业王敏
关系（续）
2) 关系的表示
关系也是一个二维表，表的每行对应一个元组，表的每列对应一个域（属性）。
表 2.2 SAP 关系
SUPERVISOR 张清玫张清玫刘逸 SPECIALITY 信息专业信息专业信息专业 POSTGRADUATE 李勇刘晨王敏
是型
是值关系模式是对关系的描述
数据库系统型与值的概念
5) 基本关系的性质
① 同列同质性，不同列可同域，不同名 ② 主码唯一性 ③ 行列无序性 ④ 分量原子性
2.1 关系数据结构
2.1.1 关系
2.1.2 关系模式 2.1.3 关系数据库
2.1.2 关系模式
1．什么是关系模式 2．定义关系模式
3. 关系模式与关系
1．什么是关系模式
关系模式关系
第二章关系数据库
2.1 2.2 2.3 2.4 2.5 关系数据结构及形式化定义关系操作关系的完整性关系代数小结
第二章关系数据库
2.1 2.2 2.3 2.4 2.5 关系数据结构及形式化定义关系操作关系的完整性关系代数小结
2.1 关系数据结构

关系数据库系统是支持关系模型的数据库系统关系模型的三大组成部分关系数据结构关系操作集合关系完整性约束
4）对关系的几点说明
笛卡尔积不满足交换律，即
(d1，d2，…，dn )≠(d2，d1，…，dn ) 但关系附加的属性名使得关系满足交换律，（d1，d2, …，di，dj ,…，dn）= （d1, d2, …，dj，di ，…，dn）（ i ， j = 1 ， 2 ， …， n ）例如 : （学号，姓名，性别，年龄）＝（学号，姓名，年龄，性别）

第2章数据库基础知识

转换
机器世界 DBMS 支持的数据模型
图2-5 现实世界中客观对象的抽象过程
2.5.1 数据模型的三要素
数据模型是模型中的一种，是对现实世界数据特征的抽象，它描述了系统的３个方面：静态特性、动态特性和完整性约束条件。因此数据模型一般由数据结构、数据操作和数据完整性约束３部分组成，是严格定义的一组概念的集合。
2.3.2 两级模式映射及数据独立性
2. 模式／内模式映射数据库中只有一个模式，也只有一个内模式，所以模式／内模式映像只有一个，它定义数据的全局逻辑结构与存储结构之间的对应关系。例如，说明逻辑记录和字段在内部是如何表示的．该映像定义通常包含在模式描述部分。当数据库的存储结构改变了（例如选用了另一种存储结构），由数据库管理员对模式/内模式映象作相应改变，可以使模式保持不变，从而应用程序也不必改变。保证了数据与程序的物理独立性，简称数据的物理独立性。
2.5.2 概念模型
多对多联系（m:n）
如果对于实体集A中的每一个实体，实体集B中有n个实体（n>=0）与之联系，反之, 对于实体集B中的每一个实体，实体集A中也有m（m>=0）个实体与之联系。则称实体集A和实体集B具有多对多联系，记为m：n。例如，有如学生与课程、商品与顾客等都是多对多联系。
2.5.4 层次模型
层次模型是数据库系统中最早出现的数据模型，它用树形结构表示各类实体以及实体间的联系。层次模型数据库系统的典型代表是IBM公司的IMS （Information Management System）数据库管理系统，这是一个曾经广泛使用的数据库管理系统。层次模型用树形结构来表示各类实体以及实体间的联系。现实世界中许多实体之间的联系本来就呈现出一种很自然的层次关系，如行政关系、家族关系等。

第2章数据库的基本操作知识要点

《Access 2003应用基础》第二章数据库的基本操作知识要点【复习目标】1.掌握数据库创建的方法；2.掌握数据库打开和关闭方法；3.掌握数据库转换的方法；【知识要点】表、查询、窗体、报表、页、宏、模板1、表：表是数据库中用来存储数据的对象，它是整个数据库系统的数据源，也是数据库其他对象的基础。

2、查询：也是一个“表”，是以表位基础的数据源的“虚表”。

查询可以从表中检索数据，但并不保存数据。

它常作为数据库其他对象的数据来源。

3、窗体：窗体就是屏幕的工作窗口，是在数据库操作过程中，无时不在的数据库对象。

窗体可以用来控制数据库应用系统流程，可以接收用户信息，可以完成对数据表或查询中的数据进行输入、编辑、删除等操作。

4、报表：报表时数据库中数据输出的另一种形式。

它不仅可以将数据库中的数据进行分析、处理的结果通过打印机输出，还可以对药输出的胡数据完成分类小计、分组汇总等操作。

在数据库管理系统中，使用报表会使数据处理的结果多样化。

5、页：页也就是数据访问页，是一种特殊的数据库对象，它可以实现internet与用户数据库中的数据互相访问。

6、宏：宏是数据库中另一种特殊的数据库对象，它是一个或多个操作命令的集合，其中每个命令实现一个特点的操作。

7、模块：是有VBA程序设计语言编写的程序集合，或一个函数过程。

它通过嵌入在Access中的VBA程序设计语言编辑器实现与ACCESS的完美结合。

以上数据库对象中，除了数据访问页可以保存为单独的文件外，其他数据库对象都保存在数据库文件中。

【一、选择对象】1、选择对象：要对数据库某个对象进行操作，先单击对象类型列表中的选项，在单击详细窗格中的对象名，即可选择该对象。

2、对象的进一步操作：“数据库”窗口中，选中数据库对象后可以通过“打开”按钮处理现有对象，“设计”按钮可以修改现有对象，也可以通过“新建”按钮创建新对象。

3、改变“数据库”窗口外观：包括“大图标”、“小图标”、“列表”、“详细”命令按钮。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

格式：XXX [限定词] Entrez系统所用的部分限定字段及相应的GenBank参数说明
29
举例： human[orgn] AND 50:60[slen] AND 2004[MDAT]
30
31
④ 检索范围限定
检索范围的上限与下限用冒号‘：’分开，
格式：XX ：YY［限定词］如3000：4000[SLEN]，表示序列长度在3000到4000之间。
寻找相似序列有哪些方法呢？ Blast搜索工具，FastA工具，Vast相似结构搜索工具
58
遗传密码表
符号
G A T C R Y
含义
G A T C G or A T or C
说明
Guanine Adenine Thymine Cytosine Purine Pyrimidine
M
K S W H B V
基因组和基因图谱及著名的PubMed文献信息等有机地整合在一起。
网址：/Entrez/
22
Entrez主页
23
Entrez特点 Entrez既可以进行全数据库查询，又可从单一数据库开始，然后再从所得查询结果中获得相关的其它数据库的链接，这种方式称为交叉引用。
注意文献的注录格式！
8
利用好两个外文搜索引掣
Google: / Yahoo: /
9
10
2）扬大图书馆也有多个外文献数据库 Foreign bibliographic database （WOS、Elsevier Science、Cell Press、Springer-link、Medline等）
27
② 相邻或短语检索（adjacency searching and phase searching)：
如检索词： 16S RNA
1）默认状态下检索结果同16S AND RNA
2)若作为一个短语检索，则应加双引号“16S RNA ”
28
③ 检索入口设定：利用[ ] 对检索词进行限定，缩小检索范围
11
WOS
12
Elsevier
13
Cell Press
IF：31.152
14
3）利用NCBI网站中的PubMed和PMC查找文献
15
查询有关德国科学家在结核杆菌（Mycobacterium Tuberculosis）方面于2008年发表的文章。利用Advanced search 中的Affiliation限定Germany
同源性（Homology）：指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论，属于质的判断。
二者区别与联系
1 用相似性来判断同源性，但具有相似性不一定具有同源性。
2 相似性高的序列不一定是同源性序列，判断同源性还需要实验证实。
61
局部相似性：是指序列比对过程中仅考虑部分序列区域的相似性。
蛋白质功能位点往往由较短的序列片段组成，这些序列往往具有较高的保守性。局部比对比整体比对具有更高的灵敏度，其结果也更具生物学意义。
全局相似性：是指序列比对过程中从全长序列出发考虑序列整体的相似性。
整体比对适用于相似度较高且长度相近的序列。实际应用中整体比对获得的结果往往不能反映实际的生物学意义。
62
序列比对(Alignment)
1）序列对数据库的比对
三种基本类型
2）双序列比对(pairwise alignment):比较两条序
列，判断其相似程度的过程 3）多重序列比对(multiple alignment):同时比较多条序列，判断其相似程度的过程
序列比对的基本思想，是找出检测序列和目标序列的相似性。
Mueller, L.N., Brusniak, M.Y., Mani, D.R., Aebersold, R. Anassessment of software solutions for the analysis of mass spectrometrybased quantitative proteomics data. J. Proteome Res.2008, 7: 51-61.
2 目的不同
查询目的：获得感兴趣的序列或结构基本信息。
搜索目的：从获得的数据库序列推测未知序列的信息与功能
5
二、文献检索方法
1 中文文献(Chinese bibliographic database)
主要三个中文献数据库（清华同方、重庆维普、万方）
6
7
2 外文文献
1)如何快速找到具体的一篇文献？
66
PAM矩阵--基于进化的点突变模型这类矩阵基于进化原理的证据：编码相同蛋白质的基因随着进化发生分歧，相似度降低。
•特点：
1）科学 2）应用广泛
应用：
实践中应用最多且比较折中的矩阵是PAM250
67
BLOSUM 62（模块氨基酸替换矩阵）
模块是从500多个蛋白质家族的数据库Prosite提炼出来的
数据库之间联系的类型有两种：相近性和硬连接
相近性，又称为“邻域”，它联系着一个数据库之内的记录。它又分为：序列相近性，结构相近性和文献相近性。
24
硬连接：
硬连接用于联系不同数据库中的条目，只要这些条目之间存在逻辑联系，就存在硬连接。作者文章基因或蛋白数据库结构数据库
25
2）查询策略(retrieval strategy) 查询要点之一(First)：两个基本检索窗口(two basic retrieval windows) 下拉菜单窗口：选择查询子库关键词输入窗口：用于输入查询关键词或词组
50
（1）快速查询（Quick Search）[默认状态]
51
（2）标准查询（Standard Search）[选择Library Page以后可进行]
52
AND（＆）；OR（|）；NOT（！）
53
（3）扩展查询（Standard Search）
54
（4）全库检索后，利用Refine在初次检索结果中进行二次查询。
•与Entrez差不多，既可查询序列数据库，也可以检索 Medline文献数据库
49
2） SRS系统使用方法三种查询方法：Quick search, standard query form, extended query form
选择查询数据库
选择查询方式
点击Search
获得查询结果
SRS数据库检索基本路线
D
N
G or A or T
G or A or T or C
not-C
Any 59
氨基酸字母表
60
一、基本概念
相似性（Similarity）：是指序列比对过程中用来描述查询序列与目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。是一个可定量指标。
三层含义：序列相似，氨基酸残基特性相似，结构相似
48
2、SRS查询系统
1）简介 SRS，是Sequence Retrieval System的缩写。
由欧洲分子生物信息学实验室开发管理，是目前欧洲各国主要生物信息中心必备的数据库查询系统。
/
特点：
• 是一个开放的数据库查询系统，即不同的SRS查询系统可根据需要安装不同的数据库。
32
⑤ 使用作者检索
格式：last name firstname［限定词］
如Johnson D[AUTH]
33
⑥ 模糊检索
就是用不完整的字词加“*”进行检索格式：XX*[限定词] 如：bac*[orgn]
34
查询要点之三：利用子库之间的交叉引用进行信息查询
35
查询要点之四：巧用Display+Send to 结果显示选项
68
2、空位罚分体系(gap costs)
目的：空位的引入是为了补偿插入和缺失突变对序列相似性的影响，但不能太多。缺点：空位罚分体系目前尚缺乏理论依据（theoretical basis ），而更多地带有主观色彩（subjective ）。
1)免费申请一个my NCBI 2)将查询结果保存至my NCBI
3）每一次查询结果都有一个文件名
42
查询结果
保存结果
43
44
45
查询要点之七：批处理查询
将获得的一系列不相关的序列的接受号或GI号存入一个文本文件，然后上传给Entrez批处理系统，即可查询获得查询结果。
46
47
文本文件中序列号排列形式
A or C
G or T G or C A or T A or C or T G or T or C G or C or A
Amino
Keto Strong interaction (3 H bonds) Weak interaction (2 H bonds) Not-G not-A not-T(not-U)
数据库搜索(search)：是指通过特定的序列相似性
比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。也称为数据库比
对。
4
区别：1 手段不同
查询手段：主要是通过关键词或词组 (Text-based database searching)
搜索手段：主要是通过序列
(Sequence-based database se 相似的结构，相似的功能判别序列之间的同源性
推测序列之间的进化关系
64
二、序列比对的得分系统(Scoring Parameters ) 1、打分矩阵（Weight Matrices）
（1）核酸打分矩阵
等价矩阵表 BLAST矩阵
65
（2）氨基酸打分矩阵
1 等价矩阵 2 氨基酸突变代价矩阵GCM 3 疏水矩阵 4 PAM矩阵（Point Accepted Mutation） 5 BLOSUM矩阵（模块氨基酸替换矩阵）（Blocks Amino Acid Substitution Matrices）