分子生物学数据库
分子生物学数据库---计算生物学的摇篮

分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。
人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。
在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。
针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,计算生物学和生物信息学应运而生。
计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。
总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。
生物信息学第三章分子生物信息数据库

同源蛋白家族数据库Pfam
同源蛋白结构域数据库Blocks
二次数据库的种类
3. 以具有特殊功能的蛋白质为基础:
免疫球蛋白数据库Kabat 蛋白激酶数据库PKinase
4. 以三维结构原子坐标为基础:
蛋白质二级结构构象参数数据库DSSP 已知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白数据库HSSP
二次数据库 1. 容量小,更新速度较慢,可以不用大型商
业数据库软件支持。 2. 许多二次库的开发基于Web浏览器。其优
点是使用方便,使用者不需要有丰富的计 算机专业知识。
DBCat
由法国生物信息研究中心Infobiogen建立维护。 DBCat(Database Catalog,生物信息数据库目录)
搜集了500多个数据库的名称、内容、数据格式、联 系地址、网址等详细信息。 DBCat按DNA、RNA、蛋白质、基因图谱、结构、 文献等分类,其中大部分数据库可以免费下载。
MetaBase
MetaBase是一个生物学数据库清单, 目前收集了1799个不同的数据库,可 直接输入数据库名称进行搜索,也可 以浏览目录。
计算机数据管理技 术广泛应用
分子生物学数据库建立并不断发展, 成为相关研究的主要数据来源和数据
交换手段。
➢计算机网络的发展和互联网在全球的普及, 为分子生物信息数据库的利用开辟了广阔 的前景。
➢测序中心和生物学家得到的各种生物学数 据都可以通过互联网直接向国际数据中心 递交。
分子生物信息数据库的种类
The databases are described in a semistructured way by using templates and entries can carry various user comments and annotations.
生物分子信息数据库

第4章生物分子数据库国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。
这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。
4.1 引言建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。
生物分子信息分析已经成为分子生物学研究必备的一种方法。
如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。
数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。
数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。
对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。
例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。
分子生物学相关数据库

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。
EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。
EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。
核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。
第二章 生物分子数据库

数据主要来源于全世界不同实验室和大规模测序
计划项目 大约12%来源于Homo sapiens 排列前6的物种:Homo sapiens、Mus musculus、 Rattus norvegicus、Bos taurus、Zea mays、Danio rerio (zebrafish)
GenBank核酸序列格式
一、NCBI简介/GenBank数据库
• GenBank 由 美 国 国 家 医 学 图 书 馆 的 国 家 生 物 技 术 信 息 中 心 (NCBI)构建、维护和管理, NCBI位于美国马里兰国家健康研究 所(NIH)。GenBank数据库的序列数据来源于序列发现者提 交的序列、批量提交的表达序列标签(expressed sequence tag,
3、蛋白质三维结构数据库
显示分子结构(RasMol , ChemView )
4、miRNA数据库
miRNA gene
转录RNA
microRNA (miRNA)的形成
折叠形成 pri-miRNA
pre-miRNA
miRNA
RISC携带 有活性的miRNA
Science 309:1522 (2005)
第二节 核酸序列数据库
国际上权威的核酸序列数据库
(1)欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank /Web/Genbank/index. html (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/
Ensembl 数据库结构图
2、表达序列标签数据库dbEST
dbEST (/dbEST ) 是
生命科学中最常用的5个数据库介绍

生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
生物分子数据库

1995年,流感嗜血杆菌的基因组DNA信息被破解,它具有1738个ORF,其中包含1473个具有重要功能的基因。
人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6500个基因被测序出来,这是第一个完成测序的真核生物完整基因组;从1980年代中期开始的线虫基因组测序工作,于1998年完成,这是人类获得了第一个多细胞生物的基因组,了解到它含有19100个基因,并发现其中的1/3基因与哺乳动物的相似;2000年,果蝇的基因组信息被破解,它有13600个基因。
通过基因序列比对,发现289个与人类疾病有关的基因中的60%在果蝇中找到了相近的匹配序列。
这意味着果蝇将是一种很好的研究人类疾病的模式生物;2000年,拟南芥的基因组DNA被测序出来,它有1.16亿个碱基对,编码大约26000个基因。
2002年,由中国科学家主持并完成了水稻基因组测序任务,研究结果表明水稻基因组仅有约4.4亿碱基对,编码32000个基因。
启动于1990年的人类基因组计划,到2003年其99.9%的人类基因组序列都被精确地绘图。
在获得了如此多的核酸信息后,包括蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等蛋白质信息也可以随之获得。
面对如此大量的信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,生物信息学应运而生。
该学科应用数学的和计算机的科学方法来处理海量的生物学数据并进行计算和分析。
主要工作包括生物学信息的采集、储存、分析处理和可视化等方面。
第一章生物分子数据库如今,生物信息学已成为生命科学最为活跃的研究领域之一。
NCBI分子生物学数据库应用简介

Nucleotide 包含: • 所有的核苷酸及蛋白质序列 • 与之相关的生物学信息 • 参考文献
二 . Genome
即基因组数据库,提供 了多种基因组、完全染色体、 临近序列图谱以及一体化基 因物理图谱。
三. Structures
即结构数据库或称分子模型 数 据 库 〔MMDB〕 , 包 含 来 自 X 线晶体学和三维结构的实验数据。 MMDB 的 数 据 从 PDB〔Protein Data Bank〕获得。
3. 向GenBank递交数据
GenBank数据的一个主要来源是通过 作者直接递交;目前许多期刊也希望刊 登的 文章中的DNA或氨基酸序列能在发 表前输入数据库。
NCBI为此设计了方便、快捷的数 据递交软 件:
BankIt: 直接通过WWW进行简便、快 捷的递交。
Sequin:
可供MAC、PC\Windows、UNIX 用户使用的递交软件,可输入有关 数据的详细资料。
四. Taxonomy
即生物学门类数据库,可 以按生物学门类进行检索或浏 览其核苷酸序列、蛋白质序列、 结构等。
五. PopSet
包含研究一个人群、一个种 系发生或描述人群变化的一组组 联合序列。PopSet既包含核酸序 列数据又包含蛋白质序列数据。
六. OMIM
孟德尔遗传学(OMIM)数据库是人类 基因和基因疾病的目录数据库。该数据 库包括原文信息、图片和参考信息,同 时还可以链接到Entrez系统MEDLINE数 据库中相关文献和序列信息。
…………..
2. BLAST相似性检索系统
BLAST 〔Basic Local Alignment Search Tool〕
是用于序列相似性检索的一个重要数 据库,是区分基因和基因特征的工具。 该软件能在15秒内完成整个DNA数据库 的序列检索。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接
EMBL中的数据分类情况(单位:Gigabases) (EST-Expressed sequence tags; STS-sequence tagged sites) (取自/Services/DBStats/)
21 Mar 2003 37,943,364,438 bases in 24,353,128 records.
2、基因组数据库(GDB)
--人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述: 人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易 碎位点、 EST、综合区域、contigs、重复等; 人类基因组图谱 包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图 谱、集成图谱,所有这些图谱都可以被直观地显示出来; 人类基因组中的变化 包括基因突变和基因多态性,加上等位基因频率数据。
文件体由序列本身所组成,由“SQ”标志的行开始。
序列结束的标记是“//”。
登录号
日期
序列 描述
关键词
物种
编号
题目
页码 作者
分类信息
出 处
特征开始符号
特征表行
文件体
提交数据
编辑电子表格 利用Authorin程序 利用基于WWW网络环境的序列提交系 统
使用EMBL
(1)CD-ROM形式 (2)ftp服务器 (3)Gopher服务器
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表 达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。
PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。
6、面向基因聚类数据库UniGene
UniGene( /UniG ene/) 数据库将GenBank中的序列进行自动分类,形成 面向基因群的非冗余集合。 每个UniGene群包含:
代表一个唯一基因的多个序列,附有该基因相关的信息,如 基因表达的组织类型、定位图谱 除了基因的序列之外,还包括大量的EST序列。 目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据, 因为这些生物有大量的EST数据。
EMBL核酸数据库中的每一个序列数据被赋予一个
登录号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示,而 每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上 对应于一个序列的注释(annotation)
“ID”为序列的标识符行,包括登录号、类型,分子的长度
与 染 色 体 相 关 的 信 息
其它模式生物基因组数据库
如:鼠基因组数据库 MGD / 酵母基因组数据库 SGD
/Saccharomyces/
3、人类基因组数据库Ensembl
(2)数据库使用频率增长更快
(3)数据库的复杂程度不断增加
(4)数据库网络化
(5)面向应用
(6)先进的软硬件配置
生物分子数据库
一级数据库
数据库中的数据直接来源于实验获得的原始数 据,只经过简单的归类整理和注释
二级数据库
对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础 上针对特定的应用目标而建立的 。
TrEMBL (/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。 包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的 蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库 中。 TrEMBL有两个部分: SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到SWISS-PROT的数据,所有的SPTrEMBL 序列都已被赋予SWISS-PROT的登录号。 REM-TrEMBL(REMaining TrEMBL) 包括所有不准备放入SWISS-PROT的数据,因此这部分 数据都没有登录号。
• 提交序列数据
(a)编辑电子表格 (b) 利用Authorin程序 (c)WWW服务器
• 使用SWISS-PROT
(a)CD-ROM形式 (b)ftp服务器 (c)Gopher服务器 (d)WWW服务器(SRS)
• 与序列相关的操作
(a)序列查询 (b)搜索同源蛋白质序列
3、TrEMBL
Ensembl (/)
Ensembl包括所有公开的人类基因组DNA序列,通过注释 形成的关于序列的特征。 现在包括其他基因组,如大鼠、 小鼠、线虫、果蝇等。 例如:基因 通过实验发现的 或者是通过GenScan程序预测的 其他的特征: 单核苷酸多态性(SNP)、重复序列等
WEB页面或email FTP
有关EST的数据 dbEST数据库
5、序列标记位点数据库dbSTS
STS(Sequence Tagged Sites)是序列标记位 点 dbSTS (/dbSTS/) 是NCBI的一个数据源,包含基因组短标记序列 (STS) 的组成和定位信息。 可以通过BLAST搜索STS序列。
第二节 核酸序列数据库
国际上权威的核酸序列数据库
(1)欧洲分子生物学实验室的EMBL
http://www.embl-heidelberg.de
(2)美国生物技术信息中心的GenBank (3)日本遗传研究所的DDBJ
http://www.ddbj.nig.ac.jp/
/Web/Genbank/index.html
例如: 登录号为J00231的核酸序列具有这样一个交叉索引行: DR SWISS-PROT:P01860;GC3_HUMAN
(2)核酸同源性搜索
3W服务器支持用户使用FastA或BLAST 程序进行核酸同源搜索。 FastA和BLAST根据给定的目标序列在数 据库中搜索其同源序列。 其他:SRS序列查询服务
SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据
SWISS-PROT有三个明显的特点 注释 最小冗余 与其它数据库的连接
(1)注释
在SWISS-PROT中,数据分为核心数据和注释两大类。 核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描 述) 注释包括: a) 蛋白质的功能描述; b) 翻译后修饰; c) 域和功能位点,如钙结合区域、ATP结合位点等; d) 蛋白质的二级结构; e) 蛋白质的四级结构,如同构二聚体、异构三聚体等; f) 与其它蛋白质的相似性; g) 由于缺乏该蛋白质而引起的疾病; h) 序列的矛盾、变化等。
“AC”为登录号行; “XX”为分隔符号行; “DT”为创建和更新日期行 “DE”为序列描述行; “KW”为关键字行; “OG”行描述细胞组织; “OS”行描述生物体种属; “OC”行描述生物体分类信息; “RN”描述参考文献的编号; “RP”描述参考文献的页码; “RA”描述参考文献的作者; “RT”描述参考文献的题目; “RL”描述参考文献的出处; “RC”描述参考文献的注解; “RX”、“DR”行描述交叉引用信息; “FH” 为特征开始符号; “FT”为特征表行 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息;
第三节 蛋白质序列数据库
1、PIR(Protein Information Resource)
目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。 所有序列数据都经过整理,超过99%的序列 已按蛋白质家族分类,一半以上还按蛋白质超 家族进行了分类。