大数据的分类挖掘优化技术-文档资料
大数据处理:大数据概述

大数据处理:大数据概述大数据处理:大数据概述一、引言大数据处理是指在处理海量数据时,采用适当的工具和技术,以有效地存储、管理、分析和应用这些数据。
随着互联网的快速发展和各种传感器技术的普及,大数据已经成为了当代社会中不可忽视的重要资源。
本文将介绍大数据的概念、特征、处理流程以及应用等方面。
二、大数据概念⒈定义大数据是指由传感器、网络、社交媒体等各种渠道产生的体量巨大、复杂多样、高速增长的数据集。
这些数据集通常无法使用传统的数据库管理系统来处理,需要采用新的技术和方法来进行存储、管理和分析。
⒉特征大数据具有以下几个特征:- 体量巨大:大数据的存储量通常以TB、PB甚至EB为单位。
- 多样性:大数据包含结构化数据(如数据库表格)、半结构化数据(如日志文件)和非结构化数据(如文本、图像等)。
- 高速增长:大数据的存储量每年呈指数级增长。
- 价值密度低:大数据中只有一小部分数据对业务决策具有重要价值。
三、大数据处理流程⒈数据采集大数据处理流程的第一步是数据采集。
数据采集可以通过各种传感器、日志文件、网络爬虫等手段获取。
采集到的数据可以直接存储在分布式文件系统中,比如Hadoop的HDFS。
⒉数据存储与管理数据存储与管理是大数据处理的核心环节。
传统的关系型数据库无法满足大数据处理的需求,因此需采用分布式数据库、NoSQL 数据库等新兴技术。
常用的大数据存储与管理系统有Hadoop、Cassandra等。
⒊数据预处理在进行数据分析之前,先对原始数据进行预处理是很重要的。
数据预处理包括数据清洗、数据变换、数据归约等操作,以保证数据质量和提高后续分析的效果。
⒋数据分析与挖掘数据分析与挖掘是大数据处理的核心环节。
通过应用各种算法和模型,对大数据进行统计分析、机器学习、数据挖掘等操作,以发现数据中隐藏的规律和趋势,并提供有价值的信息。
⒌数据应用与可视化数据分析的结果可以应用到各个领域,如金融、医疗、交通等,进行业务决策和优化。
大数据与专利挖掘(精品文档)

• 通信领域H04L,2012-2014共授权 29,599篇,其中平均专利度为11.72,平 均特征度为28.45; • 按特征度分组,20/19/18/17/21个特征 度为最多,其中20特征度的平均专利度 13.39; • 我们分析,29,599篇授权中,有1,296篇 的专利度为1,都是高校;
质量控制,关注纂写这 些专利的代理
质量控制,关注纂写这 些专利的代理
现有专利质量管理:
今天u1,u2申请x1,x2篇,3年后u1驳回、撤回率都高于u2,只能换 u1,但申请人的申请全报废了; Patentics专利质量管理: 今天u1代理申请x1篇专利度为m1,特征度为n1,u2代理申请x2篇专 利度为m2,特征度为n2的专利,其中m2>m1,n2<n1,而且,m2, n2都优于行业(IPC小组)标准,m1,n1都低于行业(IPC小组)标准,u2 优于u1,考虑接受u2,要求u1重新返工,直至合格为止;
专利度1的无 效率比正常 高出22倍
SONY-top3-apd-acc
专利度1的无 效率为正常 一倍
2005,SONY 申请出废品
精确量化世界专利质量
• 大数据分析,我们发现2个指标可精确量化评估专利 质量,
• 专利度:申请保护专利权个数,为越大越好; • 特征度:技术限制特征数,为越小越好;
• 其中,特征度是根据Patentics语义模型计算获得,
• 按36.5%授权率,估计43,265篇将被授权;
2011-2014专利度为1的国内申请分析
•专利度为1申请文本:17,475篇、特征度43.12; •专利度为1授权文本 :17,339篇、特征度45.65; •专利度为5申请文本:23,309篇、特征度25.20;
大数据智能分析与数据挖掘研究

实用第一f智慧密集BSBaSEIEieSI3l3BBI3SeSBI3BBEIISBBBI3BI9@SI3eSI3aBeEISeBBei3iaEIBBeBI3BaEIEII3SS@ieEl®大数据智能分析与数据挖掘研究龙虎,彭志勇(凯里学院,贵州凯里556011)摘要:大数据智能分析与数据挖掘是从海量数据中提取更加本质和更加有用的规律性信息的重要手段,是挖掘智能和有价值信息的重要抓手。
通过运用文献研究法和系统法,对大数据智能分析与大数据挖掘进行了阐述,给出大数据智能分析涉及到的关键技术,对其关键技术进行了阐述,提出大数据挖掘方法、类型、工具和流程及应用,并阐明大数据挖掘中使用的关键技术,希望能为大数据智能分析以及大数据挖掘的研究者提供借鉴。
关键词:大数据;智能分析;数据挖掘大数据时代,随着5G移动技术、在线学习、机器学习和云计算、移动计算、分布式计算、并行计算、批处理计算、边缘计算、流计算、图计算以及区块链等新技术不断涌现,教育、科研、医疗、通信和电商等多个领域数据量的增加呈现出几何指数增长的态势,激增的海量数据背后隐藏着许多有价值的信息,如何对其进行更加智能的分析,以便更好地利用这些数据,挖掘出海量数据隐藏的有价值的信息,是当前研究的热点问题。
海量数据的分析与挖掘变得越来越复杂,如何对这些海量数据进行有效挖掘,特别是如何从这些数据中归纳和提取更加本质的和更加有用的规律性信息,就成了当前研究的一个重要课题。
当前,大数据已经不再仅仅是对海量数据的处理问题了,更重要的是如何对大数据进行智能分析,通过智能分析从数据中获取深入的、智能的和有价值的信息。
不断增长的大数据呈现出数据量大、种类繁多、增速较快以及隐藏价值大等特征,大数据挖掘在一定程度上降低了对传统数据挖掘模型以及算法的依赖,降低了因果关系对传统数据挖掘结果精度的影响。
传统的系统数据处理方式具有能耗高、不安全等缺陷,很难满足用户需求,采用智能分析结合大数据挖掘工具可以很好地解决该问题。
大数据技术 文档

大数据技术大数据技术包括数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现。
1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。
根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。
2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。
第1类主要面对的是大规模的结构化数据。
第2类主要面对的是半结构化和非结构化数据。
第3类面对的是结构化和非结构化混合的大数据,3、基础架构:云存储、分布式文件存储等。
4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。
对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。
5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
7、模型预测:预测模型、机器学习、建模仿真。
8、结果呈现:云计算、标签云、关系图等。
大数据分析中的文本数据挖掘技术的使用教程

大数据分析中的文本数据挖掘技术的使用教程在当今信息时代,人们每天都会产生大量的文本数据,包括社交媒体评论、新闻文章、电子邮件等等。
这些海量的文本数据中蕴含着宝贵的信息,通过文本数据挖掘技术,我们可以有效地从中提取出有用的知识。
本文将介绍在大数据分析中,如何使用文本数据挖掘技术来获取有价值的信息。
首先,我们需要明确文本数据挖掘的目标是什么。
文本数据挖掘旨在通过自动化的方法,从大规模的文本数据集合中发现有意义的模式、关联和知识。
它可以帮助我们理解用户行为、市场趋势、舆论动向等。
在大数据分析中,我们通常会使用文本数据挖掘来进行情感分析、主题建模、实体识别等任务。
情感分析是文本数据挖掘中的一个重要任务,它旨在判断文本中的情感倾向。
通过情感分析,我们可以了解用户对某个产品、事件或主题的态度是正面还是负面。
在实际应用中,情感分析可以帮助企业了解用户对产品的满意度,政府了解公众对政策的态度。
要进行情感分析,我们首先需要建立一个情感词典,其中包括正面词汇和负面词汇。
然后,通过计算文本中出现的情感词的数量来判断情感倾向。
主题建模是另一个重要的文本数据挖掘任务。
它旨在通过分析文本中的词语分布,发现隐藏在文本背后的主题。
主题建模可以帮助我们发现用户的兴趣爱好、舆论动向等。
在进行主题建模时,常用的方法是使用概率模型,如Latent Dirichlet Allocation(LDA)。
该模型假设每个文档包含多个主题,并且主题是通过关键词表示的。
通过迭代计算,我们可以得到每个文档的主题分布和每个主题的关键词分布。
实体识别是指从文本中识别出人名、地名、组织机构名等实体的任务。
通过实体识别,我们可以了解文本中提到的人物、地点或机构。
在大数据分析中,实体识别通常用于分析新闻报道、社交媒体评论等文本数据。
要进行实体识别,我们可以使用机器学习算法,如条件随机场(Conditional Random Fields,CRF)。
该算法通过学习实体的上下文信息,来判断某个词语是否属于一个实体。
大数据挖掘技术练习(试卷编号171)

大数据挖掘技术练习(试卷编号171)1.[单选题]假设12个数字已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215,使用等高分箱,则第一个分箱序列为:A)5,10,11,13B)5,10,11,13,15,35,50,55,72C)5,10,11,13,15答案:A解析:2.[单选题]在数据预处理中,将多个数据源中的数据整合到一个一致的数据存储(如数据仓库)中,这一过程称为( )A)数据提取B)数据集成C)数据清理D)数据加载答案:B解析:3.[单选题]下列不属于数据预处理原因的是( )。
A)数据有可能不能很好地反映潜在的模式B)有些数据属性是无用的或者冗余的C)数据可能存在缺失、错误、不一致等问题D)数据量过于庞大答案:D解析:4.[单选题]已知x = [1, 2, 3],执行语句x.append(4)之后,x的值是( )A)[1, 2, 3, 4]B)[4]C)[1, 2, 3]D)4答案:A解析:5.[单选题]对于开通4G业务的用户,如果需要使用VoLTE业务,是否需要更换手机卡,是否需要更换VoLTE终端?A)不需要更换手机卡,需要使用VoLTE终端B)不需要更换手机卡,不需要使用VoLTE终端答案:A解析:6.[单选题]访问网页成功,返回的结果为: url=" rq=requests.get(url) print(rq.status_code)A)200B)304C)403D)500答案:A解析:7.[单选题]假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15 在第几个箱子内? ( )A)第一个B)第二个C)第三个D)第四个答案:B解析:8.[单选题]字典对象的______________方法返回字典的“值”列表A)keys()B)key()C)values()D)items()答案:C解析:9.[单选题]在多元回归模型的检验中,目的是检验每一个自变量与因变量在指定显著性水平上是否存在线性相关关系的检验是()A)r 检验B)t 检验C)f 检验D)DW 检验答案:B解析:10.[单选题]有学生选课表sc,其结构如下: sc(学号, 课程号, 成绩), 用SQL检索同时选修课程号为“C1”B)SELECT 学号 FROM sc WHERE 课程号='C1' AND 课程号= (SELECT 课程号 FROM sc WHERE 课程号='C5');C)SELECT 学号 FROM sc WHERE 课程号='C1' AND 学号= (SELECT 学号 FROM sc WHERE 课程号='C5');D)SELECT 学号 FROM sc WHERE 课程号='C1' AND 学号 IN (SELECT 学号 FROM sc WHERE 课程号='C5');答案:D解析:11.[单选题]Hbase是哪种数据库?A)关系型数据库B)Nosql数据库C)网状数据库D)层次数据库答案:B解析:12.[单选题]下列哪项最恰当地描述了建立TCP连接时“第一次握手”所做的工作A)“连接发起方”向“接收方”发送一个SYN-ACK段B)“接收方”向“连接发起方”发送一个SYN-ACK段C)“连接发起方”向目标主机的TCP进程发送一个SYN段D)“接收方”向源主机的TCP进程发送一个SYN段作为应答答案:C解析:13.[单选题]以下关于SELECT语句叙述错误的是______。
组学大数据的挖掘与应用研究

组学大数据的挖掘与应用研究随着生物技术的不断发展,组学大数据已经成为了生物学研究的重要工具。
组学大数据包括基因组学、转录组学、蛋白质组学、代谢组学以及微生物组学等多个方面。
虽然组学大数据的提取和分析不断被探究和优化,但是其进一步的挖掘和应用还存在很多挑战。
1. 组学大数据的挖掘组学大数据采用高通量技术,可以同时获取数百甚至数千个生物样本的信息,并以高速和高精度对其进行处理。
这样的处理需要大量的计算和存储资源,因此在组学大数据挖掘领域,大数据处理、数据库技术和算法优化是重要的研究方向。
首先,在大数据处理方面,选择适当的算法和数据结构是非常重要的。
在组学大数据处理中,常用的数据结构有哈希表、基因树、图和网格等。
这些数据结构可以用来存储基因组序列、基因表达数据等信息,并且对大规模的数据进行增删改查等操作。
此外,对于大数据的存储和访问,关系数据库和非关系数据库是目前比较成熟的方案。
非关系数据库包括文档数据库、列存储数据库和图数据库等,它们通常比关系数据库在大数据存储和查询方面比较具有优势。
其次,组学大数据分析的算法也必须得到优化和改进。
这些算法包括序列拼接、基因表达分析和代谢组分析等。
在序列拼接方面,目前比较成熟的算法有Velvet、SOAPdenovo、ABySS等。
在基因表达分析方面,包括Differential Gene Expression Analysis、Gene Ontology分析、Pathway Analysis等多种方法。
在代谢组分析方面,用于代谢物特征的鉴定、量化和标准化等方案也是十分必要的。
2. 组学大数据的应用组学大数据的应用范围广泛,包括遗传病学、肿瘤研究、药物开发和微生物学等多个方面。
组学大数据可以帮助科学家探究疾病的发病机制和分子标志物,为疾病诊断和治疗提供重要的支持。
在肿瘤研究中,组学大数据也被广泛应用,例如在肿瘤源性基因识别、肿瘤分级和预后评估等方面。
此外,组学大数据还可以为微生物的分类、鉴定和功能分析等方面提供重要的支持和指导。
大数据的介绍

大数据的介绍大数据的介绍1:引言大数据是指规模巨大、类型繁多且在时间上迅速变化的数据集合。
随着互联网的普及和各种信息技术的发展,大数据在各行各业中的应用越来越广泛。
本文将详细介绍大数据的定义、特点、应用以及相关技术等内容。
2:大数据的定义大数据是指由于其容量巨大、复杂多样且高速增长的特点,无法使用传统的处理方式和工具进行处理和分析的数据集合。
大数据通常包含结构化、半结构化和非结构化的数据,并且具有高速、大容量、高价值之特点。
3:大数据的特点3.1 规模巨大:大数据往往以TB、PB甚至EB的规模存在,远超传统数据存储和处理的能力。
3.2 多样性:大数据的类型包括结构化数据(如关系数据库)、半结构化数据(如日志文件、XML文件)以及非结构化数据(如图像、视频、文本等)。
3.3 高速性:大数据的和更新速度非常快,需要实时或近实时的分析处理。
3.4 高价值:大数据中蕴含着丰富的信息和价值,可以用于洞察商机、发现规律、优化决策等。
4:大数据的应用4.1 金融行业:大数据在金融领域的应用非常广泛,包括风险管理、投资策略、反欺诈等方面。
4.2 零售行业:通过对大数据的分析,零售商可以更好地了解消费者需求、优化商品管理和库存预测,提高销售业绩。
4.3 健康医疗:大数据在健康医疗领域的应用包括个性化医疗、医疗资源优化等,可以提升医疗服务质量和效率。
4.4 城市管理:通过对大数据的分析,城市管理者可以了解城市交通、环境、人口等信息,用于城市规划和资源分配的决策。
4.5 其他行业:大数据还应用于智能交通、能源管理、航空航天、电信等众多领域。
5:大数据相关技术5.1 分布式存储:大数据的存储通常采用分布式文件系统,如Hadoop Distributed (HDFS)。
5.2 分布式计算:大数据的计算利用分布式计算框架,如Apache Hadoop、Apache Spark等。
5.3 数据挖掘和机器学习:大数据分析需要借助数据挖掘和机器学习算法,挖掘数据中的规律和模式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的分类挖掘优化技术
: As big data optimization mining is needed to improve
classification recognition and retrieval performance of big data , a big data classification mining method based on distributional extraction of weak correlation index features is proposed. The sparse fusion method is adopted to perform clustering space division for big data flow. The high?dimensional fractal features of big data are reorganized by using the self?correlation feature matching method. The vector quantification method is adopted for convergence control of base element classification of big data. The weak correlation index features of big data information flow are extracted to realize optimization classification and mining of big data. The simulation results show that the method for data classification and mining improves the precision and recall performance of big
, and has high mining accuracy and good anti?interference capability.
Keywords : big data ; information fusion
; clustering space division feature extraction
data mining and retrieval
classification mining
0 引言
随着网络空间的不断扩容以及网络信息技术的发展,在网络云存储数据库中,大数据存在较大的差异性特征,需要对大数据进行分类挖掘,提高对大数据信息库的检索和分类识别能力,研究大数据分类挖掘技术,在提高大数据检索、访问、调度和特征提取能力方面具有重要意义,相关的数据分类挖掘方法研究受到人们的极大重视 [1] 。
当前主要采用主成分挖掘方法、粒子群分布式挖掘方法以及统计特征提取的大数据挖掘方法[2] 。
通过自适应分布式学习算法实现大数据挖掘,把网络分布式云存储大数
据时间序列解析模型分解为含有多个非线性成分的统计量,进行数据的分布式特征重构,提高数据挖掘的抗干扰能力。
但是随着数据规模的扩大,挖掘的准确性不好,提出基于弱关联性指数特征分布提取的大?稻莘掷嗤诰蚍椒a ?首先进行大数据分布的统计特征分析,然后进行特征提取和数据分类算法设计,最后进行数据挖掘仿真实验,得出有效性结论。
1大数据的统计性特征分析
1.1 大数据的稀疏性融合
为了实现对大数据的分类挖掘优化,首先采用统计特征分析方法进行大数据特征提取和信息重构,对大数据信息流采用稀疏性融合方法进行聚类空间划分。
本文研究的大数据对象为网络分布式云存储大数据。
用图表示网络分布式云存储大数据的输入模型,统计特征分布的向量量化边集为,单个存储分布节点的信息
覆盖域为 r ,设,且,得到网络分布式云存储大数据的信息融合支持向量集为:
式中:和分别表示网络分布式云存储大数据的时域和频域分布结构特征;和分别表示大数据的采样时间间隔和波束分布间隔。
采用观测或实验手段获得网络分布式云存储采样的先验知识 [3] ,通过对数据的多元信息融合处理得到网络分布式云存储并行调度和重构的特征分布向量定义为:
式中:为网络分布式云存储特征分布矩阵的对角元素值;为测量误差。
通过大数据的稀疏性融合,得到网络分布式云存储重构的约束指标分布向量集,以此为特征基础进行向量量化分析和数据重构。
1.2 大数据分类挖掘的聚类空间划分
基于奈奎斯特采样定理 [4] ,结合大数据稀疏性融合结果,进行大数据分类挖掘聚类空间划分,对大数据信息流特征重组模型进行归一化处理,得数据分类挖掘指向性维数满足:
式中,为对取模。
对大数据聚类空间划分,进行大数据信息流时频分解,得分解式为:
式中,表示数据弱关联指向性分布函数,将提取指向性特征输入到大数据分类挖掘传输信道中,进行向量量化分解。
假设为
时间窗函数,通过构建大数据分类挖掘知识库模型,得到数据的
副本信息融合嵌入维数 m满足: 通过自相关特征匹配方
法进行大数据高维分形特征重组,假设分类特征重组的传递函
数,采用一个二维的连续函数进行大数据聚类的收敛性控制,得到大数据分类挖掘的极大熵的判决特征函数式为:
当网络分布式云存储数据是局部平稳的,通过构造数据集的规则向量集,得到大数据分类挖掘的聚类空间为:
结合训练数据集的规则向量子集解向量分布融合结果 [5] ,得到大数据分类挖掘聚类空间分布的指向性函数为:
2大数据分类挖掘实现
在对大数据信息流采用稀疏性融合方法进行聚类空间划分的基础上,进行数据分类特征提取和挖掘过程优化,本文提出一种基于弱关联性指数特征分布提取的大数据分类挖掘方法,采用向量量化方法进行大数据的基元分类的收敛性控制 [6] ,向量量化的特征函数为:
式中:表示大数据特征序列的相关性指数系数;表示先验点簇;表示信息融合的深度;为数据的关联维。
利用数据集的相似性分布式重建方法,得到数据的时频分解的变换定义为:
经自相关特征匹配,则数据聚类目标函数为:
式中,为数据特征分布子带信息。
采用向量量化方法进行大数据的基元分类的收敛性控制 [7] ,提取数据的能量密度谱
(Spectrogram , SPEC 为:
基于模糊聚类方法进行数据分类挖掘,数据分类挖掘的特征空间的维数满足: ( 14)
网络分布式云存储重构的误差项满足高斯 ?马尔科夫假设。
将网络分布式云存储重构的约束指标矩阵改写为边缘分布矩阵为:
式中:为的关联维向量;为的云数据的聚类指向性分布矩阵;为的参数向量;为的网络分布式云存储聚类的误差向量。
提取大数据信息流的弱关联性指数特征,得到关联数据的线性组合为:
利用 IFFT 变换进行大数据的弱关联性特征估计,得到:
分析上述提取的特征估计结果得知,由于大数据分类挖掘的
过程受到大数据的基元分类的收敛性控制,所以大数据分类挖掘
的收敛性较好,准确性得以提高。
3实验分析
对大数据分类挖掘的仿真实验建立在Matlab 仿真环境基础上,大数据为网络分布式云存储大数据,实验仿真环境为: Intel
Core3?530 1 GB内存,操作系统为 Windows 7大数据分布的阵元数目为64,初始采样的信噪比定为 8 dB ,数据特征分布的随
机点个数为3,数据分布的频带为4〜25 kHz。
根据上述仿真设
定,得大数据的原始分布时域波形如图 1 所示。
以图 1 给出的大数据为研究对象,进行分类挖掘,提取大数据信息流的弱关联性指数特征,实现大数据分类挖掘。
图 2给出了采用本文方法和传统的统计特征分析方法进行数据分类挖掘的准确性对比。
分析得知,采用本文方法进行大数据挖掘检索的查准性和查全性较高,提高了大数据挖掘的准确性。
4结语
本文提出一种基于弱关联性指数特征分布提取的大数据分类挖掘方法,对大数据信息流采用稀疏性融合方法进行聚类空间划分。
通过自相关特征匹配方法进行大数据高维分形特征重组,采用向量量化方法进行大数据的基元分类的收敛性控制,提取大数据信息流的弱关联性指数特征,实现大数据的优化分类和挖
掘。
研究得知,采用该方法进行大数据分类挖掘,提高了大数据好,具有很好的应用价值。
挖掘检索的查准性和查全性,挖掘的准确性较高,抗干扰能力较。