大数据下的智能数据分析技术研究
大数据分析环境下的机器学习研究与应用

大数据分析环境下的机器学习研究与应用一、概念解析大数据(Big Data)是指数据量巨大、类型多样、处理复杂、分析价值丰富的数据集合,它为企业配置了一个庞大、高复杂和高度挑战性的分析环境。
机器学习是大数据分析环境下非常重要的技术之一,它是一种前沿的人工智能技术,通过让机器能够主动地学习和形成判断模型,从而实现智能化。
二、机器学习的应用场景机器学习广泛应用于智能化搜索引擎、图像识别、智能客服、智能家居等领域。
具体来说,大数据分析环境下常见的机器学习应用场景包括:1.智能化搜索引擎:通过机器学习在大数据中挖掘出用户热门搜索词,进而优化搜索结果的匹配度,提高搜索效率和精准度。
2.图像识别:通过机器学习对图像进行分析和学习,提取其中的特征信息,从而实现图像识别、分类、检测等。
3.智能客服:通过机器学习对用户的就诊、购物、投诉等行为数据进行学习和分析,实现智能化客服,提高服务体验和效率。
4.智能家居:通过机器学习对用户的家庭生活习惯、偏好等行为数据进行分析,自动调控温度、光照等,提高居家舒适度和智能化。
三、机器学习的研究方向随着大数据时代的到来,机器学习的研究方向也在不断拓展。
下面介绍几个比较热门的机器学习研究方向:1.深度学习:指建立神经网络模型,通过多层非线性的变换去学习数据表示,从而实现高级抽象和强大的学习能力。
2.增强学习:指让智能体通过与环境交互获得经验,从而不断优化自己行为的能力。
3.迁移学习:指利用已经学会的知识和经验,快速适应新的任务和环境。
通过对机器学习的不断研究和发展,能够再大数据环境下实现更多智能化和人性化的应用。
四、机器学习的三个要素机器学习的三个要素分别是模型、算法和优化方法。
1.模型:是机器学习中的一个关键概念,它是指根据数据特点和规律的不同,所采用的不同的描述和预测方法。
常见的机器学习模型包括决策树、逻辑回归、K-近邻等。
2.算法:和模型有关,它是指在模型基础上所使用的预测方法。
大数据分析中的计算智能研究现状与展望

六、结论
计算智能作为一项新兴的技术手段,为大数据分析提供了强大的支持和推动。 本次演示介绍了计算智能在大数据分析中的应用背景、研究现状、关键技术、 应用场景以及未来展望。计算智能在大数据分析中的应用已经取得了显著的成 果,其关键技术包括深度学习、神经网络、遗传算法等,这些技术各有优缺点, 并在不同的应用场景中发挥着重要的作用。
这些技术各有优缺点。深度学习的优点是可以自动提取特征,缺点是模型的可 解释性不足;神经网络的优点是可以实现复杂的计算和推理任务,缺点是容易 受到噪声数据和异常值的影响;遗传算法的优点是可以自动寻找最优解,缺点 是计算复杂度较高,需要消耗大量的时间和计算资源。
四、应用场景
计算智能在大数据分析中的应用场景十分广泛。例如,在智能客服领域,可以 通过运用自然语言处理和深度学习等技术,实现智能问答系统和情感分析,提 高客户满意度;在广告推荐领域,基于用户行为分析和机器学习算法,可以为 用户提供个性化的广告体验;在舆情监测领域,通过文本挖掘和情感分析等技 术,可以对网络舆情进行实时监测和预警。
最后,未来计算智能将更加注重应用场景的拓展。目前计算智能在大数据分析 中的应用场景主要集中在智能客服、广告推荐和舆情监测等方面,未来将有更 多的应用场景被发掘出来,例如在金融、医疗、教育等领域的应用。同时,未 来计算智能也将在多模态数据处理方面发挥更大的作用,例如在文本、图像、 音频等多模态数据处理中应用计算智能技术。
然而,计算智能在大数据分析中的应用也存在着一些问题。例如,模型的可解 释性不足,导致人们难以理解模型的决策过程;模型的鲁棒性不足,容易受到 噪声数据和异常值的影响;此外,模型的训练和优化也需要消耗大量的时间和 计算资源。
三、关键技术
计算智能在大数据分析中的关键技术包括深度学习、神经网络、遗传算法等。 深度学习是其中最为热门的技术之一,它通过对大量数据进行学习,可以自动 提取特征,提高模型的表示能力。神经网络是另一种重要的计算智能技术,它 可以模拟人脑神经元的连接方式,实现复杂的计算和推理任务。遗传算法则是 一种基于生物进化原理的优化算法,它可以自动寻找最优解,提高模型的性能 和精度。
2023年大数据分析技术研究预案

2023年大数据分析技术研究预案一、背景与目标随着信息技术的飞速发展,大数据已经成为各行各业的重要组成部分。
作为其中的核心技术之一,大数据分析技术在实践中发挥着越来越重要的作用。
为了适应未来的技术发展需求,我们制定了2023年的大数据分析技术研究预案,旨在推动相关技术的突破与创新,提升我国在大数据分析领域的竞争力。
二、现状分析当前,大数据分析技术在商业、医疗、金融等领域得到广泛应用,取得了一定的成绩。
然而,依然存在着许多挑战与问题,例如数据质量不高、数据隐私保护不完善、算法应用不够智能等。
为了解决这些问题并推进大数据分析技术的进一步发展,我们需要进行深入的研究。
三、研究内容与方法1. 数据质量提升方法研究针对现有数据质量不高的问题,我们将研究和开发一系列数据质量提升方法,包括数据清洗、数据一致性检验、数据完整性保护等。
通过改进数据质量,提高数据分析的准确性和可靠性。
2. 数据隐私保护技术研究针对数据隐私泄露的风险,我们将研究和开发一系列数据隐私保护技术,包括数据加密、隐私脱敏、访问控制等。
通过加强数据隐私保护,确保数据在分析过程中的安全性和隐私性。
3. 智能算法应用研究针对现有算法应用不够智能的问题,我们将研究和开发一系列智能算法,包括机器学习、深度学习、自然语言处理等。
通过引入智能算法,提升数据分析的自动化水平和效果。
4. 大数据分析平台建设研究针对大数据处理和分析的需求,我们将研究和开发一套高效稳定的大数据分析平台,包括数据采集、数据存储、数据处理、数据可视化等。
通过构建先进的分析平台,提高数据分析的效率和便捷性。
四、研究进展计划2023年大数据分析技术研究预案的具体进展计划如下:1. 第一季度:开展背景调研,分析当前大数据分析技术的现状和问题,明确研究内容与目标。
2. 第二季度:开展数据质量提升方法的研究,探索数据清洗、一致性检验、完整性保护等新方法。
3. 第三季度:开展数据隐私保护技术的研究,研发数据加密、隐私脱敏、访问控制等新技术。
基于人工智能的数据分析与处理方法的研究

基于人工智能的数据分析与处理方法的研究近年来,随着信息技术的快速发展,数据的爆发式增长已经成为了不可避免的趋势。
但是,如何从这样海量的数据中提取有价值的信息,成为了一个亟待解决的问题。
基于人工智能的数据分析与处理方法,应运而生,成为了当前越来越受到关注的研究领域。
一、人工智能在数据处理中的应用1. 图像识别图像识别是人工智能在数据处理中的重要应用之一。
在现代医学、国防安全、智能化交通等领域,图像识别都发挥着至关重要的作用。
例如,基于图像识别技术,可以快速识别出某一具体人脸,以实现身份核实和安全监控等功效。
2. 自然语言处理自然语言处理技术可以使计算机系统更好地理解人类语言,实现人机交互。
目前,自然语言处理已广泛应用于机器翻译、智能客服、搜索引擎、舆情监测等领域,极大地提升了信息处理的效率。
3. 机器学习机器学习是人工智能研究的重要方向之一,它通过对大量数据进行分析和学习,从而生成能够自主学习的模型。
现如今,机器学习技术早已应用于预测交通拥堵、股票价格波动、客户流失等各种方面。
二、数据分析的基础1. 数据采集数据采集是数据分析的第一步,严谨的数据采集方式可以保证数据完整、准确、可靠。
目前,数据采集可以利用网络爬虫、数据挖掘等技术实现。
2. 数据存储数据存储需要传输的远程静态存储、传输的远程动态存储和本地存储,数据存储功能需要满足标准存储规范。
3. 数据清洗数据清洗是数据分析的关键环节之一,通过数据清洗可以排除掉一些不规范、错误、重复的数据。
同时,数据清洗还能对数据进行统一或标准化,以便于后续的数据分析工作。
三、基于人工智能的数据分析与处理方法1. 数据挖掘数据挖掘是一种发现模式,并且符合需要的数据,是在大规模数据存储和快速开发行动的任务中,智能数据处理的核心方法。
目前,数据挖掘技术已经应用于各个领域,例如金融领域的客户风险评估、商业领域的市场分析等。
2. 人工神经网络人工神经网络是一种模仿人类的神经元组织与信息传递机制而建立的数学模型,它可以学习并处理庞大数据。
大数据背景下人工智能在计算机网络技术中的应用研究

大数据背景下人工智能在计算机网络技术中的应用研究在当今时代,信息爆炸是我们每一个人都会面临的问题,如何将这些信息进行处理并且得到对我们本身有效的信息一直以来都是我们所追求的。
人工智能的出现有效的帮助我们解决了这一烦恼,将人工智能和计算机技术相结合后可以帮助人们进行信息的过滤和筛选,确保人们每天所看到的信息都是自己所需要的,人工智能的出现促进了信息的灵活性。
目前来看,人工智能已经逐渐的渗透到我们的生活中,其发展空间非常之大,但是如何更好地应用它发现它自身的长处依旧是我们需要去思考的。
标签:大数据;人工智能;网络技术一、大数据下人工智能在计算机网络中的应用优势分析1.1降低计算机网络数据处理成本在大数据时代发展背景下,人们无时无刻不在与信息数据打交道,企业在日常处理海量计算机网络数据时需要投入大量的人力和时间,导致企业整体网络运营成本的增大,不利于市场中小企业的稳定、持续发展。
基于此,本文将通过人工智能技术融入计算机网络数据处理分析工作,能够帮助相关工作人员高效解决计算机信息处理难题,并全面提升计算机网络数据处理的准确度和速度,充分保障数据处理的安全稳定性,为企业节省更多的人力成本支出,确保在最低成本下创造出最大的社会经济效益。
1.2科学高效处理计算机网络模糊信息大数据时代背景下,企业要想保障计算机网络的稳定运行和安全维护工作,就必须充分发挥出计算机信息技术的价值与作用,提高对各项计算机网络模糊信息的处理水平,满足广大用户的各项体验服务需求。
通过将人工智能技术有效应用在计算机网络中,促使模糊逻辑处理变得更加方便、快捷,最大化提升计算机网络模糊信息的处理效率和质量,并有效联合计算机网络上层结构、中层结构以及下层结构之间的关系,充分保障计算机网络管理工作效果。
在人工智能技术辅助下,信息数据处理者能够完成对大量信息数据的分类处理,提高各项数据的运算分析效率,该项技术大大推动了我国计算机信息技术的发展,实现了对传统数据处理方式的优化改善工作目标。
大数据智能分析与数据挖掘研究

实用第一f智慧密集BSBaSEIEieSI3l3BBI3SeSBI3BBEIISBBBI3BI9@SI3eSI3aBeEISeBBei3iaEIBBeBI3BaEIEII3SS@ieEl®大数据智能分析与数据挖掘研究龙虎,彭志勇(凯里学院,贵州凯里556011)摘要:大数据智能分析与数据挖掘是从海量数据中提取更加本质和更加有用的规律性信息的重要手段,是挖掘智能和有价值信息的重要抓手。
通过运用文献研究法和系统法,对大数据智能分析与大数据挖掘进行了阐述,给出大数据智能分析涉及到的关键技术,对其关键技术进行了阐述,提出大数据挖掘方法、类型、工具和流程及应用,并阐明大数据挖掘中使用的关键技术,希望能为大数据智能分析以及大数据挖掘的研究者提供借鉴。
关键词:大数据;智能分析;数据挖掘大数据时代,随着5G移动技术、在线学习、机器学习和云计算、移动计算、分布式计算、并行计算、批处理计算、边缘计算、流计算、图计算以及区块链等新技术不断涌现,教育、科研、医疗、通信和电商等多个领域数据量的增加呈现出几何指数增长的态势,激增的海量数据背后隐藏着许多有价值的信息,如何对其进行更加智能的分析,以便更好地利用这些数据,挖掘出海量数据隐藏的有价值的信息,是当前研究的热点问题。
海量数据的分析与挖掘变得越来越复杂,如何对这些海量数据进行有效挖掘,特别是如何从这些数据中归纳和提取更加本质的和更加有用的规律性信息,就成了当前研究的一个重要课题。
当前,大数据已经不再仅仅是对海量数据的处理问题了,更重要的是如何对大数据进行智能分析,通过智能分析从数据中获取深入的、智能的和有价值的信息。
不断增长的大数据呈现出数据量大、种类繁多、增速较快以及隐藏价值大等特征,大数据挖掘在一定程度上降低了对传统数据挖掘模型以及算法的依赖,降低了因果关系对传统数据挖掘结果精度的影响。
传统的系统数据处理方式具有能耗高、不安全等缺陷,很难满足用户需求,采用智能分析结合大数据挖掘工具可以很好地解决该问题。
大数据分析技术研究报告

大数据分析技术研究报告在当今数字化的时代,数据已成为企业和组织的重要资产,而大数据分析技术则是挖掘这些资产价值的关键手段。
大数据分析技术能够帮助我们从海量、复杂的数据中提取有价值的信息,为决策提供有力支持。
本文将对大数据分析技术进行深入探讨。
一、大数据分析技术的定义与特点大数据分析技术是指对规模巨大、类型多样、处理速度快、价值密度低的数据进行收集、存储、管理和分析的一系列技术和方法。
其主要特点包括以下几个方面:1、数据量大大数据的规模通常达到 PB 级甚至 EB 级,远远超过传统数据处理技术所能应对的范围。
2、数据类型多样包括结构化数据(如关系型数据库中的表格数据)、半结构化数据(如 XML、JSON 格式的数据)和非结构化数据(如文本、图像、音频、视频等)。
3、处理速度快要求能够在短时间内对大量数据进行快速处理和分析,以满足实时决策的需求。
4、价值密度低在海量数据中,有价值的信息往往只占很小的比例,需要通过有效的分析方法来提取。
二、大数据分析技术的关键技术1、数据采集与预处理数据采集是获取数据的过程,包括从各种数据源(如传感器、网络爬虫、数据库等)收集数据。
预处理则是对采集到的数据进行清洗、转换、集成等操作,以确保数据的质量和一致性。
2、数据存储为了存储大规模的数据,通常采用分布式文件系统(如 HDFS)和分布式数据库(如 HBase、Cassandra 等)。
3、数据处理框架常见的数据处理框架有 MapReduce、Spark 等。
MapReduce 是一种分布式计算框架,适用于大规模数据的批处理;Spark 则具有更高的性能和更丰富的功能,支持批处理、流处理和交互式查询。
4、数据分析算法包括分类算法(如决策树、朴素贝叶斯)、聚类算法(如KMeans、层次聚类)、关联规则挖掘算法(如 Apriori 算法)等。
5、数据可视化将分析结果以直观、易懂的图表形式展示出来,帮助用户更好地理解数据和发现规律。
大数据智能化分析与应用研究

大数据智能化分析与应用研究近年来,随着科技的不断发展和越来越多的人们使用互联网,数据呈现出爆炸式的增长趋势,这使得传统的数据处理手段显得越来越难以有效地满足人们的需求。
为了更好地利用大数据,智能化分析和应用研究变得越来越重要。
一、大数据的定义和意义大数据是指传统和互联网上产生的所有数据,包括结构化、半结构化和非结构化数据等。
大数据的出现使得人们可以获取到更多的信息,这些信息对于企业家、决策者和普通人来说都非常重要。
大数据可以帮助企业家们了解他们的用户,分析用户的消费记录,以及预测未来趋势。
同时,大数据还可以帮助政府更好地监控社会安全,预测自然灾害和疾病等重要信息。
二、大数据智能化分析大数据智能化分析是指通过计算机程序、算法和人工智能技术等手段来处理大数据,从中提取和分析有用信息的过程。
这些信息可以用来更好地了解市场和用户,推荐相关产品,优化企业经营管理,提高决策的准确性等。
同时,大数据智能化分析还可以帮助政府更好地了解社会情况,预测未来趋势,制定更科学和有效的政策等。
三、大数据智能化应用大数据智能化应用是指将智能化分析结果应用到各种实际领域中,以达到优化资源,增加效率的目的。
这些应用包括但不限于:1.市场营销:通过分析用户的消费记录和行为模式,企业可以更好地了解客户需求,从而推出更符合市场需求的产品,提高营销效率。
2.金融服务:通过大数据智能分析,银行可以更好地判断信用风险,提高贷款的安全性和效率。
同时,保险公司可以根据大数据分析结果,制定风险控制策略,推出更具竞争力的产品。
3.医疗健康:医疗行业是应用大数据的一个重要领域。
通过分析就诊记录、医疗影像等数据,医生可以更好地了解病人的病情,从而制定更科学、个性化的治疗方案。
同时,大数据还可以被用来预测疾病传播趋势和再次爆发的可能性,从而提前做好预防和控制工作。
四、大数据智能化应用面临的问题虽然大数据智能化应用在各个领域中的应用已经成为一种趋势,但是也存在着一些问题和挑战。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据下的智能数据分析技术研究摘要:大数据背景下对数据的智能分析技术提出了新的挑战,本文对传统的智能数据分析技术做了比较,分析其各自的优缺点。
同时对新的大数据分析方案Hadoop进行了梳理,提出了未来大数据智能分析技术的发展方向的展望。
关键词:大数据数据智能分析Hadoop大数据时代业已到来,当今世界正处在一个数据爆炸的时代。
伴随着多媒体、云计算、物联网、社交网络等技术的发展,以及天文观测、空间地理、金融分析等各领域每天都在产生巨量的数据,这些数据如此庞大,其规模、其涌现速度和其处理难点超出目前常规技术能管理、处理和分析的能力[1]。
一般来说,大数据具有量大(V olume)、流动性大(Velocity),种类多(Variety),分布式(distributed)、非一致(nonuniformity)等特性,这些特点决定了在大数据时代,我们传统的数据处理技术必须有革命性的变化,包括数据的存储与组织方式、计算方法、数据分析,而对大数据的智能分析技术将尤为重要。
1 几种传统智能数据分析方法的比较大数据智能分析需要有新的理论和技术的突破,但它与传统的智能数据分析方法必定还有延续。
传统的数据分析领域,如知识库系统、数据仓库、数据挖掘等已经积累了很多优秀的理论和技术,下面对其中的一些典型理论和技术的梳理。
1.1 决策树决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法,它是建立在信息论基础之上对数据进行分类的一种方法。
首先通过一批已知的训练数据建立一棵决策树,然后采用建好的决策树对数据进行预测。
决策树的建立过程是数据规则的生成过程,因此,这种方法实现了数据规则的可视化,其输出结果容易理解,精确度较好,效率较高,缺点是难于处理关系复杂的数据。
常用的方法有分类及回归树法、双方自动交互探测法等。
其中分类树主要用于数据记录的标记和归类,回归树主要用于估计目标变量的数值[2]。
1.2 关联规则关联规则分析发现大量数据中项集之间有价值的关联或相关联系,就是要建立形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导(antecedent)和后继(consequent)。
关联规则一般应用在事物数据库中,其中每个事物都由一个记录集合组成。
这种事物数据库通常都包括极为庞大的数据,因此,当前的关联规则发现技巧正努力根据基于一定考虑的记录支持度来削减搜索空间。
关联规则的常见算法有Apriori 算法、基于划分的算法、FP-树频集算法等。
1.3 粗糙集(Rough Sets)粗糙集智能数据分析是粗糙集理论中的主要应用技术之一,是一种基于规则的数据分析的方法。
其思想主要来自统计学和机器学习,但并不是这两种工具随意的应用,它以粗糙集理论为基础,以数据表所表示的信息系统为载体,通过分析给定数据集的性质、粗糙分类、决策规则的确定性以及覆盖度因子等过程,从中获取隐含的、潜在有用的知识。
用粗糙集理论进行数据分析主要有以下优势:它无需提供对知识或数据的主观评价,仅根据观测数据就能达到删除冗余信息;非常适合并行计算、提供结果的直接解释。
1.4 模糊数学分析用模糊(Fuzzy sets)数学理论来进行智能数据分析。
现实世界中客观事物之间通常具有某种不确定性。
越复杂的系统其精确性越低,也就意味着模糊性越强。
在数据分析过程中,利用模糊集方法对实际问题进行模糊评判、模糊决策、模糊预测、模糊模式识别和模糊聚类分析,这样能够取得更好更客观的效果。
模糊分析方法不足主要表现在:用户驱动,用户参与过多;处理变量单一,不能处理定性变量和复杂数据,如非线性数据和多媒体数据;发现的事实或规则是以查询为主要目的,对预测和决策影响不大,而且过分依赖主观的经验。
1.5 人工神经网络人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。
该模型由大量的节点(或称神经元)之间相互联接构成。
每个节点代表一种特定的输出函数,称为激励函数(activation function)。
每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。
网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。
而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
典型的神经网络模型主要分三大类,即前馈式神经网络模型,反馈式神经网络模型,自组织映射方法模型。
人工神经网络具有非线性、非局限性、非常定性、非凸性等特点,它的优点有三个方面:第一,具有自学习功能。
第二,具有联想存储功能。
第三,具有高速寻找优化解的能力。
1.6 混沌和分形理论混沌(Chaos)和分形(Fractal)理论是非线性科学中的两个重要概念,研究非线性系统内部的确定性与随机性之间的关系。
混沌描述的是非线性动力系统具有的一种不稳定且轨迹局限于有限区域但永不重复的运动,分形解释的是那些表面看上去杂乱无章、变幻莫测而实质上潜在有某种内在规律性的对象,因此,二者可以用来解释自然界以及社会科学中存在的许多普遍现象。
其理论方法可以作为智能认知研究、图形图像处理、自动控制以及经济管理等诸多领域应用的基础。
1.7 自然计算分析方法自然计算是指受自然界中生物体的启发,模拟或仿真实现发生在自然界中、易作为计算过程解释的动态过程[4]。
针对不同生物层面的模拟与仿真,有群体智能算法、免疫算法、DNA算法等。
群体智能(Swarm Intelligence,SI)是一种模仿自然界动物昆虫觅食筑巢行为的新兴演化计算技术,研究的是由若干简单个体组成的分散系统的集体行为,每个个体与其他个体以及环境都有相互作用。
目前主要的SI算法有粒子群优化算法(Particle Swarm Optimization,PSO),蚁群算法(Ant Colony Optimization,ACO),文化算法(Culture Algorithm),人工鱼群算法(Artificial Fish Swarm Optimization,AFSO)以及觅食算法(Foraging Algorithm),其中PSO和ACO受到了人们广泛的关注。
人工免疫系统(Artificial Immune System,AIS)是从脊椎动物免疫系统中获取灵感构建的计算系统。
人工免疫(亦称计算机免疫)学借鉴生物免疫的思想,以典型的多样性、适应性、自治性、动态覆盖性、动态平衡性等特性,求解某些特定复杂问题具有较好的效果。
经典免疫算法有反向选择、克隆选择、免疫网络、危险理论等。
遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。
它是由美国的J.Holland教授1975年首先提出,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。
遗传算法的这些性质,已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。
2 大数据下数据智能分析技术大数据由于其独特的特性决定了对其进行智能分析的技术必须有新的发展的进步,才能胜任在如此庞大的数据中进行智能分析。
有学者指出大数据的智能分析技术有望成为人工智能的解决之道,目前有很多企业和科研人员提出了很多新的智能分析技术方案。
如惠普推出基于HA VEn大数据分析平台、Teradata天睿公司推出的Teradata Aster大数据探索平台(Teradata Aster Discovery Platform)以及IBM公司和Intel公司都推出了他们各自的大数据分析方案。
这些方案都涉及Hadoop这个大数据分析平台。
Hadoop是Appach基金会支持的一个开源系统,包括两部分,一是分布文件系统、二是分布计算系统。
前者称为HDFS(Hadoop Distributed File System),后者称为MapReduce。
HDFS是一个分布文件管理系统,呈主/从(Master/Slaver)结构,一个主节点称为名字节点(Namenode),其余的计算机是从节点,称为数据节点(Datanode)。
主节点管理元数据,从节点存放和管理应用数据。
一个HDFS系统可以支持巨大的分布文件系统,如上万个计算节点、一亿个文件、10PB数量级的数据,等等。
因而它对大数据的支持是强大的。
为了进一步支持大数据,在HDFS上构建了一个NoSQL数据库系统,称为Hbase。
HBase 是一个列存储的数据库系统,其接口语言是Pig。
除此以外,Hadoop在HBase上还提供了一个数据仓库/数据挖掘软件Hivi。
面向机器学习,还提供了一个机器学习软件包Mahout,从而满足大数据管理和分析的要求,如图1所示。
另一方面,大数据分析相比传统的数据分析,具有数据量大、查询分析复杂等特点,因而需要有新的大数据分析方法和理论的出现。
一方面人们发现现有的单一智能数据分析方法已经不能全面、高效地胜任数据分析的工作,由此一种趋势是交叉融合多种智能数据分析技术的方法和技术应运而生。
如模糊数学和其他理论融合形成了模糊人工神经网络、模糊遗传算法、模糊进化算法、模糊计算学习理论;演化计算和其他理论融合渗透形成了模糊演化算法、演化人工神经网络等。
另一方面大数据的智能分析技术的发展还有赖于新型的数据存储和组织技术以及新的高效率的计算方法的支持。
数据存储和组织技术应该采用的更好的分布式的数据存储策略,并尽量提高数据的吞吐效率、降低故障率。
如谷歌公司的GFS和Hadoop项目的HDFS是两个最知名的分布式文件系统,他们都采用比较新颖的策略。
高效率的计算方法有分布式运算、数据流技术、新硬件技术等[3]。
3 结论总之,以上介绍的各种数据智能分析技术方法各有其特点和优势、潜力与局限。
如人工神经网络善长于直接从数据中进行学习,但其推理能力不如模糊系统;演化计算很适合于求解全局最优问题,它也具有学习能力,但其学习的精度不如神经网络,推理能力不如模糊系统;而模糊系统的学习能力也明显不如其它方法。
要得到一种通用的智能分析技术方法是非常困难的事情。
因此,将多种方法进行融合,发挥各自的优势而弥补彼此的缺点是一个重要的研究方向。
同时数据库平台将也会是传统和新型平台的结合,如hadoop将会借鉴融合传统数据库平台的优点。
参考文献[1]顾君忠.大数据与大数据分析[J].软件产业与工程,2013(4):17-21.[2]邓茗春,李刚.基于人工神经网络的智能数据分析方法研究[J].信息技术与信息化,2005(5):50-51.[3]宫学庆,金澈清,等.数据密集型科学与工程:需求与挑战[J].计算机学报,2012,35(8):1564-1587.[4]张葛祥,潘林强.自然计算的新分支——膜计算[J].计算机学报,2010.。