工业大数据分析-工业大数据分析教学讲义

合集下载

大数据分析讲稿ppt教案

大数据分析讲稿ppt教案

详细描述
通过大数据分析金融交易数据,及时发现 异常交易和潜在的欺诈行为,为金融机构
提供风险预警和预防措施。
B A 总结词
风险预警、预防欺诈
C
D
应用效果
降低金融风险、减少经济损失、提高客户 信任度。
技术实现
利用机器学习、数据挖掘等技术进行风险 预警和欺诈检测。
智慧城市大数据应用
总结词
城市管理、公共服务
数据转换
对数据进行必要的转换,如归一 化、标准化等。
数据存储与计算
数据存储方式
选择合适的数据存储方式,如关
系型数据库、NoSQL数据库、分
布式存储系统等。
01
数据计算性能
02
优化数据计算性能,提高数据处
理速度。
数据安全
确保数据安全,包括数据加密、 权限控制等方面。 03
数据备份与恢复
04 制定数据备份和恢复计划,以防 数据丢失。
详细描述
大数据通常是指数据量达到TB级别以上的数据集合,这些数据可能来自各种不同的来源,如社交媒体、企业数据 库、物联网设备等。大数据的特性包括数据量大、处理速度快、数据类型多样和价值密度低。这些特性使得大数 据的处理和分析需要采用更为先进的技术和工具。
大数据的应用领域
总结词
大数据在各个领域都有广泛的应用,包 括商业智能、金融、医疗、教育等。
Flink是一种流处理框架, 它支持高性能的实时数据 流处理,适用于大规模数 据流的处理和分析。
数据挖掘算法
9字
数据挖掘是从大量数据中提 取有用信息的过程,常用的 算法包括聚类、分类、关联 规则挖掘等。
9字
决策树是一种分类算法,它 通过构建树状结构来对数据 进行分类,并预测未来的数 据点属于哪个类别。

工业大数据

工业大数据

国内工业大数据现状
➢ 国内工业大数据应用现状
✓ 存在的主要问题及难点分析
• 研究与应用工业大数据,产品大数据是核心,物联大数据是实现手 段,集成贯通是基础(业务模式、商业和价值驱动、关键抽取和应 用)。而在实践过程中,实现这三方面都存在不同程度的难点。
• 产品大数据是工业大数据的根源与核心,但工业制造业领域涵盖十 分广泛、行业种类繁多、产品种类数量巨大且仍在不断增长,如何 规范产品大数据的定义与分类方法,建立规范的、属性明确的、可 查询可追溯可定位的产品大数据,将是顺利应用工业大数据的前提。
工业大数据与与工业互联网的关系
与智能制造的场景有所区别,工业互联网更为关注制造业企业如何以工业为本,通 过“智能+”打通、整合、协同产业链,催生个性化定制、网络化协同、服务化延 伸等新模式,从而提升企业、整体行业价值链或是区域产业集群的效率。与智能制 造相似的,工业互联网既是工业大数据的重要来源,也是工业大数据重要的应用场 景。尤其在工业互联网平台的建设中,工业大数据扮演着重要的角色。
✓ 工业大数据的主要来源有三类:
第一类是生产经营相关业务数据。 第二类是设备物联数据。 第三类是外部数据。
工业大数据的特征
➢ 工业大数据具有一般大数据的特征(海量性、多样性等),在此基础上 还具有四个典型的特征:价值性、实时性、准确性、闭环性。 ✓ 价值性(Value):工业大数据更加强调用户价值驱动和数据本身 的可用性,包括:提升创新能力和生产经营效率,以及促进个性化 定制、服务化转型等智能制造新模式变革。 ✓ 实时性(Real-time):工业大数据主要来源于生产制造和产品运 维环节,生产线、设备、工业产品、仪器等均是高速运转,从数据 采集频率、数据处理、数据分析、异常发现和应对等方面均具有很 高的实时性要求。 ✓ 准确性(Accuracy):主要指数据的真实性、完整性和可靠性,更 加关注数据质量,以及处理、分析技术和方法的的可靠性。 ✓ 闭环性(Closed-loop):包括产品全生命周期横向过程中数据链 条的封闭和关联,以及智能制造纵向数据采集和处理过程中,需要 支撑状态感知、分析、反馈、控制等闭环场景下的动态持续调整和 优化。 ✓ 业界一般认为工业大数据还具有集成性、透明性、预测性等特征。

工业大数据分析指南

工业大数据分析指南
工业大数据是智能制造的核心,以“大数据+工业互联网”为基 础,用云计算、大数据、物联网、人工智能等技术引领工业生产方式 的变革,拉动工业经济的创新发展。工业大数据分析技术作为工业大 数据的核心技术之一,可使工业大数据产品具备海量数据的挖掘能力、 多源数据的集成能力、多类型知识的建模能力、多业务场景的分析能 力、多领域知识的发掘能力等,对驱动企业业务创新和转型升级具有 重大的作用。可以从以下三个方面来理解。
工业大数据分析指南
工业大数据分析指南
序言
如今,全球掀起了以制造业转型升级为首要任务的新一轮工业变 革,工业大数据作为引领这场变革的主要驱动力,已经成为当今工业 领域的热点之一。
新一代信息技术与制造业的深度融合,将促进工业领域的服务转 型和产品升级,重塑全球制造业的产业格局。为紧紧抓住这一重大历 史机遇,抢占制造业新一轮竞争制高点,党中央高度重视并作出长期 性、战略性部署。党的十九大报告指出,要“加快建设制造强国,加 快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度 融合”。
1.1 工业大数据分析的概述 .................................................. 1 1.1.1 工业大数据分析的概念............................................. 1 1.1.2 工业大数据分析的相关技术.....................................2 1.1.3 工业大数据分析的基本过程.....................................2 1.1.4 工业大数据分析的类型............................................. 4 1.1.5 工业大数据分析价值 ................................................ 5 1.1.6 工业大数据分析支撑业务创新 ................................. 6 1.2 工业大数据分析的特殊性 .............................................. 8 1.2.1 从工业数据分析到工业大数据分析 ......................... 8 1.2.2 工业大数据与商务大数据分析 ............................... 10 1.2.3 工业大数据建模的难点........................................... 11 1.3 工业数据分析中的常见问题......................................... 12 1.3.1 业务和数据理解不当导致的失误 ........................... 12 1.3.2 建模和验证过程的失误........................................... 12 1.3.3 避免失误的方法 ...................................................... 13 2. 工业大数据分析框架 .......................................................... 14 2.1 CRISP-DM 模型 ........................................................... 14 2.2 CRISP-DM 模型的落地难点......................................... 15 2.3 工业大数据分析的指导思想......................................... 16 3. 业务理解.............................................................................. 19 3.1 认识工业对象 ................................................................ 19

工业大数据处理与分析

工业大数据处理与分析

工业大数据处理与分析一、工业大数据的概念随着工业化的进程,各种各样的设备、仪器、传感器等不断投入使用,大量的数据也随之而来。

这些数据被称为工业大数据,是有关工业生产和运营的各种信息的汇总。

它包括从设备、系统、生产流程、产品质量等方面产生的数据,数量庞大、种类繁多、来源广泛。

工业大数据不仅应用于制造业,而且也广泛应用于大型工程项目,包括航空航天、能源、矿业、交通等领域。

工业大数据对于企业的发展具有非常重要的意义,它可以让企业更快、更准确地了解市场需求、产品质量、运营状况、资产管理等情况。

二、工业大数据的处理在大数据时代,如何处理庞大的数据量成为人们关注的问题。

对于工业大数据的处理,可以采用以下三种方法:(一)批处理批处理指将数据分成若干个批次,分别处理。

这种方法比较适合对大数据量进行处理,可以通过一些传统的数据处理工具来实现。

但是,批处理的缺点是处理速度比较慢,不适用于对实时性要求很高的应用场景。

流处理是将数据不断地流式处理,将处理结果实时反馈给用户。

这种方法适用于实时性要求较高的场景,比如金融交易、视频监控等。

但流处理方法的缺陷是,会出现数据丢失和延迟等问题。

(三)复合处理复合处理是将批处理和流处理结合起来,以实现高效率和高实时性。

复合处理包括离线处理和实时处理两种方式,离线处理用于批处理大数据量,实时处理用于处理高实时性的数据。

三、工业大数据的分析对于工业大数据的分析,可以采用以下几种方法:(一)关联分析关联分析,也称为关联规则挖掘,是一种以大量的数据为基础,寻找数据项之间关联性的方法。

通过挖掘数据之间的关联性,可以帮助企业了解客户需求,提高产品质量,提高生产效率等。

(二)分类分析分类分析是将数据分为不同的类别或群组的方法。

这种方法适用于对大量数据进行分类的场景,比如消费者购买行为、新产品销售情况等。

分类分析可以帮助企业了解客户需求以及市场趋势,提高产品质量和销售能力。

预测分析是通过对历史数据的分析,预测未来可能发生的事件或趋势。

工业大数据浅析

工业大数据浅析

工业大数据浅析工业大数据浅析1:引言1.1 背景介绍工业大数据是指在工业生产和运营过程中产生的海量数据,包括设备传感器数据、生产过程中的监控数据、工艺参数、质量检测数据等。

这些数据蕴含着宝贵的信息,对于工业企业的生产效率和质量控制具有重要意义。

1.2 目的与意义本文将深入探讨工业大数据的特点、应用和挑战,以期为相关领域的从业人员提供参考,并推动工业大数据在实践中的应用。

2:工业大数据概述2.1 定义工业大数据是指在工业生产和运营过程中所产生的大规模、高速度、高维度和多样性的数据,通过对这些数据的采集、存储、处理和分析,可以得出有助于提高工业生产效率、减少成本并实现精益生产的有益信息。

2.2 特点与挑战工业大数据的特点包括数据规模庞大、多样性、高时效性和复杂性。

同时,工业大数据也面临着数据安全性、数据质量和隐私保护等挑战。

3:工业大数据的应用3.1 生产优化与控制工业大数据分析可以帮助企业实现生产过程的优化与控制,通过对设备传感器数据和工艺参数的实时监测与分析,发现异常情况并及时调整,提高生产效率和产品质量。

3.2 故障预测与维护基于工业大数据的故障预测与维护可以帮助企业提前发现设备故障的迹象,通过对设备传感器数据的分析,建立故障预测模型,实现设备的故障预防与维护,减少生产停机时间和维修成本。

3.3 质量控制与追溯工业大数据分析可以帮助企业实现产品质量的控制与追溯,通过对生产过程中的监控数据和质量检测数据的分析,发现质量异常并追溯到具体的生产环节,及时采取措施进行调整和改进。

4:工业大数据的法律问题4.1 数据隐私保护工业大数据中涉及个人隐私信息的收集、存储和处理必须符合相关法律法规的规定,确保数据的安全性和隐私保护。

4.2 数据安全性工业大数据的存储和传输必须采取相应的安全措施,防止数据被盗取、篡改或泄露,保护企业的信息安全。

5:总结通过对工业大数据的分析和应用,可以提高工业企业的生产效率、产品质量和设备维护效果,实现智能化生产和精益管理。

第十章 《大数据导论》工业大数据

第十章 《大数据导论》工业大数据
工业大数据=信息化数据+工业物联网数据+跨界数据
01 工业大数据的内涵
工业大数据的空间分布 工业大数据不仅存在于企业内部,还存在于产业链和跨产业链的经营主体中。
企业内部数据,主要是指MES、ERP、PLM等自动化与信息化系统中产生的数据。 产业链数据是企业供应链(SCM)和价值链(CRM)上的数据。跨产业链数据,指 来自于企业产品生产和使用过程中相关的市场、地理、环境、法律和政府等外部 跨界信息和数据。
工业大数据
王晨 清华大学 大数据系统软件国家工程实验室 总工程师 2018.7 北京 联系方式:wang_chen@
导读
本章首先重点阐述了工业大数据定义、空间分布、产生主体和发展趋 势等内涵,接着分析了工业大数据的特征和典型应用场景,然后介绍了工 业大数据分析准备工作、实施流程和分析关键技术,最后给出了两个我国 工业大数据典型应用案例。
PART 2 工业大数据典型应用场景
工业大数据可应用于现有业务优化、推动大中型企业实现智能制造升级和 工业互联网转型。
工业大数据支撑中国制造弯道取直
Gartner2012-制造业的苦笑曲线
中国是制造大国,但不是制造强国
第四次工业革命来袭,大数据是关键支撑手段
德国工业4.0
中国制造2025
美国工业互联网
02 工业大数据分析工作实施
数据准备 需要利用各种技术、工具和方法从不同数据源中提取用于进行自动分
析的验证数据集。必要时还要进行数据清洗、提高数据质量。这一阶段可 能的工作涵盖了提取、记录、选择属性、清洗、转换等一系列任务。
数据质量差是个普遍存在的问题,往往严重制约业务目标实现。所以, 在进行数据分析之前,一定要尽量提高数据的质量。必要的时候,要对数 据质量进行评估,判断能否达到预定的分析效果,以避免长期的无用功。 验证与评估

大数据分析讲稿ppt教案


一致性
不同来源的数据是否 能够相互匹配和验证 。
03 大数据分析技术
CHAPTER
数据预处理
01
02
03
数据清洗
去除重复、异常、缺失数 据,确保数据质量。
数据转换
将数据从一种格式或结构 转换为另一种格式或结构 ,以便于分析。
数据集成
将多个数据源的数据整合 到一个统一的数据仓库中 。
数据分析方法
特点
大数据分析具有数据量大、处理速度 快、数据类型多样等特点,能够为企 业提供更精准、全面的数据分析结果 ,帮助企业做出更好的决策。
大数据分析的重要性
提高决策效率
大数据分析能够快速处理大量数 据,为企业提供及时、准确的分 析结果,从而提高决策效率和准
确性。
发现潜在机会
通过对数据的深入挖掘和分析,企 业可以发现隐藏在数据中的机会和 趋势,从而制定更具针对性的市场 策略。
大数据伦理、法律与社会责任
总结词
大数据的伦理、法律和社会责任是大数 据发展中不可忽视的重要问题。
VS
详细描述
随着大数据技术的广泛应用,数据隐私、 信息安全、算法公正等问题也日益凸显。 因此,在大数据的发展过程中,需要关注 和解决这些伦理、法律和社会责任问题。 例如,加强数据隐私保护、建立数据安全 标准、推动算法公正等,以确保大数据技 术的健康发展。
以更好地了解客户需求,提高客户满意度和忠诚度,降低营销成本。
03
精准营销工具
精准营销工具包括用户画像、推荐系统、A/B测试等,可以帮助企业实
现个性化推荐、优化广告投放等。
风险管理与控制
风险管理概述
风险管理工具
风险管理是指对企业面临的各种风险 进行识别、评估、控制和监控的过程 。

工业大数据课件

大数据的现实来源:一是人产生数据;二是设备产生数据;三是数 据产生数据。
大数据的价值特征:数据规模;数据质量;数据活性。具体表现在 技术价值、商业价值和经济社会价值三个方面。
大数据时代的信息安全:安全策略;安全边界;安全技术。
2、大数据产业体系形态
大数据产业的概念:所谓大数据产业是指:围绕并支撑大数据的获 取、传输、处理、应用和潜在价值发现的一切经济活动和商业行为。
工业4.0是大数据、创新驱动和互联网+等,在一个方面的应用和发展,它从根 本上改变或正在改变着传统的工业经济增长方式,由拼消耗、高污染、低效率的工 业制造转向集约化、创新型、高质量的工业智造,推动社会生产方式由传统经验型 向现代智慧型转变,并成为现代社会进步与发展的重要标志。
了解大数据和工业4.0等相关问题,对于我们深入贯彻中央深改部署、推动经济 转型升级和落实“四个全面”目标等,具有重要的现实意义和深远的历史意义。
1、工业4.0的概念
(1)工业4.0的提出
人类社会工业化的历史演进(大机器时代、电气化时代、电子化 时代);2011年4月德国汉诺威工业博览会(3月美国国际生物大会提出 精准医疗);原意是呼吁通过工业互联网提高德国的工业制造水平。
(2)工业4.0的概念
数据驱动下的制造业;工业4.0是一个社会变革维度的概念,产 业链将以数据为维度进行重新划分,整个社会变革为一个信息与物理环 境互联的系统。
大数据产业的形态:从大数据产业基本内涵上看,其共同属性是支 撑大数据获取、传输、处理、管理、应用、运营到价值发现等的商业化 手段。在外延上表现为:用以实现大数据获取、存储、检索、分析、传 输、处理、展示及应用推广等相关的硬件生产、软件研发、技术提供、 市场营销、业务租赁、服务咨询和人才培养等。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

任务1.2 工业大数据分析1.2.1 工业大数据分析处理流程工业大数据技术是使工业大数据中所蕴含的价值得以挖掘和展现的一系列技术与方法,包括数据规划、采集、预处理、存储、分析挖掘、可视化和智能控制等。

工业大数据应用,则是对特定的工业大数据集,集成应用工业大数据系列技术与方法,获得有价值信息的过程。

工业大数据技术的研究与突破,其本质目标就是从复杂的数据集中发现新的模式与知识,挖掘得到有价值的新信息,从而促进制造型企业的产品创新、提升经营水平和生产运作效率以及拓展新型商业模式。

根据工业大数据白皮书中平台框架,我们一般将工业大数据处理流程理解为数据采集-工业大数据存储与管理-工业大数据分析-工业大数据可视化。

(1)数据采集数据采集是获得有效数据的重要途径,是工业大数据分析和应用的基础。

数据采集与治理的目标是从企业内部和外部等数据源获取各种类型的数据,并围绕数据的使用,建立数据标准规范和管理机制流程,保证数据质量,提高数据管控水平。

工业大数据的采集主要是通过 PLC、SCADA、DCS 等系统从机器设备实时采集数据,也可以通过数据交换接口从实时数据库等系统以透传或批量同步的方式获取物联网数据。

同时还需要从业务系统的关系型数据库、文件系统中采集所需的结构化与非结构化业务数据。

针对海量工业设备产生的时序数据,如设备传感器指标数据、自动化控制数据,需要面向高吞吐、7*24小时持续发送,且可容忍峰值和滞后等波动的高性能时序数据采集系统。

针对结构化与非结构化数据,需要同时兼顾可扩展性和处理性能的实时数据同步接口与传输引擎。

针针对仿真过程数据等非结构化数据具有文件结构不固定、文件数量巨大的特点,需要元数据自动提取与局部性优化存储策略,面向读、写性能优化的非结构化数据采集系统。

(2)工业大数据存储与管理工业大数据存储与管理技术是针对工业大数据具有多样性、多模态、高通量和强关联等特性,这里主要围绕工业大数据存储与管理技术中多源异构数据高效管理技术和多模态数据集成技术两类关键技术进行介绍。

多源异构数据管理技术多源异构数据是指数据源不同、数据结构或类型不同的数据集合。

各种工业场景中存在大量多源异构数据例如,在诊断设备故障时,通过时间序列数据可以观测设备的实时运行情况;通过 BOM 图数据可以追溯出设备的制造情况,从而发现是哪些零部件问题导致异常运行情况;通过非结构化数据可以有效管理设备故障时的现场照片、维修工单等数据;键值对数据作为灵活补充,能方便地记录一些需要快速检索的信息。

数据源不同、数据类型不同,使得这类数据集的使用变得非常复杂,因此大规模多源异构数据管理技术变得十分重要。

为使这些多源异构数据各自发挥其价值,不仅需要高效的存储管理优化与异构的存储引擎,在此基础上还需要能够通过数据融合对数据的元数据定义和高效查询与读取进行优化,实现多源异构数据的一体化管理,从而最大程度上榨取数据价值。

多源异构数据管理需要突破的是针对不同类型数据的存储与查询技术,并在充分考虑多源异构数据的来源和结构随着时间推移不断增加与变化的特定的情况下,研究如何形成可扩展的一体化管理系统。

(3)多源异构数据管理需要从系统角度,针对工业领域涉及的数据在不同阶段、不同流程呈现多种模态(关系、图、键值、时序、非结构化)的特点,研制不同的数据管理引擎致力于对多源异构数据进行高效地采集、存储和管理。

当前,国产数据库及数据管理引擎仍处于新兴发展阶段,在传统的结构化数据之外,针对多源异构数据(包括时序数据、过程与 BOM 图数据,以及工程非结构化数据等),开发稳定而高效的数据管理引擎、并真正落地到工业领域变得愈发重要。

针对海量的工业时序数据在查询高效性和接入吞吐量方面的需求,需要构建能够满足数据边缘接入与缓存、高性能读写、高效率存储、查询与分布式分析一体化的时序数据管理系统,配合缓存、分布式计算与存储框架等组件,以满足功能和易用性需求。

同时需要提供基于 SQL 标准的数据查询接口给工业用户以降低使用门槛。

工业领域的非结构化数据,面向仿真、试验等场景的海量小文件的挑战,要求按产品生命周期、BOM 结构等多种维度进行灵活组织和高效查询,同时对数据能够进行批量读取分析,因此需要构建面向工业场景的支持海量非结构化文件建模、存储、查询和读取的技术系统。

多源异构数据管理技术可有效解决大数据管理系统中由模块耦合紧密、开放性差而导致的系统对数据多样性和应用多样性的适应能力差的问题,使大数据管理系统能够更好地适应数据和应用的多样性并能够充分利用开源软件领域强大的技术开发和创新能力。

针对企业自身数据类型和特点,通过量体裁衣式的构件组合,能够帮助工业企业快速开发和定制适合自身需求的制造业大数据管理系统。

多模态数据集成技术工业大数据来源十分广泛,包括但不限于研发环节的非结构化工程数据、传统的企业信息管理系统、服务维修数据和产品服役过程中产生的机器数据等。

这些数据格式异构、语义复杂且版本多变。

在工业大数据应用中,希望能够将多模数据有机地结合在一起,发挥出单一模态数据无法挖掘出的价值。

数据集成是将存储在不同物理存储引擎上的数据连接在一次,并为用户提供统一的数据视图。

传统的数据集成领域中认为,由于信息系统的建设是阶段性和分布性的,会导致“信息孤岛”现象的存在。

“信息孤岛”造成系统中存在大量冗余数据,无法保证数据的一致性,从而降低信息的利用效率和利用率,因此需要数据集成。

在工业大数据中,重点不是解决冗余数据问题,而更关心数据之间是否存在某些内在联系,从而使得这些数据能够被协同地用于描述或者解释某些工业制造或者设备使用的现象。

数据集成的核心任务是要将互相关联的多模态数据集成到一起,使用户能够以透明的方式访问这些数据源。

集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。

更进一步地,数据融合是在数据集成的基础上,刻画出不同数据之间的内在联系,并允许用户根据这些内在联系进行数据查询。

在数据生命周期管理中,多模态数据存储分散、关系复杂,在研发、制造周期以 BOM 为主线,在制造、服务周期以设备实例为中心,BOM 和设备的语义贯穿了工业大数据的整个生命周期。

因此,以 BOM 和设备为核心建立数据关联,可以使得产品生命周期的数据既能正向传递又能反向传递,形成信息闭环,而对这些多模态数据的集成是形成数据生命周期信息闭环的基础。

针对工业领域在研发、制造和服务各个周期产生的多模态数据,如核心工艺参数、检测数据、设备监测数据等,及其存储分散、关系复杂的现状,需要实现统一数据建模,定义数字与物理对象模型,完成底层数据模型到对象模型映射。

在多模态数据集成模型的基础上,根据物料、设备及其关联关系,按照分析、管理的业务语义,实现多模态数据的一体化查询、多维分析,构建虚实映射的全生命周期数据融合模型。

在多模态数据集成模型基础上,针对多模态数据在语义与数据类型上的复杂性,实现语义模糊匹配技术的异构数据一体化查询。

工业大数据分析(4)工业大数据具有实时性高、数据量大、密度低、数据源异构性强等特点,这导致工业大数据的分析不同于其他领域的大数据分析,通用的数据分析技术往往不能解决特定工业场景的业务问题。

工业过程要求工业分析模型的精度高、可靠性高、因果关系强,这样才能满足日常工业生产需要,而纯数据驱动的数据分析手段往往不能达到工业场景的要求。

工业数据的分析需要融合工业机理模型,以“数据驱动+机理驱动”的双驱动模式来进行工业大数据的分析,从而建立高精度、高可靠性的模型来真正解决实际的工业问题。

因此,工业大数据分析的特征是强调专业领域知识和数据挖掘的深度融合。

这里主要对时序模式分析技术、工业知识图谱技术、多源数据融合分析技术等三种典型的工业大数据分析技术进行介绍。

时序模式分析技术伴随着工业技术的发展,工业企业的生产加工设备、动力能源设备、运输交通设备、信息保障设备、运维管控设备上都加装了大量的传感器,如温度传感器、振动传感器、压力传感器、位移传感器、重量传感器等,这些传感器在不断产生海量的时序数据,提供了设备的温度、压力、位移、速度、湿度、光线、气体等信息。

对这些设备传感器时序数据分析,可实现设备故障预警和诊断、利用率分析、能耗优化、生产监控等。

但传感器数据的很多重要信息是隐藏在时序模式结构中,只有挖掘出背后的结构模式,才能构建一个效果稳定的数据模型。

工时序数据的时间序列类算法主要分六个方面:时间序列的预测算法如 ARIMA,GARCH 等;时间序列的异常变动模式检测算法,包含基于统计的方法、基于滑动窗窗口的方法等;时间序列的分类算法,包括 SAX 算法、基于相似度的方法等;时间序列的分解算法,包括时间序列的趋势特征分解、季节特征分解、周期性分解等;时间序列的频繁模式挖掘,典型时序模式智能匹配算法(精准匹配、保形匹配、仿射匹配等),包括 MEON 算法、基于 motif 的挖掘方法等;时间序列的切片算法,包括 AutoPlait 算法、HOD-1D 算法等。

工业大数据分析的一个重要应用方向是对机器设备的故障预警和故障诊断,其中设备的振动分析是故障诊断的重要手段。

设备的振动分析需要融合设备机理模型和数据挖掘技术,针对旋转设备的振动分析类算法主要分成三类:振动数据的时域分析算法,主要提取设备振动的时域特征,如峭度、斜度、峰度系数等;振动数据的频域分析算法,主要从频域的角度提取设备的振动特征,包括高阶谱算法、全息谱算法、倒谱算法、相干谱算法、特征模式分解等;振动数据的时频分析算法,综合时域信息和频域信息一种分析手段,对设备的故障模型有较好的提取效果,主要有短时傅里叶变换、小波分析等。

工业知识图谱技术工业生产过程中会积累大量的日志文本,如维修工单、工艺流程文件、故障记录等,此类非结构化数据中蕴含着丰富的专家经验,利用文本分析的技术能够实现事件实体和类型提取(故障类型抽取)、事件线索抽取(故障现象、征兆、排查路线、结果分析),通过专家知识的沉淀实现专家知识库(故障排查知识库、运维检修知识库、设备操作知识库)。

针对文本这类的非结构化数据,数据分析领域已经形成了成熟的通用文本挖掘类算法,包括分词算法(POS tagging、实体识别)、关键词提取算法(TD-IDF)、词向量转换算法、词性标注算法(CLAWS、VOLSUNGA)、主题模型算法(如 LDA)等。

但在工业场景中,这些通用的文本分析算法,由于缺乏行业专有名词(专业术语、厂商、产品型号、量纲等)、语境上下文(包括典型工况描述、故障现象等),分析效果欠佳。

这就需要构建特定领域的行业知识图谱(即工业知识图谱),并将工业知识图谱与结构化数据图语义模型融合,实现更加灵活的查询和一定程度上的推理。

相关文档
最新文档