大数据时代的行业变革

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2、大数据分析技术与实践 文本大数据处理技术(海量短信过滤)
2、大数据分析技术与实践 音频大数据处理技术(音乐内容分析)
2、大数据分析技术与实践 音频大数据处理技术 图1:输入音乐波形
切分音符 (音长)
2、大数据分析技术与实践 音频大数据处理技术
情景分类
2、大数据分析技术与实践 图像大数据处理技术
对ICT战略进展中产生生的大大 数据进行行收集、解析、利 用用。对国有的、学术界的和 产业界的大大数据进行行融合。
基于GPS的“道路交通图”在受 灾地区救助活动中应用用;基于 匿名化的手手机定位信息展现人人 口口移动的“移动空间统计”等。
1、大数据时代的背景
大大数据驱动新工工业革革命
第一一次工工业革革命 时间 能源 材料 工工艺 特征 第二二次工工业革革命 第三次工工业革革命?
短信文本词 库构造及管 理方法
测试 集 1# 2# avg
高抽样过滤 召回率
82.15% 81.02% 81.59%
低抽样过滤
加权准 加权准 误判率 召回率 误判率 确率 确率
99.7% 97.28% 98.49% <0.1% <0.1% <0.1% 59.41% 60.23% 59.82% 96.59% 95.22% 95.91% 2.1% 3.02% 2.56%
美国国家档案和记录管理部
方方针
基础设施
应用用服务
美国国家航空和航天局 美国国家人人文文基金金会 美国国家卫生生研究院 美国国家科学基金金 美国国家安全局 美国地质勘探局
多模式多通道数据融合
月月球绘制与建模、环境条件评估等 大大数据对人人文文社会科学的影响 展开临床实践决策支支持,医学生生物工工 程等方方面面的研究
案例: 深圳永盛精工模具有限公司是由深圳市科 学技术委员控股管理的公司 关联企业有6家,分别是: 1、深圳市泰来仪器有限公司 2、深圳市海通电子应用有限公司 3、深圳市中海电气技术有限公司 4、深圳市山水园艺实业有限公司 5、深圳市华堂电器有限公司 6、深圳市康发真空科技有限公司
3.1 、金融行业大数据分析
原图
前景消除
背景补齐
智能图片背景自动补齐技术
2、大数据分析技术与实践 图像大数据处理技术
智能图片自动修复技术
2、大数据分析技术与实践 图像大数据处理技术
修改后的Android2.3
运行在ubuntu10.04上 的Android2.2系统
手机云加速技术
2、大数据分析技术与实践 图像大数据处理技术
内容提纲
大数据时代的背景 大数据分析技术与实践 大数据时代的行业变革 大数据时代未来展望
2、大数据分析技术与实践 基于Hadoop的数据挖掘技术
2、大数据分析技术与实践
基于Hadoop的数据挖掘平台操作界面
2、大数据分析技术与实践
■ Native贝叶斯和Kmeans算法性能对比
Kmeans 6 5 471M 4710M
3.1 、金融行业大数据分析
金融大数据案例1:企业画像
■ Zest Finance ■ 阿里金金融 ■ 个人人预授信 ■ 企业预授信
深圳前海股权中心心企业画像
基于SaaS服务终端
PRD01:建立深圳信用网企业数据库
PRD02:建立前海企业数据库
PRD03:建立和社交网络关联的数据库
通过打通前海和深信网的数据,我们发现了和新浪微博近
“新疆七五事件” 之 观点分析
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警)
■ 电子科技大学 《BBS监控系统》 ■
成都大东网络安全技术有限责任公司 《舆情处置分析系统》
2、大数据分析技术与实践 文本大数据处理技术(海量短信过滤) 堵
内容特征 + 行为特征
流量过滤
拦 截
黑白名单
垃 圾 短 信
英 国
协同企业、创业公司、学术机构、政 开放数据研究所(ODI) 府和社会的力力量共同探索和发掘政府 公开数据的商业和社会价值。 FP7 Call 8专⻔门征集针对大大数据的研 究项⺫目目。重视大大数据分析算法和大大数 据系统效率。 在大大数据战略、商业及社交数据分 析、大大数据解决方方案等方方面面展开国际 交流。
50000的管理信息,包括企业主的关联和企业的管理
PRD04:进行企业多源信息关联分析
通过深度匹配,通过打通前海和深信网的数据,前海股权交易中心和深圳信用网 数据存在大量异常,涉及企业注册资本、企业注册时间、法人代表等
PRD05:企业关系数据挖掘终端
我们将结合深圳信用网、前海 股权交易中心的数据对深圳企 业股权关系近挖掘,能够发现 企业母公司和子公司关系、关 联公司关系、法人代表与管理 公司关系等。
2011
2012
1、大数据时代的背景 大数据的概念
我们的观点,简单地说:“大大数据”就是“海量数据”+“复杂计算”。具体地说:是面面对! 规模巨大大、高高速产生生的形式多样的数据,只有通过复杂计算才能获取其中有价值信息的计算模! 式。其中,“规模巨大大”与“高高速产生生”反映出海量数据的特点;“形式多样”与“信息价值”! 反映出复杂计算的特点。“4V”的具体含义如下:
4
3 2
1
0
1
2
3
4来自百度文库
5
6
7
8
9
2、大数据分析技术与实践 文本大数据处理技术(基础平台) ■ 分布式深度爬虫系统 ■ 新闻门户、微博、论坛、社交网站、电商网站 ■ 元文件解析系统 ■ 网页、word、PDF,其他… ■ 文本分析系统 ■ 文本分词、同义词 ■ 分布式算法 ■ Hadoop、Graphlab
准备将全球企业和信息汇 总;对位置数据进行行整合。
第七框架计划(FP7)
欧 盟
将数据信息化基础设施作为 计划的优先领域。 .
大大数据欧盟会议(Big Data Europe)
组织发布商业智能和社交⺴网网络 分析的相关大大数据信息。
日日 本
总务省“活力力ICT日日 本”计划
把大大数据发展作为国家层面面战略提 出,新ICT战略重点关注大大数据应用用 技术。
互联⺴网网
物联⺴网网
天 文文
大大数据
气气 象 其他
医疗健康
1、大数据时代的背景
数据产生生和消费模型开始转变
旧模式:少量公司产生数据,其他大量人消费数据。
新模式:人们产生数据,人们消费数据。
1、大数据时代的背景 美国大数据研究情况
机构/项⺫目目
美国国防部 美国国土土安全局 美国资源部 美国退伍军人人管理部 美国卫生生和人人类服务部
规模巨大(Volume) 高速产生(Velocity) 形式多样(Variety) 潜藏价值(Value)
巨量:从TB级别,跃升到PB级别,甚至至ZB级别。
动态:数据高高速持续生生成,要求处理能力力高高,具有! 很强的实时性。 多态:数据类型繁多,如文文本、视频、音音频、图片片! 等及其变化组合。
1、大数据时代的背景 典型的大数据
智能图片搜索技术
2、大数据分析技术与实践 图像大数据处理技术
2、大数据分析技术与实践 图像大数据处理技术
智能图片背景分离技术(阴影干扰)
2、大数据分析技术与实践 图像大数据处理技术
智能图片背景分离技术(光线干扰)
2、大数据分析技术与实践 图像大数据处理技术
智能图片背景分离技术(复杂背景)
2、大数据分析技术与实践 图像大数据处理技术
大大数据时代的行行业变革革
周俊临 jlzhou@uestc.edu.cn 电子科技大学 互联网科学中心
内容提纲
大数据时代的背景 大数据分析技术与实践 大数据时代的行业变革 大数据时代未来展望
1、大数据时代的背景 大数据概念的发展脉络
2011.5 2010.4 列入维基百科: 2010年4月21日, 首次列入入“维基 百科”条目 2008 概念最初提出: 《Nature》推出 了Big Data专刊
1、大数据时代的背景
1.0案例
■ Quantified Self ■ 婚恋匹配 ■ Netflix
1、大数据时代的背景
大大数据2.0
■ 搜集与目标业务直接或间接关联的大大量异 质数据 ■ 建立复杂的分析和预测模型,产生生针对目 标业务的输出 ■ 数据即决策
1、大数据时代的背景
大大数据3.0
■ 对数据质量、价值、权益、隐私、安全等产生生充 分认识,出台量化与保障措施 ■ 数据运营商出现,数据市场形成,数据产品丰富, 数据客(Dacker)活跃 ■ 学术团体、企业和政府通过大大量异质数据和数据 产品产生生科学、社会、经济等方方面的新价值
概括为4个V:! 大大规模(Volume)! 多样化(Variety)! 快速增⻓长(Velocity)! 潜藏价值(Value) 2012
Science推出专刊 《Dealing with Data》,说明大大数 据对于科学研究 的重要性
!
!
美国国家科学基 金金,发布大大数据 指南
!
2008
2010
!
!
麦肯锡助推: 2011年5月,麦肯锡全球 研究院(MGI)发布了一一份 报告——《大大数据:创 新、竞争和生生产力力的下 一一个新领域》,推动了 工工业界和学术界对大大数 据的关注 2011.2 2011.11 IBM: 在产品发布会 上主推大大数据 概念
!
海量、多样分! 布的、异构的! 数据。
18世纪60年代 – 19世纪70年代 – 21世纪初 19世纪40年代 20世纪初 蒸汽 金金属 机器制造 规模化 电力力 化学 精密仪器 自动化 计算 数据 证析 个性化
1、大数据时代的背景
大大数据1.0
■ 自身业务需求产生生大大量数据 ■ 利用这些数据,通过深入入证析, 优化相关业务 ■ 数据指导决策
3.2、人力资源行业大数据分析 游戏化机制,积分奖励
参与任务获得积分、积分排行行榜 积分商城换购
3.游戏化:吸引更多员工工加入入,参与就能得到激励,并非非只关注结果。
3.2、人力资源行业大数据分析 微信版,更便捷使用
4.更简单:微信端使用用,相当于系统的移动客户端,手手机就能操作!
3.2、人力资源行业大数据分析 成功案例
1.大大数据挖掘及智能匹配 ,帮助推荐人人找到适合推荐的候选人人。
3.2、人力资源行业大数据分析
人人才模型vs匹配算法
3.2、人力资源行业大数据分析 每个参与推荐的人,均获奖励

校友会、商业合作伙伴等
企业 员工工 论坛、线上平台等 中间推荐人人 候选人人
2.更激励:传统员工工推荐只有员工工获得奖金金,触达范围有限。我们让所有参与推荐 过程的人人都得到奖励,将奖励延展至至所有关联并信任的网网络。
金融大数据案例2:个性化推荐
■ 个性化产品推荐 ■ 个性化资讯推荐 ■ 个性化着陆页
Yes !
3.1 、金融行业大数据分析 金融大数据案例3:反欺诈
■ 股票交易中的麻袋用户甄别 ■ 信用卡恶意透支
3.1 、 金融行业大数据分析 金融大数据案例4:保险歧视
■ 健康评估 ■ 行行为车险
3.2、人力资源行业大数据分析 拓展员工社交网络,精准匹配
抽样过滤
……..
关键词
正 常 短 信
放 行
文本分类
采用多强度过滤技术,尽早放行正常短信,有效拦截垃 圾短信!
2、大数据分析技术与实践 文本大数据处理技术(海量短信过滤)
适合短信 文本的分 词系统 基于增量分析 的垃圾短信内 容识别方法
内容分析识别方法
过滤速度快! ! 每秒:527.84条 每天:4561万条
油画效果 本地执行:230s 加速执行:16s 大小:49K 浮雕效果 本地执行:166s 加速执行:14s
黑白效果 本地执行:62s 加速执行:14s
积木效果 本地执行:149s 加速执行:14s
加速效果展示(开发板:图片滤镜)
内容提纲
大数据时代的背景 大数据分析技术与实践 大数据时代的行业变革 大数据时代未来展望
! !
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警)

杭州70码
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警)
舆情群体分析
1. 2. 3. 三鹿事件报道 问责食品安全 网民调侃三鹿
2、大数据分析技术与实践 文本大数据处理技术(舆情发现与预警) “开胸验肺事件” 之 发展趋势预测
大大规模⺴网网络态势安全分析
1、大数据时代的背景 其他国外研究大数据情况总览
机构/项⺫目目
财政部科学资金金
方方针
发展大大数据和节能计算的研究,带动 企业在该领域的投资。
基础设施
加强计算基础设施,捕捉并 分析通过开放式数据革革命获 得的数据流。
应用用服务
基于医疗保健、人人口口统计、农 业和环境领域数据量提供服 务。 通过大大数据向用用户提供免费查 询服务;用用户可以根据税率和 交通情况等条件筛选最宜居的 地点等 .
相关文档
最新文档