大数据平台最佳实践
大数据存储和处理的最佳实践

大数据存储和处理的最佳实践一、介绍大数据对现代社会和企业具有重要意义,但面对大量的数据挑战,存储和处理变得更加困难。
因此,为了最大限度地利用大数据的潜力,就需要采用最佳的实践方法来存储和处理数据。
这篇文章将介绍大数据存储和处理的最佳实践。
二、数据存储的最佳实践1、冷热数据分离在大数据存储中,数据可能会变得非常庞大。
因此,冷热数据分离是一个重要的实践方法,可以将不需要频繁访问的数据(即冷数据)移动到较便宜的存储介质中。
实现这个实践的最佳方法是通过数据层次化存储,管理热数据、温数据和冷数据。
2、追求高可靠性和高性能在大数据存储中,可靠性和性能是最为重要的因素。
以Hadoop HDFS为例,Hadoop提供了一种分布式存储系统,具有高可用性和容错性。
3、压缩技术压缩技术可以帮助在有限的存储空间中存储更多的数据。
使用成熟的压缩技术如Snappy、LZO等可以降低存储成本,但要注意压缩与解压缩的性能影响。
三、数据处理的最佳实践1、数据清洗在进行大规模数据处理之前,需要对数据进行清洗。
清洗后的数据不仅可以提高分析和挖掘的准确性和可靠性,还可以优化性能和降低系统重负载的风险。
2、分布式计算在大规模数据处理方面,分布式计算是一种高效的解决方案。
对于分布式计算的实现,Hadoop提供了批处理框架MapReduce,可以将大量的数据分解成小块,每个块分配到一个可用的节点上,从而实现大规模并行计算。
3、采用内存数据库内存数据库是一种在内存中运行的数据库,可以大幅提高数据处理的速度。
如果你在处理大量的实时或者高速数据,可以考虑使用内存数据库,如Redis、Memcached等。
四、总结以上是关于存储和处理大规模数据的最佳实践。
在实际应用中,还需要根据具体情况选择适合的数据存储和处理方案。
希望这篇文章提供了你一些有价值的见解,让你能够更好地利用大数据的潜力。
互联网行业的最佳实践成功案例和经验分享

互联网行业的最佳实践成功案例和经验分享随着互联网的迅猛发展,互联网行业成为各个行业中最具活力和创新性的领域之一。
许多公司在互联网行业中实现了令人瞩目的成功,他们的最佳实践和经验对于其他企业的发展具有重要的借鉴意义。
本文将通过介绍几个互联网行业的成功案例,分享他们的经验和实践,帮助读者更好地了解互联网行业的发展趋势和应对策略。
一、BAT:互联网行业的巨头BAT,即百度、阿里巴巴和腾讯,是中国互联网行业的三大巨头。
他们各自积累了丰富的经验和成功案例,成为了互联网行业的领导者。
百度以搜索引擎为核心,通过不断提升搜索技术和优化用户体验,成功在搜索引擎市场中占据领先地位。
阿里巴巴通过构建完整的电商生态系统,将传统的线下零售业务转移到了线上,并成功实现了全球数字贸易平台的建立。
腾讯则通过打造社交媒体平台和购物平台,深度挖掘用户需求,提供了丰富多样的互联网服务。
这些巨头的成功经验值得其他企业学习和借鉴。
首先,他们始终坚持用户至上的原则,不断优化产品和服务,以满足用户的需求。
其次,他们积极创新,不断推出新的产品和服务,与时俱进。
最后,他们注重生态建设,通过与合作伙伴共同发展,构建庞大的用户群体和生态系统,实现多赢的局面。
二、字节跳动:移动互联网时代的新星字节跳动是近年来崛起的一家移动互联网公司,凭借其优秀的产品和创新的商业模式,迅速成为了互联网行业的瞩目新星。
字节跳动的产品主要包括今日头条、抖音、TikTok等,在用户数量和市值方面均取得了亮眼的成绩。
字节跳动的成功离不开其对用户需求的准确把握和创新的商业模式。
首先,字节跳动通过大数据分析和算法推荐,为用户提供个性化的内容和服务,满足用户多样化的需求。
其次,字节跳动注重社交共享,通过用户生成内容和社交互动,形成了强大的用户粘性。
最后,字节跳动注重国际化战略,将产品拓展到全球市场,并取得了巨大的成功。
三、滴滴出行:互联网+交通出行滴滴出行作为互联网+交通出行领域的典型代表,通过整合出行资源、智能调度和便捷支付等创新点,成功实现了出行服务的革新。
大数据平台搭建方案

大数据平台搭建方案引言随着数据的爆炸式增长和数据分析的需求不断增加,大数据平台的搭建成为了许多企业追求的目标。
通过构建一个强大而稳定的大数据平台,企业可以更好地利用数据来进行决策、优化业务流程以及发现商机。
本文将介绍一个大数据平台的搭建方案,并提供一些建议和最佳实践。
技术架构一个典型的大数据平台由以下几个核心组成部分:1.数据源:包括结构化数据(例如数据库、日志文件等)和非结构化数据(例如图像、音频、文本等)。
2.数据采集:负责从各种数据源中收集和提取数据,并将其转换为可用于分析的格式。
常用的工具包括Flume、Logstash等。
3.数据存储:用于存储和管理海量数据的系统。
推荐使用分布式文件系统(例如Hadoop HDFS)和列存储数据库(例如Apache HBase)来满足不同场景下的存储需求。
4.数据处理:包括数据清洗、数据集成、数据转换、数据计算等。
Hadoop生态系统(例如MapReduce、Hive、Pig)和实时计算引擎(例如Apache Storm、Spark Streaming)是常用的工具。
5.数据分析:使用统计学和机器学习算法对数据进行分析和建模,提取有价值的信息。
Apache Spark和TensorFlow等工具可以帮助实现这一目标。
6.数据可视化:将分析结果可视化,以便用户更直观地理解和使用数据。
常用的工具包括Kibana、Tableau等。
部署方式大数据平台的部署方式可以有多种选择,取决于具体的业务需求和资源情况。
以下是几个常见的部署方式:1.本地部署:将所有的组件都部署在本地服务器上。
这种方式的优点是控制权高,可以更好地满足特定需求。
然而,需要投入更多的资源来建设和维护。
2.云平台部署:将大数据平台部署在云平台上,例如Amazon Web Services(AWS)、Microsoft Azure等。
这种方式可以极大地减少硬件投入和管理成本,同时还可以根据需要灵活地扩展资源。
利用Spark进行实时大数据处理的最佳实践

利用Spark进行实时大数据处理的最佳实践在当今数字化时代,大数据处理已成为企业不可或缺的一环。
为了满足日益增长的数据处理需求,传统的批处理方式已无法满足实时性和性能的要求。
而Apache Spark作为一个快速、通用、容错且易用的大数据处理引擎,成为了处理实时大数据的最佳实践之一。
Spark提供了丰富的API和内置的组件,可以在实时大数据处理过程中实现高效的数据处理和分析。
以下是利用Spark进行实时大数据处理的最佳实践。
1. 选择合适的集群模式:Spark可以在多种集群模式下运行,包括单机模式、本地模式、独立模式和云模式。
根据数据量和需求,选择合适的集群模式可以提高实时大数据处理的效率和性能。
2. 使用Spark Streaming处理流式数据:Spark Streaming是Spark的一部分,支持从各种数据源(如Kafka、Flume和HDFS)实时接收数据并进行处理。
使用Spark Streaming可以实时处理数据流,并支持窗口和滑动窗口操作,以满足不同的实时数据分析需求。
3. 使用Spark SQL进行结构化数据处理:Spark SQL是Spark的SQL查询引擎,可以通过SQL语句处理结构化数据。
通过使用Spark SQL,可以方便地进行实时查询、过滤和转换操作,以满足实时大数据处理的需求。
4. 使用Spark MLlib进行机器学习:Spark MLlib是Spark的机器学习库,提供了各种机器学习算法和工具,可以在实时大数据处理中应用机器学习。
通过使用Spark MLlib,可以进行实时的数据挖掘和模型训练,帮助企业发现隐藏在大数据中的信息和模式。
5. 使用Spark GraphX进行图处理:Spark GraphX是Spark的图处理库,用于处理大规模的图数据。
通过使用Spark GraphX,可以进行实时的图分析和图计算,帮助企业发现图数据中的关联和模式。
6. 使用Spark Streaming和Spark SQL进行流与批处理的无缝集成:Spark提供了将流处理和批处理无缝集成的能力,可以在同一个应用程序中同时处理实时数据流和批处理数据。
大数据分析技术的最佳实践案例及经验分享

大数据分析技术的最佳实践案例及经验分享随着信息技术的不断发展,大数据分析技术在各个领域得到了广泛应用。
在这个信息爆炸的时代,大数据分析技术可以帮助企业和组织快速获取、处理和分析海量的数据,从而为决策提供更准确、更有效的支持。
本文将以几个实际案例为例,分享大数据分析技术的最佳实践经验。
首先,我们来看一个来自零售行业的案例。
零售业是一个数据量巨大、种类繁杂的行业,如何利用大数据来提升业务效益成为了零售商的重要问题。
一个成功的案例是沃尔玛的“自动补货系统”。
沃尔玛通过对销售数据的实时分析,将多个数据源进行整合,结合门店的库存情况和销售趋势,通过大数据分析技术来预测商品的销售需求,并实时自动化补货系统完成货物的调配。
这样一方面可以大大减少销售商品的过剩和缺货现象,提升顾客满意度;另一方面也可以减少企业的库存成本,提高运营效率。
另一个案例来自医疗行业。
医疗领域的数据种类繁多,包括病例数据、病历数据、药物数据等等。
如何利用大数据分析技术来提升医疗质量和降低医疗成本成为了医疗机构的重要课题。
一家医疗保险公司通过数据分析技术,对大量的病例数据进行挖掘,建立了一套疾病预测模型。
通过分析患者的历史病例和风险因素,可以预测患者患某种疾病的概率,并根据患者的风险等级来进行个性化的治疗方案推荐。
这样一方面可以提高医疗机构的效益和服务质量,另一方面也可以降低医疗保险公司的理赔风险。
再来看一个案例来自金融行业。
金融领域是一个数据密集型的行业,大数据分析技术在金融风控、反洗钱等方面起到了重要的作用。
一家银行通过对大量的交易数据进行分析,建立了一套风险控制模型。
通过识别异常交易和不规范操作的模式,大数据分析技术可以发现潜在的金融风险,并及时采取相应的措施进行风险管控。
这样一方面可以保护银行和客户的资金安全,另一方面也可以提高银行的业务水平和竞争力。
通过上述案例可以看出,大数据分析技术的最佳实践需要从数据收集、数据清理、数据分析和数据应用等多个环节进行整合。
中国大数据应用最佳实践案例

中国大数据应用最佳实践案例中国大数据应用最佳实践案例如下:1. 电子商务领域的个性化推荐系统:通过大数据分析用户的购买行为、浏览历史、兴趣爱好等信息,为用户推荐个性化的商品和服务,提高用户购买率和用户满意度。
2. 智能交通管理系统:利用大数据分析交通流量、车辆信息等数据,实现智能信号灯控制、交通拥堵预警等功能,提高交通效率和安全性。
3. 金融风控系统:通过大数据分析客户的信用记录、财务状况等信息,评估客户的信用风险,帮助金融机构准确判断贷款违约风险,提高贷款审批的准确性和效率。
4. 医疗健康管理系统:通过大数据分析患者的病历、病情等信息,实现个性化诊疗方案、疾病预警等功能,提高医疗服务的质量和效率。
5. 城市智能化管理系统:通过大数据分析城市的人口流动、环境污染等信息,实现智能能源管理、环境监测等功能,提高城市的可持续发展能力。
6. 物流供应链管理系统:通过大数据分析供应链的物流信息、库存信息等数据,优化物流路径规划、库存管理等环节,提高物流效率和降低成本。
7. 旅游行业的智能推荐系统:通过大数据分析用户的旅游偏好、地理位置等信息,为用户推荐个性化的旅游线路和景点,提高用户的旅游体验和满意度。
8. 农业生产管理系统:通过大数据分析农田的土壤状况、气象信息等数据,实现智能化的农田管理和农作物种植决策,提高农业生产的效益和质量。
9. 教育智能化管理系统:通过大数据分析学生的学习情况、教学资源等信息,实现个性化的教学辅导和学习评估,提高教育教学的效果和质量。
10. 基层社区服务管理系统:通过大数据分析社区居民的需求、健康状况等信息,实现精细化的社区服务管理和健康监护,提高社区居民的生活质量和幸福感。
以上是中国大数据应用领域的一些最佳实践案例,这些案例充分展示了大数据在各个领域的应用价值和潜力,对于推动经济社会发展具有重要意义。
希望通过这些成功案例的分享,能够激发更多创新思维和应用场景,推动大数据技术的进一步发展和应用。
大数据典型案例:数据治理平台的建设与实践

大数据典型案例:数据治理平台的建设与实践背景作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘。
在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持。
经过多年的发展,美团酒旅内部形成了一套完整的解决方案,核心由数据仓库+各种数据平台的方式实现。
其中数据仓库整合各业务线的数据,消灭数据孤岛;各种数据平台拥有不同的特色和定位,例如:自助报表平台、专业数据分析平台、CRM数据平台、各业务方向绩效考核平台等,满足各类数据分析挖掘需求。
早期数据仓库与各种数据平台的体系架构如图1所示:图1 酒旅早期各数据平台和数据仓库体系架构图图1所示的体系架构,在业务需求的满足上非常高效,但在长时间的使用过程中,也产生了如下一些问题:· 各数据平台或平台内不同模块的指标定义不一致。
· 各数据平台或平台内不同模块指标计算口径不一致。
· 各数据平台或平台内不同模块指标数据来源不一致。
上述这些问题总结归纳起来,就是指标数据不一致的问题,最终带来的后果是指标数据可信度底,严重影响分析决策。
通过后续追踪分析,上述问题的由来,主要是不同业务线的数据分析人员、数据开发人员,以及不同的产品之间,缺乏有效的沟通,也没有一个统一的入口,来记录业务的发生和加工过程。
在加上人员的流动,长时间积累之后就产生了这些问题。
针对这些问题,酒旅内部启动了数据治理项目,通过建设一个专业数据治理平台,实现指标维度及数据的统一管理,也探索一套高效的数据治理流程。
挑战在建设起源数据治理平台的过程中,主要面临的挑战如下:· 起源数据治理平台应该在架构中的哪个位置切入,减少对原有系统的侵入,并实现数据治理目标。
· 探索一套简洁高效的管理流程,实现指标维度信息统一管理,保证信息的唯一性、正确性。
· 整合各种存储引擎,实现一套高并发、高可用的数据唯一出口。
· 做好各业务线间的信息隔离和管理,确保数据安全。
5个大数据实践应用项目

5个大数据实践应用项目大数据由于被人大炒热炒导致技术的趋势已经将最初的光环给褪去了,而且这种退潮也来得相当快,甚至有一些持有怀疑论者对于大数据的技术也用保守的眼光去看待。
然而大数据目前已经被公认改变世界的最新趋势了,对于大数据持有怀疑论者程度远远低于云计算和社交质疑。
这可能是因为大数据已为那些拥抱大数据的企业带来了实际的收益。
而且,大数据分析也正在从根本上改变着一些不同的领域,如药物研究、市场营销和产品开发等。
像智慧城市和无人驾驶汽车这样的用例的研究和发展,也是为了满足我们生活中的各种需求而存在。
而大数据技术的未来可能也是如此——逐步发展以满足人们的需求,但目前大数据还没有发展到它应该发展的阶段。
Infobright的首席执行官Don DeLoach说:“技术上的可行性和实际执行力存在很大的差别。
我们来看看拉动大数据的两种趋势,即物联网和机对机通信,这两种趋势都已经存在了很长时间,而随着传感器越来越复杂、价格逐渐降低,以及各种无线技术的选择越来越多样化,理论上的技术可行性正在逐渐变得更富实践性。
”我们很多雄心勃勃的大数据梦想目前都还没有进入到实际的应用阶段,比如,我们研发无人驾驶汽车的技术已经有了,但却不具备实际的基础设施的支持而真正得到量产、普及。
即使这样,无人驾驶汽车仍然引人注目。
DeLoach说:“如果你想探知大数据究竟产生了什么样的影响,那么你看投资到大数据技术上的资金就可以了。
因为投资回报率(ROI)最高的领域,也是越吸引人们去投资的领域。
”在医疗、车载通信技术和线上营销等领域大数据投资回报率已日趋清晰,但是这并不意味着我们最终会创造出无人驾驶汽车和超级智慧城市,而是说,目前大数据技术在这些领域的发展还不足以达到实际应用的程度,从而吸引大规模的投资。
本文描述了五个横跨实际应用和技术可行界限的大数据项目,这些项目,或那些与之类似的项目能够真正地给我们的生活带来变化,让生活变得更加美好。
人类基因组计划变革了医疗行业20世纪90年代初,人类基因组计划开始实行,但那时我们并没有意识到它实际就是一种大数据[注]项目。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DCN网络接入 路由器
接入路由器
DCN网络IP承载网A省客服系统 采集系统 产创平台
B 省
客服系统 采集系统 产创平台
X 省
客服系统 采集系统 产创平台
SGSN
Gn口
GGSN
SGSN
Gn口
GGSN
SGSN
Gn口
GGSN
两路x86服务器(基于Intel® Xeon E5600系列处理器) NameNode节点:3台 DataNode(数据存储节点): 178台 Zookeeper节点:7台 集群监控节点:1台 入库服务节点:24台 Web查询应用服务节点:20台 网络交换设备 机框间通过万兆交换机连接, 以完成快速的数据交换 Intel® Hadoop发行版 满足高性能的数据导入和快 速查询。 稳定、易于部署和管理的企 业级方案。
Low
Value
Time
Negative
• 大数据高价值的重要体 现-处理速度
Source: IDC Digital Universe Study, sponsored by EMC, May 2010
数据的多样性
• 数据形式的多样:
– 结构化数据 ,数据间有很强的因果关系 – 半结构化数据 ,数据间因果关系较弱 – 非结构化数据, 数据间无因果关系
系统部署
DataNode and RegionServer
Intel’s Distribution of Hadoop
系统部署
NameNode节点
Zookeeper
核心交换机 查询接口服务器
核心交换机 FTP传输及入库
负载均衡器
核心交换机
核心交换机
负载均衡器
核心交换机
核心交换机
防火墙
防火墙
防火墙
防火墙
当数据集和索引变大时,传统关系型 数据库如Oracle、Sybase,在对大规 模数据进行操作会造成系统性能严重 下降,因为在处理数据时SQL请求会 占用大量的CPU周期,并且会导致大 量的磁盘读写,性能会变得让人无法 忍受
成本
小型机+高端存储 + 关系数据库 成本导致扩展困难
移动用户上网记录集中查询与分析支撑系统
全国集中的一级架构,电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中
系统 构成 系统采用全国集中的一级架构方案进行建设,主要包含数据采集子系 统、数据入库子系统、数据存储子系统、数据查询与分析子系统
解决 方案
基本 技术
采用Hadoop/HBase作为上网记录存储方案 采用MapReduce/Hive作用统计分析和数据挖掘工具
Flat file
• 数据来源的多样性:
– – – – 不同的应用系统 各种设备 互联网 其它
Source: IDC Digital Universe Study, sponsored by EMC, May 2010
创造显著业务价值(VALUE)
大数据分析
3V特性驱动下创建
显著的业务价值
挖掘数据资产价值,通过数据驱动业务,变 成本中心为利润中心
Aggregated/Enriched
Summary/Interactive
提纲 • 大数据带来的挑战 • 大数据案例介绍 • Intel大数据平台
联通3G详单查询-问题来源(1/2)
随着移动互联网业务的发展,上网记录查询成为用户投诉的焦点
目前,中国联通省分公司3G客户数据流量问题争议占3G业务投诉达710%,且近几个月呈上升趋势,个别省分比例高达20% 一些用户对3G业务流量产生及计费方式不了解,主观认为自己未使用 或使用较少数据流量,要求运营商提供上网记录,而现有系统不具备 此功能,从而导致投诉升级。
Hadoop Cluster (Hundreds of TB’s to PB’s)
• • Direct query Direct Modeling
Applications and Tools (Modeling on 100’s of TBs to PB’s)
SemiStructured Data
Historical/Archival/Event Level
过车记录
每秒钟 每小时 每天 每月 三个月
单个区数据中心
~ 6MB/s ~20GB/hour ~480GB/day ~14.4TB/month ~43.2TB/3months 1200 条记录/s 432万条/小时 1亿条/天 30亿条/月 90亿条/三个月
全市数据总和
120MB/s ~400GB/hour ~9.6TB/day ~288TB/month ~0.8PB/3months 24000条记录/秒 8640万条/小时 20亿条/天 600亿条/月 1800亿条/三个月
数据 存储
关键性 能指标
数据 查询
上网记录入库时间:一般小于30分钟,实际约10分钟 具备存储全国移动用户不小于6个月的原始上网记录能力 历史5个月+当前月 统计分析的中间报表数据保存不小于5年 上网记录查询速度:不高于1秒(不含用户访问查询页面的时间) 支持并发查询数目:1000请求/秒
提供高效的计算芯片、存储、I/O、网络技术,加速大数据价值挖掘与 提高决策反应
基于x86平台,提供最优的软件和工具,推动大数据应用的部署和创新
促进大数据生态系统的建设,与广泛的合作伙伴合作,与中国共成长
© Copyright 2011 EMC Corporation. All rights reserved.
智慧城市-典型的大数据应用集合
2014-1-29
8
大数据处理导致的平台瓶颈
大数据处理 需要的扩展 能力
数据处理需求与 传统平台硬件扩 展的差距不断扩 大
Industry Progress
大数据分析不同于传统BI分析
问题来源
3G流量费争议占总咨询投诉量比率
联通3G详单查询-问题来源(2/2)
上网记录查询对中国联通的业务发展产生了较大的影响
某iPhone合约计划用户,在凌晨零点到4点之间手机产生巨额流量费 在其得知因受计量设备限制无法向其提供数据流量去向后,竟上升到 司法诉讼层面
案例
影响
对用户而言: “…要是能查到流量是和谁发生的就好了,如果是手机的问题, 我也才知道今后怎么防范,现在连防范谁都不知道,谁知道下次 还会不会发生类似问题?‖ 对运营商而言: 根据中国联通客户服务部门提供的数据,目前移动业务每万元收 入,因无法提供上网详单造成的退费和赔付约60.1元; 如果问题得不到根本解决,将会影响运营商按流量计费的资费模 式,对运营商3G业务的开展将产生较大影响 用户上网记录数是个海量数据,不仅投资巨大,传统的电信业解 决方案根本无法提供该服务
违章车辆图片数据
每小时 每天 每月 三个月
单个区数据中心
~ 1.8GB/h ~43.2GB/day ~1.2TB/month ~3.6TB/3months
全市数据总和
36GB/h ~864GB/day ~24TB/month ~72TB/3months
基于英特尔Hadoop技术方案
– 解决了海量过车信息 (结构文本+图片)存储 问题。 – 解决了分布式数据查询 问题。 – 系统提供了易于使用的 API,方便进行二次开发。
– 系统做了较多优化,性 能很好的满足了项目的 实时性要求。 – 系统的稳定性好。
某市智慧交通信息系统架构
基于海量数据进行车辆轨迹分析
实时路况信息
区域号牌管理
碰撞分析
。。。。。。。。。。
某市智慧医疗
提纲 • 大数据带来的挑战 • 大数据案例介绍 • Intel大数据平台
企业大数据平台构建中英特尔的角色
面临的挑战
– – – – – 年过车信息数据量达数百亿级记录规模 市局和区县的数据中心两级架构,分布式存储,集中管理。 支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、 车牌颜色、车速范围、车长范围、号牌段范围、时间范围。 支持海量过车信息的模糊匹配检索。 支持各种统计分析、数据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、 黑名单等
难点分析
上网记录是海量数据
用户每月的上网记录约几万至数十万
在Gn(SGSN与GGSN之间)接口上部署采集设备来生成用户 上网记录 用户手机访问一次网页,约会产生数十条,甚至数百条请求 ,意味着产生数十条和数百条上网记录 访问手机新浪网首页,约产生20条记录 访问新浪iPad首页,约产生40条记录 在iPad中看一条新浪新闻,产生超过180条记录 访问淘宝触摸屏版,约产生60条记录 大量的DNS查询、推送服务记录(如苹果通知服务)等 以中国联通某省分公司为例,日均上网记录数近10亿条,每 月数据量近9TB,31个省份数据量12T/day
移动用户上网记录集中查询与分析支撑系统
建设上网记录集中查询与分析支撑系统意义重大
查询
为客户服务人员提供客户上网记录快速查询服务,解决流量投诉问题 为用户提供准实时的异常大流量上网记录自助查询服务
分析
对数据流量进行统计 终端分析:iPhone、iPad、其他智能手机分布,新终端推广效果分析 热门流量、热门网站(业务) 网络分析: 2G/3G基站流量分析,网络优化 数据挖掘 根据流量分布,分析用户群特征 提供套餐设计参考,优化用户体验 通过感知业务态势,制定市场策略,指导业务产品开发,为市场营 销提供丰富的数据支持
Big Data
Big
——大数据处理离不开云
大数据时代-数据爆发性增长
统计、分析、预测、实时处理
IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB (1ZB = 10亿TB)