用户行为数据分析PPT课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 从亿万网页中发现词的相关性 • 从单个页面中发现最重要的词
• 面向数据挖掘优化的海量计算
– 将传统的Data Mining算法移植到分布式平台上,实现 PB级数据上
• 快速聚类和分类 • 快速关联分析
核心处理算法(2)-如何对用户行为分析建模
• 基本思想
– 发掘用户的显性特征 ( 关注关键词或相关词) – 推理用户的隐性特征 (用户的自然属性和社会属性, 性别、职业、
基于海量用户行为数据分析的 互联网增值新业务
What , Why and How
What ? – 要作什么事
• 对每个宽带用户的每次浏览网页行为进行 记录,在海量的数据记录上分析用户的浏 览习惯、兴趣爱好、关注焦点等,对用户 进行全方位的“画像”。
• 按用户属性和行为特征对全部宽带用户进 行聚类和精细化的客户群划分。
• Range Query with Memory Database
– 列存储(Column-based)结构,突破Range Query的瓶颈, 单点上亿条记录的Range Query ( select x from t where a < y and y < b ) 小于1000ms, 为传统DB的1/10, Dell 1950 Dual Quad-Core, 3.0Ghz
演示用的数据样本来源
• 某运营商(江苏南京) 20000用户一周数据
– 计费系统Radius数据:1000万条 , ~10GB
• 包含:ADSL帐号、上线时间、离线时间、IP地址
• Distributed Computing with Map-reduce
– 分布式计算架构,处理100G的文本时间小于10min ( 10 * Dell 1950 Dual Quad-Core, 3.0Ghz )
高吞吐率的运营服务子系统
Memcache Cluster
DNS, Billing…
• 依托运营商平台,利用网络广告、直投、 个性化内容推送等手段对宽带用户进行 “一对一”的精准营销。

What 图解
用户上网的历史行为
男性 年龄25-35岁 来自北京.海淀.上地 IT从业人士 热衷科技产品 Nokia N95用户 中高端消费等级 喜欢户外运动和旅游 追求奢侈品
. . .
用户属性和行为特征
LVS (soft F5) Squid
Niginx ADWords /User Search Engine
MySQL Cluster ( ndb)
核心处理算法 (1)- 基础
• 发现用户真正的点击行为
– 改进的贝叶斯算法过滤超过95%的垃圾或广告流量
• 语义分析技术
– 单字和词库结合的中文智能分词技术 – 大规模统计分析基础上的机器学习

What 图解 – 续
客户群A 客户群B
客户群CLeabharlann Baidu

用户标识和特征

客户群D 客户群E 客户群F
用户精细划分

精准营销
Why ? - 为网通带来新价值
• 精准广告收入
– 合作模式:与网络广告商、传统广告商、SP、广告联盟
分成 精准的用户属性将大幅度提高广告的价值,让每 一次Page View都变成金子
– 自营模式:个性化内容推送 [例子: “一对一”的个性化号
百和12580 ] 想用户所想,急用户所急
– 直销(DM)分成收入:与最终厂商合作
• 提升ARPU值,快速拓展新用户
– 采用精准的营销策略带动用户升速 分析升速用户的行 为习惯:什么样的用户需要升速?什么样的SP会吸引升 速用户?
– 通过DM捆绑销售和优惠的接入价格快速拓展新用户 在新竞争格局中领先一步,形成良性的循环:更低的接入 价格带来更多的用户,获得更多的增值业务收入
• 条带化存储,多数据通路聚合 • 支持对象存储(OSD)接口 • I/O缓存
平滑可扩展的分布式运算子系统
• 3M架构:借鉴Google的分布式计算架构,针对海 量数据挖掘的需求对单点性能和多点负载均衡作 最大限度的优化
• Key-Value Query with Memory Cache
– 突破Key-Value Query的瓶颈,单点上亿条规模KeyValue对的查询时间小于200ms (传统DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz
年龄、阶层、爱好…)
• 显性特征-> 隐性特征是大样本基础上的机器学习 Machine Learning,ML ),例子 “劲舞团” => 游戏 - 舞蹈类 | 青少年 85% “兰寇” => 化妆品 - 兰寇 | 女 70% 高端 => 65% “铁血” => 爱国 | 男 90% “美女” => 闲逛 | 男 90% “爱卡论坛” /“宝马” => 汽车 - 宝马 | 高端消费人群 70% 中端消费人群 60% 低端 30% “奶粉” => 婴幼儿用品 - 奶粉 | 女 70%,有小孩90% “内衣”, “爱慕” => 内衣 - 文胸 - 爱慕 | 女 85%
How ? – HyperCloud解决方案
低成本和可靠的 海量存储子系统
平滑可扩展的 分布式运算子
系统
高吞吐率的 运营服务子
系统
• 技术架构 • 核心处理算法 • 演示 • ROI分析
低成本和可靠的海量存储子系统
• 多级别存储,成本降到300$/TB • 无需RAID支持,保证99.9%可用性 • 多元数据服务器,管理亿级数量文件 • 可在线扩展至PB级规模
为模式分 析器
广告流 量过滤
话/ 点击 路径识 别过滤 器
泛行为模 式分析器
用户显性特征 (关键词)
器(ML)
统计 过滤 器
样本库
样本 库
访问统计 过滤器
爬取分词
垃圾流量排名 广告流量排名
第三方PV,UV,ADV,PUV 权威排名
关键词排 序(ML)
热点、 舆情、
行业咨询
样本库
演示
• Get a feeling of it …
核心处理算法 (3)-处理流程
对接运营服务 系统(广告或
内容推送)
用户隐性特征 (用户分群)
隐性特征推理器(ML)
Radius 计费镜 像数据
HTTP 请求数 据
Radius 归并过 滤器
垃圾流 量过滤 器(ML)
Top 10000
分类库 (行业/
精准匹配模式库
词推理样本 职业、商品) 高权重行
行业Top 20 用户会
相关文档
最新文档