运营商行业常见算法和模型应用
运营商线上运营方案有哪些

运营商线上运营方案有哪些随着互联网的快速发展,运营商行业也在不断地进行转型和升级。
线上运营成为了运营商发展的重要方面,通过线上运营,运营商可以更好地服务用户,提升用户体验,增加用户粘性,实现营收增长。
本文将从用户需求、产品策略、营销策略、服务体系等方面,探讨运营商线上运营的方案。
一、用户需求分析1. 移动化需求:随着移动互联网的快速普及,用户对于移动化体验的需求越来越高。
因此,运营商需要将重点放在移动端的产品体验和服务体系上,满足用户的移动化需求。
2. 个性化需求:用户对于个性化的服务有着越来越高的需求,他们希望能够根据自己的需求和喜好,定制个性化的产品和服务。
3. 智能化需求:人工智能、大数据等新技术的发展,让用户对于智能化产品和服务的需求逐渐增加。
运营商需要将智能化技术应用到产品和服务中,提升用户体验。
4. 便捷化需求:用户对于便捷化的服务有着越来越高的需求,他们希望能够通过简单的操作,轻松地完成各种业务。
二、产品策略1. 移动端产品升级:针对移动化需求,运营商需要对移动端产品进行升级,提升用户的移动体验。
可以考虑推出APP、微信公众号等形式的移动端产品,为用户提供便捷的服务。
2. 个性化产品定制:根据用户的个性化需求,运营商可以推出个性化定制的产品和服务,满足用户的个性化需求。
比如,可根据用户的消费习惯和偏好,定制相应的套餐和服务。
3. 智能化产品应用:运营商可以运用人工智能、大数据等新技术,推出智能化的产品和服务,提升用户体验。
比如,可以推出智能客服系统,智能推荐系统等。
4. 服务升级:针对用户的便捷化需求,运营商需要对各种服务进行升级,提供更加便捷的服务。
比如,可以推出在线缴费、在线查询、在线办理等服务。
三、营销策略1. 社交化营销:利用社交媒体等渠道,进行社交化营销,提升品牌知名度和用户粘性。
可以考虑推出有奖转发、有奖点赞等活动,吸引用户参与。
2. 内容营销:通过内容营销,提升用户对于品牌的认知和好感度。
运营商行业大数据应用方案

人才队伍建设挑战与对策
挑战:缺乏大数据专业人才, 现有人员技能不足
应对策略:加强人才培养, 提高员工技能水平
挑战:人才流失严重,难以 留住优秀人才
应对策略:优化人才激励机 制,提高员工满意度和忠诚 度
挑战:人才引进困难,难以 吸引优秀人才加入
应对策略:提高企业知名度 和吸引力,优化招聘流程和 条件,吸引优秀人才加入
添加 标题
成熟阶段:2015年至今,运营商大数据应 用逐渐成熟,开始探索跨行业合作,如金融、 交通、医疗等领域。
添加 标题
未来趋势:运营商大数据应用将继续深入, 与5G、物联网等技术相结合,推动行业数 字化转型。
运营商行业大数据应用的现状和趋势
现状:运营商行业大数据应用广泛,包括用户画像、精准营销、网络优化等 趋势:运营商行业大数据应用将更加智能化、个性化,如AI客服、智能推荐等 挑战:运营商行业大数据应用面临数据安全、隐私保护等问题 机遇:运营商行业大数据应用将推动产业升级,提高运营效率,创造新的商业价值
商业模式创新挑战与对策
挑战:运营商行业大数据应用面临商业模式创新挑战,如数据安全、隐私保护、数据 质量等
应对策略:运营商行业大数据应用需要建立完善的数据安全体系,加强隐私保护,提 高数据质量,实现数据价值最大化
创新方向:运营商行业大数据应用可以探索新的商业模式,如数据共享、数据交易、 数据服务等
案例分析:分析运营商行业大数据应用成功案例,如中国移动、中国联通、中国电信 等,总结商业模式创新经验,为运营商行业大数据应用提供借鉴。
数据处理与分析方案
数据采集: 从运营商系 统中获取用 户数据、网 络数据等
数据清洗: 去除重复、 错误、缺失 的数据
数据存储: 将清洗后的 数据存储到 数据库中
运营商行业常见算法和模型应用

运营商作为少有的天然大数据企业之一,拥有海量的、多维的用户数据,也是较早运用数据指导运营的企业,建立了较为完善的业务指标体系和系统平台,包括经分系统、数据业务平台、集团业务平台等,当然,也部署了大量的数据模型。
随着精细化运营、精准营销的发展,运营商越来越关注模型的构建,希望通过模型精确识别客户、匹配营销策略、个性化推荐容等,实现基于数据的决策。
1、运营商常用模型分类从在运营商从事咨询的经验来说,运营商常用的数据模型可以分为五类:预测模型、分类模型、关联模型、交往圈模型及业务规则模型。
1.1、预测模型预测模型主要用于指标的预测、趋势的预测,如新增客户、流量等的预测,主要使用线性回归、ARIMA、时间序列等算法,预测数值是为了对往后的趋势进行准确把握,及时调整市场和产品策略,当然也能更好的完成KPI指标。
指标预测模型:1)新增用户占比预测;2)流量增长预测。
1.2、分类模型分类模型主要用于客户细分和目标客户识别,如用户是否离网、用户是否有购买手机的倾向等,主要使用聚类、决策树、RFM、逻辑回归、决策树和神经网络等算法,分类模型是使用得最为广泛的模型,是实现精准营销的基础。
潜在商机客户识别模型:1)潜在4G终端客户识别模型,通过客户消费、通信及终端信息等,识别高换机概率客户;2)潜在宽带客户识别模型,通过客户消费、通信及终端信息等,识别高装宽带概率客户;3)潜在某项业务目标客户识别模型(如和视频、和阅读等),通过客户消费、通信、终端(功能机客户显然不可能安装自有互联网业务APP)及容偏好等,识别潜在自有互联网业务客户;4)潜在集团信息化产品客户识别模型,包括专线、MAS、ADC、IDC、IMS等;潜在预警客户识别模型:1)离网客户预警模型,分析客户通信、消费及预警行为(呼转异网、异网通话占比及拨打竞争对手客户次数等),预测高离网概率客户;2)欠费预警模型;3)中高端客户流失预警模型;4)拍照存量客户流失预警模型。
电信运营行业的云计算和边缘计算应用

电信运营行业的云计算和边缘计算应用云计算和边缘计算作为信息技术领域的热门话题,正在快速渗透到各个行业中,包括电信运营行业。
云计算将计算和存储资源集中在远程数据中心,通过互联网提供给用户,而边缘计算则将计算能力尽可能地靠近用户或设备。
在电信运营行业中,云计算和边缘计算的应用正逐渐改变着运营商的商业模式、提升网络性能和用户体验。
一、云计算在电信运营行业中的应用云计算在电信运营行业中的应用广泛且深入。
首先,云计算提供了一种高效且灵活的资源管理方式。
运营商可以根据需求弹性调整计算和存储资源,避免了过度投资或资源浪费的问题。
其次,云计算使得电信运营商能够快速推出新的服务和应用。
通过云平台,运营商可以将新的产品快速部署并向用户提供,加快了创新和市场反应的速度。
此外,云计算还提供了强大的数据分析和挖掘能力,使得运营商可以深入了解用户需求,并为用户提供更加个性化的服务。
二、边缘计算在电信运营行业中的应用边缘计算在电信运营行业中的应用也呈现出快速增长的趋势。
边缘计算通过在网络边缘部署计算和存储资源,将计算能力尽可能地靠近用户或设备,从而减少了传输延迟和网络拥塞的问题。
在5G时代的到来中,边缘计算将发挥更加重要的作用。
一方面,边缘计算可以将处理和分析数据的任务在本地进行,减少对网络带宽的依赖,提高应用性能和效果。
另一方面,边缘计算可以支持大规模的物联网设备连接和管理,实现物联网应用的快速发展。
三、云计算与边缘计算的结合在电信运营行业中,云计算与边缘计算的结合被认为是未来的趋势。
这种结合可以充分发挥云计算的资源管理和数据分析能力,同时将计算能力尽可能地靠近用户或设备,提高应用的性能和用户体验。
例如,运营商可以在云端进行大规模的数据分析,挖掘有价值的信息,然后将分析结果下发到边缘节点,以提供更加实时和个性化的服务。
此外,云计算与边缘计算的结合还可以支持更加智能和高效的网络管理和资源调度,减少网络能耗和成本。
结语电信运营行业的云计算和边缘计算应用正为该行业带来巨大的变革与机遇。
业务运营 算法

业务运营算法是指在商业运营中应用的各种数学和逻辑算法,旨在优化业务流程、提高效率、降低成本,以及改善用户体验。
以下是一些常见的业务运营算法示例:
1. 营销推荐算法:根据用户历史行为、偏好和个人信息,利用机器学习算法,向用户推荐相关产品或服务,提高营销效果。
2. 定价优化算法:通过分析市场需求、成本结构和竞争对手定价情况,运用定价模型和优化算法,制定最优价格策略。
3. 库存管理算法:利用需求预测算法和库存优化算法,实现合理的库存水平,避免库存积压或缺货情况。
4. 路线优化算法:针对物流配送、出差安排等场景,利用路径规划和调度算法,优化路线和资源利用,降低成本并提高效率。
5. 客户关系管理算法:通过数据挖掘和机器学习算法,对客户数据进行分析,预测客户行为,提高客户满意度和忠诚度。
6. 风控算法:在金融领域应用广泛,通过建立风险评估模型和欺诈检测算法,识别潜在风险和减少损失。
7. 运营决策支持算法:利用数据分析和决策树算法,辅助管理者进行运营决策,包括市场扩张、产品升级、渠道优化等方面的决策。
这些算法在业务运营中起着至关重要的作用,能够帮助企业提高竞争力、优化资源利用、增强风险管控能力,并更好地满足客户需求。
当然,具体的算法选择和应用需要根据不同行业和具体业务场景进行调整和优化。
营销算法模型

营销算法模型
营销算法模型是指一种基于数据采集、分析和处理的数学模型,用于预测市场营销活动的效果和优化市场营销策略。
通常包括以下几个步骤:
1. 数据收集:通过各种数据源收集市场和消费者相关的数据,包括消费者行为、偏好、购买历史、社交媒体数据等。
2. 数据清洗和处理:对收集到的数据进行清洗和处理,去掉无用信息、填充缺失数据、去除噪声等。
3. 数据分析:使用统计学和机器学习等算法对数据进行分析,发现数据中的规律、趋势和关联关系。
4. 模型构建和优化:根据数据分析的结果,构建一个营销算法模型,用于预测市场营销的效果。
然后优化该模型,使其更加准确和高效。
5. 模型应用:将优化后的营销算法模型应用于实际的市场营销活动,通过预测和实验来验证模型的效果。
常用的营销算法模型包括:
1. 随机森林模型:通过分类和回归算法进行预测,适用于大规模的数据集。
2. 逻辑回归模型:用于预测二元分类问题,比如判断某个消费者是否会购买某个产品。
3. K-均值聚类模型:用于将消费者划分为不同的群体,以便更好地针对不同群体进行定制化的市场营销策略。
4. 决策树模型:通过分支节点进行预测和分类,适用于一些复杂的问题。
5. 神经网络模型:一种基于大量数据进行训练的预测模型,能够建立更加准确和复杂的营销算法模型。
运营路线问题模型及算法研究

ll ,l Imn , 单位时间, ≤YI≤ , i 为 a l t I 。 R ∑,
若 qCI≠qC ) (l ≤
’
( Y为任一实数)则 G中有一 个新权 值 , , 对新权值有 向图进行 负 圈检查 , 可能 出现如下i种情况( 0) £> : 情 形 1 新 权 值有 向 图 中有 负有 向 圈 : 在有 向圈 C 足 : 存 满
∑ ∑ < , mn _ , 0t i  ̄ 专 J l 这说明 太大, 缩小九再进行负有向圈 ,
设 ∑ > ・ a一t o令 0L ,
IC)q :I q 1 ( )‘ ( ~C >
个, 不妨设边 ( j上赋利润值 为P. i) , . , 旅行所需 时间为T 假设货轮
可 自由地按任意顺序访 问图中任意港 口城市 。从 港 口i 到港 口i 可赚取 p美元利润 , i . 但需要 l i i 的时间( 包括在 i 处装货和在 j 处卸货 的时间) 。要使 货船获得每 天的最大利润 , 只要 货船在单位 时间 内获得 的利益为最大即可。 若在 G中找到一个有向圈 C 在这 个 , 有 向圈上 , 运行一周所得 的总利益与总时 间的比值 为最 大 , 则货 船 在单 位时间 内获得 的利益 即为最大 。而货 轮只要在 C上循环 航行就能获得每天的最大利益 。 因此 , 这类 问题可 归纳为最优化 问题: 向图 G中的一个 求有 有 向圈 c在 这个 圈上所得总利润和所需 总时 间的 比值为最大。 : 若令 a= P , l一 . C为 G中任~有 向圈 , f - 上述问题变为求 j . ’ - 则 卜V; 一
模型 算法 推广方案

模型算法推广方案引言随着人工智能技术的不断发展,模型算法推广方案成为了企业营销和产品推广中的重要内容。
本文将着重介绍模型算法推广方案的相关内容,包括模型的选择、算法的设计以及推广的策略等。
模型选择在进行模型算法推广方案之前,首先需要选择适用的模型。
模型的选择应根据具体的应用场景和需求来进行,常见的模型类型包括线性回归、决策树、神经网络等。
以下是几个常见的模型选择要点:•数据特征:不同模型对数据特征的要求不同,需要根据数据的特点选择合适的模型。
例如,当数据具有线性关系时,选择线性回归模型可能更加合适。
•模型复杂度:模型的复杂度会影响训练时间和预测性能。
当数据较为复杂时,可以选择更复杂的模型,如深度神经网络,以提高预测准确性。
算法设计在模型选择完成后,接下来需要进行算法的设计。
算法设计是模型算法推广方案的核心内容,直接关系到推广的效果和实际应用的结果。
以下是一些算法设计的关键要点:特征工程特征工程是指对原始数据进行预处理和特征提取的过程。
通过合理的特征工程,可以提高模型的泛化能力和预测性能。
常见的特征工程技术包括:•特征选择:根据数据的相关性和重要性选择合适的特征,去除冗余特征。
•特征缩放:对各个特征进行标准化或归一化处理,保证不同特征之间的尺度一致。
•特征转换:通过数学变换等方式将特征转换成更适合模型的形式,如对数变换、多项式变换等。
模型训练模型训练是指根据已有的数据集对选定的模型进行参数学习的过程。
在模型训练中,需要注意以下几个关键点:•训练集和验证集的划分:为了评估模型的泛化能力,需要将原始数据集划分成训练集和验证集。
常见的划分比例为70%的训练集和30%的验证集。
•损失函数选择:根据具体的任务和模型选择合适的损失函数。
例如,在分类任务中常用的损失函数有交叉熵损失函数。
•参数优化算法:使用合适的参数优化算法对模型进行训练。
常见的优化算法包括梯度下降法和随机梯度下降法。
模型评估在模型训练完成后,需要对模型进行评估。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运营商作为少有的天然大数据企业之一,拥有海量的、多维的用户数据,也是较早运用数据指导运营的企业,建立了较为完善的业务指标体系和系统平台,包括经分系统、数据业务平台、集团业务平台等,当然,也部署了大量的数据模型。
随着精细化运营、精准营销的发展,运营商越来越关注模型的构建,希望通过模型精确识别客户、匹配营销策略、个性化推荐容等,实现基于数据的决策。
1、运营商常用模型分类从在运营商从事咨询的经验来说,运营商常用的数据模型可以分为五类:预测模型、分类模型、关联模型、交往圈模型及业务规则模型。
1.1、预测模型预测模型主要用于指标的预测、趋势的预测,如新增客户、流量等的预测,主要使用线性回归、ARIMA、时间序列等算法,预测数值是为了对往后的趋势进行准确把握,及时调整市场和产品策略,当然也能更好的完成KPI指标。
指标预测模型:1)新增用户占比预测;2)流量增长预测。
1.2、分类模型分类模型主要用于客户细分和目标客户识别,如用户是否离网、用户是否有购买手机的倾向等,主要使用聚类、决策树、RFM、逻辑回归、决策树和神经网络等算法,分类模型是使用得最为广泛的模型,是实现精准营销的基础。
潜在商机客户识别模型:1)潜在4G终端客户识别模型,通过客户消费、通信及终端信息等,识别高换机概率客户;2)潜在宽带客户识别模型,通过客户消费、通信及终端信息等,识别高装宽带概率客户;3)潜在某项业务目标客户识别模型(如和视频、和阅读等),通过客户消费、通信、终端(功能机客户显然不可能安装自有互联网业务APP)及容偏好等,识别潜在自有互联网业务客户;4)潜在集团信息化产品客户识别模型,包括专线、MAS、ADC、IDC、IMS 等;潜在预警客户识别模型:1)离网客户预警模型,分析客户通信、消费及预警行为(呼转异网、异网通话占比及拨打竞争对手客户次数等),预测高离网概率客户;2)欠费预警模型;3)中高端客户流失预警模型;4)拍照存量客户流失预警模型。
客户价值分类模型:1)客户星级/信用评定模型,综合客户资费档次、网龄、消费、停机次数等,评定客户星级;2)数据业务高价值客户识别模型:3)缴费RFM模型;4)集团客户价值评估;5)渠道价值评估模型;客户业务细分模型:1)语音客户细分模型;2)流量客户细分模型;3)自有互联网业务细分模型。
1.3、关联模型关联模型主要用于探索业务间的关联度,从而进行相关推荐,如购买视频会员的用户是否会购买音乐会员,主要使用相关分析、Apriori(挖掘频繁项集)、协同过滤(推荐系统)等算法,这里将推荐系统也看成是关联模型的一种,因为它们都是计算事物间的相关性或距离,然后进行推荐,大体思想是一样的。
使用关联模型主要是为了开展个性化推荐。
自有互联网业务关联推荐模型:1)通过分析客户上网容、APP使用行为,为客户推荐关联自有互联网业务;2)分析自有互联网业务间的关联度,为已使用某种业务的客户推荐关联业务。
1.4、交往圈模型交往圈模型主要用于分析客户的交往圈行为,如通话交往圈、短信交往圈、其它社交业务交往圈等,主要使用社交网络、业务规则等算法,分析用户交往圈是为了找出种子用户或识别异常用户。
虚假客户识别模型:1)虚假集团客户识别模型:通过集团成员互通率、短号活跃度等判断虚假集团,剔除0互通率及低互通率集团及成员;2)虚假校园客户识别模型:通过校园客户与同校客户互通情况判定虚假校园客户;双卡/双机客户识别模型:双机和双卡客户本质上是一致的,主要通过呼转、交往圈重叠等识别;离网客户去向模型:通过身份证信息、异网新增客户交往圈重叠等识别离网客户去向(结合外呼调研);新增客户来源识别模型:通过身份证信息、异网新增客户交往圈重叠等识别新增客户来源(结合外呼调研),包括重入网用户识别等;种子用户识别模型:通过分析客户通话交往圈、短信交往圈、飞信交往圈等,识别交往圈中的影响力大的客户,需综合考虑客户的交往圈规模及交往圈对端质量。
潜在家庭V网客户识别:通过分析客户交往圈,识别客户的家庭成员,作为家庭V网的目标客户。
如客户通话频次前3的客户,且晚间高频通话基站相同的客户,且都不是家庭V网客户。
1.5、业务规则模型业务规则模型是基于多项业务规则组合的模型,其实所有模型都是挖掘出事物间存在的潜在模式,然后生成各种各样的规则,有时候通过数学模型往往难以产生很好的效果,则会根据业务经验生成一些规则,形成规则模型,如预测随后几月的收入,不管是使用线性回归或者时间序列模型都难以产生很好的结果,这时往往使用每月的收入占比并与去年同期比较来进行预测。
疑似养卡/养串模型:通过识别同一渠道的异常行为来判定渠道是否养卡、养串;集团预警模型:通过集团成员保有、状态不正常客户占比、ARPU下降幅度、语音下降幅度、流量下降幅度等规则综合实现集团预警;客户偏好模型:通过客户费用占比、业务量占比及业务使用情况识别客户偏好;终端健康度评定模型:通过终端通话率、上网率、ARPU、DOU、MOU、一卡多机、一机多卡、核酬后登网率、窜货率等评定销售终端健康度。
客户稳定度/忠诚度模型:分析客户消费、消费波动、是否呼转等,通过AHP确定各指标的权重,然后计算客户稳定度/忠诚度得分。
产品健康度模型:分析产品客户、收入、业务量、成本支出、ARPU等,通过AHP确定各指标的权重,然后计算客产品健康度得分。
2、模型构建步骤构建模型典型的步骤有SEMMA和CRISP-DM,SAS使用SEMMA,IBM modeler使用CRISP-DM,但是总来说主要就是五个步骤:业务理解-变量处理-模型构建-模型评估-应用部署。
2.1、SEMMA过程SAS数据建模的方法论是SEMMA,该过程主要包括五个过程:Sample,即抽样,从总数据集中选取高质量的样本数据,一般建模都不会使用全量的数据集,而只会使用部分抽样数据集,特别是像正负例比例悬殊时,如预测用户是否离网,往往未离网用户是离网用户的几十倍甚至上百倍,这时候就需要从未离网用户中抽样部分数据用以训练模型(最终正负例比例一般保持在1:1-1:4左右),如果不抽样,最终结果会有较大的偏差。
Explore,即数据探索,分析变量间的相关关系、分布、极值、缺失值等。
Modify,即数据调整,明确问题,调整样本变量。
Model,即选择模型,根据问题和样本数据选择合适的模型。
Assess,即评估模型,根据相关检验指标评估模型,并基于业务知识进行解释。
2.2、CRISP-DM过程IBM modeler(原Clementine)采用的建模方法论是CRISP-DM (cross-industry standard process for data mining),该方法论包括六个过程:Business Understanding,即业务理解,建模前一定要明确目标是什么,基于业务探讨可能影响的变量。
Data Understanding,即数据理解,探索数据集,分析变量的相关关系、分布等。
Data Preparation,即数据准备,包括数据抽样、数据预处理(包括缺失值、极值、量纲等)。
Modeling,即建模,根据数据和问题选择模型,设置参数、建模。
Evaluation,即评估,评估模型,选择最合适的模型。
Deployment,即部署,将建立的模型固化系统等。
2.3、模型构建步骤3、模型构建的关键点要想构建效果良好的数据模型,个人认为主要有以下五个关键点。
3.1、丰富的基础源数据拥有丰富多维的源数据是建模的基础,业务现在很多场景下是担心变量太多,不知道怎样提取特征、选取重要的变量,但是这种担忧的情景肯定好于没有数据的困境,那才是巧妇难为无米之炊。
例如,你要评估一个用户的信用,你却完全没有用户消费相关的数据,只有部分与信用关系不紧密的数据,那你肯定很难用这些不太相关的数据去评估用户的信用,这时候要么是购买第三方的信用报告,要么是交换或购买第三方数据然后建模。
要有多维的用户数据,一是学会在合理的场景收集用户数据,如用户第一次使用的时候,通过选择题收集其容偏好数据;二是充分利用已有的数据,打通各个系统,消除数据孤岛;三是合理利用第三方数据资源,如网络爬虫收集网上数据、政府公开的数据、或交换或买数据等。
3.2、充分的探索性分析基于业务理解去探索相关影响变量,数据挖掘一定要基于业务并最终落脚于业务,脱离业务的数据挖掘是没有意义的,要多从业务的角度考虑影响变量及相关衍生变量,开展广泛的数据探索,分析自变量和自变量的关系、自变量和因变量的关系。
多与业务部门沟通,多进行头脑风暴,集思广益。
做好特征工程,利用主成分分析等进行降维,选择重要的影响变量。
3.3、做好数据预处理数据预处理的好坏直接影响模型结果和模型准确性。
数据预处理主要需要做以下几方面工作:1)要检查数据的正确性,不能有明显的错误,如年龄为负值;2)要做好缺失值和极值处理,一般可以用0或平均值替代缺失值,当然也可直接删除,但可能会将训练集减少及较多;一般用0.1分位、99.9分位替代极小值和极大值,极值特别容易让一些统计量和模型偏离;3)标准化、离散化、降维等处理,标准化将数据缩放在固定的空间,如0-1标准化、z-score标准化,主要是为了消除量纲的影响,特别是K-means、KNN 等设计距离的算法,离散化是将连续变量变为分类变量,如不同年龄的人划分为青年、中年、老年等,降维是为了减少入模变量,提取主要的特征,常用因子分析、主成分分析等。
3.4、目标变量界定清晰训练集的目标变量一定要界定清晰,不然会直接影响模型准确性,特别是在有些情况下,清晰界定目标变量是很困难的,比如怎样判定新增终端客户、新增宽带客户等。
例如,针对一个用户流失,不同的业务会有不同的流失区间,比如对微信来说,用户连续7天不活跃就认为已经是流失,但对于九游游戏中心来说,可能连续7天不活跃是很正常的,要连续30天不活跃的用户才能认为是流失的。
界定目标变量的时候一定要结合具体的业务,就用户是否流失来说,需结合业务的使用频次和回流率来判定。
3.5、基于业务解读模型结果要基于业务来解读模型结果,模型结果要遵循业务逻辑和常识,如果偏离过大,那就可能存在过度拟合问题,需要对模型进行调整,例如,一般用户网龄越高离网的概率越低,但是模型结果却是用户网龄越高,离网的概率也越高,这显然违背基本的业务逻辑,这时,我们就需要好好审视一下模型,是否存在过度拟合、是否抽样有问题等。