基于数据挖掘技术的人员流失分析与预测

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数据挖掘技术的人员流失分析与预测

李高国 斯比泰电子有限公司

人员流失指标是一个公司员工稳定和员工满意度的衡量参数,而流失率是

目前人力资源部门常用的指标。如何评价人员流失的各项因素,识别各因

素的影响级别,建立起现有数据的分析与预测模型,使得人力资源部门作出有效的改善措施。文章采用数据挖掘技术方法,应用朴素贝叶斯原理作为分类器,建立各因素在独立条件下的概率模型,从而作出在一定综合条件下留任还是离职选择预测。示例表明这种预测具备较高的参考性。

数据挖掘 贝叶斯 分类 预测

摘 要:关键词:引言

人员流失是每个企业必须认真面对的问题,特别是在一些知识管理尚不完善的企业,人员的流失不仅给项目带来交期的延误,项目的成本增加,甚至项目被迫中断的问题,而且,对于人员流失严重的企业,大大阻碍了企业的发展。人员流失的因素很多,潜在的有企业文化,个人价值观,市场环境,就业环境和工作环境等,但是这些因素最终都会在一些可衡量的比如薪水和性格倾向表现出来,形成员工留任还是离开行为的选择倾向。本文应用数据挖掘技术,通过对过去五年来人员的数据样本进行收集,分类,采用朴素贝叶斯 [1]方法,进行人员在分类条件下的去留选择预测,对现有条件的改善具有参考意义。

一、数据挖掘概念、特点与应用

数据挖掘( Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务

目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

二、朴素贝叶斯原理

朴素贝叶斯分类器是一种基于贝叶斯理论的分类器。它的特点是以概率形式表达所有形式的不确定,学习和推理都由概率规则实现,学习的结果可以解释为对不同可能的信任程度。

P(H)是先验概率,或 H的先验概率。P(H|X)是后验概率,或条件X下,H的后验概率。后验概率 P(H|X)比先验概率P(H)基于更多的信息。

P(H)是独立于X的。

为了对未知样本 X 分类,先对每个类Ci 计算P(X|Ci)P(Ci)。样本X 被归类到

Ci,当且仅当:

三、样本选择

本文分析数据样本来自某公司某部门 2005年以来人事档案,结合部分人员的 MBTI测试数据(该部门 2008年起进行内部人员的性向评估)。为了保护相关人员信息,本文只留需要参与分析的数据,略去部分无关明细。经过筛选后的 42个样本数据如表一:

四、数据预处理

1.薪酬离散化

将连续型的薪酬人工进行离散化等级表二。

2.员工服务年限离散化

为了便于分类识别,结合人员年度调薪可能带来的影响,服务年限也分按5 等级离散化。如表三。

3.离散化后的定性分布趋势图(见

图一)

分析:

a) 员工在服务时段 1.0-2.0 年离职最多,其次为1 年内离职。

b) 在职的员工中,服务1 年以内和四年以上者居多,说明中坚力量的不足,在梯队建设上有脱节现象。

管理研究

表1.人员样本数据库

表 2 Salary_Level

表 3 各时间段在职与离职人数分布

注:①WT=Working Time 为截止评估时间的服务时间。离职人员为离职时间与入职时间之差。②

Yes_Count: 在各服务时断目前仍在职的人数。③NO_count: 在各服务时段内已经离职人数。

c) 在现有在职人员中,除了2-3 年时

间段异常外,其它各时间段的平均工资均

比离职人员的同期间段工资有所

提高,说明薪酬情况略有所改善,符

合市场规律。

4.性向影响度筛选

如何界定在M BTI[2]中各性向的影

响度,(E,I),(S,N)(T,F),(J,P)。观察表4 数

据可以看出,不论人员在职或者离职,

(S,N)(T,F),(J,P),各性向比重差异较大,变

化不明显,影响度较小。而(E,I)中,比例

相对在离职人员中E(外向型)为主,而

在职人员中I(内向型) 为主,性向浮动

较大。所以,可以考虑(E,I)作为影响因子

加入到分类器中,进行分析评估。

表4 各性向在职与离职人员的数量

5.毕业生从属性影响度

在当前服务的人员中,不存在过去

招聘培养的毕业生,因此毕业生属性也

成为影响人员稳定一大因素。因此加以

考虑,如下为样本中的分类统计。

五、属性挑选与定义

通过以上数据的筛选和离散化处

理,取得如下属性作为评估因子,

S1:服务时间分类因子;集合

S1={S11,S12,S13,S14,S15} 表示各服务时间

段。

S2:薪酬等级分类因子;集合

S2={S21,S22,S23,S24,S25} 表示薪酬分类

水平。

S3:性向分类(E,I)因子;集合

S3={S31,S32 }={E, I} 表示性格外向型和内

向型。

S4:毕业生从属分类因子;集合

S4={S4 } 表示从属毕业生。

图1 各服务时间段人员在职与离职走势及各时段在职离职人员平均工资水平部分走势

六、数据分类

通过以上数据分类因子识别,应用 Microsoft ware office excel2007 中相关函数进行统计,便可得到相应的数据与概率分布,得到如下数据表,作为应用贝叶斯运算的各项 P(X/Ci)与 P (Ci )数值。

七、多因素分步干扰预测为了得到所有分类因子影响,分步逐步进行各分类影响评估和预测。

1.S1*S2 二维影响对于在职选择性分析

预测说明:

a) 在服务一定时间后,人员对应一定级别的工资情况下,黄色说明人员离职的可能性较大,而绿色说明人员继续服务的可能性较大。

b) 对于服务在 4 年内(S15, S 14, S13, S 12),薪酬应该至少在S24(>4.0K),人员才可能选择继续服务可能性较大。因此该预测规则说明目前人员薪酬的平衡最低价位应该在4K 之上。

c) 对于服务超过 4 年,人员在较低的薪资下仍有可能选择继续服务,说明有其他的因素影响。也就是说明此部门内部仍有该因素存在。(这种情况往往是人员因学历原来在较低的岗位且服务的时间相对较长,使得服务时间和薪酬上有不协调问题。)

2.S1*S2*S3 三维影响对于在职选择性分析

预测说明:

a) 在 S1,S2 的各种分类条件下,考虑性向(E,I)属性,即集合S3{S31,S32}作分类预测,红色表示在条件S1*S2*S3的分类下可能选择离职,绿色为该条件下可能继续服务。

b) 比如 S13*S21*S31(即服务时间在2 至3 年+薪酬在2.5-3.0k)情况下,外向型的人员一般会选择离开,内向型

人员可能选择留下继续服务的概率大些。同样的情况比如S12*S23*S31 和

S12*S23*S32(即服务时间在3 至4年+薪

注:①Avg1(salary):各时间段在职人员的平均工资水平。②Avg2(salary):各时间段离职人员的平均工资水平

表 5 按分类因子识别数据集合

表 6-1 S1*S2 影响因子的概率P(H/X)及在职预测

注① 表6-1 中绿色和黄色区域是相应位置P(X/Ci)P(Ci)和下表6-2 进行P (X/Cj)

P(Cj)比较结果。

注:①Avg1(salary):各时间段在职人员的平均工资水平。②Avg2(salary):各时间段离职人员的平均工资水平

分析:

a) 员工在服务时段 1.0-2.0 年离职最多,其次为1 年内离职。b) 在职的员工中,服务1 年以内和四年以上者居多,说明中坚力量的不足,在梯队建设上有脱节现象。c) 在现有在职人员中,除了2-3 年时间段异常外,其它各时间段的平均工资均比离职人员的同期间段工资有所提高,说明薪酬情况略有所改善,符合市场规律。

相关文档
最新文档