数据挖掘技术报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

重庆公安POC项目技术报告

更改控制页

序号版本

更改时间更改内容描述填写人

1草稿1 2

1. 项目简介

本次POC项目的主要目的是向重庆公安展示SPSS产品的特性,证明产品思想满足重庆公安的基本需求,着重向客户展示SPSS产品的重要功能及其性能,同时在一定程度上更进一步了解客户需求,达到沟通的效果,因此,本项目最终选定涉毒人员打分主题,要求给涉毒人员评分,根据涉毒人员再次犯罪的可能性进行人员评级,人员再犯罪可能性越高,其评分越高。

2. 数据基本情况

此次重庆公安信息情报中心提供了大量数据,从数据范围来看,数据分别来自公安内部和公安外部信息系统,内部信息系统包括诸如缉毒总队、刑警总队、治安总队等信息,外部系统包括诸如重庆江北机场安检与经停信息、长途汽车实名购票信息、银行开户信息、社保信息等等信息;从数据量来看,部分数据是全国范围内的数据,数据量较大,比如涉毒人员的基本信息有二百多万条记录,国内旅客2011年信息有一千九百多万条记录,江北机场安检与经停信息有二千四百多万条记录,同时,有部分数据是重庆市的数据,数据量较小,如本地人员在逃人员信息只有五千多条记录,受害人信息也只有千余条信息;从数据质量整体来看,数据信息量比较大,数据反映主题丰富,适合数据挖掘,但是,由于数据来自几十个信息系统,因此数据接口之间存在很大问题,而且数据中出现大量的非法字段,因此数据清洗和规整任务繁重,客户目前也在进行数据整合方面的工作,可以以此作为数据挖掘的前奏,此外,由于客户只提供了部分数据,所以客户到底拥有多少数据以及具体数据的整合方式还有待进一步明确。

3. 项目基本过程

由于此次项目的目的是为了验证产品概念,所以项目管控较少,同时,按公司意图,本次出行工作任务由SPSS公司蒋俊波经理安排,因此我方主要工作任务是辅助SPSS开展工作,故在与客户相关方接洽过

程中我们没有参与,对许多客户需求不能深入了解,只能依据与SPSS 数据建模人员师亮亮的间接沟通中了解情况。如下,把了解到的情况记录如下。

商业理解

此过程主要由蒋俊波和师亮亮与客户沟通完成,根据SPSS的项目经验和公安局提供的整体数据情况,最终确定将挖掘主题定位为对涉毒人员评分,标识其再犯罪排名。

环境搭建

我们的开发硬件环境为两台PC机,操作系统是XP package3,其中一台机器的C盘可用空间只有6G,在数据挖掘过程中没能满足缓存要求,以及SPSS产品License限制等因素,不能作为挖掘机器,只能作为辅助机器,所以本次挖掘任务主要在另一台PC机上。

我们与客户间的接口为一个测试数据库,由师亮亮列出我们需要的数据表清单,情报中心将相关数据导出到测试数据库。

由于测试数据库中我们只有读权限,且并发用户数量限制为两个,不能满足分析要求,所以在本地环境中建立了Oracle 10G数据库,作为分析过程中的临时库使用。

数据理解

在此过程中主要基于SPSS Moduler工具以及SQL工具,从基础上理解数据的组成和数据间的内部关系,并在一定程度上确定数据的质量。如下表所示,是相关数据的统计信息。

数据来源具体表名信息记录数

缉毒总队涉毒人员基本信息 2,487,706

吸毒人员基本信息 5,186,760

涉毒人员变更信息 2,871,484

线索关联信息 608,721

刑警总队本地在逃人员信息 5,079

全国在逃人员信息 295,593

全国在逃人员撤销信

息 2,398,020

违法犯罪人员登记 365,868

专案线索信息 1,229 治安总队受害人信息 441,787

违法人员信息 164,620

国内旅客信息

(2011) 19,277,148 监管总队戒毒所人员信息 11,916

拘留所人员信息 170,537

看守所人员信息 139,427

违法犯罪人员信息 168,623 外部数据法院案件信息 2,201,710

江北机场安检与经停

信息 24,684,225

公交一卡通用户信息 2,959,315

低保人员信息民政局 3,615,818

失业人员信息 5,933

长途汽车实名购票信

息 24,907,010

地税局征管信息 2,824,792

汽车销售信息 765,431

银行开户信息 928,605

社保人员基本信息 6,992,998

市司法劳教所人员信

息 23,940 数据准备

在此过程中除了进行必要的数据清理工作外,主要还通过身份证号关键字进行数据关联,以涉毒和吸毒人员的并集为分析子集,以涉毒人员再犯罪次数为目标字段,导出相关人员年龄、性别、户口所在地等静态信息,以及是否去过居住地之外地方、是否有其它犯罪记录、关押时长等动态信息作为属性字段,为数据建模作前期准备。

数据建模及检验

基于数据准备的基础,把数据集按70%和30%的比例划分为训练集和测试集,在训练集上分别采用9个二分类器对数据进行建模,然后对建模后的模型用查准率、查全率、提升率等指标进行模型评价,选取最优的决策树模型作为侯选模型,这个模型的准确率为82%左右,查全率为60%,然后在测试集上验证模型的泛化性,最终在测试集上也获得了81%左右的准确率,证明模型是比较稳定的。

发布以及项目报告

由于POC过程不强调与原系统的接口,所以本项目以数据表的简单方式发布,最终输出EXCEL数据表,数据表中给定涉毒人员的身份证号、姓名、得分,可以按得分进行排序,表中数据为训练集和测试集的样本并集。

4. 项目总结

数据挖掘项目的实施依赖业务背景与数据挖掘方法两方面的结合,利用业务背景知识,可以有效地解决许多二义性问题,并能指导分析过程的方向,及时发现数据中隐含的模式或者错误,而有效地使用数据挖掘方法可以进行新颖性探索并确定未知事实,保证以更系统的方法分析得到数据中隐含的模式。

数据理解和数据清理工作和业务理解是相辅相成的,这个过程需要大量的数据假想和验证工作,占据大部分工作时间,而且这个理解过程是循环往复的,随着认识的深入,可能会出现新的理解或想法,这些想法可能具有一定的价值,也可能没有价值,在项目实施过程中必须平衡

相关文档
最新文档