数据挖掘任务实例——KDDCUP

合集下载

ACM SIGKDD数据挖掘及知识发现会议

ACM SIGKDD数据挖掘及知识发现会议1清华大学计算机系王建勇1、KDD概况ACM SIGKDD国际会议（简称KDD）是由ACM的数据挖掘及知识发现专委会[1]主办的数据挖掘研究领域的顶级年会。

它为来自学术界、企业界和政府部门的研究人员和数据挖掘从业者进行学术交流和展示研究成果提供了一个理想场所，并涵盖了特邀主题演讲（keynote presentations）、论文口头报告（oral paper presentations）、论文展板展示（poster sessions）、研讨会（workshops）、短期课程（tutorials）、专题讨论会（panels）、展览（exhibits）、系统演示（demonstrations）、KDD CUP赛事以及多个奖项的颁发等众多内容。

由于KDD的交叉学科性和广泛应用性，其影响力越来越大，吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据挖掘等众多领域的专家、学者。

KDD可以追溯到从1989年开始组织的一系列关于知识发现及数据挖掘(KDD)的研讨会。

自1995年以来，KDD已经以大会的形式连续举办了17届，论文的投稿量和参会人数呈现出逐年增加的趋势。

2011年的KDD会议（即第17届KDD 年会）共收到提交的研究论文（Research paper）714篇和应用论文（Industrial and Government paper）73篇，参会人数也达到1070人。

下面我们将就会议的内容、历年论文投稿及接收情况以及设置的奖项情况进行综合介绍。

此外，由于第18届KDD年会将于2012年8月12日至16日在北京举办，我们还将简单介绍一下KDD’12[4]的有关情况。

2、会议内容自1995年召开第1届KDD年会以来，KDD的会议内容日趋丰富且变的相对稳定。

其核心内容是以论文报告和展版（poster）的形式进行数据挖掘同行之间的学术交流和成果展示。

数据挖掘与机器学习实战案例分享

数据挖掘与机器学习实战案例分享第1章数据挖掘基础概念 (3)1.1 数据挖掘的定义与任务 (3)1.2 数据挖掘的过程与步骤 (4)1.3 数据挖掘的应用领域 (4)第2章机器学习概述 (4)2.1 机器学习的定义与分类 (4)2.2 监督学习 (5)2.3 无监督学习 (5)2.4 强化学习 (5)第3章数据预处理 (5)3.1 数据清洗 (5)3.1.1 缺失值处理：针对数据集中的缺失值，可以采用删除、填充或插值等方法进行处理。

(5)3.1.2 异常值处理：通过统计分析或机器学习算法识别数据集中的异常值，并对这些异常值进行相应的处理，如删除、修正等。

(5)3.1.3 重复值处理：去除数据集中的重复记录，保证数据的唯一性。

(5)3.1.4 数据类型转换：将数据集中的数据类型转换为适用于后续分析的格式，如将字符型数据转换为数值型数据。

(5)3.2 数据集成 (5)3.2.1 实体识别：识别不同数据集中的实体，并将它们关联起来。

(6)3.2.2 冲突解决：针对来自不同数据源的冲突数据，采用相应的策略进行解决，如取均值、加权平均等。

(6)3.2.3 数据整合：将经过实体识别和冲突解决后的数据进行整合，形成适用于后续分析的数据集。

(6)3.3 数据变换 (6)3.3.1 数据规范化：将数据集中的属性值缩放到一定的范围，便于后续分析。

(6)3.3.2 数据离散化：将连续型数据转换为离散型数据，便于进行分类或聚类分析。

(6)3.3.3 数据聚合：对数据集中的属性进行汇总，如求和、平均等。

(6)3.3.4 特征提取：从原始数据中提取有助于后续分析的特征，如主成分分析（PCA）。

63.4 数据归一化与标准化 (6)3.4.1 数据归一化：将数据缩放到[0,1]区间，适用于数据分布不明确的情况。

(6)3.4.2 数据标准化：将数据缩放到具有标准正态分布的形式，适用于数据分布明确且符合正态分布的情况。

KDD CUP 2009_数据挖掘_科研数据集

KDD CUP 2009英文关键词：Customer Relationship Management (CRM), marketing databases, French Telecom company Orange, propensity of customers,中文关键词：客户关系管理(CRM)、营销数据库，法国电信公司橙、倾向的客户，数据格式：TEXT数据介绍：Customer Relationship Management (CRM) is a key element of modern marketing strategies. The KDD Cup 2009 offers the opportunity to work on large marketing databases from the French Telecom company Orange to predict the propensity of customers to switch provider (churn), buy new products or services (appetency), or buy upgrades or add-ons proposed to them to make the sale more profitable (up-selling).The most practical way, in a CRM system, to build knowledge on customer is to produce scores. A score (the output of a model) is anevaluation for all instances of a target variable to explain (i.e. churn, appetency or up-selling). Tools which produce scores allow to project, on a given population, quantifiable information. The score is computed using input variables which describe instances. Scores are then used by the information system (IS), for example, to personalize the customer relationship. An industrial customer analysis platform able to build prediction models with a very large number of input variables has been developed by Orange Labs. This platform implements several processing methods for instances and variables selection, prediction and indexation based on an efficient model combined with variable selection regularization and model averaging method. The main characteristic of this platform is its ability to scale on very large datasets with hundreds of thousands of instances and thousands of variables. The rapid and robust detection of the variables that have most contributed to the output prediction can be a key factor in a marketing application.The challenge is to beat the in-house system developed by Orange Labs. It is an opportunity to prove that you can deal with a very large database, including heterogeneous noisy data (numerical and categorical variables), and unbalanced class distributions. Time efficiency is often a crucial point. Therefore part of the competition will be time-constrained to test the ability of the participants to deliver solutions quickly.[以下内容来由机器自动翻译]客户关系管理(CRM) 是现代营销战略的一个关键要素。

数据挖掘_KDD Cup 1997 Datasets(1997年KDD杯数据集)

KDD Cup 1997 Datasets(1997年KDD杯数据集)数据摘要：This is the data set used for The First International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction with KDD-97 The Third International Conference on Knowledge Discovery and Data Mining.中文关键词：KDD杯,知识发现,数据挖掘,数据集,英文关键词：KDD Cup,Knowledge Discovery,Data Mining,Datasets,数据格式：TEXT数据用途：Data Mining数据详细介绍：KDD Cup 1997 DatasetsAbstractThis is the data set used for The First International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction with KDD-97 The Third International Conference on Knowledge Discovery and Data Mining.Usage NotesThe KDD-CUP-97 data set and the accompanying documentation are now available for general use with the following restrictions:1. The users of the data must notify Ismail Parsa (iparsa@) and KenHowes (khowes@) in the event they produce results, visuals or tables, etc. from the data and send a note that includes a summary of the final result.2. The authors of published and/or unpublished articles that use the KDD-Cup-97data set must also notify the individuals listed above and send a copy of their published and/or unpublished work.3. If you intend to use this data set for training or educational purposes, you must notreveal the name of the sponsor PVA (Paralyzed Veterans of America) to the trainees or students. You are allowed to say "a national veterans organization"...Information files∙readme. This list, listing the files in the FTP server and their contents.∙instruct.txt . General instructions for the competition.∙cup98doc.txt. This file, an overview and pointer to more detailed information about the competition.∙cup98dic.txt. Data dictionary to accompany the analysis data set.∙cup98que.txt. KDD-CUP questionnaire. PARTICIPANTS ARE REQUIRED TO FILL-OUT THE QUESTIONNAIRE and turn in with the results.∙valtargt.readme. Describes the valtargt.txt file.Data files∙cup98lrn.zip PKZIP compressed raw LEARNING data set. (36.5M; 117.2M uncompressed)∙cup98val.zip PKZIP compressed raw VALIDATION data set. (36.8M; 117.9M uncompressed)∙cup98lrn.txt.Z UNIX COMPRESSed raw LEARNING data set. (36.6M; 117.2M uncompressed)∙cup98val.txt.Z UNIX COMPRESSed raw VALIDATION data set. (36.9M; 117.9M uncompressed)∙valtargt.txt. This file contains the target fields that were left out of the validation data set that was sent to the KDD CUP 97 participants. (1.1M)数据预览：点此下载完整数据集。

数据挖掘_KDD Cup 1997 Datasets(1997年KDD杯数据集)

KDD-Cup(数据挖掘与知识发现竞赛) 介绍

n
n
The goal – to design models to support website personalization and to improve the profitability of the site by increasing customer response. Questions - When given a set of page views,
n
ROBOCUP
n
2
About ACM KDDCUP
n n
ACM KDD: Premiere Conference in knowledge discovery and data mining ACM KDDCUP:
n
Worldwide competition in conjunction with ACM KDD conferences. showcase the best methods for discovering higher-level knowledge from data. Helping to close the gap between research and industry Stimulating further KDD research and development
Year
97 98
99 24
2000 2005 2011 30 32 1000+
4
Submissions 16 21
Algorithms (up to 2000)
5
KDD Cup 97
8
KDDCUP 1998 Results
$70,000 $65,000 $60,000 $55,000 $50,000 $45,000 $40,000 $35,000 $30,000 $25,000 $20,000 $15,000 $10,000 $5,000 $100%

KDD2015数据挖掘实验报告

xx大学信息科学与工程学院《数据挖掘》实验报告实验序号：实验项目名称：KDD2015成为标签内容，标签内容包括两列：第一列是用户的注册id，第二列是0或者1，0表示用户继续学习，1表示退学了。

而7月22日的之前的所有日期的将作为特征提取的数据来源。

2. 以后，时间点将依次向后推迟7天，与第一步相同，在这个时间点之后的10天的数据作为标签来源，之前的所有的日期的数据作为特征提取的数据。

每一周的数据作为一个训练集的一个组成部分。

3.特征提取时，提取了12个标签：①.source-event pairs counted:用户在该课程的操作(按照“来源-事件”对来计数，这里的“来源-事件”举个例子来说就是browser-access，server-discussion，下同)数量，按周来划分，前一周，前两周，直到最后一周，举个例子来说明这个例子就是某用户在某个星期利用客户端操作了某件事的次数。

②. courses by user counted：用户有行为的课程数量，前一周、前两周、前三周、前四周的。

③. course population counted：有多少人选择了这门课。

④. course dropout counted：有多少人在上课期间放弃了这门课。

⑤. ratio of user ops on all courses：用户在该课程的操作数量占他在所有课程的操作数量的比例，前一周、前两周、前三周、前四周的，以及更以前的时间。

⑥. ratio of courses ops of all users：用户在该课程的操作数量占所有用户在该课程的操作数量的比例，前一周、前两周、前三周、前四周的，以及更以前的时间。

⑦. dropout ratio of courses：课程的放弃率。

⑧. days from course first update：这门课程的材料首次发布距今几天了。

⑨. d ays from course last update：这门课程的材料最后一次发布距今几天了。

数据挖掘技术应用实例

奥巴马竞选团队还首次利用 Facebook 进行大规模的投票动员，这模仿了现场组织者挨家挨户敲门的方式。在竞选活动的最后几周，下载某一款应用的用户收到了多条消息，其中包含他们在“摇摆州”好友的照片。他们被告知，可以通过点击按钮，呼吁这些目标选民采取行动，例如进行投票注册、更早地投票，以及参与到投票中。奥巴马竞选团队发现，大约1/5收到 Facebook 请求的选民做出了响应，这在很大程度上是因为请求来自他们熟悉的人。
奥巴马竞选阵营的数据挖掘团队为竞选活动搜集存储和分析了大量数据给予竞选团队的高级助手帮助其成功策划多场活动为奥巴马竞选筹集到10亿美元资今年春天晚些时候奥巴马竞选阵营的数据挖掘团队注意到影星乔治克鲁尼georgeclooney对美国西海岸4049岁的女性具有非常大的吸引力
数据挖掘技术应用实例
1.个性化广告 2.电影和视频推荐 3.奥巴马成功竞选
今年春天晚些时候，奥巴马竞选阵营的数据挖掘团队注意到，影星乔治· 克鲁尼(George Clooney)对美国西海岸 40 岁至 49 岁的女性具有非常大的吸引力。她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰包的一个群体。克鲁尼在自家豪宅举办的筹款宴会上，为奥巴马筹集到数百万美元的竞选资金。
和YouTube类似，美国另一家著名的视频网站Hulu也有自己的个性化推荐页面。如图 1-10所示，Hulu在展示推荐结果时也提供了视频标题、缩略图、视频的平均分、推荐理由和用户反馈模块。
Байду номын сангаас
奥巴马成功竞选
奥巴马竞选成功后，在 Twitter 上发的第一章照片。社交网络与数据分析，对奥巴马成功连任功不可没。奥巴马竞选阵营的数据挖掘团队为竞选活动搜集、存储和分析了大量数据，给予竞选团队的高级助手，帮助其成功“策划”多场活动，为奥巴马竞选筹集到 10 亿美元资金。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

❖ 临床上面临的挑战，特别是在急诊室的情景，是正确诊断一个患者有PE，然后送他们去治疗。
❖ 然而这并不容易的，PE的主要症状是dysapnea（呼吸急促），这有多种原因，其中有一些是相对良性的，这导致很难区分出危重PE患者。
❖ 医生面临的两个严峻的临床挑战，是诊断病人是否患的是PE，以及确定PE的位置。
❖2. 为了找到能够表征目标医学结构的描述性特征，研究人员通常部署大量的实验特征，从而引入了无关和冗余的特征。
❖3. 因为标签由医学专家创建，所以通常是杂乱的；并且在许多情况下没有来自活检或其它独立确认的相关背景。
❖4. 为了能被临床接受，CAD系统必须达到极高的性能阈值才能对医生的日常实践有用。
数据格式
❖ 我们提供了两个分别包含的训练和测试特征的矩阵的文本文件，每一行代表一个例子，每一列代表一个特征。
❖ 前两列提供病人标识符和PE标识符。PE标识符也是我们目标标签变量，告诉你相应的例子是否PE 。如果它是一个PE，标签是PE标识符（正数），如果它不是一个PE，标签设置为0。
❖ 在测试数据中，所有的标签都设置为-1（这意味着未知）。试验数据将在2006年7月10日提供。
❖ 例如，CAD系统已被用于从X射线图像中自动检测（潜在的癌症）的乳腺肿块和钙化，从CT（计算机断层扫描）肺图像中检测肺结节，以及从结肠CT图像中检测结肠息肉等。
❖ CAD应用导致一些非常有趣的数据挖掘问题：
❖1. 典型的CAD的训练数据集非常庞大，且阳性和阴性两类极不平衡。通常，不到1%的例子是真阳性。
❖ 计算CT血管造影（CTA）已成为PE的一个精确的诊断工具。
❖ 然而，每个CTA研究包括数以百计的图像，每个图像代表肺的一片。
❖ 人工看片费时费力，并且很复杂，有各种包括呼吸运动伪影，flowrelated伪，伪影，部分容积效应，阶梯伪影，淋巴结，与血管分叉等等在内外观相似的（假阳性）PE。
❖ 总之，来自CAD系统的机器学习和数据挖掘任务非常具有挑战性！
肺栓塞检测的挑战
❖ 肺栓塞是在肺动脉发生阻塞的条件下发生的。 ❖ 在大多数情况下，阻塞是由一个或更多从你身体
的其他部分来的血凝块进入肺部造成的。
❖ PE并不总是致命的，然而在美国却是排在第三位的最常见的死亡原因，每年至少有650000例发生。
特征产生
❖ 对于每个候选计算出一组116个的特征。其中三个特征X，Y，Z是候选的位置。
❖ 剩余的特征是基于图像的特征，归一化到单位的范围内，具有特定特征的含义。
❖ 注意到这些功能不一定是独立的，并且可以与其他特征相关。
❖ 这些特征可分为三类：表示候选中体素的亮度分布的，度量候选邻居的亮度分布的，和描述候选的三维形状的。
❖ 在此任务中，共收集了69例提供给胸部放射学专家，审查了每例并标出PE。
❖ 这些例子被随机分为训练集和测试集。训练集包括38阳性和8例阴性，而测试集包含其余23例。测试集是分开的，仅用于评估最终系统的性能。
❖ 在比赛过程中可能会有额外的训练/测试数据。任何增加的数据将通过参赛邮件列表公布给所有已注册的参加者并张贴在网上。
分类任务
▪ 1. 从医学图像中候选识别感兴趣的区域（Regions of Interest，ROI）
▪ 2. 计算每个候选的描述性特征
▪ 3. 在其特征的基础上对每一个候选进行分类（在这种情况下，是PE还是不是）
❖ 在今年的KDD杯数据，步骤1和2已经做好。你的目标是设计一系列与步骤3相关的分类器。
The PE Data
❖ 试验数据中患者号码3111和3126与训练数据中患者号码分别为3103和3115的数据重复。从测试集中剔除。
候选的产生和标记
❖ 每个例子通过一个候选发生器来识别潜在的PE候选。
❖ 在候选产生过程中共识别出4429个候选：3038个候选出现在训练集中，1391个出现在测试集中。
❖ 每个候选是一个voxels（像素的3-D模拟）的集群，其中每个voxel都有一个灰度值。
❖ 每个候选基于是否邻近一个由专家提供的三维地标被标记为是否PE。
❖ 由于PEs不是完美的球体，而是不规则的物体，候选不是位于PE上，而是位置接近，可能只是根据其位置（错误地）被标为PE。换句话说，标签可能是带噪声的。
❖ 同时，注意到多个候选往往对应一个单一的PE（来自专家相同的标记）。由于每个PE具有唯一的标识符，有可能存在多个候选具有相同的PE标识符。换句话说，这个问题是个多实例的问题，其中每一个阳性的例子有多个实例。
数据挖掘任务实例 ——KDD CUP
KDD CUP
❖Knowledge Discovery CUP ❖数据挖掘世界杯
2006 KDD Cup Task
❖Computer Aided Detection of Pulmonary Embolism
❖ 肺栓塞计算机辅助检测
背景描述
❖ 在过去的十年中，计算机辅助诊断（CAD）系统已经从单纯的学术刊物领域，发展到强大的医学临床实践的商业系统中，用以帮助医生从医学图像中检测早期癌症。
❖5. 最后，为了进行商业销售（至少在美国），绝大多数C
❖ 通常，该CAD系统必须表现出统计学上显著的临床表现提高，例如，让一个（没有任何机器学习的特别知识）社区医生在未知的情况下使用时，有该CAD的医生的敏感性必须（显著）超出没有 CAD时他们的表现，并且没有假阳性的显著增加（这对应可能会导致不必要的活检或昂贵的测试）。
❖ 此外，当诊断为PE后，所给的药物是防止进一步血栓，但是这些药物有时会导致随后的大出血和流血，患者在诊断用药后数周仍会如此。
❖ 因此，医生必须仔细地审查每一个CAD输出的正确性以防止过度诊断。每名患者的扫描该CAD系统必须只给出少量的假阳性。
❖ 一个CAD系统的目标，就是自动识别PE。
❖ 在一个几乎普遍适用的CAD算法框架中，这个问题由一个3阶段系统来解决：