数据挖掘方向
软件工程领域中的数据挖掘和分析

软件工程领域中的数据挖掘和分析在当今技术发展迅速的社会中,软件工程领域的数据挖掘和分析变得越来越重要。
随着云计算、大数据和人工智能等技术的蓬勃发展,数据挖掘和分析在软件工程中扮演着至关重要的角色。
本文将探讨软件工程领域中的数据挖掘和分析的意义、方法以及未来发展方向。
一、数据挖掘和分析的意义在软件工程领域,数据是一种宝贵的资源。
通过数据挖掘和分析,软件工程师可以从大量的数据中发现有价值的信息,进而帮助企业制定决策、改进产品和服务质量,提升用户体验。
数据挖掘和分析可以帮助软件工程师发现隐含的模式、关联、异常和趋势,为问题解决提供重要参考。
此外,数据挖掘和分析还可以帮助软件工程师预测未来的趋势和行为,为业务发展提供科学依据。
二、数据挖掘和分析的方法1. 数据预处理数据预处理是数据挖掘和分析的第一步,它包括数据清洗、数据集成、数据转换和数据规约等操作。
数据预处理的目的是提高数据的质量,减少数据挖掘过程中的误差和干扰。
2. 数据挖掘算法在数据预处理之后,软件工程师可以选择合适的数据挖掘算法来分析数据。
常用的数据挖掘算法包括分类、聚类、关联规则、异常检测和预测等。
软件工程师可以根据问题的特点选择合适的算法,并对算法进行参数调整和优化。
3. 数据可视化数据可视化是将分析结果以图表、图像或动画等形式展示给用户的过程。
通过数据可视化,软件工程师可以更直观地理解和解释数据挖掘的结果,从而提高决策效果和工作效率。
三、数据挖掘和分析的未来发展方向1. 深度学习在数据挖掘中的应用深度学习是人工智能领域的热门技术之一,它能够模拟人类大脑的神经网络结构,实现对大规模复杂数据的高效处理。
未来,深度学习将在软件工程领域的数据挖掘和分析中发挥更重要的作用,实现更精确、更准确的数据分析和决策支持。
2. 异常检测和安全性保障随着网络安全威胁的不断增加,软件工程师对数据挖掘和分析在异常检测和安全性保障方面的应用需求也在增加。
未来,数据挖掘和分析技术将与网络安全技术紧密结合,为企业和个人提供更强大的安全防护措施。
数据挖掘工程师的明年的工作规划和计划

数据挖掘工程师的明年的工作规划和计划数据挖掘工程师的明年工作规划和计划随着大数据时代的到来,数据挖掘工程师的角色变得越来越重要。
在未来一年,作为数据挖掘工程师,我们需要定制明确的工作规划和计划来应对不断发展和变化的领域。
本文将探讨明年数据挖掘工程师的工作重点、技能培养和职业发展等方面。
一、工作重点作为数据挖掘工程师,我们明年的工作重点应聚焦于以下几个方面:1.数据采集和清洗:数据是挖掘分析的基础,明年我们需要更加注重数据的采集和清洗。
通过构建高效的数据采集机制和优化数据清洗流程,确保数据质量和准确性,为后续的数据挖掘工作打下坚实的基础。
2.算法开发和模型构建:数据挖掘工程师需要具备扎实的机器学习和数据分析基础知识,明年我们应不断学习和掌握新的算法和模型构建技术。
同时,合理选择和应用已有的算法和模型,提高挖掘效果和准确性。
3.可视化和报告呈现:数据挖掘的结果需要向非技术人员和决策者进行呈现和解释。
明年我们需要提升可视化和报告撰写的能力,通过直观的图表和清晰的解释,将复杂的分析结果转化为可理解的信息,为决策提供支持和指导。
二、技能培养为了更好地完成明年的工作规划,作为数据挖掘工程师,我们需要不断提升自身的技能和知识储备。
以下是几个关键的技能培养方向:1.深入学习机器学习和数据挖掘算法:学习和掌握机器学习和数据挖掘的基本原理和常用算法,如决策树、支持向量机、聚类算法等。
通过实践项目和参与竞赛,不断提高算法开发和模型构建的能力。
2.提升编程和数据处理能力:作为数据挖掘工程师,编程和数据处理是必备的技能。
能够熟练使用Python、R等编程语言进行数据分析和处理,熟悉SQL等数据库语言,掌握大数据处理框架如Hadoop和Spark等,对于工作的效率和准确性都具有重要意义。
3.加强沟通和团队协作能力:数据挖掘工程师通常需要与团队成员、业务人员和管理层进行高效沟通。
在明年的工作计划中,我们应注重沟通和团队协作能力的培养,通过参与项目和团队活动,提高与他人协作的能力和有效沟通的技巧。
基于企业数据挖掘技术的应用及发展方向

步 ,不仅增加了预测功能 ,而且还能在分布式系统中运
据都涉及时间 、空间 。例如地图搜索服务及天气预报服 务 ,人们 更多地使用 图片 、视频 等多媒体 方式进行 交
流 ,对于多媒体数据的挖掘可以发现相 当丰富的知识。
的方法监控整个生产 、销售流程产 生的R I 数据可 以 FD 给企业带来可观的效益。 35时空和多媒体数据挖掘 。现实生活 中的许多数 .
能操纵它 ,它可使数据挖掘过程成为用户业务流程 的一 部分 。包括数据用户化呈现与交互操纵两部分。
43 - WE B下 的网络挖掘 的应用技术 的发展 ,数据
3I . 模式挖掘 。模式挖掘 ( a enmiig p t r nn )是数据 t
领域 ,在电子商务时代 ,各行业业务流程的 自动化和各 类信息系统不断深入的应用在企业 积累了大量复杂 的数 据 ,这些数据最初不是为了分析的 目的而收集的 ,而是 在企业的 日常运 营中产生的。每两三年左右 ,企业 的数 据量就会翻一倍 ,而9 %.5 3 9 %的数据进入数据库后并没 有被有效应用。这些未被充分利用的数据并没有为企业 带来财富 ,反而因占用企业 的资源而成为负担。因此企 业 面临着两个问题 :一方面全球化竞争 的加剧要求企业 比任何时候都需要更快 、更好地决策 ;另一方面 ,许多 企 业在面对逐年增长的业务数据时 ,不知道真正有价值 的模式在哪里 ,难 以发现数据 中存在的关 系以及根据 现
机器学习与数据挖掘

机器学习与数据挖掘机器学习和数据挖掘是近年来非常火热的话题,从业者越来越多,也吸引了很多人的关注。
本文将从什么是机器学习和数据挖掘开始,深入分析它们的应用和未来的发展方向。
一、什么是机器学习和数据挖掘1.1 机器学习机器学习是一种人工智能的分支,旨在研究如何使计算机具有类似于人类智能的学习、自适应、推理和判断等功能。
机器学习依靠数据、算法和模型进行学习和预测,通过不断的迭代和优化,让计算机可以自己从数据中学习并做出决策。
在实际应用中,机器学习可以用于图像识别、语音识别、自然语言处理、推荐系统、医疗诊断等领域,通过对数据的学习和分析,自动发现其中的特征、规律和模式,并将其应用到实际场景中。
1.2 数据挖掘数据挖掘是从大量的数据中自动发现有用的信息,再转化为可理解和可用的模式的过程。
数据挖掘可以帮助企业发现数据背后隐藏的价值和规律,从而支持决策和业务发展。
数据挖掘技术通常包括分类、聚类、关联规则挖掘、异常检测等,其中分类是将对象分成不同的类别,聚类是将对象分成相似的类别,关联规则挖掘是寻找数据之间的关联关系,异常检测是寻找异常或不寻常的数据。
通过这些技术,数据挖掘可以为企业提供更优的决策支持和商业价值。
二、机器学习和数据挖掘的应用2.1 图像识别图像识别是机器学习领域的热门应用之一,通过训练模型从图像中自动提取特征,实现自动化分类、检测、跟踪等功能。
图像识别技术已经广泛应用于智能家居、无人驾驶、安防监控等领域,为人们的生活和工作带来了便利和安全。
2.2 自然语言处理自然语言处理是一种将计算机与人类语言联系起来的技术,它旨在让计算机能够理解、分析和产生人类语言。
自然语言处理已经被广泛应用于搜索引擎、机器翻译、智能客服、语音识别等领域,为人们提供了更方便的沟通和信息获取方式。
2.3 推荐系统推荐系统是根据用户历史行为和兴趣,向用户推荐他们可能感兴趣的产品或服务的系统。
推荐系统广泛应用于电商、社交媒体、视频网站等领域,为用户提供了更加智能化、个性化的服务。
大数据的挖掘

大数据的挖掘随着科技的不断发展,大数据已经成为现代社会中不可忽视的一个重要组成部分。
大数据的挖掘为人们提供了深入了解客观世界的机会,帮助人们做出更明智的决策,进而推动社会的进步与发展。
本文将介绍大数据挖掘的定义、应用领域以及其中的挑战和未来发展方向。
一、定义大数据挖掘是指利用各种技术和工具对庞大的数据集进行分析,以发现隐藏在数据背后的规律、趋势和价值信息的过程。
这些数据可以来自于各种来源,包括社交媒体、传感器、数据采集设备等等。
通过对这些数据进行分析和挖掘,我们可以从中提取出有用的信息和知识,以支持决策、发现新的业务机会、改进产品和服务等。
二、应用领域大数据挖掘在众多领域都有广泛的应用,以下为几个典型的应用领域:1. 商业和市场营销:通过对大量的市场数据进行挖掘和分析,企业可以更好地了解消费者的需求和偏好,进而制定更精准的市场营销策略,提高销售额和市场份额。
2. 金融服务:金融机构可以利用大数据挖掘技术来预测市场趋势、评估风险、进行欺诈检测等,以提高投资决策的准确性和效率。
3. 医疗保健:医疗机构可以通过对患者的大数据进行分析,识别出与疾病相关的模式和变量,从而提供更精确的诊断和治疗方案。
4. 城市规划:政府部门可以利用大数据挖掘技术来分析城市的交通流量、能源消耗、环境污染等数据,制定更科学、高效的城市规划方案。
三、挑战与未来发展方向尽管大数据挖掘在各个领域都有广泛的应用,但其面临着一些挑战和难题。
1. 数据质量:大数据的质量往往存在问题,包括数据的准确性、完整性以及数据清洗和集成的困难等。
因此,如何保证挖掘出的结果的准确性和可靠性是一个重要的挑战。
2. 隐私保护:大数据的挖掘过程中涉及到大量的个人隐私信息,如何确保数据的安全性和隐私保护是一个亟待解决的问题。
3. 技术和人才需求:大数据挖掘依赖于各种技术和工具,而这些技术和工具的不断更新和发展对从业人员的技术水平和知识储备提出了更高的要求。
未来,大数据挖掘将继续发展和演进,其中的一些方向可能包括:1. 深度学习和人工智能的应用:将深度学习和人工智能与大数据挖掘相结合,可以更好地处理复杂的数据分析任务,提高数据挖掘的效率和准确性。
数据挖掘方法及其应用研究

数据挖掘方法及其应用研究数据挖掘是一种从大量数据中自动发掘出有用信息的技术,对于信息化时代的企业而言,数据挖掘技术的应用已经成为了提高业务水平和核心竞争力的必备手段。
本文将从数据挖掘的方法、应用以及研究方面进行探讨。
一、数据挖掘的方法数据挖掘的方法主要是基于数据分析和机器学习的,其中数据分析主要包括关联规则和分类预测等。
首先,关联规则挖掘是指在数据集中发掘出事物之间的关联性,比如“如果顾客购买了巧克力,那么他们很有可能也会购买口香糖”,而分类预测则是对数据进行分类,比如“根据用户的浏览记录,预测他们最可能会购买哪些商品”。
而机器学习是数据挖掘的核心技术,它是一种通过数据自我修正以提高性能的方法。
常见的机器学习方法包括决策树、神经网络以及聚类等。
决策树是一种用于分类和预测的树形结构,它将数据以节点的形式进行分类,直到数据达到叶节点,从而做出相应的决策;神经网络则是通过构建一种类比于人类大脑的模型来识别模式,进行分类或预测;而聚类则是在数据集中查找相似之处并将数据分组的方法。
二、数据挖掘的应用数据挖掘技术在各行各业的应用越来越广泛,比如在金融行业中常用于信用评估、欺诈检测以及风险管理等方面。
在零售业中,数据挖掘技术可以用于用户行为分析及商品推荐,以此提高销售额和用户忠诚度。
而在医疗领域,数据挖掘技术则可以用来提高早期预警、疾病诊断和药物研发等方面的能力。
此外,数据挖掘技术在交通、安全、舆情监测及人工智能等领域也发挥着越来越重要的作用。
三、数据挖掘的研究在数据挖掘的研究方面,目前有诸多的挑战。
首先,各类数据源的结构化程度参差不齐,挖掘数据的质量和有效性面临着较大的挑战。
其次,代表性和可扩展性是数据挖掘领域中的两大难点,它们影响着数据挖掘结果的可靠性和准确性。
另外,数据挖掘算法的集成和融合也是研究方向之一,通过多种算法的组合和协同来解决特定问题,进一步提高数据挖掘的效率和准确性。
最后,隐私保护和信息安全问题也是需要重点关注的研究方向,保障数据隐私的同时,也使得挖掘结果更加可靠。
数据挖掘岗位工作内容职责简述【十篇】

数据挖掘岗位工作内容职责简述【十篇】数据挖掘岗位工作内容职责简述【十篇】数据挖掘岗位的工作内容可能对于有些人而言是枯燥的,同时也是繁琐的,所以它要求应聘者要有耐心。
下面是我给大家带来的数据挖掘岗位工作内容职责简述【十篇】,欢迎大家阅读转发! 数据挖掘岗位工作内容职责(精选篇1)职责:1、负责业务数据建模、数据分析及关键机器学习算法的设计与实现2、编写算法设计各阶段的相关文档,撰写相关专利;3、负责基于大数据平台的相关算法实现及优化岗位要求:1、本科学历及以上,计算机、医学统计或相关专业2、数学基础扎实,在数据挖掘、机器学习算法研究有较为丰富的知识积累和一定的实际项目经验。
3、熟悉大数据存储与分析基础理论和算法,有智能数据挖掘系统开发经验者优先;4、有医疗数据分析经验优先5、乐于接受挑战,学习能力强,勤奋肯干,有责任心数据挖掘岗位工作内容职责(精选篇2)职责:1、根据银行、保险、互联网金融等行业客户对大数据的需求,通过大数据挖掘技术研究客户本质属性,进行针对性数据分析;2、深入理解内部与外部各种数据的数据结构,应用先进的统计建模、数据挖掘、机器学习方法,进行清洗、分析、建模,完成数据的产品转化设计,并不断完善和优化模型;3、通过数据分析手段,描述业务特征,结合市场行业状况,为业务决策、业务方向提供决策支持,竞争分析及建议,以推动业务发展。
岗位要求:1、本科学历及以上2、本科学历需3—4年工作经验,硕士及以上可放宽至2年3、统计学、计量经济学、数学专业优先,4、熟悉2种以上分析开发工具:Python、R、SAS等,熟悉两种及以上数据库:hiveoraclemysql等,熟悉SQL语句;5、熟悉常用数据挖掘、机器学习算法,有金融业相关的数据挖掘项目经验为佳;6、具有良好的沟通和快速学习能力,能够快速、准确地理解需求,并将业务需求转换为数据模型。
数据挖掘岗位工作内容职责(精选篇3)职责:1、负责数据挖掘领域的分析研究,包括数据挖掘算法的分析研究,特定工程的数据挖掘模型的需求分析、建模、实验模拟;2、负责数据挖掘系统的开发,包括需求分析、系统设计、系统测试和优化。
数据挖掘技术的发展趋势

数据挖掘技术的发展趋势1. 机器研究与数据挖掘的结合机器研究是数据挖掘的关键组成部分,通过建立模型和算法来从数据中研究和预测。
近年来,机器研究技术发展迅速,为数据挖掘领域带来了许多创新。
未来,机器研究算法的改进和应用将继续推动数据挖掘技术的发展。
2. 大数据时代的数据挖掘随着互联网的普及和信息技术的快速发展,大数据时代已经到来。
海量的数据成为数据挖掘的新挑战和机遇。
数据挖掘技术在面对大数据时代需要适应更高的数据量、更复杂的数据结构和更高的算法效率。
因此,数据挖掘技术将继续发展和完善,以适应大数据时代的需求。
3. 数据挖掘在智能决策中的应用数据挖掘技术能够从大量的数据中发现隐藏的知识和模式,为决策提供支持和指导。
随着人工智能的发展和智能决策的需求增加,数据挖掘技术在智能决策中的应用前景广阔。
未来,数据挖掘技术将更加深入地与智能决策相结合,为各个领域的决策提供更准确、更可靠的支持。
4. 数据隐私和安全保护数据挖掘技术的发展也带来了一些挑战,其中之一是数据隐私和安全保护。
随着个人隐私意识的提高和相关法律法规的出台,数据挖掘技术在处理敏感信息时需要考虑隐私和安全保护问题。
未来,数据挖掘技术在隐私和安全方面的研究将成为一个重要的发展方向。
5. 跨领域合作和知识融合数据挖掘技术的应用已经渗透到各个领域,如医疗、金融、电子商务等。
在未来,数据挖掘技术将需要与其他学科和领域进行更紧密的合作,进行知识融合和交叉创新。
跨领域合作将为数据挖掘技术的发展带来更多的灵感和机遇。
综上所述,数据挖掘技术的发展趋势包括机器学习与数据挖掘的结合、大数据时代的数据挖掘、数据挖掘在智能决策中的应用、数据隐私和安全保护、以及跨领域合作和知识融合。
这些趋势将进一步推动数据挖掘技术的发展,为我们带来更多的机遇和挑战。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘需要具备基础知识1.数据挖掘从业人员的愿景:数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。
A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等)B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)2.数据挖掘从业人员切入点:根据上面的从业方向倒序并延伸来说说需要掌握的技能。
C,数据分析师:需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。
从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》等,如果多看一些如《中文版数据挖掘原理》等书籍那就更好了。
B,程序设计开发:主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。
要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过《数据挖掘概念与技术》(韩家炜著)、《人工智能及其应用》。
有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如《数据挖掘:实用机器学习技术及Java实现》等一些教程。
A.做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。
可能之后不会续写一篇《数据挖掘进阶》了,这边大概说一下B和C的进一步要求:B当前主要包括如下方向:企业数据挖掘、Web数据挖掘、空间数据挖掘、多媒体数据挖掘等等;C当前主要应用于:电信CRM、金融、咨询业等等;最后说一下大家有必要熟悉数据挖掘工具:Google ,或许你也可以搜索到这篇文章,当然也可以搜索到人才招聘的相关职位需求以及其他资料,一如你当初搜索到DMResearch 一样。
磨刀不误砍柴工。
在学习数据挖掘之前应该明白几点:∙数据挖掘目前在中国的尚未流行开,犹如屠龙之技。
∙数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
∙数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。
∙数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)∙数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。
∙数据挖掘项目通常需要重复一些毫无技术含量的工作。
如果你阅读了以上内容觉得可以接受,那么继续往下看。
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。
技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。
但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。
不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。
一、目前国内的数据挖掘人员工作领域大致可分为三类。
∙1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
∙2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
∙3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
二、说说各工作领域需要掌握的技能。
(1).数据分析师∙需要有深厚的数理统计基础,但是对程序开发能力不做要求。
∙需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
∙需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。
∙经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
(2).数据挖掘工程师∙需要理解主流机器学习算法的原理和应用。
∙需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。
∙需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。
∙经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
(3).科学研究方向∙需要深入学习数据挖掘的理论基础,包括关联规则挖掘(Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法(Kmeans、Spectral Clustering)。
目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
∙相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。
虽然目前在国内流行度不高,但是强烈推荐。
∙可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。
∙需要广而深的阅读世界著名会议论文跟踪热点技术。
如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery fromData,IEEE Transactions on Knowledge and Data Engineering,Journal ofMachine Learning Research Homepage,IEEE Xplore: Pattern Analysis andMachine Intelligence, IEEE Transactions on等。
∙可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。
如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
∙可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。
∙经典图书推荐:《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SASEnterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
三、以下是通信行业数据挖掘工程师的工作感受。
真正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持。
所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力。
说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了,对不起,我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看,比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任。
这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对一个人的迷你项目很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家,都是无法胜任的)。
这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起进行数据挖掘项目实践,你说没有好的沟通能力行吗?数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有效的捷径。
国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果。
我不知道国内的数据挖掘学生是怎样学的,但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间,很没有效率。
另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用就只能算是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散,而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为这是历史发展的必然。