大数据应用案例
大数据通过数据挖掘技术应用的案例分析

大数据通过数据挖掘技术应用的案例分析随着互联网的普及,数据的规模不断增大,大数据的时代已经到来。
如何利用这些海量的数据,掌握信息,提高效率,成为当前科技领域的重要课题。
在这个领域,数据挖掘技术是至关重要的一环,它可以让我们通过大数据的洪流,深度挖掘出有价值的信息,从而为企业带来更多的商业价值。
本文将介绍几个大数据应用案例,探讨数据挖掘技术的实际应用。
案例一:天猫双十一数据分析天猫是中国最大的电商平台之一,每年的双十一成为了消费者购物的狂欢节。
在这样的一个大流量的场景中,数据挖掘技术可以发挥重要的作用。
对于天猫来说,通过对消费者的分析,掌握他们的购物偏好、需求及购买力等信息,格外重要。
针对双十一活动,天猫进行了多个方面的数据挖掘。
首先是用户画像的挖掘,即对各个消费者的行为数据进行分析,挖掘他们的购物心理,掌握购物偏好,进行更有的推荐;其次是商品消费大数据分析,通过对商品的销售数据进行分析,找出最受欢迎的商品,进行更优质的推广。
此外还可以通过大数据分析来制定精准的营销计划,调配资源,提高商品成交率。
案例二:零售巨头沃尔玛的大数据应用沃尔玛是世界上最大的零售商之一,除了传统的销售模式之外,沃尔玛还利用独特的大数据技术,通过数据的分析来优化生产、供应链等方面。
例如,对销售数据和消费者的行为数据进行分析,可以预测出某一时间段内销售额的变化,助于制定销售策略;再如对供应链数据进行分析,可以及时发现供应链中的问题,对此加以解决;最后,基于自身的数据优势,沃尔玛还着眼于提高用户体验,实现了用户画像和个性化推荐等应用。
案例三:社交网站中的数据挖掘应用社交网站中有着大量的用户数据,数据挖掘技术的应用可以为企业创造更多的价值。
例如,美国的LinkedIn就利用职业履历等信息为企业提供高质量的招聘及推荐服务;Facebook通过营销平台等应用实现了个性化的广告投放;Twitter则是针对舆情进行了大量的研究,为政府、企业和社会大众提供相关的分析报告。
大数据应用案例分析

大数据应用案例分析随着信息技术的飞速发展,大数据已然成为当今社会的热门话题。
大数据的广泛应用给我们的生活带来了巨大的改变,涵盖了各个领域。
本文将以案例的形式,对大数据在不同领域的应用进行分析和探讨,以期为读者提供更深入的了解和思考。
案例一:智能犯罪预测在公共安全领域,大数据的应用已经取得了不少突破。
例如,在犯罪预测方面,警方可以通过分析大数据和人工智能技术,准确地预测犯罪发生的时间、地点和类型,从而优化警力分布和资源调配,提高犯罪打击效率。
美国芝加哥警局在实施智能犯罪预测系统后,成功降低了暴力犯罪的发生率,并且实现了对重复性犯罪的有效打击。
案例二:医疗健康管理在医疗健康领域,大数据的应用正逐渐改变人们的就医方式和医疗服务质量。
通过搜集和分析患者的个人健康记录、医疗数据和疾病流行情况,大数据可以帮助医生更精确地诊断疾病,选择最佳的治疗方法,并优化药物的研发与分发。
例如,IBM的“沃森医生”可以通过分析数百万份医疗文献和实时的患者数据,为医生提供最新的治疗建议和决策支持。
案例三:智能交通管理在交通领域,大数据的应用为城市交通管理带来了前所未有的便利和效益。
通过对交通摄像头、车辆传感器和移动设备等数据进行实时监测和分析,大数据可以指导道路规划、优化交通信号灯、实现智能导航和拥堵预测等功能,从而提高交通流畅度和行驶安全。
中国的深圳交警部门通过利用大数据技术,成功解决了城市中交通拥堵和事故高发问题。
案例四:智能金融风险管理在金融领域,大数据的应用已经成为金融机构风险管理的重要手段。
通过对客户的消费习惯、信用记录和交易行为等进行全面的数据分析,大数据可以实现智能推荐、个人信用评估和欺诈检测等功能,从而提供更安全、高效和个性化的金融服务。
例如,中国的支付宝通过分析庞大的交易数据,实现了对用户的个性化信用评分,为用户提供更多的金融服务和信用贷款。
综上所述,大数据在公共安全、医疗健康、交通管理和金融风险管理等领域的应用已经取得了不少成果。
八个典型的大数据应用案例

八个典型的大数据应用案例一、面部识别技术在安防领域的应用面部识别技术是一种基于图像分析的大数据应用方案,通过对摄像头捕获的人脸图像进行特征提取和比对,可以快速准确地识别出目标人物。
在安防领域,面部识别技术已广泛应用于视频监控系统中,有助于实时识别可疑人员、追踪嫌疑犯等,提高了安全防范能力。
二、智能物流系统智能物流系统是一种利用大数据技术对物流环节进行优化的方案。
通过采集货物信息、交通信息等大量数据,系统可以实时监测货物的运输情况、交通拥堵情况等,快速调整物流路径和运输计划,提高物流效率和准确性。
三、个性化推荐系统个性化推荐系统是一种基于用户行为数据的大数据应用方案。
通过对用户的浏览记录、购买行为、评价等进行分析,系统可以实时推荐用户可能感兴趣的商品、新闻、音乐等,提升用户体验和购买转化率。
四、智能医疗诊断与辅助决策系统智能医疗诊断与辅助决策系统是一种依托大数据技术提供快速、准确的医疗服务的方案。
通过收集和分析大量的医疗数据,系统可以为医生提供疾病诊断的参考意见,辅助医生进行决策,提高医疗服务的质量和效率。
五、金融风险控制与欺诈检测系统金融风险控制与欺诈检测系统是一种利用大数据技术对金融交易数据进行监测和分析的方案。
通过对大量的交易数据进行实时监测和分析,系统可以发现异常交易和欺诈行为,实现风险控制和欺诈检测,保障金融安全和用户权益。
六、智慧城市规划与管理智慧城市规划与管理是一种通过大数据技术优化城市运行和资源配置的方案。
通过收集和分析城市居民的出行、能源消耗、环境污染等数据,系统可以进行城市交通规划、能源调控、环境保护等,提高城市的可持续发展和居民的生活质量。
七、社交媒体舆情分析与管理社交媒体舆情分析与管理是一种通过大数据技术对社交媒体上的舆情信息进行监测和分析的方案。
通过对用户在社交媒体上的言论、评论等进行分析,系统可以发现公众对其中一事件、产品或者服务的看法和态度,提供相关的数据支持和管理建议,维护公众关系和品牌形象。
大数据经典应用案例

大数据经典应用案例大数据是当今社会中非常重要的一个概念,它指的是海量、高增长和多样化的信息资产,这些信息无法使用传统的处理方法进行捕捉、管理和处理。
大数据的出现给各个行业带来了巨大的机遇和挑战,下面将为大家列举10个经典的大数据应用案例。
1. 金融行业:大数据在金融行业的应用非常广泛。
银行可以通过分析大数据来识别潜在的欺诈行为,从而减少经济损失。
同时,大数据还可以帮助银行进行风险评估和资产管理,提高运营效率和决策能力。
2. 零售行业:大数据在零售行业中的应用也非常多样化。
通过分析顾客的购买记录和偏好,零售商可以更好地了解顾客需求,优化产品布局和供应链管理。
同时,大数据还可以帮助零售商进行市场预测和定价策略,提高销售收入和利润率。
3. 物流行业:大数据可以帮助物流公司优化运输路线和配送计划,提高配送效率和降低运输成本。
通过监控车辆和货物的实时位置,物流公司可以及时调整运输计划,提供更好的服务质量。
同时,大数据还可以帮助物流公司进行风险评估和异常检测,减少运输事故和货物损失。
4. 健康医疗行业:大数据在健康医疗行业中的应用非常广泛。
通过分析医疗记录和生物传感器数据,医疗机构可以更好地监测患者的健康状况,提前预防和治疗疾病。
同时,大数据还可以帮助医疗机构进行药物研发和临床试验,加速新药上市和治疗方法的改进。
5. 城市管理:大数据可以帮助城市管理部门更好地理解和解决城市中的问题。
通过分析城市交通数据和环境监测数据,城市管理部门可以优化交通规划和环境保护措施,提高居民的生活质量。
同时,大数据还可以帮助城市管理部门进行灾害预警和危机响应,提高城市的安全性和应急能力。
6. 航空航天行业:大数据在航空航天行业中的应用非常重要。
航空公司可以通过分析飞机和乘客的数据,优化航班计划和航空安全措施。
同时,大数据还可以帮助航空公司进行客户关系管理和市场营销,提高客户满意度和品牌忠诚度。
7. 农业行业:大数据在农业行业中的应用也非常广泛。
大数据分析在企业管理中的应用案例

大数据分析在企业管理中的应用案例随着科技的不断发展,大数据逐渐成为企业管理的重要工具。
通过大数据的分析,企业可以更好地了解自身的运营状况、市场趋势和竞争对手的情况,从而优化决策,提高效率和竞争力。
本文将从几个应用案例出发,深入探讨大数据在企业管理中的应用价值。
1. 电商-京东京东作为中国最大的电商平台,每天会产生大量的用户数据。
针对这些数据,京东建立了一个名为“大数据智能交易系统”的平台,通过对用户数据和商品信息的分析,可以实现“个性化定价”和“智能补货”,提高商家的利润和用户的购物体验。
同时,京东还利用大数据进行“用户画像”和“购买预测”,以更好地进行精准推荐和营销活动,提高用户忠诚度。
2. 酒店-万豪万豪是全球最大的酒店集团之一,利用大数据对酒店运营和客户体验进行了深入分析。
例如,万豪在2017年推出了一款基于大数据分析的“房型预测”系统,通过对客房利用率、客户偏好和价格数据的分析,能够自动调整房价和房型配置,提高酒店的营收和客户满意度。
此外,万豪还利用大数据分析客户行为和偏好,以更好地进行供应链管理和投资决策。
3. 银行-中信银行中信银行是中国领先的商业银行之一,利用大数据对风险管理和客户服务进行了精细化管理。
具体来说,中信银行建立了一套大数据分析系统,能够实时监测和预警银行的风险状况,通过对历史贷款数据和客户行为的分析,提高风险评估的准确性和精度。
同时,中信银行还利用大数据分析客户行为和需求,以更好地进行定制化金融服务和产品推荐,提高客户满意度和利润水平。
4. 制造业-云智绅云智绅是一家中国制造业企业,利用大数据优化了生产和供应链管理过程。
具体来说,云智绅建立了一套基于大数据的“智能制造”系统,能够实时监测和调整生产线、原材料仓库和物流运输等环节。
通过对生产数据的分析,云智绅优化了生产计划和供应链决策,实现了生产成本的降低和工作效率的提高。
以上几个案例充分说明了大数据在企业管理中的重要性和应用价值。
大数据分析应用案例

大数据分析应用案例大数据分析在当今信息时代扮演着至关重要的角色。
通过对大量数据进行采集、处理和分析,我们可以揭示隐藏在其中的规律和洞见,为各行各业提供更好的决策依据和业务优化方案。
本文将以一系列实际案例,介绍大数据分析在不同领域的应用。
案例一:市场营销领域在市场营销领域,大数据分析可以帮助企业了解消费者需求和行为,制定更精确的营销策略。
比如,一家电子商务公司利用大数据分析,对用户的购物历史、浏览行为以及社交媒体数据进行挖掘,然后根据消费者个性化的需求,给出更有针对性的推荐产品,从而提高销售转化率和客户忠诚度。
案例二:金融风控领域在金融行业,大数据分析可以帮助银行和金融机构进行风险评估和预测。
例如,一家银行可以通过分析大量的借贷信息、信用卡交易记录以及公共数据库的数据,构建起一个庞大且复杂的风险模型。
这样,银行就能够更好地识别欺诈交易和不良借贷行为,及时采取相应措施,保护自身和客户的利益。
案例三:医疗领域大数据分析在医疗领域的应用日益广泛。
通过分析来自医院、社交媒体和健康监测设备等渠道的医疗数据,医生和研究人员可以提取出有价值的信息,实现个体化诊疗。
例如,利用大数据分析可以预测疾病的转归和患者的治疗效果,并推荐最佳的治疗方案。
此外,大数据分析还能帮助疾病的早期发现和疫情的监测,提高医疗水平和公共健康管理。
案例四:城市规划领域城市规划是一个复杂而庞大的系统工程,大数据分析为城市规划者提供了宝贵的决策支持。
通过分析城市交通流量、人口分布、能源消耗等数据,可以帮助规划者优化交通布局、改善公共设施分布和推动城市可持续发展。
例如,利用大数据分析,可以发现立交桥建设的最佳位置,减少交通拥堵,提高通行效率;同时,也可以计算出城市能源消耗的模型,为城市能源规划和环境保护提供依据。
案例五:电影行业大数据分析在电影行业中的应用也非常重要。
通过分析大量的用户评论、观看记录和票房数据,电影制片方可以更好地了解观众的口味和喜好,制定更准确的宣传策略和电影推荐,提高影片的票房和口碑。
13个大数据应用案例,告诉你最真实的大数据故事

13个大数据应用案例,告诉你最真实的大数据故事1500字大数据应用案例:1. 亚马逊的个性化推荐系统:亚马逊利用大数据分析用户行为和购买历史数据,为每个用户推荐个性化的商品,提高用户满意度和购买率。
2. 人脸识别技术:通过大数据分析和深度学习算法,人脸识别技术可以被用于安全监控、身份验证和客流分析等领域。
3. 谷歌的搜索算法:谷歌利用大数据分析用户搜索行为和网页内容,不断优化搜索算法,提供更准确和个性化的搜索结果。
4. 滴滴打车的动态价格调整:滴滴打车利用大数据分析车辆位置、乘客需求和交通状况等信息,实时调整车费,提高了乘客的出行效率和司机的收益。
5. Facebook的社交图谱:Facebook通过大数据分析用户的社交关系和兴趣,构建了庞大的社交图谱,为广告商提供个性化的广告定向。
6. 云服务提供商的资源调度:云服务提供商通过大数据分析用户的资源需求和使用情况,实现资源动态调度,提高资源利用率和用户满意度。
7. 物流公司的智能配送系统:物流公司通过大数据分析交通状况、预测需求和优化路线,实现智能化的配送管理,提高送货效率和减少成本。
8. 银行的信用评估系统:银行通过大数据分析用户的财务数据、信用记录和行为模式,实现自动化的信用评估,提高贷款申请处理效率。
9. 医疗诊断系统:医疗机构利用大数据分析患者的临床数据、基因信息和医学文献,帮助医生做出更准确的诊断和治疗计划。
10. 酒店的客户关系管理系统:酒店通过大数据分析客户的预订历史、偏好和评价,实现个性化的客户关系管理,提高客户忠诚度和满意度。
11. 零售商的销售预测系统:零售商通过大数据分析产品销售数据、市场趋势和顾客反馈,预测需求,优化库存管理和进货计划。
12. 媒体公司的内容推荐系统:媒体公司通过大数据分析用户的阅读和观看行为,为用户推荐适合的内容,提高用户黏性和广告收入。
13. 城市交通管理:城市交通管理部门利用大数据分析交通状况、道路负载和乘客需求,优化交通规划和公共交通调度,提高交通效率和减少拥堵。
各行业应用大数据的成功案例

各行业应用大数据的成功案例一、零售行业在零售行业,大数据的应用可以帮助企业更好地了解消费者的需求,并进行个性化的推荐和营销。
亚马逊就是一个典型的例子。
通过分析消费者的购买记录和浏览行为,亚马逊能够精准地推荐产品给用户,并且根据用户的兴趣和需求进行定制化的营销活动。
这种个性化推荐和定制化营销不仅能提高用户的购买满意度,还增加了企业的销售额。
二、医疗健康行业在医疗健康行业,大数据的应用可以帮助医生更好地诊断和治疗疾病。
例如,谷歌DeepMind与伦敦的一家医院合作,利用大数据分析和机器学习算法,构建了一个可以预测病人肾衰竭风险的模型。
这个模型通过分析病历数据和实时监测数据,能够及时发现潜在的风险,提醒医生采取相应的措施,从而减少肾衰竭的发生率。
三、教育行业在教育行业,大数据的应用可以帮助学校和教师更好地了解学生的学习情况,从而提供个性化的教学服务。
例如,在芬兰的一所中学,学生每天使用电子学习平台进行学习,并产生大量的学习数据。
学校通过分析这些数据,可以得出每个学生的学习偏好和学习进度,并根据这些信息调整教学内容和方法,使每个学生都能在适合自己的节奏下学习。
四、交通运输行业在交通运输行业,大数据的应用可以帮助提高运输效率和安全性。
例如,Uber利用大数据分析实时交通状况和用户需求,优化车辆调度和路线规划,提高了车辆利用率和乘客等待时间。
此外,Uber还使用大数据分析乘客的乘车历史和评价,建立了一个信用评级系统,提高了乘客和司机的安全感。
五、金融行业在金融行业,大数据的应用可以帮助银行和投资机构更好地识别风险和机会。
例如,花旗银行利用大数据分析客户的交易记录和个人背景,建立了一个风险评估模型,能够及时识别潜在的信用违约风险,降低贷款损失。
此外,对交易数据的分析还能够帮助投资机构预测市场走势,做出更准确的投资决策。
六、制造业在制造业,大数据的应用可以帮助提高生产效率和产品质量。
例如,通用电气利用大数据分析关键设备的运行状况和生产数据,发现了一些与产品质量相关的隐藏因素,进而进行了改进措施,提高了产品的合格率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四大经典大数据应用案例解析
什么是数据挖掘(Data Mining)?简而言之,就是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。
在本文中,我们从数据挖掘的实例出发,并以数据挖掘中比较经典的分类算法入手,给读者介绍我们怎样利用数据挖掘的技术解决现实中出现的问题。
数据挖掘是如何解决问题的?
本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。
下面关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。
而Target 公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。
一、尿不湿和啤酒
很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。
超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世上最大的数据仓库系统之一。
为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。
在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。
一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。
那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?
为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。
经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:
在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买一些啤酒。
产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。
另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿。
既然尿不湿与啤酒一起被购买的机会很多,那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒的销售量双双增长。
按常规思维,尿不湿与啤酒风马牛不相及,若不是
借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一有价值的规律的。
二、Target和怀孕预测指数
关于数据挖掘的应用,最近还有这样一个真实案例在数据挖掘和营销挖掘领域广为流传。
美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。
”店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。
如图所示。
一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。
Target比这位父亲知道他女儿怀孕的时间足足早了一个月。
Target怀孕预测指数
Target能够通过分析女性客户购买记录,“猜出”哪些是孕妇。
他们从Target 的数据仓库中挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。
比如他们发现女性会在怀孕四个月左右,大量购买无香味乳液。
以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。
如果不是在拥有海量的用户交易数据基础上实施数据挖掘,Target不可能做到如此精准的营销。
三、电子商务网站流量分析
网站流量分析,是指在获得网站访问量基本数据的情况下对有关数据进行的统计和分析,其常用手段就是Web挖掘。
Web挖掘可以通过对流量的分析,帮助我们了解Web上的用户访问模式。
那么了解用户访问模式有哪些好处呢?
在技术架构上,我们可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如辅助改进网络的拓扑设计,提高性能,在有高度相关性的节点之间安排快速有效的访问路径等。
帮助企业更好地设计网站主页和安排网页内容。
帮助企业改善市场营销决策,如把广告放在适当的Web页面上。
帮助企业更好地根据客户的兴趣来安排内容。
帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。
人们在访问某网站的同时,便提供了个人对网站内容的反馈信息:点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。
而所有
这些信息都被保存在网站日志中。
从保存的信息来看,网站虽然拥有了大量的网站访客及其访问内容的信息,但拥有了这些信息却不等于能够充分利用这些信息。
那么如果将这些数据转换到数据仓库中呢?这些带有大量信息的数据借助数据仓库报告系统(一般称作在线分析处理系统),虽然能给出可直接观察到的和相对简单直接的信息,却也不能告诉网站其信息模式及怎样对其进行处理,而且它一般不能分析复杂信息。
所以对于这些相对复杂的信息或是不那么直观的问题,我们就只能通过数据挖掘技术来解决,即通过机器学习算法,找到数据库中的隐含模式,报告结果或按照结果执行。
为了让电子商务网站能够充分应用数据挖掘技术,我们需要采集更加全面的数据,采集的数据越全面,分析就能越精准。
在实际操作中,有以下几个方面的数据可以被采集:
访客的系统属性特征。
比如所采用的操作系统、浏览器、域名和访问速度等。
访问特征。
包括停留时间、点击的URL等。
条款特征。
包括网络内容信息类型、内容分类和来访URL等。
产品特征。
包括所访问的产品编号、产品目录、产品颜色、产品价格、产品利润、产品数量和特价等级等。
当访客访问该网站时,以上有关此访客的数据信息便会逐渐被积累起来,那么我们就可以通过这些积累而成的数据信息整理出与这个访客有关的信息以供网站
使用。
可以整理成型的信息大致可以分为以下几个方面:
访客的购买历史以及广告点击历史。
访客点击的超链接的历史信息。
访客的总链接机会(提供给访客的超级链接)。
访客总的访问时间。
访客所浏览的全部网页。
访客每次会话的产出利润。
访客每个月的访问次数及上一次的访问时间等。
访客对于商标总体正面或负面的评价。
四、分类:从人脸识别系统说起
美国电视剧《反恐24小时》中有一集,当一个恐怖分子用手机拨打了一个电话,从CTU(反恐部队)的计算机系统中便立刻发出恐怖分子出现的预警。
很多好莱坞的大片中此类智能系统的应用也比比皆是,它能从茫茫人群中实时找出正在苦苦追踪的恐怖分子或间谍。
而在2008年北京奥运会上,最引人注意的IT 热点莫过于“实时人脸识别技术”在奥运会安检系统中的应用,这种技术通过对人脸关键部位的数据采集,让系统能够精确地识别出所有进出奥运场馆的观众身份。
目前人脸识别技术正广泛的应用于各种安检系统中,警方只需将犯罪分子的脸部数据采集到安检数据库,那么只要犯罪分子一出现,系统就能精确地将其识别出来。
现如今人脸识别技术已经相对成熟,谷歌在Picasa照片分享软件的工具中就已经加入了人脸识别功能。
当然,人脸识别技术牵涉到隐私,是把双刃剑,谷歌在谷歌街景地图中故意将人脸模糊化,变得无法识别就是这个原因。
如图所示为人脸识别示意图。
人脸识别示意图
虽然需要借力于其他技术,但是人脸识别中的主要技术还是来自于数据挖掘中的分类算法(Classification)。
让我们从一个最简单的事实来解释分类的思想。
设想一下,一天中午,你第一次到三里屯,站在几家以前从未去过的餐厅门前,现在的问题是该选择哪家餐厅用餐。
应该怎样选择呢?假设您没有带手机,无法上网查询,那么可能会出现如下两种情况:
一种,你记起某位朋友去过其中一家,并且好像他对这家的评价还不错,这时,你很有可能就直接去这家了。
第二种,没有类似朋友推荐这类先验知识,你就只能从自己以往的用餐经历中来选择了,例如你可能会比较餐厅的品牌和用餐环境,因为似乎以前的经历告诉自己,品牌响、用餐环境好的餐厅可能味道也会好。
不管是否意识得到,在最终决定去哪家吃的时候,我们已经根据自己的判断标准把候选的这几家餐厅分类了,
可能分成好、中、差三类或者值得去、不值得去两类。
而最终去了自己选择的那家餐厅,吃完过后我们自然也会根据自己的真实体验来判定我们的判断准则是否正确,同时根据这次的体验来修正或改进自己的判断准则,决定下次是否还会来这家餐厅或者是否把它推荐给朋友。
选择餐厅的过程其实就是一个分类的过程,此类分类例子是屡见不鲜的。
在古时,司天监会依赖长时间积累的信息,通过观察天象对是否会有天灾做出分类预测。
古人则通过对四季气候雨水的常年观察,总结出农作物最佳播种时间。
在伯乐的《相马经》中,就通过简单分类区分出羸马的三条标准:“大头小颈,弱脊大腹,小颈大蹄”。
其实在数据挖掘领域,有大量基于海量数据的分类问题。
通常,我们先把数据分成训练集(Training Set)和测试集(Testing Set),通过对历史训练集的训练,生成一个或多个分类器(Classifier),将这些分类器应用到测试集中,就可以对分类器的性能和准确性做出评判。
如果效果不佳,那么我们或者重新选择训练集,或者调整训练模式,直到分类器的性能和准确性达到要求为止。
最后将选出的分类器应用到未经分类的新数据中,就可以对新数据的类别做出预测了。