大数据技术概述
大数据技术的名词解释

大数据技术的名词解释
大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。
适用于大数据的技术。
包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据的应用:大数据是信息产业持续高速增长的新引擎,几乎各个行业都会逐步引入大数据技术,尤其是那些将要实现互联网信息化转型的传统企业。
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。
在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。
在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
大数据技术在通信工程管理中的应用

I G I T C W技术 应用Technology Application98DIGITCW2023.091 大数据技术概述1.1 大数据技术的内涵“大数据(big data )”也被称为“巨量资料”,实质上就是各种数据信息的综合体现,具有Volume (大量)、Velocity (高速)、Variety (多样)、Value (低价值密度)、Veracity (真实性)五大特点,已经成为IT 行业重要工具,能够满足各种数据应用需求[1]。
大数据技术是指用于处理、分析和管理大规模数据的技术及工具的统称,与其他现代技术相比,大数据技术不仅能够处理大量数据,还能够提高数据传输速率、优化数据结构,能够分析和处理海量数据,为各行业及场景提供数据支撑。
1.2 大数据技术类型大数据技术包括分布式存储和计算技术、数据采集和清洗技术、数据处理和分析技术、实时数据处理技术、数据安全及隐私技术(见图1)。
大数据技术在通信工程管理中的应用张 滔(重庆信科通信工程有限公司,重庆 400000)摘要:现阶段,我国已经提前进入了数字化时代,大数据技术等高科技技术被广泛应用于各大领域。
通信工程作为推动我国城市化建设及社会经济发展的主要原动力,也应用到了大数据技术,并逐渐走上数字化化发展道路。
大数据技术的应用不仅能够完善通信工程管理体系,还能够提高通信工程的数据信息处理能力及数据计算能力,实现对各种数据信息的高效管理,为城市化建设及通信领域发展等提供数据支持,从而推动整个社会进步及发展。
为此,本文对大数据技术在通信工程管理中的应用进行了深入探讨。
关键词:大数据技术;通信工程管理;应用分析doi:10.3969/J.ISSN.1672-7274.2023.09.033中图分类号:TN 913,TP 311.13 文献标志码:A 文章编码:1672-7274(2023)09-0098-03The Application of Big Data Technology in Communication Engineering ManagementZHANG Tao(Chongqing Xinke Communication Engineering Co., Ltd., Chongqing 400000, China)Abstract: At present, China has entered the era of digitalization and informatization in advance. High tech technologies such as big data technology and information technology are widely applied in various fields. Communication engineering, as the main driving force for promoting urbanization construction and socio-economic development in China, has also been applied to big data technology and is gradually embarking on the path of digitalization and informatization development. The application of big data technology can not only improve the management system of communication engineering, but also improve the data processing and calculation capabilities of communication engineering, achieve efficient management of various data information, provide data support for urbanization construction and communication field development, and promote the progress and development of the entire society. Therefore, this article delves into the application of big data technology in communication engineering management.Key words: big data technology; communication engineering management; application analysis通信作者简介:张 滔(1980-),男,汉族,贵州瓮安人,工程师,本科,研究方向为通信工程。
大数据技术概述

大数据技术概述在当今信息化时代,大数据技术已经成为推动社会发展的重要力量。
通过收集、存储、分析和应用大量的数据,大数据技术能够为企业、政府和个人提供更准确、更高效的决策和创新。
一、大数据的定义和特点大数据是指规模庞大、结构复杂、价值密度低、无法用传统的数据处理工具和方法处理的各种数据资源。
与传统的数据处理方法相比,大数据技术具有以下几个特点:1. 规模庞大:大数据的规模巨大,以至于人类无法用传统的手段和工具来处理。
根据数据的规模不同,大数据可以分为PB级、EB级和ZB级。
2. 多样性:大数据涵盖了各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。
结构化数据是指按照特定的格式组织和存储的数据,如数据库中的表格数据;半结构化数据是指具有一定结构的数据,但不符合严格的数据模型,如XML文件;非结构化数据是指没有特定结构的数据,如文本、图像和音频等。
3. 价值密度低:大数据中大部分数据以及产生的价值很低,但通过挖掘和分析这些数据,可以发现隐藏在其中的有价值信息。
4. 时效性:大数据的特征之一是快速变化。
大数据技术能够处理实时数据,帮助企业和个人迅速响应市场的变化,做出及时的决策。
二、大数据技术的应用领域大数据技术的应用范围广泛,涵盖了各个行业和领域。
以下是几个典型的应用领域:1. 金融行业:大数据技术可以帮助金融机构通过对庞大的金融数据进行分析,掌握市场动态,提高风险管理能力,预测金融市场的走向。
2. 医疗行业:通过分析大量的医疗数据,大数据技术可以帮助医生进行病例分析,提供更准确的诊断和治疗方案。
另外,大数据还可以帮助医疗机构进行资源调配和疾病预测。
3. 零售行业:通过分析顾客的购买记录、浏览行为和社交媒体数据,零售商可以更好地了解顾客的需求,提供个性化的产品和服务,提高销售额和客户满意度。
4. 制造业:大数据技术可以帮助制造企业进行生产线的优化和设备的故障预测,提高生产效率和质量。
5. 城市管理:大数据技术可以帮助城市对交通拥堵、环境污染、治安等问题进行分析和预测,提供科学决策支持。
大数据技术原理与运用知识

⼤数据技术原理与运⽤知识
⼀·⼤数据概述
随着信息技术发展的巨⼤变⾰,企业和学术机构纷纷加⼤技术、资⾦和⼈员投⼊,加强对⼤数据关键技术的研发与运⽤。
⼤数据的发展历程总体上划分为三个重要阶段:萌芽期、成熟期和⼤规模应⽤期。
⼆.⼤数据概念
⼤数据的4个特点:数据量⼤、数据类型繁多、处理速度快和价值密度低。
三.⼤数据与云计算、物联⽹的关系
⼤数据为云计算机提供了⽤武之地,云计算为⼤数据提供了技术基础。
物联⽹是⼤数据的重要来源,⼤数据技术为物联⽹数据分析提供⽀撑。
云计算为物联⽹提供海量数据存储能⼒,物联⽹为云计算技术提供了⼴阔的应⽤空间。
四.⼤数据处理架构Hadoop
1.Hadoop简介
Hadoop是Apache旗下的⼀个开源分布式计算平台。
是基于Java语⾔开发的,具有很好的跨平台性,并可以部署在⼀般的计算机集群中。
Hadoop的核⼼是分布式⽂件系统HDFS和MapReduce。
HDFS具有较⾼的读写速度、很好的容错性和可伸缩性,很好的保证了数据的安全性。
其中YARN是资源调动,MapReduce是计算框架。
2.Hadoop的特性
⾼可靠性、⾼效性、⾼扩展性、容错性、成本低、运⾏在Linux平台上、⽀持多种编程语⾔。
3.Hadoop⽣态圈
/*图⽚来源于⽹络*/。
大数据技术简介

大数据技术简介简介:大数据技术是指用于处理和分析大规模数据集的技术和工具。
随着互联网的快速发展和数字化转型的加速,大量的数据被产生和积累,如何高效地处理和分析这些数据成为了各个行业的重要需求。
大数据技术通过利用分布式计算、并行处理、数据挖掘等技术手段,能够帮助企业从庞大的数据中获取有价值的信息,从而支持决策和业务发展。
一、大数据技术的特点1.数据量大:大数据技术主要应对的是数据量巨大的情况,传统的数据处理方式已经无法胜任。
2.数据多样:大数据不仅包括结构化数据,还包括半结构化数据和非结构化数据,如文本、图片、音频、视频等。
3.数据速度快:大数据技术要求能够实时或近实时地处理数据,以便及时做出决策。
4.数据价值高:大数据技术的目标是从大量的数据中挖掘出有价值的信息,帮助企业做出更明智的决策。
5.数据质量要求高:大数据技术需要保证数据的准确性、一致性和完整性,以确保分析结果的可靠性。
二、大数据技术的应用领域1.金融行业:大数据技术可以帮助银行和保险公司分析客户行为、风险评估和欺诈检测等,提高风控能力和客户服务质量。
2.电商行业:大数据技术可以通过用户行为分析、个性化推荐等手段,提高用户购物体验和销售额。
3.医疗行业:大数据技术可以帮助医院分析病历数据、医疗影像等,辅助医生做出诊断和治疗方案。
4.制造业:大数据技术可以通过监测设备数据、优化生产计划等手段,提高生产效率和质量。
5.交通运输行业:大数据技术可以通过交通数据分析、智能调度等手段,提高交通运输的效率和安全性。
三、大数据技术的核心技术1.分布式存储:大数据技术需要将数据分散存储在多个节点上,以实现数据的高可靠性和高可扩展性。
2.分布式计算:大数据技术需要通过将计算任务分发到多个节点上并行处理,以提高计算效率。
3.数据挖掘:大数据技术需要利用数据挖掘算法和模型,从大量的数据中发现隐藏的模式和规律。
4.机器学习:大数据技术需要利用机器学习算法和模型,从数据中学习并做出预测和决策。
大数据基础介绍课件

智能化发展
人工智能与大数据的结合:AI技术在大数据分析中 的应用,提高数据分析效率
自动化决策:利用大数据进行自动化决策,提高决 策效率和准确性
物联网与大数据的融合:物联网设备产生的大量数 据,为智能化发展提供数据支持
隐私保护与数据安全:智能化发展过程中,需要关 注数据安全和隐私保护问题,确保数据安全可靠。
5
度大:需要采用先
进的数据处理和分
析技术,如机器学
习、深度学习等。
大数据的应用领域
01
医疗保健:疾病预测、 诊断和治疗
02
金融:风险评估、投 资决策和客户服务
04
交通:交通流量预测、 路线规划和自动驾驶
05
教育:个性化教学、学 生成绩预测和资源优化
03
零售:商品推荐、库 存管理和供应链优化
06
政府:公共安全、城 市规划和政策制定
06
区块链技术:如Hyperledger、 Ethereum等,适用于数据安全 和去中心化存储
数包括互 联网、传感器、数据 库等
数据分析:利用各种数 据分析方法和工具,如 统计分析、数据挖掘、 机器学习等,对数据进 行深入分析和挖掘,以 发现数据背后的规律和 价值
02
非关系型数据库:如MongoDB、 Cassandra等,适用于半结构化 和非结构化数据存储
03
分布式文件系统:如HDFS、 GFS等,适用于大规模数据存储
04
数据仓库技术:如Hive、Spark 等,适用于数据分析和处理
05
云计算技术:如AWS、Azure等, 适用于数据存储和计算资源的弹 性扩展
数据清洗:对数据进行 清洗、去噪、缺失值处 理等,以保证数据的质 量和可用性
大数据技术具体指什么

大数据技术具体指什么
大数据技术是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术能够处理比较大的数据量。
其次,能对不同类型的数据进行处理。
大数据技术不仅仅对一些大量的、简单的数据能够进行处理,通能够处理一些复杂的数据,例如,文本数据、声音数据以及图像数据等等。
另外,大数据技术的应用具有密度低和价值大的效果。
一些零散的,各种类型的数据,如果不能在短时间内分析出来信息所表达的含义,那么可以利用大数据分析技术,将信息中潜藏的价值挖掘出来,以便于工作研究或者其他用途的使用,便于政务的便捷化和深层次化。
大数据应用技术介绍

大数据应用技术介绍近几年,随着物联网的发展与数据流量的显著增加,大数据已成为一项不可或缺的重要技术。
它可以帮助企业快速发现数据中的规律,使企业使用合理的战略来满足客户的需求,从而获得竞争优势。
本文将介绍大数据的概念、特点、优势和应用案例,为企业利用大数据技术提供参考。
一、大数据概念大数据是指海量、高速度、复杂的、以结构化、半结构化和非结构化数据为基础的数据集。
它也可以是从网络上获取的数据,如新闻报道、社交网络、搜索引擎和类似的信息源。
此外,大数据分析方法也在不断演进,以满足不同领域的需求。
二、大数据特点大数据具有海量、高速度以及多样性三大特点。
其中,海量指的是数据集的大小,例如GB、TB和PB,又称“三袋数据”;高速度指的是数据传输速度,即每秒可处理的数据量;多样性指的是数据集中包含的数据类型,如结构化数据、半结构化数据和非结构化数据。
三、大数据的优势1、模型训练数据量更大大数据使得可以收集更多的训练数据和信息,从而更好地训练模型。
模型的效果受训练数据量的影响,大数据可使模型的效果更好,从而节约时间、提高效率,改善企业的业务。
2、算法效果可提高大数据可以提供更丰富的信息,可以更好地应用算法,提高算法的效果。
例如,大数据可以帮助改进推荐系统,提高用户体验。
3、灵活定制大数据可以支持定制化,根据不同企业的需求,以及特定场景的需求,可以很好地定制方案,节约成本,实现效能的提升。
四、大数据的应用1、金融金融企业可以利用大数据分析来推断客户的信用度,决定是否授予信贷,以及提供相应的金融服务。
此外,大数据也可以帮助金融企业识别和监控金融风险以及发现金融欺诈。
2、电子商务电子商务企业可以使用大数据分析处理的巨量客户数据,通过使用大数据技术,实现客户画像分析、商品推荐分析以及市场预测,以达到有效地提高销售绩效的目的。
3、生产大数据也可以应用于生产领域,比如工厂生产流程的数据分析和优化,以及质量控制、设备保养和维修等等,都可以使用大数据技术来实现。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术1.什么是数据挖掘,什么是机器学习:什么是机器学习关注的问题:计算机程序如何随着经验积累自动提高性能;研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;通过输入和输出,来训练一个模型。
2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层3.传统的机器学习流程预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。
手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。
4.大数据分析的主要思想方法4.1三个思维上的转变关注全集(不是随机样本而是全体数据):面临大规模数据时,依赖于采样分析;统计学习的目的——用尽可能少的数据来证实尽可能重大的发现;大数据是指不用随机分析这样的捷径,而是采用大部分或全体数据。
关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。
4.2数据创新的思维方式可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。
数据混搭为创造新应用提供了重要支持。
数据坟墓:提供数据服务,其他人都比我聪明!数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位置、输入的信息。
4.3大数据分析的要素大数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。
5.数据化与数字化的区别数据化:将现象转变为可制表分析的量化形式的过程;数字化:将模拟数据转换成使用0、1表示的二进制码的过程6.基于协同过滤的推荐机制基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)——基于模型的推荐(SVM、聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归)余弦距离(又称余弦相似度):表示是否有相同的倾向欧几里得距离(又称欧几里得相似度):表示绝对的距离这种推荐方法的优缺点:它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。
数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分;冷启动问题,新物品和新用户依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用户不能给予很好的推荐。
7.机器学习:构建复杂系统的可能方法/途径机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数据8.机器学习的基础算法之PLA算法和Pocket算法(贪心PLA)感知器——线性二维分类器,都属于二分类算法二者的区别:迭代过程有所不同,结束条件有所不同;证明了线性可分的情况下是PLA和Pocket可以收敛。
9.机器为什么能学习学习过程被分解为两个问题:能否确保Eout(g) 与Ein(g) 足够相似?能否使Ein(g) 足够小?规模较大的N,有限的dVC,较低的Ein条件下,学习是可能的。
切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。
10.VC维:11.噪声的种类:12.误差函数(损失函数)13.给出数据计算误差14.线性回归算法:简单并且有效的方法,典型公式线性回归的误差函数:使得各点到目标线/平面的平均距离最小!15.线性回归重点算法部分:16.线性分类与线性回归的区别:17.过拟合:原因:模型复杂太高,噪声,数据量规模有限。
解决方案:使用简单的模型,数据清洗(整形),正则化,验证。
18.正则化19.分布式文件系统:一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采用C/S模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。
20.计算机集群结构:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。
与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。
21.分布式文件系统的结构:分布式文件系统在物理结构上是由计算机集群中的多个节点构成,这些节点分为两类,一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点。
22.HDFS主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强大的跨平台兼容性;局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意修改文件块:hdfs的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode之间的映射关系;hdfs的数据节点存储文件内容、文件内容保存在磁盘、维护了block id 到datanode本地文件的映射关系。
23.分布式数据库概述:四类典型的作用于大数据存储和管理的分布式数据库:并行数据库、NoSQL数据管理系统、NewSQL数据管理系统、云数据管理系统。
并行数据库:NoSQL数据管理系统:NewSQL数据管理系统:云数据管理系统:Nosql简介:数据模型灵活、简洁;水平可扩展性强;系统吞吐量高;关系数据库无法满足大数据表现:无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可拓展性和高可用性的需求。
Nosql与关系数据库的比较:NoSQL的四大类型:键值数据库、列族数据库、文档数据库、图形数据库NoSQL的理论基础(CAP与ACID、BASE)CAP:一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。
ACID(关系数据库的事务具有的四个特性)BASENoSQL到NewSQL:大数据应用:百度大数据引擎的构成:开放云、数据工厂、百度大脑开放云:数据工厂:百度大脑:阿里大数据应用:去IOE大数据在电信行业的应用:24.分布式并行编程框架MapReduce25.MapReduce的体系结构:Client、JobTracker、TaskTracker、TaskMapReduce的工作流程:Split(分片):Map端的Shuffle过程详解:Reduce端的shuffle详解:MapReduce小结:26.Spark特点:Hadoop的局限性:Spark生态系统:RDD:RDD的优势:RDD之间依赖关系的两种类型:Stage划分:Sprak小结:流数据:流计算处理流程:数据实时采集(保证实时性、低延迟、可靠稳定)、数据实时计算、实时查询服务(实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户)。
流处理系统与传统数据处理系统的区别:开源流计算框架——Storm(免费、开源的分布式实时计算系统):Storm的工作流程:流计算小结:图计算系统——Pregel简介:BSP模型:图计算小结:Pregel计算模型:Pregel执行过程:Pregel容错机制:HBase:BigTable:特点:HBase:HBase与传统关系数据库的对比:HBase数据模型:HBased 中的数据坐标:HBase功能组件:Region的定位: HBased 系统架构:Region服务器工作原理:附录资料:不需要的可以自行删除大数据挖掘技术之DM经典模型(下)数据分析微信公众号datadw——关注你想了解的,分享你需要的。
接着上篇大数据挖掘技术之DM经典模型(上)文章,接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。
4、朴素贝叶斯模型表查询模型简单有效,但是存在一个问题。
随着输入数量的额增加,每个单元格中训练样本的数量会迅速减少。
如果维度为2,且每一维有10个不同的变量,那么就需要100个单元格,而当有3个维度时,就需要1000个单元格,4个维度就是10000.这样成指数级的增长,哪怕的传统数据挖掘中都会遇到明显瓶颈。
当试图预测某一个概率值时,朴素贝叶斯模型就提供这一办法。
基本思想:每个输入变量本身就包含一些预测需要的信息。
比如目标变量是取消业务的概率,解释变量是市场、获取渠道、初始信用评分、利率计划、电话号码类型、手机号以及客户年龄。
这些变量都具有预测能力。
根据取消率的显著差异性,可将每个变量划分在不同的范围中。
简单理解:条件概率是指给定B的条件下A的概率以及给定A的条件下B 的概率。
解释:给定B的条件下A发生的概率,等于给定A的条件下B发生的概率乘以A和B发生的概率的比例。
如果A代表停止续签,B代表使用黑莓手机,然后给定使用黑莓手机的条件下停止续签的概率,就是给定停止续签的条件下使用黑莓手机的概率乘以总体停止续签的概率与总体使用黑莓手机的概率之比。
4.1、概率、几率和释然·概率:0到1之间的一个数字,表示一个特定结果发生的可能性。
一种估计结果概率的方法是计算样本数据中出现结果次数的百分比。
·几率:某一特定结果发生于不发生的概率比。
如果一个事件发生的概率是0.2,那么不发生的概率是0.8。
那么其发生的几率就是1/4。
几率的取值是0到无穷。
·似然:两个相关的条件概率比。
即给定B发生的情况下,某一特定结果A 发生的概率和给定B不发生的情况下A发生的概率之比。
4.2、朴素贝叶斯计算对任意数量属性中的每一个属性,朴素贝叶斯公式都将目标事件的几率与该事件的似然联系起来。
回到基于营销市场、渠道获取、最初信用评分、费率计算、电话号码类型、手机型号以及客户年龄来预测客户流失的例子。
例如上面谈到的黑莓手机续签的案例,我们关注的是。
1、停止续签的总体几率。
2、黑莓手机用户停止的似然。
3、在整个州市场停止续签的似然。
之所以定义为“朴素”,是基于所有似然相乘都基于输入变量相互独立的假设。
在这个案例中,假设的是使用黑莓手机的似然与市场独立(并且存在于该州的似然与手机类型独立)。
而在实际中,这种真正相互独立的情况很少见。
朴素贝叶斯模型最吸引人的点:对于待评分的观测,如果缺失某些输入值,可以简单地将缺失的似然从模型中去掉。
意味着,包含那些并不是对所有有用都可用的输入(用户年龄),但如果知道这些变量,它们就有用。
给定不同输入的概率,且这些输入与停止续签相关,朴素贝叶斯公式就可以计算停止续签的几率,而公司对这种停止续签的用户更感兴趣。
4.3、朴素与表查询模型的比较对于概率型目标来说,朴素贝叶斯模型和表查询模型密切相关。