A012-W-魏弘平_航空客运信息挖掘

合集下载

OLAP和数据挖掘一体化的航空维修信息分析系统

OLAP和数据挖掘一体化的航空维修信息分析系统

OLAP和数据挖掘一体化的航空维修信息分析系统
魏鑫;郭建胜;代旻
【期刊名称】《微机发展》
【年(卷),期】2003(013)a01
【摘要】航空维修信的综合研究对航空维修工作具有重要意义。

文章综合运用数据仓库技术、统计学、OLAP及数据挖掘技术,结合航空维修工作提出了一个基于OLAP和数据挖掘一体化的航空维修信息研究模型。

该模型综合汲取了OLAP及数据挖掘的优点。

克服了二者的不足。

能根据实际需要高效地对航空维修信息进行分析并取得较大成果。

对航空维修工作的决策起劲有效支持。

【总页数】3页(P47-49)
【作者】魏鑫;郭建胜;代旻
【作者单位】空军工程大学工程学院。

陕西西安710038
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.基于OLAP的水产养殖信息一体化系统的应用研究 [J], 龚希章;付熙徐;魏华
2.数据挖掘与基于多维数据库的在线分析系统OLAP浅析 [J], 梁旭;王晓霞
3.OLAP和数据挖掘一体化的航空维修信息分析系统 [J], 魏鑫;郭建胜;代旻
4.OLAP与数据挖掘一体化模型的分析与讨论 [J], 石磊;石云
5.集成OLAM和OLAP的数据挖掘系统体系结构分析和研究 [J], 金晓霞
因版权原因,仅展示原文概要,查看原文内容请购买。

A002-C-陈健林_航空客运的客户细分研究

A002-C-陈健林_航空客运的客户细分研究

2.3. 结果分析 ................................................................................................................... 15 • • • 第一类: ................................................................................................................ 15 第二类: ................................................................................................................ 16 第三类: ................................................................................................................ 17
第 1 页,共 18 页
太普华南杯数据挖掘竞赛论文报告
The research of Air passenger Customer Segmentation Segmentation
Abstract: In recent years, customer relationship management (CRM) in many industries such as finance, telecommunications, e-commerce has been taken more and more attentions. Necessary conditions on any field in the CRM is the customer classification, using different management strategies for different types of customers. Currently customer relationship management is mainly based on RFM (Recency Frequency Monetary) model with clustering method of customer segmentation in data mining technology, however, firstly, the method to select only customer attributes in R (a consumer), F (frequency of consumption), M (spend) the three attributes of customer classification, since the influencing factors of customer behavior is diverse, the method only for the customers value, and not according to customers other than the value of consumption features such as the behavioral characteristics of more accurate and detailed classification; Secondly, using traditional clustering method can classify similar customer groups with the only global features while can not find categorize similar customer groups with effective local features. To solve the above problem, this paper based on the chi-square statistic and association rules an efficient dual clustering method, the method based on the chi-square statistic analysis set of attributes, and then DBSCAN algorithm based on density polyethylene groups class customers generally divided into high, medium and low third-class, and finally by the feature clustering algorithm customer behavior. The algorithm uses an aviation actual member data experiments show that the results of the of dual clustering algorithm proposed in this paper can be accurate and detailed to classify the aviation members, and can mine and analyze information to propose appropriate marketing strategies. Key words: Customer segmentation; Data mining; Attribute selection; DBSCAN; FP-growth;apriori; Biclustering

2024版年度民航概论教学案1魏全斌版

2024版年度民航概论教学案1魏全斌版

民航概论教学案1魏全斌版•民航概述•航空器与飞行原理•航线规划与运营管理•机场设施与地面服务保障目录•空中交通管制与通信导航技术•民航政策法规与行业标准解读01民航概述民航定义与分类民航定义民用航空是指使用各类航空器从事除了军事性质以外的所有的航空活动,是一种商业性的航空运输方式。

民航分类根据运营方式和经营范围,民航可分为公共航空运输和通用航空两大类。

公共航空运输以商业运输为主,而通用航空则涵盖了工业、农业、林业、渔业、矿业、建筑、科研、医疗、救援、娱乐等多个领域。

快速发展阶段二战后,全球经济复苏,民航得到了快速发展。

喷气式飞机的出现大大提高了飞行速度和舒适度,使得民航逐渐成为人们远距离出行的首选方式。

早期发展阶段民航的萌芽可以追溯到20世纪初,随着飞机的发明和不断改进,民航逐渐开始发展。

现代化发展阶段随着科技的进步和全球化的加速,民航业不断引进新技术、新设备,提高服务质量和运营效率,逐渐形成了现代化、网络化的航空运输体系。

民航发展历史民航运输速度远高于其他运输方式,能够大大缩短旅行时间,提高出行效率。

速度快民航运输具有高度的安全性,通过严格的飞行安全管理和先进的飞行技术保障,确保了旅客和货物的安全。

安全性高民航运输提供了舒适便捷的旅行环境,为旅客提供了高品质的出行体验。

舒适便捷民航运输具有经济高效的特点,通过大规模、集约化的运输方式,降低了单位运输成本,提高了运输效率。

经济高效民航运输特点发展规模国内民航业经过数十年的发展,已经形成了较为完善的航空运输网络,航线覆盖国内外众多城市。

而国外民航业发展更为成熟,拥有更为密集的航线网络和更广泛的国际合作。

技术水平国内民航业在技术水平方面取得了显著进步,引进了大量先进的飞行技术和设备。

但与国外先进水平相比,仍存在一定差距,需要不断引进、消化、吸收和创新。

服务质量国内民航业在服务质量方面不断提升,注重旅客体验和满意度。

而国外民航业在服务方面更加注重个性化和差异化,为旅客提供更为贴心的服务。

小卫星星座批产研制模式设计与实践

小卫星星座批产研制模式设计与实践

Vol. 40, No. 6航 天 器 环 境 工 程第 40 卷第 6 期702SPACECRAFT ENVIRONMENT ENGINEERING2023 年 12 月https:// E-mail: ***************Tel: (010)68116407, 68116408, 68116544小卫星星座批产研制模式设计与实践阎梅芝1,张永强2*,赵志明1,魏建光1,韩 毅1,常新亚1,于兆吉1,果琳丽3,冯振伟1(1. 航天东方红卫星有限公司; 2. 北京跟踪与通信技术研究所; 3. 北京空间机电研究所:北京 100094)摘要:为适应低轨小卫星星座体系化应用需求,设计、实践出一套面向批产的小卫星研制模式。

某批产小卫星星座通过整星仅一次合板即最终状态,产品交付即落焊,裁剪、简化环境试验,投产管路模板实现卫星结构装配与管路焊装并行实施,发射场带翼运输,全无线测试等批产创新策略,构建了小卫星批产体系,实现了年出厂20颗以上500 kg级小卫星的能力,为建设高密度小卫星星座奠定了基础。

批产策略与方法均经实际验证,与传统小卫星研制相比,将批产星总装、集成与测试(AIT)周期由1年以上缩减为3个月以内,将发射场工作周期由35~50天缩减为20天,实现了快速研制、快速发射与快速在轨应用,有效促进了低轨小卫星星座高效规模化部署。

关键词:小卫星星座;批产;研制模式;总装、集成与测试;流程优化中图分类号:V474文献标志码:A文章编号:1673-1379(2023)06-0702-07 DOI: 10.12126/see.2023085Design and practice of small satellite constellationbatch production development modeYAN Meizhi1, ZHANG Yongqiang2*, ZHAO Zhiming1, WEI Jianguang1, HAN Yi1,CHANG Xinya1, YU Zhaoji1, GUO Linli3, FENG Zhenwei1(1. DFH Satellite Co. Ltd.; 2. Beijing Institute of Tracking and Telecommunications Technology;3. Beijing Institute of Space Mechanics & Electricity: Beijing 100094, China)Abstract: In order to meet the need of systematic application of low-Earth-orbit small satellite constellation, a development mode suitable for batch production of small satellites was designed and practiced. Many innovative strategies for batch production were applied, including on boarding for the final state, drop welding before product delivery, tailoring or simplifying environmental tests, implementing satellite structure assembly in parallel with pipeline welding through operation of pipeline templates, wing transport at launch site, and all-wireless test etc. Those measures have enabled the delivery of more than 20 small satellites of 500 kg per year by establishing a small satellite batch production system in China, which lays a good foundation for the construction of intense small satellite constellation thereafter. The strategy and methods for batch production have all been verified in practice. Compared with the traditional small satellite development, the assembly, integration, and test (AIT) cycle of satellite batch production had been reduced from more than one year to less than three months, and the launch site working cycle has been reduced from 35-50 days to 20 days. It has realized rapid development, rapid launch, and rapid in-orbit application to promote the development efficiency and large-scale deployment of low-Earth-orbit small satellite constellation.Keywords: small satellite constellation; batch production; development mode; assembly, integration and test (AIT); process optimization收稿日期:2023-05-31;修回日期:2023-12-07基金项目:国家自然科学基金项目(编号:11773004)引用格式:阎梅芝, 张永强, 赵志明, 等. 小卫星星座批产研制模式设计与实践[J]. 航天器环境工程, 2023, 40(6): 702-708YAN M Z, ZHANG Y Q, ZHAO Z M, et al. Design and practice of small satellite constellation batch production development mode[J]. Spacecraft Environment Engineering, 2023, 40(6): 702-7080 引言近年来,美国太空探索技术公司(SpaceX)推出的星链(Starlink)计划掀起了低轨大规模星座的发展热潮[1]。

A010-W-王军晓_航空客运信息挖掘

A010-W-王军晓_航空客运信息挖掘

Key words:
LRFMC-cluster analysis
principal componsis
SPSS
decision trees
neural networks
第 2 页,共 40 页
太普华南杯数据挖掘竞赛论文报告
目录
1.挖掘目标 .................................................................................................................. 5 2.总体流程 .................................................................................................................. 5 3.数据抽取 .................................................................................................................. 5
3.1
4.数据预处理............................................................................................................... 6
太普华南杯数据挖掘竞赛论文报告
航空公司常旅客信息挖掘
摘 要: 提高航空客运的上座率既能使航空资源得到充分利用,更能显著的增加航空公司的效益。为了 实现这一目标,我们从大量航空公司会员的会员数据出发,通过数据挖掘技术,分别建立用户细分、 用户价值评估和流失预测模型,区分客户群,并提出相应的营销策略,从而达到提高上座率和效益 的目标。 首先是建立客户细分模型。我们根据文献并对已有数据进行预处理,筛选出 5 个 L、R、F、M、 C 五个指标作为航空公司客户细分的核心维度,利用 LRFMC 聚类分析法进行用户分群与初步评分。 这个方法利用层次分析法(AHP)计算各核心维度的权重,再对数据进行标准化,并用 SPSS 软件实 现 K-means 聚类法将所有客户划分为 32 种客户类别及其类型特点。 接着利用权重计算各客户群综合 得分,从而将航空公司的客户群体划分成重要保持客户、重要发展客户、重要挽留客户、忠诚型一 般客户、低价值客户等五个级别的客户群。 然后是建立客户价值评估模型。我们将客户细分模型所得的 5 个客户群的数据进行预处理,选 择对客户价值影响最大的 14 个属性作为主成分分析法中所选用的要素。通过 SPSS 软件,对数据进 行因子分析和降维处理,根据所得的数据可知,这 14 个属性可由 2 个主成分来综合表示,同时得出 了各属性在主成分的组成中所占权重。通过数据标准化,结合权重,计算出了各用户群的综合得分, 作为价值排名依据。 接着是建立客户流失模型。我们定义了客户回头率这个概念(客户第二年乘机次数与第一年乘 机次数比值) ,以 0.5 和 0.8 为两个临界值将老客户划分为流失客户、准流失客户、未流失客户三种 客户类型,并选取一些维度及其衍生出的维度,使用决策树、神经网络两种方法进行客户流失模型 的建立,找出了影响客户流失的关键性因素,并用将两种方法进行对比,最终确定了影响客户流失 的几个比较重要因素有平均折扣率、单位里程票价和单位里程所得积分。 最后,根据已建立的客户细分、价值评估和流失模型所得的结论,针对各个不同的客户群提出 不同的服务和营销策略,吸引客户乘坐航班,来提高上座率和效益。 关键词: 关键词:

航空发动机振动环境谱统计归纳方法及振动试验台复现

航空发动机振动环境谱统计归纳方法及振动试验台复现

航空发动机振动环境谱统计归纳方法及振动试验台复现
房剑锋
【期刊名称】《航空发动机》
【年(卷),期】2024(50)2
【摘要】为满足航空发动机及机载产品研制过程贴近使用环境的振动考核试验需求,需根据发动机实测振动数据给出振动考核试验所需的输入谱图。

依据GJB/Z 126-99中给出的环境测量数据归纳方法,建立了发动机实测振动环境谱统计归纳方法并通过程序实现。

利用发动机多架次实测试飞振动数据统计归纳得到发动机测点位置的振动实测谱。

基于能量等效及信号频域特征分布一致原则,将归纳得到的实测谱转化为可用于振动台输入的振动环境谱,并在振动台上进行了振动信号的复现试验。

结果表明:振动台输出信号与发动机实测振动信号频域分布特征一致,在统计频率带宽范围内振动总量最大相差5.7%,证明了转化方法是合理的,为航空发动机机载设备贴近使用环境的振动考核试验方法提供了真实的输入谱图。

【总页数】5页(P159-163)
【作者】房剑锋
【作者单位】中国飞行试验研究院
【正文语种】中文
【中图分类】V216.21;V231.92
【相关文献】
1.车载物资振动环境谱的数据处理与归纳
2.轨道车辆振动实测环境的谱归纳技术
3.基于6自由度振动试验台的轨道几何不平顺复现方法及应用研究
4.基于机构随机振动分析的载荷谱非参数上限统计归纳方法对比研究
5.装备振动功率谱密度统计归纳误差研究
因版权原因,仅展示原文概要,查看原文内容请购买。

多种故障_维修分布的客运飞机组成单元可用性评定方法_孙永全 (1)

多种故障_维修分布的客运飞机组成单元可用性评定方法_孙永全 (1)
Abstract:The failure and maintenance data character of passenger aircraft subsystem are discussed, as well as their distribution, according to engineering background, the availability assessment methods are studied with various lifetime and repair-time distribution, the point estimates and classical confidence limits for aircraft subsystem availability are given. The airplane is divided into 19 subsystems according to ATA chapters, and the batch-type operation process of aircraft subsystems are converted to be continuous operation process, on the basis of airplane operation and maintenance planning analysis. Point estimates and classical confidence intervals for availability are obtained through constructing pivotal statistic in term of exponential-exponential distributed subsystem, exponential-Gamma distributed subsystem, Weibull-Gamma distributed subsystem, and Gamma-Gamma distributed subsystem. System availability point estimate is given according to series system availability model. An engineering application is carried out to evaluate aircraft subsystem availability using airlines reliability report and maintenance records. This achievement provides technology support for conducting reliability-centered passenger aircraft healthy operation and management. Key words:passenger aircraft;availability;Weibull distribution;Gamma distribution;service factor;confidence limits

面向“总师型”人才培养的航天飞行器设计课程创新建设

面向“总师型”人才培养的航天飞行器设计课程创新建设

面向“总师型”人才培养的航天飞行器设计课程创新建设作者:时圣波龚春林苟建军谷良贤粟华吴蔚楠来源:《高教学刊》2024年第19期基金項目:教育部产学合作协同育人项目“校企协同实践教学体系与模式师资培训”(220602608103420)第一作者简介:时圣波(1985-),男,汉族,山东菏泽人,博士,副教授,博士研究生导师。

研究方向为飞行器总体及结构设计。

DOI:10.19980/23-1593/G4.2024.19.013摘要:航天飞行器设计是航空宇航科学与技术相关专业本科生的专业核心课程,以培养“总师型”后备人才基本能力和素养为教学目标。

航天飞行器设计涉及要素多、概念多、学科耦合强,强调综合性、系统性和创造性。

该文讨论航天飞行器设计课程的四个主要教学难点,结合西北工业大学办学目标,详尽地阐述课程创新建设思路。

课程在知识体系、教学方法、教学资源方面持续改革,构建“国防战略牵引-航天思政引入-工程案例分析-虚拟仿真强化”的创新教学模式,论述课程创新建设具体实施过程。

通过多维度评价与反馈,课程创新建设效果良好,有力支撑总体专业骨干和总师后备人选培养。

关键词:航天飞行器设计;“总师型”人才培养;系统工程思维;航天特色思政;全过程评价中图分类号:G640 文献标志码:A 文章编号:2096-000X(2024)19-0050-04Abstract: Space Vehicle Design is a core course for undergraduates majoring in aeronautical and astronautical science and technology. The aim of the course is to cultivate the basic ability and quality of "chief designer" candidate talents. Space Vehicle Design involves many elements,concepts, and coupling multi-disciplines. Comprehensiveness, systematism and creativity can be emphasized in this course. The four main teaching difficulties of this course are discussed. The ideas of innovation construction are carefully explained in combination with the educational goals of Northwestern Polytechnical University. The knowledge system, teaching methods and teaching resources are persistently improved. An innovative teaching model of 'motivation of national defense strategy - introduction of aerospace ideological and political education - analysis of engineering cases - strengthening of virtual simulation' is constructed. The specific implementation process of innovation construction of this course is described. The innovation construction of this course has a good effect through multi-dimensional evaluation and feedback, which could strongly support the cultivation of the space vehicle conceptual design talents and chief designer candidates.Keywords: Space Vehicle Design; cultivation of 'chief designer' talents; system engineering thinking; aerospace ideological and political education; whole process evaluation发展航天、探索宇宙承载着人类几千年不懈的追逐,航天飞行器寄托着人类拓展时空运用的希望。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(1)用信息增益率来选择属性
克服了用信息增益来选择属性时偏向选择值多的属性的不足。信息增益率定义为:
其中 Gain(S,A)与 ID3 算法中的信息增益相同,而分裂信息 SplitInfo(S,A)代表了 按照属性 A 分裂样本集 S 的广度和均匀性。
其中,S1 到 Sc 是 c 个不同值的属性 A 分割 S 而形成的 c 个样本子集。
2034
‘00000003 9 2 1596 1596 0
3665 0
0
‘00000004 12 0 0 1526 1526 3052 462 0
‘00000005 3 1 750 1315 0 0 0
0
‘00000006 3 0 0 0 531 0 0
0
‘00000007 2 1 560 0 0
00
规则二: Q3_Buy=1 And Q9.2=2 :rule accuracy 95.68% :rule coverage 50.51%
规则一完整表述: IF Q3_Buy=1 And D1=5 Then class=2 :rule accuracy 97.12% :rule coverage 93.80%
太普华南杯数据挖掘竞赛论文报告 航空客运信息挖掘
摘 要:
很多人都听说过马来西亚的亚洲航空、美国的西南航空等公司的大名。这些公司成 功的秘诀就是擅于提高上座率。为了争到客源,有些公司甚至提出了与长途巴士进行价 格竞争的口号。如此看来,国内航空公司并不是把其它航空公司当作主要竞争对象,主 要对手应当是火车或长途汽车。适当的低票价,将使航空资源得到充分利用,如果空座 率居高不下,哪怕票价卖得很高,本身就已经出现了资源性亏损。
This case is expected to subjects of interest from airlines, such as erosion prediction, customer segmentation and customer value evaluation, etc., through the data mining technology, achieve ascending air passenger's attendance.
本例就是期望从航空公司感兴趣的主题,例如流失预测、客户细分和客户价值评估 等方面,通过数据挖掘技术,实现提升航空客运的上座率目标。
关键词:
上座率,航空公司,客户价值,数据挖掘
第 1 页,共 8 页
太普华南杯数据挖掘竞赛论文报告 The thesis title
Abstract:
Many people have heard of Malaysia's airasia, southwest airlines in the United States and other company name. The company is the secret of success is good at improve attendance. In order to compete to the customers, some companies even the slogan of the price competition and long distance buses are proposed. So it seems, the domestic airlines and not the other airlines as its main object, main opponent should be train or long-distance bus. Appropriate low fares, will make full use of the aviation resources, if the high vacancy rate, even if the selling price is high, in itself there are already resources loss.
如按照属性 A 把 S 集(含 30 个用例)分成了 10 个用例和 20 个用例两个集合
则 SplitInfo(S,A)=-1/3*log(1/3)-2/3*log(2/3)
(2)可以处理连续数值型属性
C4.5 既可以处理离散型描述属性,也可以处理连续性描述属性。在选择某节
点上的分枝属性时,对于离散型描述属性,C4.5 的处理方法与 ID3 相同,按照该
Key words:
airlines, the customer value, data mining
第 2 页,共 8 页
太普华南杯数据挖掘竞赛论文报告
目录 1. 研究目标............................................................................................... 4 2. 分析方法与过程.................................................................................... 4
图1
该模型由六个结构变量构成的因果关系模型。其中,用户满意度是最终追求的目标变 量。品牌形象、用户预期、用户感知和价值感知是影响用户满意度的前置因素。用户抱 怨和忠诚则是满意度的结果变量。
图2 在建模前,我们首先需对要分析的数据进行预处理,包括如一些异常值的处理、缺损 数据的补填等。然后就是对不同群体的划分,即市场细分,市场细分可根据固有的条件
3. 结论 ...................................................................................................... 9 4. 参考文献............................................................................................... 9
属性本身的取值个数进行计算;对于某个连续性描述属性 Ac,假设在某个结点上
的数据集的样本数量为 total,C4.5 将作以下处理。
第 6 页,共 8 页
太普华南杯数据挖掘竞赛论文报告
将该结点上的所有数据样本按照连续型描述属性的具体数值,由小到大进行 排序,得到属性值的取值序列{A1c,A2c,……Atotalc}。 在取值序列中生成 total-1 个分割点。第 i(0<i<total)个分割点的取值设置 为 Vi=(Aic+A(i+1)c)/2,它可以将该节点上的数据集划分为两个子集。 从 total-1 个分割点中选择最佳分割点。对于每一个分割点划分数据集的方 式,C4.5 计算它的信息增益比,并且从中选择信息增益比最大的分割点来划 分数据集。
第 3 页,共 8 页
1. 挖掘目标
太普华南杯数据挖掘竞赛论文报告
本文旨在研究航空公司上座率的基础上,结合数据挖掘等相关技术,解决我国航空 公司上座率出现的问题,为我国航空公司在降低成本的前提下提高上座率等问题提出解 决方案。
2. 分析方法与过程
2.1. 总体流程
评价指标 消费者行为 外在因素 内在因素
0
‘00000008 8 1 1731 0 1816 0 428
3935
‘00000009 6 0 0 0 0
0 2716 0
下一步,根据形成的数据表,将经过概括的数据转变为特征规则,多种数据挖掘规
则如模糊规则归纳方法、神经网络方法及决策树的方法等均可实现。我们在用决策树的
方法实现。
在这里我们对 C4.5 进行了改进:
工具的决策。他们在选择时要受到时间,服务,价格等的影响。这些因素影响着消费者
的行为,构成了复杂性客观问题。根据具体的市场可以从内因和外因加以探讨。 (1)外在因素
消费者的购买决策随着随着决策事物的不同而不同,花钱多和较为复杂的决策事
物,消费者往往会反复权衡和决策。较为简单和花钱少的决策,消费者通常频繁购买。
第 5 页,共 8 页
太普华南杯数据挖掘竞赛论文报告
属性如区域,会员等对客户进行分类,也可应用数据挖掘的方法对客户实现分类,这里 主要引用 K-均值的方法进行市场细化,最后根据有分类标记的数据应用如决策树等方
法提取出每一类别的特征。
‘0000002 24 1 484 4600 4409 0 963
(3)采用了一种后剪枝方法
避免树的高度无节制的增长,避免过度拟合数据, 该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。方法中使 用的公式如下:
其中 N 是实例的数量,f=E/N 为观察到的误差率(其中 E 为 N 个实例中分类错误的 个数),q 为真实的误差率,c 为置信度(C4.5 算法的一个输入参数,默认值为 0.25), z 为对应于置信度 c 的标准差,其值可根据 c 的设定值通过查正态分布表得到。通过该 公式即可计算出真实误差率 q 的一个置信度上限,用此上限为该节点误差率 e 做一个悲 观的估计:
通过判断剪枝前后 e 的大小,从而决定是否需要剪枝。
(4)对于缺失值的处理
在某些情况下,可供使用的数据可能缺少某些属性的值。假如〈x,c(x)〉是样本 集 S 中的一个训练实例,但是其属性 A 的值 A(x)未知。处理缺少属性值的一种策略是赋 给它结点 n 所对应的训练实例中该属性的最常见值;另外一种更复杂的策略是为 A 的每 个可能值赋予一个概率。例如,给定一个布尔属性 A,如果结点 n 包含 6 个已知 A=1 和 4 个 A=0 的实例,那么 A(x)=1 的概率是 0.6,而 A(x)=0 的概率是 0.4。于是,实例 x 的 60%被分配到 A=1 的分支,40%被分配到另一个分支。这些片断样例(fractional examples)的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这 些样例可以在后继的树分支中被进一步细分。C4.5 就是使用这种方法处理缺少的属性 值。
相关文档
最新文档