【WO2019197803A1】分析机器学习的分类器模型【专利】

合集下载

机器学习中的分类分析

机器学习中的分类分析机器学习是人工智能领域中的一个重要分支，一直以来都备受关注。

分类分析是机器学习中的一个基本任务，它是将给定数据集中的对象进行分类并标识其所属的类别的过程。

在这篇文章中，我们将探讨机器学习中分类分析的基础知识、常用算法以及应用场景。

一、基础知识分类分析通常是在一个给定的数据集中进行的，数据集中的每个对象都由一组特征值构成。

特征值可能是浮点数、整数、布尔值等数据类型。

数据集还包括一个已知的类别标记，用于给每个对象分配一个类别。

一个典型的分类器通常由两个部分组成：学习算法和分类规则。

学习算法是用于从训练数据中学习类别标记的一组规则，训练数据包括一些已知类别的数据样本。

在学习算法的训练过程中，算法会从数据集中提取特征，并根据这些特征预测每个数据样本的类别。

分类规则则是用于将这些特征与类别标记进行匹配，从而对新的数据进行分类的规则。

二、常用算法1.决策树决策树是一种基于树形模型的分类算法，它通过对训练数据的划分来构建一个树形结构。

最常见的决策树是二叉树，每个内部节点都表示一个特征，每个叶子节点都表示一个类别。

在进行分类时，算法会从根节点开始逐步向下遍历，根据每个节点所表示的特征值将数据划分到相应的子节点中，直到到达叶子节点为止。

2.朴素贝叶斯分类器朴素贝叶斯分类器是一种基于贝叶斯定理的分类算法，它假设特征之间相互独立且每个特征同等重要。

在训练数据中，算法会计算每个特征与每个类别之间的条件概率，并据此预测新数据的类别。

3.支持向量机分类器支持向量机分类器是一种基于最大间隔分类的算法，它通过寻找最佳的决策边界来分类数据。

算法会在特征空间中找到一个超平面，使得距离最近的数据点到该超平面的距离最大化。

在进行分类时，算法会将新的数据点投影到该超平面上，并根据其位置来进行分类。

三、应用场景分类分析在机器学习中有着广泛的应用，其中一些典型的应用场景包括：1.图像分类在图像分类中，算法会根据图像的像素特征将图像分为不同的类别。

一种基于机器学习的物联网设备分类识别方法及系统[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011321550.5(22)申请日 2020.11.23(71)申请人国网山东省电力公司青岛供电公司地址 266002 山东省青岛市市南区刘家峡路17号(72)发明人陈琛　韩然　陈明　刘明峰　侯路　程辉　刘子良　李玉顺　田小川　(74)专利代理机构北京方圆嘉禾知识产权代理有限公司 11385代理人王月松(51)Int.Cl.H04L 29/06(2006.01)H04L 29/08(2006.01)H04L 12/24(2006.01)G06N 3/00(2006.01)G06N 5/00(2006.01)G06N 20/00(2019.01)(54)发明名称一种基于机器学习的物联网设备分类识别方法及系统(57)摘要本发明涉及一种基于机器学习的物联网设备分类识别方法及系统。

所述分类识别方法包括获取已知类型的物联网设备的指纹；利用所述物联网设备的类型对所述物联网设备的指纹进行标注；利用每一标注后的物联网设备的指纹进行机器学习，对相应的物联网设备的类型进行二元随机森林模型学习，得到以物联网设备的指纹为输入，以物联网设备的类型为输出的二元分类器集合；获取待识别的物联网设备的指纹；利用所述二元分类器集合对所述待识别的物联网设备的指纹进行识别。

本发明通过在安全网关的基础上提供一种自动化的、可处理未知类型设备的物联网终端设备智能分类机制，方便进行网络管理。

权利要求书3页说明书8页附图5页CN 112600793 A 2021.04.02C N 112600793A1.一种基于机器学习的物联网设备分类识别方法，其特征在于，包括：获取已知类型的物联网设备的指纹；所述物联网设备的指纹为从所述物联网设备网络流量中截获的报文的特征信息；所述特征信息包括：链路层是否为ARP协议、链路层是否为LLC协议、网络层是否为IP协议、网络层是否为ICMP协议、网络层是否为ICMPv6协议、网络层是否为EAPoL协议、传输层是否为TCP协议、传输层是否为UDP协议、应用层是否为HTTP协议、应用层是否为HTTPS协议、应用层是否为DHCP协议、应用层是否为BOOTP协议、应用层是否为SSDP协议、应用层是否为DNS协议、应用层是否为MDNS协议、应用层是否为NTP协议、IP报文头部Padding字段值、IP报文头部RouterAlert字段值、IP报文长度、截至目前所述物联网设备的报文中出现的不同目的IP地址计数、源端口号、目的端口号以及设备应用层操作系统信息；利用所述物联网设备的类型对所述物联网设备的指纹进行标注；利用每一标注后的物联网设备的指纹进行机器学习，对相应的物联网设备的类型进行二元随机森林模型学习，得到以物联网设备的指纹为输入，以物联网设备的类型为输出的二元分类器集合；获取待识别的物联网设备的指纹；利用所述二元分类器集合对所述待识别的物联网设备的指纹进行识别。

机器学习模型的可解释性分析技术

机器学习模型的可解释性分析技术机器学习在现代人工智能的发展中起着重要的作用，它能够利用数据构建模型，从而为我们提供更加准确和高效的决策支持。

然而，这些模型中的运算过程往往存在着复杂性和不透明性的问题，这就在很大程度上制约了机器学习技术的实际应用。

因此，对机器学习的模型进行可解释性的分析已成为热门的研究方向之一。

本文将结合相关案例，对机器学习模型的可解释性分析技术进行探讨。

一、机器学习模型的可解释性分析技术机器学习模型的可解释性分析技术可以帮助我们更好地理解机器学习模型的运作方式和内在机理，从而可以更加准确地刻画机器学习模型的特性和性能。

可解释性分析技术主要分为两大类：局部可解释性和全局可解释性。

局部可解释性分析技术主要是通过解释一个特定的预测结果，弄清楚该结果是如何被产生的。

比如，在一个二分类问题中，我们可以将某个实例输入机器学习模型，然后通过局部可解释性分析技术获取该实例对预测结果的贡献。

局部可解释性分析技术可以帮助我们定位机器学习模型中潜在的问题，提高机器学习模型的准确性和可靠性。

全局可解释性分析技术主要是通过解释整个机器学习模型的运行机理，帮助我们更好地理解机器学习模型从训练数据中学到了什么，以及机器学习模型的预测结果是如何被产生的。

全局可解释性分析技术可以帮助我们有效地优化机器学习模型，增加模型的普适性和应用场景。

机器学习模型的可解释性分析技术主要包括模型可视化、特征重要性分析、决策路径分析、对抗样本测试等多种方法。

下面我们针对其中几个重要的方法进行介绍。

1. 模型可视化模型可视化技术是一种重要的可解释性分析技术，它可以帮助我们更好地理解机器学习模型的运行机理和内在特性。

常见的模型可视化技术包括散点图、热力图、雷达图等。

以热力图为例，我们可以将输入数据的不同特征绘制成一个矩阵，并通过不同颜色的渐变来表示机器学习模型所学到的模式。

这可以帮助我们更好地刻画模型的特征组合性，从而提高模型的解释性和可靠性。

机器学习中的分类算法解析

机器学习中的分类算法解析机器学习是一门涉及如何使计算机从数据中自动学习的科学和艺术。

在许多机器学习任务中，分类是一个常见且重要的问题，涉及将输入数据分为不同的类别。

为了解决分类问题，机器学习中有许多不同的分类算法可供选择。

本文将对机器学习中的一些常见分类算法进行解析，包括决策树、逻辑回归和支持向量机。

1. 决策树决策树是一种基于树形结构的分类算法。

它通过一系列的决策节点和叶节点来对数据进行分类。

决策节点表示对数据的某个特征进行判断，而叶节点表示最终的类别。

决策树算法通常根据信息增益或基尼指数来选择最佳的划分特征。

决策树算法的优点是易于理解和解释，但容易过拟合。

2. 逻辑回归逻辑回归是一种广泛应用于分类问题的线性模型。

它利用逻辑函数（或称为Sigmoid函数）来估计输入数据属于某个类别的概率。

逻辑回归可以通过最大似然估计或梯度下降等方法来学习模型参数。

逻辑回归算法具有计算效率高和解释性强的优点，但对于复杂的非线性问题可能效果不佳。

3. 支持向量机（SVM）支持向量机是一种二分类模型，它将输入数据映射到高维特征空间中，并在特征空间中寻找最优的超平面来将不同类别的数据分开。

支持向量机可以使用不同的核函数来处理线性可分或线性不可分的问题。

支持向量机算法具有泛化能力强和适用于小样本的优点，但在处理大规模数据集时计算复杂度较高。

除了上述三种常见的分类算法，还有许多其他的分类算法，例如朴素贝叶斯、随机森林和神经网络等。

不同的算法适用于不同的数据场景和问题类型。

在实际应用中，我们需要根据具体的情况选择合适的分类算法和相应的参数配置。

总结起来，机器学习中的分类算法是解决分类问题的重要工具。

决策树、逻辑回归和支持向量机是其中的三种常见算法。

每种算法都有其优点和局限性，我们需要根据实际需求选择适合的算法来解决具体的分类问题。

在使用这些算法时，合适的参数配置和特征选择也是关键因素。

通过深入理解和应用这些分类算法，我们可以更好地进行数据分析和预测，提升机器学习的效果和应用价值。

专利基于机器学习的数据分析算法

专利基于机器学习的数据分析算法一、背景介绍随着数据的快速增长和技术的迅速发展，传统的数据分析方法已经无法满足对大规模数据的处理和分析需求。

因此，基于机器学习的数据分析算法应运而生。

本文将介绍一种基于机器学习的数据分析算法，并探讨其在专利领域中的应用。

二、机器学习算法概述机器学习是指计算机通过学习数据和经验，从中提取规律和模式，并利用这些规律和模式进行预测和决策的能力。

基于机器学习的数据分析算法通过输入大量的数据样本，通过训练和学习，自动发现数据中的隐藏模式和规律，并利用这些模式和规律进行数据分析、预测和决策。

三、基于机器学习的专利数据分析算法基于机器学习的专利数据分析算法是指利用机器学习技术对专利数据进行分析和挖掘。

通过输入大量的专利数据，通过训练和学习，算法可以自动发现专利数据中的规律和趋势，并提供有价值的信息和洞察力。

1. 数据预处理在应用机器学习算法进行专利数据分析之前，首先需要对原始数据进行预处理。

数据预处理包括数据清洗、数据整合、数据变换等步骤，以保证数据的质量和可用性。

2. 特征提取与选择在进行机器学习算法训练之前，需要对专利数据进行特征提取与选择。

特征提取是指从原始数据中抽取有用的特征，以创建合适的特征集合。

特征选择是指从特征集合中选择最具有代表性和区分性的特征，以提高算法的准确性和效果。

3. 模型训练与评估通过使用合适的机器学习算法，对提取和选择的特征进行训练和学习。

训练过程中，算法通过学习数据的模式和规律来构建预测模型。

训练完成后，需要对模型进行评估，以确保其准确性和可靠性。

4. 数据分析与应用训练完成的模型可以应用于专利数据的分析和应用。

通过输入新的专利数据样本，算法可以自动对其进行分析和预测，提供有关专利趋势、技术热点等方面的信息。

同时，该算法还可以应用于专利检索和推荐等方面，提高专利检索的准确性和效率。

四、基于机器学习的专利数据分析算法的应用案例1. 专利趋势预测通过分析历史专利数据，利用基于机器学习的数据分析算法可以预测未来的专利趋势。

基于机器学习的专利分类与推荐算法研究

基于机器学习的专利分类与推荐算法研究机器学习技术正在越来越多地应用于人们的日常生活和工作中。

其中，基于机器学习的专利分类与推荐算法是一个非常有用的应用场景。

本文将讨论关于该领域的一些研究成果和应用案例，并探讨未来的发展方向。

一、专利分类的意义专利作为一种重要的知识产权，具有保护创新成果和技术积累的作用。

但是，专利数量庞大、种类繁多、内容复杂，给技术领域的研究、发展和商业化带来了很大挑战。

因此，研究如何对专利进行分类与检索具有非常重要的意义。

专利分类可以将众多专利按照技术领域进行划分，便于专利检索和利用。

同时，专利分类还可以为企业、研究机构和投资者提供技术分析和市场研究的基础。

因此，专利分类的重要性不言而喻。

二、基于机器学习的专利分类与推荐算法现代的专利研究涉及广泛的知识领域，包括计算机科学、人工智能、自然语言处理等。

为了解决专利数量庞大、种类繁多、内容复杂等问题，研究人员一直在探索新的技术和方法，其中，基于机器学习的方法得到了广泛的应用。

基于机器学习的方法主要通过构建专利分类模型和推荐算法模型来实现对专利的分类与检索。

首先，对专利进行特征提取和降维处理，然后通过建模和训练模型进行分类和推荐。

该方法可以大大提高专利分类和检索的效率和准确性，为企业和研究机构提供更好的技术支持和市场分析。

三、基于机器学习的专利分类与推荐算法的应用案例基于机器学习的专利分类与推荐算法已经得到广泛的应用，以下是一些典型的应用案例：1、专利分类日本Y-PRIZE团队使用机器学习技术，将超过900万个专利文献进行了自动化分类。

他们通过基于BERT模型的算法和模型的迁移学习方法，极大地提高了分类准确率和效率。

该技术的应用可以为企业和研究机构提供更丰富的技术情报和市场分析支持。

2、专利检索推荐一些企业利用机器学习技术对专利进行检索推荐，如微软公司、IBM公司等。

微软公司通过Minesweeper算法和Word Embedding技术，对专利进行了快速、有效的检索和推荐。

通过机器学习训练对象分类器的系统和方法[发明专利]

专利名称：通过机器学习训练对象分类器的系统和方法专利类型：发明专利
发明人：A·什里瓦斯塔瓦
申请号：CN201780018741.4
申请日：20170314
公开号：CN109154976A
公开日：
20190104
专利内容由知识产权出版社提供
摘要：一种用于训练计算机实现的对象分类器的系统和方法，包括：检测场景的子区域内的前景视觉对象，确定该场景的该子区域的背景模型，该背景模型表示当该子区域中不存在任何前景视觉对象时的子区域，以及通过使用该子区域的背景模型作为否定训练示例的计算机实现的机器学习来训练对象分类器。

申请人：阿维尼翁公司
地址：加拿大不列颠哥伦比亚省
国籍：CA
代理机构：北京英赛嘉华知识产权代理有限责任公司
更多信息请下载全文后查看。

用于分类模型的经计算机实现的分析的方法[发明专利]

专利名称：用于分类模型的经计算机实现的分析的方法专利类型：发明专利
发明人：顾金东
申请号：CN202010304295.7
申请日：20200417
公开号：CN111832572A
公开日：
20201027
专利内容由知识产权出版社提供
摘要：本发明描述了一种用于分类模型的经计算机实现的分析的方法，所述分类模型被适配成作为预测、根据预定函数而将多个输入实例——它们中的每一个具有数目n个特征——映射到输出类的多个概率中，作为分类决策，并且其被适配成确定针对每个特征的相关性值，其导致显著图。

本发明包括如下步骤：通过为每个特征确定相关性信息来标识（S1）每个特征对实例的预测的影响，所述相关性信息表示针对实例的所有特征、省略所考虑的特征的上下文信息。

然后，针对每个特征的相关性值通过组合针对实例的特征的相关性信息来被确定（S2）。

最后，评估（S3）针对实例特征的所述多个相关性值，以标识每个特征对实例预测的影响。

申请人：西门子股份公司
地址：德国慕尼黑
国籍：DE
代理机构：中国专利代理(香港)有限公司
更多信息请下载全文后查看。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

) (
(51)International Patent Classification:(74)Agent:KENNEDY,Richard;Venner Shipley LLP,5Stir-
G06N20/00(2019.01)lingHouse,Stirling Road,The Surrey ResearchPark,Guild¬
ford Surrey GU27RF(GB).
(21)International Application Number:
PCT/GB2019/050979(81)Designated States(unless otherwise indicated,for every
kind o f national protection av ailable).AE,AG,AL,AM, (22)International Filing Date:AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,
04April2019(04.04.2019)
CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO, (25)Filing Language:English DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,
HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP, (26)Publication Language:English KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,
(30)Priority Data:MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,
1805871.909April2018(09.04.2018)GB OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,
SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN, (71)Applicant:VOLUME LIMITED[GB/GB];Buckhurst TR,TT,TZ,UA,UG,US,UZ,VC,VN,ZA,ZM,ZW.
Court,London Road,Wokingham Berkshire RG401PA
(GB).(84)Designated States(unless otherwise indicated,for every
kind o f regional protection available).ARIPO(BW,GH, (72)Inventors:ALVAREZ,Benoit;c/o Volume Limited,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,
Buckhurst Court,London Road,Wokingham Berkshire UG,ZM,ZW),Eurasian(AM,AZ,BY,KG,KZ,RU,TJ, RG40IPA(GB).WICKENS,Marc;c/o Volume Limit¬TM),European(AL,AT,BE,BG,CH,CY,CZ,DE,DK, ed,Buckhurst Court,London Road,Wokingham Berkshire EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV, RG401PA(GB).MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,
(54)Title:ANALYSING MACHINE-LEARNED CLASSIFIER MODELS
(57)Abstract:A computer-implemented method comprises inputting a data item for processing by a machine-learned classifier model and receiving,in response to inputting the data item,a plurality of confidence scores for a plurality of respective classes,the plurality of confidence scores having been generated by the machine-learned classifier model based on the data item.The method further comprises determining a distance in dependence on a highest confidence score that is generated for the data item,and causing display of a class distribution diagram,wherein the class distribution diagram comprises:a graphical representation corresponding to a first class,said first class being one of said plurality of classes;a graphical representation corresponding to a second class,said second class being another of said plurality of classes;and a graphical representation corresponding to the data item,wherein the graphical representation corresponding to the data item is located at said distance between the graphical representation of the first class and the graphical representation of the second class.
[Continued on next page]。