【CN110046665A】基于孤立森林二分类异常点检测方法、信息数据处理终端【专利】

合集下载

基于孤立森林算法的电力调度流数据异常检测方法

基于孤立森林算法的电力调度流数据异常检测方法

基于孤立森林算法的电力调度流数据异常检测方法发布时间:2022-01-05T05:36:06.267Z 来源:《中国科技人才》2021年第23期作者:潘昭旭[导读] 调度是电力系统安全运行的保障。

针对具有"概念漂移"特点的调度监测流数据,基于离线数据分析或简单阈值判定的异常检测方法,存在与生产系统实时运行状态结合不紧密、依赖专家经验等问题。

国网山西电力公司吕梁供电公司山西吕梁 033000摘要:调度是电力系统安全运行的保障。

针对具有"概念漂移"特点的调度监测流数据,基于离线数据分析或简单阈值判定的异常检测方法,存在与生产系统实时运行状态结合不紧密、依赖专家经验等问题。

提出了一种基于孤立森林算法的电力调度流数据异常检测方法,利用历史数据集训练构建多个子森林异常检测器,组成基森林异常检测器;据此,在线根据滑动窗口中数据的异常情况及缓冲区数据量大小,触发检测器更新。

提出一种根据异常偏差率大小筛选子森林异常检测器的更新策略,解决因模型随机更新导致异常检测器整体性能下降的问题。

以服务器和某省级电网调度中心业务流数据集作为训练与测试样本,验证了所提方法在异常检测查全率及查准率等综合性能上的先进性及其在实际系统应用中的可行性。

关键词: 孤立森林算法; 用电数据; 异常; 检测; 数据挖掘引言随着电网规模日益扩大,对电网安全稳定运行的要求也越来越高电网调度数据的异常检测也愈显重要。

面向电力行业相关业务的异常检测方法中,国内外专家提出了不同解决方法,但大多针对静态数据集,可大致分为2大类:基于状态估计和基于数据挖掘。

基于状态估计的异常检测方法针对电力系统的遥测和遥信2种量测数据进行状态预估,而基于数据挖掘的异常检测方法更注重从数据库获取大量随机的数据并探寻潜在的特殊信息关系,不会出现状态估计时重复评估、数据残差污染以及淹没的问题,因此在辨识系统异常数据的效果上具有明显的优势。

一种基于孤立森林算法的用电数据异常检测模型[发明专利]

一种基于孤立森林算法的用电数据异常检测模型[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810793660.8(22)申请日 2018.07.16(71)申请人 国网上海市电力公司地址 200122 上海市浦东新区源深路1122号(72)发明人 陈明 曹袖 毛迪林 毛苇 严童 周清华 唐啸 宣庐峰 熊博越 徐伟 侯昀 黄增瑞 (74)专利代理机构 上海兆丰知识产权代理事务所(有限合伙) 31241代理人 卢艳民(51)Int.Cl.G06Q 10/06(2012.01)G06Q 50/06(2012.01)H02J 3/00(2006.01)(54)发明名称一种基于孤立森林算法的用电数据异常检测模型(57)摘要本发明公开了一种基于孤立森林算法的用电数据异常检测模型,包括特征提取模块、特征降维模块、孤立森林计算模块、构建专家样本模块和二次训练模块,特征提取模块从原始数据集中提取用户的用电数据的时间序列作为初始特征集,然后对初始特征集进行无量纲化和特征选择处理;特征降维模块采用主成分分析法和自编码网络法对初始特征集进行降维得到有效特征集;孤立森林计算模块采用孤立森林算法计算出每个用户的异常分数以判定用户数据有无异常。

本发明的基于孤立森林算法的用电数据异常检测模型,是一种无监督的用电数据异常检测模型,不仅能够快速地处理大量的数据,而且能够适应缺乏训练样本的情况,能够更好地满足于电力部门的实践需求。

权利要求书2页 说明书5页 附图3页CN 108985632 A 2018.12.11C N 108985632A1.一种基于孤立森林算法的用电数据异常检测模型,其特征在于,包括特征提取模块、特征降维模块、孤立森林计算模块、构建专家样本模块和二次训练模块,其中:所述特征提取模块从原始数据集中提取用户的用电数据的时间序列作为初始特征集,然后对初始特征集进行无量纲化和特征选择处理;所述特征降维模块采用主成分分析法和自编码网络法对初始特征集进行降维得到有效特征集;所述孤立森林计算模块采用孤立森林算法计算出每个用户的异常分数以判定用户数据有无异常;所述构建专家样本模块通过电力专家的经验筛选标准异常样本;所述二次训练模块将所述标准异常样本加入到所述原始数据集中,然后进行二次训练,得到最终的用户异常分数排序。

一种基于孤立森林算法的金融交易系统异常识别方法与流程

一种基于孤立森林算法的金融交易系统异常识别方法与流程

一种基于孤立森林算法的金融交易系统异常识别方法与流程【实用版4篇】《一种基于孤立森林算法的金融交易系统异常识别方法与流程》篇1孤立森林算法是一种基于决策树的异常检测算法,具有线性时间复杂度,因此适用于含有海量数据的数据集。

在金融交易系统中,异常识别是非常重要的,可以通过检测异常交易行为来防范金融欺诈、洗钱等不良行为。

因此,可以采用基于孤立森林算法的金融交易系统异常识别方法与流程,具体步骤如下:1. 数据预处理:对金融交易数据进行预处理,包括数据清洗、归一化、特征选择等步骤,以便于后续的异常检测。

2. 构建孤立森林:根据预处理后的数据,构建孤立森林,即一组决策树。

孤立森林算法可以通过随机选取一个维度来切分数据空间,构建出一棵决策树,然后将数据点放入决策树中进行分类。

重复上述过程,直到构建出多棵决策树,形成孤立森林。

3. 异常检测:将待检测的数据点放入孤立森林中进行分类,如果数据点被分类为异常,则说明该数据点存在异常交易行为。

可以通过统计孤立森林中异常数据点的比例来评估交易系统的异常程度。

4. 模型评估与优化:通过交叉验证等方法对孤立森林模型进行评估与优化,以提高模型的准确性和鲁棒性。

综上所述,基于孤立森林算法的金融交易系统异常识别方法与流程可以有效地识别异常交易行为,防范金融欺诈、洗钱等不良行为。

《一种基于孤立森林算法的金融交易系统异常识别方法与流程》篇2孤立森林算法是一种基于决策树的异常检测算法,具有线性时间复杂度,因此可以用于含有海量数据的数据集。

在金融交易系统中,异常识别是非常重要的,可以通过检测异常交易行为来识别潜在的金融欺诈、洗钱等行为。

一种基于孤立森林算法的金融交易系统异常识别方法可以分为以下几个步骤:1. 数据预处理:对原始数据进行清洗和处理,包括去除噪声、缺失值处理、异常值处理等。

2. 构建孤立森林:根据预处理后的数据,生成一系列决策树,每个决策树都是互相独立的。

决策树的构建可以通过随机选取一个维度来切分数据空间,然后根据切分后的数据构建出一棵决策树。

基于孤立森林的异常用户群组检测方法、装置、设备[发明专利]

基于孤立森林的异常用户群组检测方法、装置、设备[发明专利]

专利名称:基于孤立森林的异常用户群组检测方法、装置、设备
专利类型:发明专利
发明人:敖琦,唐炳武
申请号:CN202010611692.9
申请日:20200629
公开号:CN111784392A
公开日:
20201016
专利内容由知识产权出版社提供
摘要:本申请属于异常数据分析领域,公开了一种基于孤立森林的异常用户群组检测方法、装置、计算机设备及可读存储介质。

所述方法包括对获取到的用户行为特征数据编码处理;对编码处理后的用户行为特征数据降维得到待处理特征数据,并从中随机选择一用户行为特征,根据其对应的分割值构建孤立森林;并计算从孤立树根节点到叶子节点的路径长度及其平均路径长度;最后计算每个待处理特征数据的异常得分,将异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;计算各异常用户间的相似度再分群处理得到异常用户群组。

本申请还涉及区块链技术,所述用户行为特征分布式部署于区块链中。

采用本方法解决了数据处理分析不准确的技术问题。

申请人:中国平安财产保险股份有限公司
地址:518000 广东省深圳市福田区益田路5033号平安金融中心12、13、38、39、40层
国籍:CN
代理机构:深圳市世联合知识产权代理有限公司
代理人:汪琳琳
更多信息请下载全文后查看。

异常检测中基于聚类的孤立森林算法研究

异常检测中基于聚类的孤立森林算法研究

异常检测中基于聚类的孤立森林算法研究异常检测是数据分析中的一个重要任务,旨在发现与正常模式不符的数据项。

它在各种领域中都有广泛的应用,如网络入侵检测、金融欺诈检测和工业设备故障检测等。

随着大数据的快速增长,异常检测面临着越来越多的挑战。

为了解决这个问题,研究者们引入了各种新的技术和算法,其中基于聚类的孤立森林算法成为了一种受关注的方法。

聚类是一种将相似数据点分组的技术,可以帮助我们发现数据中的一些内在模式。

而孤立森林算法是一种近年来提出的高效的异常检测方法,它利用了数据中正常模式和异常模式之间的差异。

这种方法在许多实际场景中展现出了良好的性能和可扩展性。

基于聚类的孤立森林算法的核心思想是将数据集划分为两个子集:正常数据和异常数据。

首先,通过聚类算法将数据集划分为多个聚类簇。

然后,对每个聚类簇构建一棵孤立树。

孤立树是一种用于表示数据子集的二叉树结构,它的每个叶节点代表一个数据点。

构建孤立树的过程中,通过随机地选择一个特征和一个切分点,将数据集划分为两个子集。

通过递归地划分子集,最终形成一棵完整的孤立树。

这个过程对于每个聚类簇都会进行多次迭代,最终形成多棵孤立树。

在预测阶段,通过计算一个数据点在每棵孤立树中的路径长度,来判断它是否为异常值。

路径长度是指从根节点到叶节点经过的边的数量。

正常数据点在大多数孤立树中的路径长度较短,而异常数据点的路径长度较长。

因此,较长的路径长度可以被视为异常值的指标。

基于聚类的孤立森林算法相较于传统的孤立森林算法在一些方面有所改进。

首先,相较于全局的孤立森林,通过使用聚类算法,可以更好地适应大规模数据集的处理。

其次,基于聚类的孤立森林可以处理多模态数据集,这是因为聚类可以将具有相似特征的数据点分组。

最后,该算法还可以处理带有噪声的数据集,通过将噪声数据点划分到不同的聚类簇中,从而减少对异常检测模型的影响。

然而,基于聚类的孤立森林算法也存在一些挑战和限制。

首先,算法的准确性受到聚类算法的质量和参数设置的影响。

孤立森林异常值检测算法步骤

孤立森林异常值检测算法步骤

孤立森林异常值检测算法步骤
孤立森林是一种用于异常值检测的机器学习算法。

它通过构建一系列的孤立树,对数据进行拟合,并根据数据在每个孤立树中的分裂情况,判断该数据是否为异常值。

以下是孤立森林异常值检测算法的步骤:
1.数据预处理:首先,对数据进行预处理,包括缺失值填充、特征缩放等操
作,以使数据适应算法的要求。

2.构建孤立树:随机从训练数据中选择一部分作为样本子集,构造一棵孤立
树。

这个过程重复进行多次(如上千次),以构建出一系列的孤立树。

3.确定异常值:对于测试数据中的每一个样本点,遍历每一棵孤立树,计算
该样本点在树中的平均高度。

然后根据这个平均高度来判断该样本点是否为异常值。

如果一个样本点在多棵树中的平均高度都较低,那么它就被认为是异常值。

需要注意的是,这个过程可能会受到训练样本中异常样本比例的影响,如果异常样本比例较高,可能会导致最终结果不理想。

此外,异常检测的结果也与具体的应用场景紧密相关,因此算法检测出的“异常”不一定是实际场景中的真正异常。

基于孤立森林的移动终端网络数据异常检测

基于孤立森林的移动终端网络数据异常检测

示数据特征矩阵阶数通过公式可表示为:
1 -y ” (BP 纟纟
X,
/厶 / = ) j

利用上述公式对已得到的数据片段进行归一 化处理,并使用处理后的数据完成数据异常检测 工作
00实现数据异常检测 孤立森林算法是一种适用于多组连续异常数
据检测的方法,在此方法中将异常数据定义为容 易被孤立的离群点,其具有密度低、分布松散的特
结果接近于1;当E(_(—)计算结果接近(— 时4的取值结果接近于0.5;当£(_(—)计算结
果接近/ - 1时4的取值结果接近于0°如果异
常分数取值结果接近于I则此数据样本异常的
可能性较大,反之,异常分数取值结果低于0.7,
异常的可能
°
2仿真实验分析
2.1 实验环境设计
此次实验主要针对文中设计检测方法与原有
ffi[I5-I0]°通过统计学分析可知,将多组数据分布
在同一数据空间中,此空间中数据分布的区域可 被视为数据发生的小概率区域,此区域内的数据 为出现可能性较小的点,则此部分数据为异常数 据,通过此方法实现异常数据检测。将此算法应 用于移动终端网络数据的检测中,为日后异常数
据检测方法的发展提供新的方向54 °将提取的
mobile temninal networf data based on isolation forest is paposed. The mobile temninal data stream is ayurl ded us the networf tra/ic - ank the data seymex- is divideX uccorfiny to the infomnation yain panciple to opl tain the infomnation ch/n/astics of the data seymex-: ank the data feature abdU/ity is veUfied by normal­ ization pacessiny. The octlier fraction alyorithm of the isolation forest alyorithm is used to detect the akomal ty of the odtained data features ; ank the cocesponOmy jiidymol conO/ions are set to complete the detecFon process. Thapnh the simulation of mobile /mninat data transmission, the ebect of this method ank the tra­ ditional method is veUfied. The detection rate ank error rate of this method are better thak the traditional method. Io conclusion , this method has better detection adi/ty for dynamic data ank higher contal adi/ty for networf data.

一种基于随机森林的异常数据处理方法[发明专利]

一种基于随机森林的异常数据处理方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201711181398.3(22)申请日 2017.11.23(71)申请人 哈尔滨工业大学地址 150090 黑龙江省哈尔滨市南岗区西大直街92号申请人 江南机电设计研究所(72)发明人 宋凯 徐鹏 李阳 苏日新 赵丹 (74)专利代理机构 贵阳睿腾知识产权代理有限公司 52114代理人 谷庆红(51)Int.Cl.G06K 9/62(2006.01)(54)发明名称一种基于随机森林的异常数据处理方法(57)摘要一种基于随机森林的异常数据处理方法,通过将被动恢复数据后获取输出数据变为主动删减包含失效信息的失效决策树,该方法通过有效的改善了信息缺失或信息失效引起无法准确获取输出信息而导致的可靠性与准确性下降的情况,减少了由于应用恢复数据引起的检测准确度下降及不确定增加等问题。

通过本发明的实施,可以在系统某个参数或某些参数存在异常情况下,仍能准确输出数据,提高系统在输入异常情况下的输出信息可靠性与准确性。

权利要求书1页 说明书4页 附图2页CN 108304854 A 2018.07.20C N 108304854A1.一种基于随机森林的异常数据处理方法,其特征在于包括以下步骤:步骤一:获取样本集,应用自助法对样本集进行有放回的采样,进行自助法样本扩充,对每一个样本构建一个与其规模相同的自助法样本;步骤二:对每一个自助法样本分别建立一个决策树模型,在每个决策树的全部特征值中再进行无放回的随机选取,构建一个属性子集,并在每一步应用属性子集中最优属性进行决策树分枝;步骤三:对每一棵树的决策结果通过数据融合获取其权重,当获取失效信息后,对每棵树的信息进行判断,若第i个决策树的属性子集中包含该失效属性,则判断该树的决策结果为失效,则令属性权重ω”i =0,其余正常属性权重不变,即ω”i =ωi 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910309830.5
(22)申请日 2019.04.17
(71)申请人 成都信息工程大学
地址 610225 四川省成都市西南航空港经
济开发区学府路一段24号
(72)发明人 李孝杰 李俊良 史沧红 吕建成 
吴锡 周激流 刘书樵 张宪 
(74)专利代理机构 北京元本知识产权代理事务
所 11308
代理人 王红霞
(51)Int.Cl.
G06K 9/62(2006.01)
(54)发明名称基于孤立森林二分类异常点检测方法、信息数据处理终端(57)摘要本发明属于通信控制及通信处理技术领域,公开了一种基于孤立森林二分类异常点检测方法、信息数据处理终端;将原始数据集进行初始的静态平均分块,计算块内密度和均值密度;计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;利用节点的递归方法构建孤立森林;对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加与相对应的阈值进行比较。

本发明有效提高异常点检测算法的准确率,能大幅度减少异常检测过程中的实际数据量,节省计算资源,并且提高了异常检测效率;增强了异常检测算法的鲁棒
性。

权利要求书2页 说明书8页 附图4页CN 110046665 A 2019.07.23
C N 110046665
A
1.一种基于孤立森林二分类异常点检测方法,其特征在于,所述基于孤立森林二分类异常点检测方法包括以下步骤:
第一步,将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度;
第二步,计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;
第三步,利用节点的递归方法构建孤立森林;
(1)从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点;
(2)随机指定一个维度,在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
第四步,对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;
第五步,将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较。

2.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第一步将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度具体包括:步骤一,将原始数据集进行初始的静态分块;
(1)根据原始数据集Φ={x1,x2,……,x n},将数据集Φ以一定规模划分成k个子数据
集,将子数据集的下标按顺序标记
为构成子数据集集
合称为基础子数据集,;
(2)将这k个基础子数据集按照分别计算其块内密度,其中密度计算函
数为d c为自定义的距离称为截断距离;再计算出原始数据集Φ的均值密度
将计算出来的块内密度和均值密度结果进行比较
(3)如果则设置对应的子数据集的标签为1,反之亦反。

3.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第二步的计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简具体包括;
(1)对计算出来的所有块内密度数据进行排序,从小到大进行整理;
权 利 要 求 书1/2页
2
CN 110046665 A。

相关文档
最新文档