【CN109885563A】一种基于动态规则约束的数据清洗算法【专利】

合集下载

数据清洗方法、数据清洗设备以及计算机存储介质[发明专利]

数据清洗方法、数据清洗设备以及计算机存储介质[发明专利]

专利名称:数据清洗方法、数据清洗设备以及计算机存储介质专利类型:发明专利
发明人:祁春超,周华明,黄雄伟
申请号:CN201911013182.5
申请日:20191023
公开号:CN110928862A
公开日:
20200327
专利内容由知识产权出版社提供
摘要:本申请提供了一种数据清洗方法、数据清洗设备以及计算机存储介质。

该数据清洗方法包括:获取待清洗的训练样本集合;对训练样本集合进行聚类分析,获得训练样本集合的多个聚类分类,其中,每个聚类分类中包括多个训练样本;检测多个聚类分类中的训练样本,以获取每个聚类分类的训练样本中的误报样本;对误报样本所在的聚类分类进行数据清洗。

本申请的数据清洗方法能够自动进行数据清洗,以加快数据清洗进程,以及提高数据清洗的准确性。

申请人:深圳市华讯方舟太赫兹科技有限公司,华讯方舟科技有限公司
地址:518102 广东省深圳市宝安区西乡街道宝田一路臣田工业区第37栋430室
国籍:CN
代理机构:深圳市威世博知识产权代理事务所(普通合伙)
代理人:李庆波
更多信息请下载全文后查看。

一种基于动态自适应的网站异步序列数据智能采集方法[发明专利]

一种基于动态自适应的网站异步序列数据智能采集方法[发明专利]

专利名称:一种基于动态自适应的网站异步序列数据智能采集方法
专利类型:发明专利
发明人:梁增玉,卜华奇,贺成龙,丁灿,顾学海,刘蛰,张志垚,尹晓阳,吴嘉逸,刘佳林
申请号:CN202111515500.5
申请日:20211213
公开号:CN114297462A
公开日:
20220408
专利内容由知识产权出版社提供
摘要:本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。

申请人:中国电子科技集团公司第二十八研究所,南京莱斯网信技术研究院有限公司
地址:210000 江苏省南京市秦淮区苜蓿园东街1号
国籍:CN
代理机构:江苏圣典律师事务所
更多信息请下载全文后查看。

一种数据清洗方法及系统[发明专利]

一种数据清洗方法及系统[发明专利]

专利名称:一种数据清洗方法及系统专利类型:发明专利
发明人:龙震岳,魏理豪,艾解清
申请号:CN201510293101.7
申请日:20150601
公开号:CN104850361A
公开日:
20150819
专利内容由知识产权出版社提供
摘要:本发明提供了一种数据清洗方法及系统,其中,所述方法包括:首先,程序运行后构建待清洗数据源;再根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。

其容易拓展,适应能力强,不会因为工具的更新换代而导致整个系统重新编译,是目前非常可行的解决方案,具有很好的市场推广应用前景。

申请人:广东电网有限责任公司信息中心
地址:510000 广东省广州市越秀区东风东路水均岗6-8号粤电大厦
国籍:CN
代理机构:广州番禺容大专利代理事务所(普通合伙)
代理人:刘新年
更多信息请下载全文后查看。

一种有效数据清洗方法、装置、介质及终端设备[发明专利]

一种有效数据清洗方法、装置、介质及终端设备[发明专利]

专利名称:一种有效数据清洗方法、装置、介质及终端设备专利类型:发明专利
发明人:匡军姿,张雷,林洪山,苏士斌,连晓东,袁瑞军,王天省申请号:CN201911071843.X
申请日:20191105
公开号:CN111061705A
公开日:
20200424
专利内容由知识产权出版社提供
摘要:本发明公开了一种有效数据清洗方法,包括:按照预设的采集频率,实时采集船舶设备系统的运行数据;对运行数据分别进行差分对比计算得到波动差分幅度值,对波动差分幅度值不大于预设值的数据进行集合得到第一数据集,对波动差分幅度值大于预设值的数据进行集合切换得到第二数据集;对判断第二数据集中的数据产生时系统产生常规起停过渡或系统切换动作的数据进行无效数据清洗处理;对数据清洗后的数据和第一数据集的数据进行存储;本发明通过计算运行数据的波动差分幅度值,对实时数据内常规连续数据进行合并,同时对合理的过程数据进行清洗,从而提高船舶数据存储质量,进而实现提高智能船舶数据在运营中使用效率。

申请人:广州文冲船厂有限责任公司
地址:510725 广东省广州市南沙区鸡抱沙北路10号(自编2号)(自编二十一栋)
国籍:CN
代理机构:广州三环专利商标代理有限公司
代理人:颜希文
更多信息请下载全文后查看。

一种数据处理方法及装置[发明专利]

一种数据处理方法及装置[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910766203.4(22)申请日 2019.08.19(71)申请人 华为技术有限公司地址 518129 广东省深圳市龙岗区坂田华为总部办公楼(72)发明人 江伟玉 刘冰洋 王闯 (74)专利代理机构 北京中博世达专利商标代理有限公司 11274代理人 吴瑜(51)Int.Cl.H04L 29/06(2006.01)(54)发明名称一种数据处理方法及装置(57)摘要公开了一种数据处理方法及装置,涉及通信领域,解决了如何在防御DDoS攻击时,快速地区别合法流量和非法流量的问题。

该方法包括:通过为访问应用服务器支持运行的服务的终端分配可验证标识和该可验证标识对应的密钥,终端在发送的数据包中携带可验证标识和验证码,使得网络设备可以根据可验证标识和验证码对合法数据包和非法数据包进行识别,转发合法数据包。

权利要求书4页 说明书19页 附图7页CN 112398800 A 2021.02.23C N 112398800A1.一种数据处理方法,其特征在于,包括:接收第一可验证标识和第一密钥;根据所述第一可验证标识和所述第一密钥生成第一验证码;发送第一数据包,所述第一数据包包括所述第一可验证标识和所述第一验证码。

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一可验证标识和所述第一密钥生成第一验证码,包括:根据所述第一可验证标识和所述第一密钥、以及第一位置定位符、第二位置定位符和动态参数中至少一个生成所述第一验证码,所述第一位置定位符用于指示目标设备,所述第二位置定位符用于指示第一终端,所述动态参数是随时间可变的。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述目标设备的静态标识,所述目标设备的静态标识包括所述第一位置定位符。

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述第一可验证标识和所述第一验证码设置于所述第一数据包包含的网络层协议头部中或传输层协议头部中。

一种数据清洗方法及装置[发明专利]

一种数据清洗方法及装置[发明专利]

(10)申请公布号(43)申请公布日 (21)申请号 201410503126.0(22)申请日 2014.09.26G06F 17/30(2006.01)(71)申请人中国移动通信集团湖北有限公司地址430040 湖北省武汉市东西湖区金银湖路2号(72)发明人廖振松 熊胜 吴勤华 杨晶蕾冯文仲 沈力 黄艳 田纪军莫益军 曾志华(74)专利代理机构北京派特恩知识产权代理有限公司 11270代理人张颖玲 蒋雅洁(54)发明名称一种数据清洗方法及装置(57)摘要本发明公开了一种数据清洗方法,获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M 个张量字段集;利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。

本发明还同时公开了一种数据清洗装置。

(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书8页 附图2页CN 105468658 A 2016.04.06C N 105468658A1.一种数据清洗方法,其特征在于,所述方法包括:获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M 个张量字段集;其中,M为正整数;利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。

2.根据权利要求1所述方法,其特征在于,所述获取待清洗数据之后,所述方法还包括:将所述待清洗数据录入建立的数据库中,并对所述数据库进行优化,得到原始数据库。

3.根据权利要求1或2所述方法,其特征在于,所述依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段包括:获取指定时间段内所述待清洗数据的任一字段中噪声数据值出现的概率P,P=m/n;其中,m为所述指定时间段内噪声数据值出现的次数,n为所述指定时间段内数据记录的总数;时,标记所述噪声数据所属字段为待清洗字段。

一种动态阈值管理方法、系统、设备及介质[发明专利]

专利名称:一种动态阈值管理方法、系统、设备及介质专利类型:发明专利
发明人:周曦,姚志强,张竹昕,万珺,何洪路
申请号:CN202010683491.X
申请日:20200716
公开号:CN111898495A
公开日:
20201106
专利内容由知识产权出版社提供
摘要:本发明提供一种动态阈值管理方法、系统、设备及介质,所述的方法包括:通过人脸图像的相似度比对,获取比对分值分布结果;根据所述比对分值分布结果,动态调整图像处理设备或每个目标对象的比对阈值。

为了克服应用环境、应用设备以及底库质量等实际工况条件对通过率和误识率的影响,根据目标对象为本人或者非本人的比对分值分布结果的分布规律,动态地调整图像处理设备或每个目标对象的比对阈值,保障较高的通过率和较低的误识率。

申请人:云从科技集团股份有限公司
地址:511457 广东省广州市南沙区南沙街金隆路37号501房(仅限办公)
国籍:CN
代理机构:上海光华专利事务所(普通合伙)
代理人:代玲
更多信息请下载全文后查看。

一种数据清洗方法、装置及计算机可读存储介质[发明专利]

专利名称:一种数据清洗方法、装置及计算机可读存储介质专利类型:发明专利
发明人:王宏志,丁小欧,苏佳轩
申请号:CN202010016926.5
申请日:20200108
公开号:CN111241079A
公开日:
20200605
专利内容由知识产权出版社提供
摘要:本发明涉及一种数据清洗方法、装置及计算机可读存储介质;该方法包括获取结构化数据和时效约束,对所有元组建立时序图,并经传递规约后得到时效子图;基于时序子图计算每条元组的时效值;以时效性‑一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;得到清洗后的数据集。

本发明能够对数据集中同时存在的时间戳不可用、不完整属性值、不一致属性值这三种数据质量问题进行有效地识别和修复。

申请人:哈尔滨工业大学
地址:150001 黑龙江省哈尔滨市南岗区西大直街92号
国籍:CN
代理机构:北京格允知识产权代理有限公司
代理人:周娇娇
更多信息请下载全文后查看。

一种基于AOP技术的动态数据权限控制方法[发明专利]

专利名称:一种基于AOP技术的动态数据权限控制方法专利类型:发明专利
发明人:张正祥,孙勇,韩传鼎,李文涛,薛祥杰,周正超
申请号:CN201711170795.0
申请日:20171122
公开号:CN107908973A
公开日:
20180413
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于AOP技术的动态数据权限控制方法,属于大数据技术领域,包括建立客户端、控制台、数据库服务器和权限服务器,在权限服务器中建立数据权限控制策略模块和服务拦截模块,解决了现有的数据权限控制中策略配置不能动态添加生效,难以灵活响应客户需求的技术问题,将业务逻辑和数据权限控制分离,可以对数据权限控制灵活配置,从而实现了动态增加、修改或删除数据权限控制策略,而无须修改代码。

可以满足多粒度的数据权限控制需求,节约开发成本。

申请人:中国南方电网有限责任公司超高压输电公司,南京力通达电气技术有限公司
地址:510000 广东省广州市萝岗区高新技术产业开发区科学城科学大道181号商业广场A4栋5层501单元
国籍:CN
代理机构:常州佰业腾飞专利代理事务所(普通合伙)
代理人:张文杰
更多信息请下载全文后查看。

一种基于数据分析的分布式数据清洗系统及方法[发明专利]

专利名称:一种基于数据分析的分布式数据清洗系统及方法专利类型:发明专利
发明人:张伟,徐志峰
申请号:CN202010709750.1
申请日:20200722
公开号:CN111858572A
公开日:
20201030
专利内容由知识产权出版社提供
摘要:本发明涉及一种基于数据分析的分布式数据清洗系统,该基于数据分析的分布式数据清洗系统,包括多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及至少一个以上的处理单元,可操作来:提取多元异构数据库的用户模型、元数据元素以及源数据元素;选出初始元数据元素;选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取元数据集Q;对元数据集Q中的所述元数据元素进行清洗;本发明基于用户模型配合关系参数的选定能够筛选多个类别的元数据集,对于各个类别的元数据集可以选定针对的清洗规则,提高清洗速度,具有较高的灵活度和实用性,提高了数据清洗的可控性。

申请人:山东省科院易达科技咨询有限公司
地址:250000 山东省济南市中国(山东)自由贸易试验区济南片区新泺大街2008号银荷大厦B座303
国籍:CN
代理机构:江苏长德知识产权代理有限公司
代理人:周天雯
更多信息请下载全文后查看。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910103445.5
(22)申请日 2019.02.01
(71)申请人 沈阳航空航天大学
地址 110136 辽宁省沈阳市沈北新区道义
南大街37号
(72)发明人 丁国辉 孙莎莎 范纯龙 滕一平 
李胜宇 张荣博 郑志勇 许莉 
朱继召 孙昊涵 
(74)专利代理机构 沈阳维特专利商标事务所
(普通合伙) 21229
代理人 甄玉荃
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/2455(2019.01)
G06F 11/07(2006.01)
G06N 20/00(2019.01)
(54)发明名称一种基于动态规则约束的数据清洗算法(57)摘要本发明涉及数据清洗技术领域,具体而言,涉及一种以动态规则为约束的数据清洗方法。

本发明的技术方案首先要对动态规则的求解,在求解过程中,以预测窗口为预测的最小单位,采用改进的ELM算法对速度变化率进行预测,改进步骤为引入验证集的概念,使用验证集中预测结果较好的数据,替换训练集中预测结果较差的数据,并根据替换率设置误差系数θ,最后用测试集合中预测值与误差系数进行加减运算,得到的区间就是动态规则。

然后根据动态规则,以检测窗口为单位,利用异常点判断模型甄别数据点,根据异常点的类型,寻找窗口中间点满足动态规
则的最优修复方案。

权利要求书1页 说明书9页 附图4页CN 109885563 A 2019.06.14
C N 109885563
A
权 利 要 求 书1/1页CN 109885563 A
1.一种基于动态规则约束的数据清洗算法,其特征在于,包括如下步骤:(1)在线清洗技术的实现;(2)动态规则的求解;(3)异常点判断模型的建立:(4)异常点修复策略。

2.根据权利要求1所述的一种基于动态规则约束的数据清洗算法,其特征在于,所述步骤(1)在清洗过程中采用双窗口限流的策略,将整个待修复序列和待预测序列的全局最优问题分别转化为检测窗口和预测窗口的局部最优问题,从而实现在线清洗的功能。

3.根据权利要求1所述的一种基于动态规则约束的数据清洗算法,其特征在于,在数据清洗过程中,提出了一种约束条件即动态规则,所述步骤(2)采用机器学习的方法对规则进行预测;在预测过程中,使用机器学习中的极限学习机算法,并对其进行优化,运用优化后的算法对速度变化率进行预测,根据引入的误差系数θ求解动态规则。

4.根据权利要求1所述的一种基于动态规则约束的数据清洗算法,其特征在于,所述异常点判断模型为利用动态规则和最小改变原则对数据点进行判断,通过给定连续异常点的起始条件和终止条件,对异常点的类型进行甄别。

5.根据权利要求1所述的一种基于动态规则约束的数据清洗算法,其特征在于,所述异常点修复策略为根据异常点的类型,采用不同的修复策略;在针对间断异常点的修复时,遵循中值定理和最小改变原则,将最优修复方案转化成寻找中间点的问题;在针对连续异常点的修复时,若异常点位于真实数据的上方,则采用间断异常点修复算法的下边界作为修复值,若位于下方,则采用上边界作为修复值。

2。

相关文档
最新文档