【CN110083815A】一种同义变量识别方法和系统【专利】
一种相似产品可迁移样本筛选方法、系统及用途[发明专利]
![一种相似产品可迁移样本筛选方法、系统及用途[发明专利]](https://img.taocdn.com/s3/m/b40f4fdfee06eff9aff807b4.png)
专利名称:一种相似产品可迁移样本筛选方法、系统及用途专利类型:发明专利
发明人:马剑,尚芃超,邹新宇,丁宇,吕琛
申请号:CN202010888563.4
申请日:20200828
公开号:CN112051506A
公开日:
20201208
专利内容由知识产权出版社提供
摘要:本发明公开一种相似产品可迁移样本筛选方法及系统,涉及似产品迁移学习技术领域,包括预处理待测配方相似产品短期循环寿命测试数据得到目标样本数据,预处理其他配方电池全寿测试容量数据得到多个训练数据;通过进行曲线形态筛选、容量退化率相似度筛选、寿命分布相似度筛选和距离度量最小筛选,获得用于跨配方相似产品寿命预测的可迁移样本数据,本发明从不同配方电池的历史全寿测试数据中,获得与被预测电池容量退化规律相似度最高的数据,并迁移应用于被预测电池寿命预测模型的训练,实现了锂动力电池跨配方剩余寿命的准确预测,预测准确度最高可以达到99.9%,可以有效节省锂电池设计开发过程中的测试时间和费用,具有可观的经济效益和应用价值。
申请人:北京航空航天大学
地址:100191 北京市海淀区学院路37号
国籍:CN
代理机构:北京元本知识产权代理事务所(普通合伙)
代理人:秦力军
更多信息请下载全文后查看。
一种资料集的同义词识别方法及系统[发明专利]
![一种资料集的同义词识别方法及系统[发明专利]](https://img.taocdn.com/s3/m/8151d2ea03d8ce2f016623c5.png)
专利名称:一种资料集的同义词识别方法及系统专利类型:发明专利
发明人:钟伟金,李佳
申请号:CN201610772919.1
申请日:20160830
公开号:CN106339369A
公开日:
20170118
专利内容由知识产权出版社提供
摘要:本申请公开了一种资料集的同义词识别方法及系统,该方法包括:获取包括N份资料的资料集;分别提取每份资料中的所有关键词;分别确定每个关键词的所有同生词;分别计算每个关键词与该关键词所对应的同生词之间的同生值;分别确定每个关键词的高值词群;对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。
本申请中,同义词的识别过程无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果。
申请人:广东医科大学
地址:523808 广东省东莞市松山湖科技园新城大道1号广东医科大学东莞分院
国籍:CN
代理机构:北京集佳知识产权代理有限公司
代理人:罗满
更多信息请下载全文后查看。
近义词识别方法和近义词识别系统[发明专利]
![近义词识别方法和近义词识别系统[发明专利]](https://img.taocdn.com/s3/m/7091425cfd0a79563d1e723f.png)
专利名称:近义词识别方法和近义词识别系统专利类型:发明专利
发明人:杨吉雄
申请号:CN201610900127.8
申请日:20161014
公开号:CN106547732A
公开日:
20170329
专利内容由知识产权出版社提供
摘要:本发明提出了一种近义词识别方法和近义词识别系统,其中,所述近义词识别方法包括:将实体词作为关键词进行检索;处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词;将所述待定近义词作为所述关键词进行检索,并重新执行所述处理步骤,直到接收到停止迭代的信号时为止;根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。
通过本发明的技术方案,可以有效地识别出近义词,且避免花费大量的人力进行近义词的识别。
申请人:深圳中兴网信科技有限公司
地址:518057 广东省深圳市南山区高新区南区科技南路中兴通讯一期A座(中兴综合大楼厂房)三楼317房
国籍:CN
代理机构:北京友联知识产权代理事务所(普通合伙)
更多信息请下载全文后查看。
一种近义词发现方法及其系统、计算机可读存储介质[发明专利]
![一种近义词发现方法及其系统、计算机可读存储介质[发明专利]](https://img.taocdn.com/s3/m/f24a53dd67ec102de2bd89fb.png)
专利名称:一种近义词发现方法及其系统、计算机可读存储介质
专利类型:发明专利
发明人:饶竹一,张云翔
申请号:CN201910638943.X
申请日:20190716
公开号:CN110427613A
公开日:
20191108
专利内容由知识产权出版社提供
摘要:本发明为一种近义词发现方法及其系统、计算机可读存储介质,所述方法包括:获取原始语料数据,并确定原始语料数据中的待识别词汇;获取待识别词汇的词意向量;根据词意向量生成与词意向量对应的词向量数据库;将词意向量与词向量数据库中的近义词进行匹配,获取词向量数据库中与词意向量对应的多个候选近义词;将多个候选近义词分别替代原始语料数据中待识别词汇得到对应的多个二次语料数据;对原始语料数据进行语义分析得到第一语义分析结果,并对多个二次语料数据分别进行语义分析得到多个第二语义分析结果;将多个第二语义分析结果逐一与第一语义分析结果进行对比,并根据对比结果确定待识别词汇的近义词。
本发明能够提高近义词发现的精准性。
申请人:深圳供电局有限公司
地址:518000 广东省深圳市罗湖区深南东路4020号电力调度通信大楼
国籍:CN
代理机构:深圳汇智容达专利商标事务所(普通合伙)
代理人:徐文城
更多信息请下载全文后查看。
一种近义词筛选方法及系统[发明专利]
![一种近义词筛选方法及系统[发明专利]](https://img.taocdn.com/s3/m/e13d42f6f18583d0496459f7.png)
专利名称:一种近义词筛选方法及系统专利类型:发明专利
发明人:徐波
申请号:CN201710719167.7
申请日:20170821
公开号:CN107451126A
公开日:
20171208
专利内容由知识产权出版社提供
摘要:本发明提供一种近义词筛选方法,包括以下步骤:训练大语料词语的词向量;挖掘大语料词语的近义词,具体包括:获取候选近义词集合;更新近义词相似度;筛选获得近义词列表。
相比于现有技术,本发明的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。
将本发明应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。
申请人:广州多益网络股份有限公司,多益网络有限公司,广东利为网络科技有限公司
地址:510530 广东省广州市萝岗区伴河路90号1号楼
国籍:CN
代理机构:广州骏思知识产权代理有限公司
代理人:吴静芝
更多信息请下载全文后查看。
一种中文同指事件识别方法及系统[发明专利]
![一种中文同指事件识别方法及系统[发明专利]](https://img.taocdn.com/s3/m/a11fb0eb844769eae109edb1.png)
专利名称:一种中文同指事件识别方法及系统专利类型:发明专利
发明人:李培峰,朱巧明,周国栋,朱晓旭
申请号:CN201510726584.5
申请日:20151030
公开号:CN105302794A
公开日:
20160203
专利内容由知识产权出版社提供
摘要:一种中文同指事件识别方法及系统,所述方法包括:对同指标注文本和测试文本中每个包含事件的句子进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。
根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。
对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。
如此,提高了同指事件识别的性能。
申请人:苏州大学
地址:215123 江苏省苏州市工业园区仁爱路199号
国籍:CN
代理机构:北京集佳知识产权代理有限公司
代理人:常亮
更多信息请下载全文后查看。
一种提供统一身份识别的方法和系统[发明专利]
专利名称:一种提供统一身份识别的方法和系统专利类型:发明专利
发明人:杨玉奇
申请号:CN201610293452.2
申请日:20160505
公开号:CN105975831A
公开日:
20160928
专利内容由知识产权出版社提供
摘要:本申请公开了一种提供统一身份识别的方法和系统,其中所述方法包括:在移动终端中建立一个系统统一身份识别服务;将每一类身份识别方法按PAM接口在系统中分别提供PAM需要的对接库;为每一类身份识别方法建立独立的PAM配置文件;由所述系统统一身份识别服务对上层应用暴露调用接口;响应于上层应用调用所述接口,由所述系统统一身份识别服务弹出相应的身份识别界面;响应于采集到相应识别数据,所述系统统一身份识别服务调用相应的PAM服务完成身份信息识别;响应于获得身份信息识别结果,计算最终识别结果并将最终识别结果返回给调用者。
本发明方法或系统能为各类身份识别模块提供统一的整合接口,维护系统的安全性,并提高应用质量。
申请人:北京元心科技有限公司
地址:100176 北京市大兴区北京经济技术开发区科创十四街99号33幢D栋2222号
国籍:CN
代理机构:北京金阙华进专利事务所(普通合伙)
代理人:陈建春
更多信息请下载全文后查看。
一种识别同义诊断名称的方法、装置、设备及存储介质[发明专利]
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010553565.8(22)申请日 2020.06.17(71)申请人 安徽科大讯飞医疗信息技术有限公司地址 230088 安徽省合肥市高新区望江西路666号A5楼18层(72)发明人 汪雪松 干萌 鹿晓亮 贺志阳 赵景鹤 (74)专利代理机构 北京集佳知识产权代理有限公司 11227代理人 李晓光(51)Int.Cl.G16H 50/70(2018.01)G06F 40/247(2020.01)G06F 40/284(2020.01)G06F 40/30(2020.01)(54)发明名称一种识别同义诊断名称的方法、装置、设备及存储介质(57)摘要本申请提出一种识别同义诊断名称的方法、装置、设备及存储介质,该方法包括:从病历集合中提取得到患者病历序列;其中,每个患者病历序列由同一患者的病历构成;每个患者病历序列中的诊断名称为非目标诊断名称的病历,与其中的任一诊断名称为目标诊断名称的病历的症状词相同,并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值;对于各个患者病历序列中的每个非目标诊断名称,至少根据该非目标诊断名称对应的数量参数,判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称。
上述方法能够实现从病历集合中,自动识别出与目标诊断名称同义的诊断名称。
权利要求书4页 说明书23页 附图2页CN 111710431 A 2020.09.25C N 111710431A1.一种识别同义诊断名称的方法,其特征在于,包括:从病历集合中提取得到患者病历序列;其中,每个患者病历序列由同一患者的病历构成;每个患者病历序列中的诊断名称为非目标诊断名称的病历,与其中的任一诊断名称为目标诊断名称的病历的症状词相同,并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值;对于各个患者病历序列中的每个非目标诊断名称,至少根据该非目标诊断名称对应的数量参数,判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称;其中,所述数量参数,是反映不同病历的诊断名称之间的语义关系的参数信息,其至少包括与所述非目标诊断名称对应的病历和/或患者病历序列的数量、和/或与所述非目标诊断名称对应的患者病历序列中的诊断名称种类的数量。
【CN110083743A】一种基于统一采样的快速相似数据检测方法【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910243356.0(22)申请日 2019.03.28(71)申请人 哈尔滨工业大学(深圳)地址 518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区(72)发明人 夏文 王轩 (74)专利代理机构 深圳市添源知识产权代理事务所(普通合伙) 44451代理人 罗志伟(51)Int.Cl.G06F 16/901(2019.01)G06F 16/903(2019.01)(54)发明名称一种基于统一采样的快速相似数据检测方法(57)摘要本发明提供了一种基于统一采样的快速相似数据检测方法,包括以下步骤:A、基于滑动窗口算法快速计算哈希集合;B、对计算得出的哈希集合进行快速统一采样;C基于采样后的哈希集合,再提取相似性特征值和超级特征值用于相似性匹配查找。
本发明的有益效果是:在保持原有的相似性检测效率的前提下,通过快速滑动哈希计算,以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量,从而简化了后面的提取特征值和超级特征值的计算,最终大幅度提升相似数据检测速度,以实现面向大规模存储系统的快速高效的相似数据检测效果。
权利要求书2页 说明书5页 附图2页CN 110083743 A 2019.08.02C N 110083743A1.一种基于统一采样的快速相似数据检测方法,其特征在于,包括以下步骤:A、基于滑动窗口算法快速计算哈希集合;B、对计算得出的哈希集合进行快速统一采样。
2.根据权利要求1所述的基于统一采样的快速相似数据检测方法,其特征在于,在步骤B后,进行以下过程:基于采样后的哈希集合,再提取特征值和超级特征值用于相似性匹配查找。
3.根据权利要求1所述的基于统一采样的快速相似数据检测方法,其特征在于,还包括以下步骤:C、对采样后的哈希集合,进行M次线性变换,获得M个新的集合,并基于计算最大值原则,每个集合提取出一个特征值;D、对特征值进行超级特征值打包,并向已经存在的超级特征值索引库里面进行查找匹配;E、如果有一个超级特征值匹配,则认为数据块相似,进一步差量压缩编码处理以及存储;对于未匹配的数据块,则将相应的数据块存入存储系统,同时将对应的超级特征值写入超级特征值索引库。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910373824.6
(22)申请日 2019.05.07
(71)申请人 中冶赛迪重庆信息技术有限公司
地址 401122 重庆市北部新区汇金路11号1
幢
(72)发明人 祝捷
(74)专利代理机构 上海光华专利事务所(普通
合伙) 31219
代理人 尹丽云
(51)Int.Cl.
G06F 17/24(2006.01)
G06K 9/62(2006.01)
(54)发明名称
一种同义变量识别方法和系统
(57)摘要
本发明提出一种同义变量识别方法包括:获
取所有表格,提取表格中每个变量的特征;在获
取的表格中选取一个表格作为模板,将其他表格
中变量名与模板中变量名进行匹配,根据匹配结
果记录与模板变量名不匹配的变量的位置信息;
根据所述不匹配变量的特征和位置信息得到相
关性矩阵;根据所述相关性矩阵计算距离矩阵,
对所述距离矩阵进行聚类,获取聚类结果;计算
所述聚类结果对应的变量间的相似度和可靠度,
判断对应的不匹配的变量是否为同义变量;本发
明能快速识别同义变量,
识别准确度和效率高。
权利要求书2页 说明书7页 附图1页CN 110083815 A 2019.08.02
C N 110083815
A
权 利 要 求 书1/2页CN 110083815 A
1.一种同义变量识别方法,其特征在于,包括:
获取所有表格,提取表格中每个变量的特征;
在获取的表格中选取一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配,根据匹配结果记录与模板变量名不匹配的变量的位置信息;
根据所述不匹配变量的特征和位置信息得到相关性矩阵;
根据所述相关性矩阵计算距离矩阵,对所述距离矩阵进行聚类,获取聚类结果;
计算所述聚类结果对应的变量间的相似度和可靠度,判断对应的不匹配的变量是否为同义变量。
2.根据权利要求1所述同义变量识别方法,其特征在于,所述变量的特征包括:变量名、变量数据缺失率、变量在所有表格中出现次数与总表格数的占比、变量类型、连续型变量的描述性特征和离散型变量的非空值比例;所述变量类型以单个变量去重后的数据量为依据划分为离散型变量和连续型变量,所述离散型变量包括短分类变量和长分类变量。
3.根据权利要求1所述同义变量识别方法,其特征在于,进行变量名匹配至少包括以下步骤:
选出变量名最多的表格作为模板,并对模板中的变量名进行编号;
对所有表格中的变量名进行预处理;
将其他表格的变量名与所述模板中的变量名进行匹配,若变量名匹配,则以模板变量名对应的编号作为其他表格的对应变量名的编号;若变量名不匹配,则以预设值作为不匹配的变量名的编号。
4.根据权利要求1所述同义变量识别方法,其特征在于,当变量名不匹配占比达到设定第一阈值且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配度达到设定第二阈值时,进行二次匹配;所述二次匹配采用模糊匹配,在不重复匹配的情况下,所述变量名的模糊匹配度达到设定的第三阈值则判定用于匹配的变量为同义变量;所述第三阈值大于所述第二阈值。
5.根据权利要求1所述同义变量识别方法,其特征在于,所述不匹配变量的位置信息确定步骤至少包括:
提取与所述不匹配变量邻近的多个变量的编号;
当提取的邻近变量数量相对所述不匹配变量不对称时,不足数量的邻近变量位置以设定编号补足;
当邻近变量为不匹配变量时,则以对应模板处的编号替换所述不匹配变量的编号;
以邻近变量编号确定不匹配变量位置。
6.根据权利要求1所述同义变量识别方法,其特征在于,所述计算距离矩阵之前至少包括以下步骤:
根据不匹配变量的特征计算得到特征相关性矩阵;
根据不匹配变量的位置信息计算得到位置相关性矩阵;
计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵;
根据所述差异信息熵与综合信息熵的比值设置权重;
将特征相关性矩阵和位置相关性矩阵结合权重,进行加权求和得到总相关性矩阵。
7.根据权利要求6所述同义变量识别方法,其特征在于,得到总相关性矩阵用于计算距
2。