【CN110134781A】一种金融文本摘要自动抽取方法【专利】
一种基于算法的文本摘要自动提取方法与系统[发明专利]
![一种基于算法的文本摘要自动提取方法与系统[发明专利]](https://img.taocdn.com/s3/m/eb46773250e2524de4187e44.png)
专利名称:一种基于算法的文本摘要自动提取方法与系统专利类型:发明专利
发明人:余珊珊,苏锦钿,连俊玮
申请号:CN201710314598.5
申请日:20170506
公开号:CN107133213A
公开日:
20170905
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于算法的文本摘要自动提取方法,涉及文本提取的技术领域,包含有以下步骤:S1、对文本进行预处理;S2、对文本进行特征提取;S3、采用现有的相似度计算方法对句子间的相似度进行计算,计算过程中进行加权处理;S4、以文本中的各句子为节点、以句子间的相似关系为边、以相似度为边的权值构造无向加权TextRank网络图;通过迭代计算至收敛,得到包含权重值的各个节点;S5、根据对应于各个节点的句子的权重值、文本的篇章结构及句子的位置信息选择核心句子,核心句子排序后作为提取结果进行输出。
本发明还公开了摘要提取系统。
本发明有利于提高文本摘要自动提取的准确率。
申请人:广东药科大学
地址:510006 广东省广州市大学城外环东路280号
国籍:CN
代理机构:广州胜沃园专利代理有限公司
代理人:张帅
更多信息请下载全文后查看。
一种自动收集数据的方法、装置、介质、设备及系统[发明专利]
![一种自动收集数据的方法、装置、介质、设备及系统[发明专利]](https://img.taocdn.com/s3/m/39fcb8290508763230121237.png)
专利名称:一种自动收集数据的方法、装置、介质、设备及系统
专利类型:发明专利
发明人:俞松,宫崎那彦
申请号:CN201810436293.6
申请日:20180509
公开号:CN110471888A
公开日:
20191119
专利内容由知识产权出版社提供
摘要:本发明公开了一种自动收集数据的方法,包括:基于数据源文件生成字典,数据源文件包括多个字段名以及各字段名对应的数据,字典的每个元素包括字段名、字段名的拼音首字母以及字段名在数据源文件中的地址;接收目标字段名;在字典中查找目标字段名以及目标字段名在数据源文件中的地址;根据目标字段名的地址从数据源文件收集目标字段名及目标字段名对应的数据。
本发明通过查找字典可以快速地从数据源文件中收集数据,此外,字典的建立以及字段对象的查找和收集都是自动进行的,不需要人工的参与,因此本发明能够极大地提高数据收集的效率。
本发明还公开了一种自动收集数据的装置、介质、设备及系统。
申请人:株式会社日立制作所
地址:日本国东京都千代田区丸之内一丁目6番6号
国籍:JP
代理机构:上海华诚知识产权代理有限公司
代理人:肖华
更多信息请下载全文后查看。
抽取式文本摘要生成方法、装置、设备及存储介质与流程

抽取式文本摘要生成方法、装置、设备及存储介质与流程随着互联网的进展,越来越多的信息被广泛传播和共享,这让我们面临着一个众所周知的挑战,即信息的过载。
当我们需要处理大量的信息时,有时很难快速且精准地了解整个信息内容。
为了应对这一技术挑战,抽取式文本摘要技术被广泛进展和应用。
本文将介绍一种抽取式文本摘要生成方法、装置、设备及存储介质与流程。
一、概述抽取式文本摘要(Extractive Text Summarization)是一种通过分析文本内容,从原始文本中抽出最紧要的信息构成摘要的技术。
相比于摘要内容的生成,抽取式技术更加精准和牢靠,由于生成的摘要内容是从原始文本中抽取的,不会显现误差和不精准的情况。
本文重要叙述的是抽取式文本摘要的生成方法以及相关的装置、设备和存储介质。
二、抽取式文本摘要的生成方法1、文本预处理首先,将文本依照句子进行划分,并对每个句子进行预处理,包括词性标注、命名实体识别、句法分析等处理。
2、词频统计进行词频统计,统计每个词在文本中显现的次数,并计算每个句子中的紧要性得分。
紧要性得分重要包括词频得分、位置得分、标题得分等。
3、句子排序将每个句子的紧要性得分进行排序,选取得分最高的前n个句子作为生成的文本摘要。
其中,n可以依据需求和文本长度进行调整。
三、装置和设备为了实现抽取式文本摘要的自动化生成和优化成果,需要结合传统的算法和新兴的数据分析技术,设计一种高效的装置和设备。
1、预处理器预处理器重要负责对原始文本进行分词、词性标注、命名实体识别等等处理。
预处理器包括:语言模块(该模块负责文本的预处理任务,包括对文本的拆分、去除停用词、命名实体识别、情感分析等),自然语言处理模块、推举处理模块等。
2、摘要生成器摘要生成器就是整个系统中的核心部分,重要由若干个子系统构成。
每个子系统都有其特定的运行程序和算法,重要包括:(1)句子紧要度计算模块。
(2)句子过滤模块。
(3)句子排序模块。
3、可视化输出模块为了便利用户观看和使用抽取式文本摘要生成的结果,需要使用一个可视化模块进行呈现。
【CN110008313A】一种抽取式无监督文本摘要方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910289008.7(22)申请日 2019.04.11(71)申请人 重庆华龙网海数科技有限公司地址 401121 重庆市渝北区青枫北路18号7-1(72)发明人 周航成 (74)专利代理机构 北京劲创知识产权代理事务所(普通合伙) 11589代理人 陆滢炎(51)Int.Cl.G06F 16/33(2019.01)G06F 16/34(2019.01)(54)发明名称一种抽取式无监督文本摘要方法(57)摘要本发明公开了一种抽取式无监督文本摘要方法,步骤如下:S1、将文本分割成若干组成单元(单词、句子)并建立图模型;S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;其中,建立模型和确定权重的的流程为:S201、预处理;S202、构建图G=(V ,E),其中V为句子集,对句子进行分词、去除停止词,得S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子。
本发明能够压缩文本信息冗余度,减少存储资源;增加了用户阅读信息的有效性,缩短文本阅读时间;能够根据外部数据进行权重以及权重库的调整,增加了很强的时效性;提高了效率,降低了运行成本。
权利要求书1页 说明书5页CN 110008313 A 2019.07.12C N 110008313A1.一种抽取式无监督文本摘要方法,其特征在于,步骤如下:S1、将文本分割成若干组成单元(单词、句子)并建立图模型;S2、利用投票机制对文本中的重要成分进行排序;其中,建立模型和确定权重的的流程为:S201、预处理:将输入的文本或文本集的内容分割成句子得T=[S 1,S 2,…,S m ];S202、构建图G=(V ,E),其中V为句子集,对句子进行分词、去除停止词,得S i =[t i,1,t i,2,…,t i,n ];其中,t i,j ∈S j 为保留后的候选关键词;S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:S i ,S j ;采用公式进行计算;S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;S3、根据公式,迭代传播权重计算各句子的得分;S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;其中,步骤S202中,t i,j ∈S j 为保留后的候选关键词;候选关键词的权重以及权重库为实时动态更新;更新步骤为:S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;S503、完成步骤S5中的权重以及权重库的实时动态更新。
一种基于开放式信息抽取的文本关系自动标注方法[发明专利]
![一种基于开放式信息抽取的文本关系自动标注方法[发明专利]](https://img.taocdn.com/s3/m/077e52c9af45b307e87197fb.png)
专利名称:一种基于开放式信息抽取的文本关系自动标注方法专利类型:发明专利
发明人:闵飞,胡岩峰,沈红,乔雪,彭晨,刘午凌,罗晋
申请号:CN202011366103.1
申请日:20201129
公开号:CN112417891A
公开日:
20210226
专利内容由知识产权出版社提供
摘要:本发明提出了一种基于开放式信息抽取的文本关系自动标注方法,获取结构化知识数据库,根据数据库确定目标实体并进行对应的非结构化文本信息的获取与预处理;基于开放式信息抽取工具完成句子的实体关系三元组提取;将三元组对齐到数据库中进行初步的关系标签匹配;对关系标签和关系短语进行语义相似度的计算,并筛选出相似度最高的关系标签;判断选取的关系标签的相似度大小是否达到设定的阈值,达到阈值则作为标注结果,完成自动标注。
本发明减少了关系抽取工作中人工标注数据耗费的时间和提高了自动标注的数据质量,为不同领域的关系抽取模型构建所需的数据集提供了新的方向。
申请人:中国科学院电子学研究所苏州研究院
地址:215000 江苏省苏州市苏州工业园区独墅湖大道158
国籍:CN
代理机构:南京理工大学专利中心
代理人:封睿
更多信息请下载全文后查看。
一种基于文本的金融数据抽取方法、装置和电子设备[发明专利]
![一种基于文本的金融数据抽取方法、装置和电子设备[发明专利]](https://img.taocdn.com/s3/m/18d5c62a4028915f814dc2dd.png)
专利名称:一种基于文本的金融数据抽取方法、装置和电子设备
专利类型:发明专利
发明人:高飞龙,王安滨,常富洋
申请号:CN201910578883.7
申请日:20190628
公开号:CN110362825A
公开日:
20191022
专利内容由知识产权出版社提供
摘要:本发明提出一种基于文本的金融数据抽取方法、装置和电子设备,所述方法包括如下步骤:获取与用户的金融服务请求的关联文本;通过用户交互界面接收用户关于文本抽取规则的指令;按照所述文本抽取规则从该与用户的金融服务请求的关联文本抽取用户的关联金融数据;通过所述用户交互界面展示所述关联文本及对该关联文本进行文本抽取后得到的文本。
自动获取关联文本及对该关联文本进行文本抽取后得到的文本,因此使得风险控制的操作非常简单。
申请人:北京淇瑀信息科技有限公司
地址:100012 北京市朝阳区双营路11号院3号楼2层4单元207
国籍:CN
代理机构:北京清诚知识产权代理有限公司
代理人:乔东峰
更多信息请下载全文后查看。
关键词抽取方法、装置、终端设备及存储介质[发明专利]
![关键词抽取方法、装置、终端设备及存储介质[发明专利]](https://img.taocdn.com/s3/m/abb53edf376baf1ffd4fad64.png)
专利名称:关键词抽取方法、装置、终端设备及存储介质专利类型:发明专利
发明人:饶刚
申请号:CN202011229490.4
申请日:20201106
公开号:CN112347778A
公开日:
20210209
专利内容由知识产权出版社提供
摘要:本申请适用于人工智能技术领域,提供了一种关键词抽取方法、装置、终端设备及存储介质,其中,方法包括:获取目标文章中的多个分词;根据预设的关键词库,从所述多个分词中确定多个候选关键词;根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词。
采用上述方法从目标文章中提取目标关键词,可以保证提取的目标关键词均属于与目标文章关联度高的高质量词汇。
申请人:平安科技(深圳)有限公司
地址:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
国籍:CN
代理机构:深圳中一联合知识产权代理有限公司
代理人:任敏
更多信息请下载全文后查看。
一种自动化数据功能项抽取的方法[发明专利]
![一种自动化数据功能项抽取的方法[发明专利]](https://img.taocdn.com/s3/m/3ed5305cfd0a79563c1e72fb.png)
专利名称:一种自动化数据功能项抽取的方法专利类型:发明专利
发明人:李明阳,石琳,王青
申请号:CN202010412410.2
申请日:20200515
公开号:CN111797612A
公开日:
20201020
专利内容由知识产权出版社提供
摘要:本发明提出一种自动化数据功能项抽取的方法,将需求文本根据标点符号划分为句子,抽取句子中每个单词的上下文特征;给句子中的每一个单词打上标签,作为标注数据;使用标注数据训练初始的CRF模型,迭代地使用该CRF模型预测未标注的数据,从中选取置信度高于置信度阈值的样本来扩充训练集合;使用扩后后的训练集合重新训练CRF模型,最终得到候选功能项集合;使用历史功能项训练面向功能项的语言模型;使用训练好的面向功能项的语言模型对候选功能项集合进行过滤,抽取符合的功能项。
本方法从需求描述中进行数据功能项的自动化抽取,提高抽取的精度,代替人力抽取功能项,并降低抽取的成本。
申请人:中国科学院软件研究所
地址:100190 北京市海淀区中关村南四街4号
国籍:CN
代理机构:北京君尚知识产权代理有限公司
代理人:陈艳
更多信息请下载全文后查看。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910281459.6
(22)申请日 2019.04.09
(71)申请人 国金涌富资产管理有限公司
地址 201304 上海市浦东新区书院镇船山
街148号138室
(72)发明人 蔡青林
(74)专利代理机构 杭州求是专利事务所有限公
司 33200
代理人 刘静 邱启旺
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 17/27(2006.01)
(54)发明名称
一种金融文本摘要自动抽取方法
(57)摘要
本发明公开了一种金融文本摘要自动抽取
方法,首先利用TF_ISF方法抽取语句关键词属
性,然后抽取语句的情感属性以及计算语句的主
题相关性,通过加权打分评价语句在情感摘要的
重要程度,最后根据相似性度量方法过滤摘要语
句候选集,生成最终的情感摘要。
本发明可自动
抽取金融文本的情感摘要,在智能投顾等金融科
技领域具有较大的应用价值,如自动抽取和汇总
海量研报数据中蕴含的金融机构分析师观点,对
大类资产配置具有重要的指导作用。
权利要求书2页 说明书4页 附图1页CN 110134781 A 2019.08.16
C N 110134781
A
1.一种金融文本摘要自动抽取方法,其特征在于,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取金融文本语料库的每个文本d i;
(1.2)读取停用词典,删除文本d i中所有停用词;
(1.3)读取金融词汇本体,对d i内容的每个句子分词,生成分词语句,对d i的标题分词,生成分词标题;
(2)情感关键句抽取,具体包括以下子步骤:
(2.1)对于每个词汇w i,依次统计文本d i中包含w i的语句数目;
(2.2)依次计算d i中每个语句s i的关键词属性分值key(s i);
(2.3)读取情感词典,依次匹配语句s i中的每个情感词,获得其情感倾向性和情感强度值,计算s i的情感属性分值sent(s i);
(2.4)读取同义词典,依次计算语句s i与标题t的相同词数目和同义词数目,计算语句s i 的主题相关度分值corr(s i,t);
(2.5)根据语句s i的关键词属性分值key(s i)、情感属性分值sent(s i)、主题相关度分值corr(s i,t)计算s i的情感打分score(s i);
(3)自动摘要抽取,具体包括以下子步骤:
(3.1)根据情感打分将d i的所有语句从高到低排序,抽取前K个语句组合为候选摘要cand_abs;
(3.2)计算cand_abs中每两个语句的相似度,若大于阈值,则将情感分值较低的语句从cand_abs删除;
(3.3)将cand_abs的剩余语句按照在原始文本d i中出现的先后顺序排序,生成最终摘要cand并输出。
2.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.2包括以下子步骤:
(2.2.1)依次统计每个词汇w i在s i的词频,计算w i的TF-ISF分值,并计算语句s i的TF-ISF 累积分值TFISF(s i);
(2.2.2)读取指示性词语表,统计语句s i中所有指示性词语数目ind(s i),计算语句s i的关键词属性分值key(s i)=TFISF(s i)·ind(s i)。
3.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.3中,
s i
的情感属性分值其中ori(ew i,k)为语句s i中第k个情
感词的情感倾向性,cont(ew i,k)为语句s i中第k个情感词的情感强度值,n为语句s i中的情感词数目。
4.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.4中,
语句s i
的主题相关度分值其中sam(s i,t)为语句s i与标题t的
相同词数目,syn(s i,t)为语句s i与标题t的同义词数目。
5.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.5中,语句s i的情感打分score(s i)=key(s i)·sent(s i)·corr(s i,t)。
权 利 要 求 书1/2页
2
CN 110134781 A。