【CN110059311A】一种面向司法文本数据的关键词提取方法及系统【专利】

合集下载

【CN110059301A】数据处理方法、装置、电子设备和计算机可读存储介质【专利】

【CN110059301A】数据处理方法、装置、电子设备和计算机可读存储介质【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910187457.0(22)申请日 2019.03.12(71)申请人 北京字节跳动网络技术有限公司地址 100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人 贾立 (74)专利代理机构 北京竹辰知识产权代理事务所(普通合伙) 11706代理人 陈龙(51)Int.Cl.G06F 17/22(2006.01)G06Q 10/10(2012.01)(54)发明名称数据处理方法、装置、电子设备和计算机可读存储介质(57)摘要本公开公开了一种数据处理方法、装置、电子设备和计算机可读存储介质。

其中所述数据处理方法包括:确定第一数据项目的依赖路径所经过的数据项目;根据所述依赖路径所经过的数据项目的计算规则计算所述第一数据项目。

在本公开实施例提供的数据处理方法、装置、电子设备和计算机可读存储介质中,当需要计算第一数据项目时,根据数据项目间的依赖关系可以确定第一数据项目的依赖路径所经过的数据项目,进而根据所述依赖路径所经过的数据项目的计算规则自动并且高效地计算所述第一数据项目。

权利要求书1页 说明书8页 附图2页CN 110059301 A 2019.07.26C N 110059301A权 利 要 求 书1/1页CN 110059301 A1.一种数据处理方法,其特征在于,包括:确定第一数据项目的依赖路径所经过的数据项目;根据所述依赖路径所经过的数据项目的计算规则计算所述第一数据项目。

2.根据权利要求1所述的数据处理方法,其特征在于,所述第一数据项目的依赖路径所经过的数据项目包括所述第一数据项目,所述第一数据项目直接依赖的数据项目,和所述第一数据项目间接依赖的数据项目。

3.根据权利要求1所述的数据处理方法,其特征在于,所述计算规则包括:从数据源读取,赋值,和/或赋予计算公式。

【CN109947894A】一种文本标签提取系统【专利】

【CN109947894A】一种文本标签提取系统【专利】

附图说明 [0028] 构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实 施方式及其说明用于解释本申请。在附图中: [0029] 图1为本申请实施例提供的文本标签提取系统示意图; [0030] 图2为本申请实施例提供的由词语构成的无向图示例; [0031] 图3为本申请实施例提供的编码器-解码器模型示意图; [0032] 图4为本申请实施例的基于注意力机制的编码器-解码器模型示意图。
[0041]
[0042] 在(1)式中,S表示的是PageRank分数矩阵, 代表的是无向图的邻接矩阵,S(t+1) 为t+1时刻的分数矩阵,由邻接矩阵 和t时刻分数矩阵相乘得到。 [0043] 其中邻接矩阵 在计算前需要进行归一化操作,矩阵中的值 如下进行计算。 mij表示的是无向图中第j个节点对第i个节点的权重 ,V代表的是无向图 ,|V|代表的是节点 数量,进行归一化得到的就是
p1+p2+…+p|v|代表的是所
有词语的 总得分 ,然后 用p1除以 总得分就能得到第一个 词语在所有词语中占 的比 重 ,最后 得到位置偏量 [0050] 综合上述公式(1)和(2),可以得到如下的公式:
5
CN 109947894 A
说 明 书
4/5 页
[0051]
[0052]
标识的是vi节点的PositionRank分值,α是阻 尼因子, 为vi的位置偏量。
[0016]
[0017] 其中,St-1为这一层的输入,yt-1为上一层的输出,Ct为编码器模型的输出,即为经 过编码器得到的语义编码,yt为当前层的输出,St为当前层的输入,g( )为SoftMax函数,得 到在yt-1 ,yt-2 ,… ,y1 ,Ct的语序情形下下一个输出为yt的概率。 [0018] 优选地,所述解码器模型使用注意力机制。 [0019] 优选地,所述解码模型将接收的编码模型的输出按照下式计算:

【CN110059179A】一种基于深度学习的歌曲文本命名实体识别方法【专利】

【CN110059179A】一种基于深度学习的歌曲文本命名实体识别方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910168707.6(22)申请日 2019.03.06(71)申请人 西安理工大学地址 710048 陕西省西安市金花南路5号(72)发明人 孟海宁 石月开 朱磊 王一川 黑新宏 姬文江 陈毅 姚燕妮 方潇颖 (74)专利代理机构 西安弘理专利事务所 61214代理人 谈耀文(51)Int.Cl.G06F 16/35(2019.01)G06F 16/31(2019.01)G06F 17/27(2006.01)(54)发明名称一种基于深度学习的歌曲文本命名实体识别方法(57)摘要本发明公开了一种基于深度学习的歌曲文本命名实体识别方法,利用Bi -LSTM -CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典,同时实现主动学习并对歌者词典进行自动更新,最后依据更新的词库反复训练模型提高其识别的准确率,将深度学习的方法应用到音乐领域,当输入一段文本时能够对文本中的歌者信息进行提取,同时采用了机器学习中自学习模式对提取的信息在词典中进行查找,实现动态地对词典进行更新,提出了一种训练准确率更高的模型。

权利要求书2页 说明书7页 附图3页CN 110059179 A 2019.07.26C N 110059179A1.一种基于深度学习的歌曲文本命名实体识别方法,其特征在于,具体操作步骤如下:步骤1,使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取,生成歌者词典并用MySQL进行存储;步骤2,获取歌者信息的相关语料,并将其分为歌者训练集及歌者测试集,其中歌者训练集是用来训练生成歌者信息识别模型,歌者测试集用来更新歌者词典;步骤3,对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注;步骤4,使用Bi-LSTM-CRF算法对步骤3中带标注的歌者训练集进行训练,生成歌者信息识别模型,该模型可以实现对音乐领域中的歌者信息进行提取;步骤5,对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息,识别模型将实现对语料中的歌者信息进行提取;步骤6,对步骤5中识别模型提取的歌手、歌曲、专辑等信息按序分类整合,实现对数据的融合,得到歌者信息识别的初步结果;步骤7,对步骤6中得到的歌者信息识别的初步结果信息保存到文件1.txt中;步骤8,获取步骤7中的文件1.txt,将文件中的歌者信息与歌者词典中的歌者信息进行比较,检测判断是否出现歌者词典中未记载的歌者信息,如果出现未记载的信息,则保存成为3.txt;若识别出的信息在歌者词典中存在,则保存成为2.txt;步骤9,对步骤8中3.txt文件中的未记载信息进行自动化检验判断,获取正确的歌者信息并将其存储到4.txt文件中;步骤10,对步骤8中识别出的且歌者词典中存在的信息2.txt与步骤9中歌者词典中不存在但是正确的歌者信息4.txt进行数据的融合,形成在步骤5输入语料中含有歌者相关信息的文本文件5.txt,并将其作为输出结果显示出来;步骤11,对步骤9中4.txt文件中的歌者信息使用DICDIFF算法对歌者词典进行更新;步骤12,定期重复步骤3、4,重新训练模型,提高歌者信息识别准确率。

【CN109918657A】一种从文本中提取目标关键词的方法【专利】

【CN109918657A】一种从文本中提取目标关键词的方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910152460.9(22)申请日 2019.02.28(71)申请人 云孚科技(北京)有限公司地址 100085 北京市海淀区上地五街7号一层101A室(72)发明人 曾俊瑀 张文斌 贾显伏 乔咏田 李德方 (74)专利代理机构 北京世誉鑫诚专利代理事务所(普通合伙) 11368代理人 孙国栋(51)Int.Cl.G06F 17/27(2006.01)G06F 16/35(2019.01)(54)发明名称一种从文本中提取目标关键词的方法(57)摘要本发明公开的文本中提取目标关键词的方法,涉及数据挖掘技术领域,利用基于统计学的规则分句技术,将文本分割为多个分句,利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系,选取标注为名词的词句,生成第一候选关键词集合,分别计算第二候选关键词集合中各个词句在文本中的覆盖率,并根据综合分计算公式,计算第二候选关键词集合中各个词句的综合分数,根据K -means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据距离的大小,分别选择与K个词向量距离最近的词向量,得到K个目标关键词,提高了目标关键词提取的准确率及效率。

权利要求书1页 说明书5页 附图1页CN 109918657 A 2019.06.21C N 109918657A权 利 要 求 书1/1页CN 109918657 A1.一种从文本中提取目标关键词的方法,其特征在于,包括:Step1、利用基于统计学的规则分句技术,将文本分割为多个分句;Step2、利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系;Step3、选取标注为名词的词句,生成第一候选关键词集合并根据所述句法依存关系设置所述候选关键词集合中各个词句的关联度,将所述各个词句当前关联度的值及与所述各个词句存在句法依存关系的词句当前关联度的值分别加一,其中,各个词句的关联度的初始值为零;Step4、从所述第一候选关键词集合中选择关联度的值不为零的词句,生成第二候选关键词集合;Step5、根据TF-IDF算法,分别计算所述第二候选关键词集合中各个词句的TF-IDF值;根据覆盖率计算公式F=a÷n×l,分别计算所述第二候选关键词集合中各个词句在文本中的覆盖率,根据训练过的评估实体质量模型,分别计算所述第二候选关键词集合中各个词句的实体质量分数P;其中,a为各个词句所在分句的权值的和,n为文本中词句的总个数,l 为所述第二候选关键词集合中各个词句首次出现的位置及末次出现的位置之间的距离,TF-IDF值等于词句的TF值与IDF值的乘积;Step6、分别为所述TF-IDF值、所述覆盖率、所述评估实体质量模型及所述关联度设置相应的权值,并根据综合分计算公式,计算所述第二候选关键词集合中各个词句的综合分数,选择综合分数大于设定阈值的词句,生成第三候选关键词集合;Step7、利用Word2Vec模型,将所述第三候选关键词集合中各个的词句转化为词向量,根据K-means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据所述距离的大小,分别选择与所述K个词向量距离最近的词向量,得到K个目标关键词。

【CN110096573A】一种文本解析方法及相关设备【专利】

【CN110096573A】一种文本解析方法及相关设备【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910333278.3(22)申请日 2019.04.22(71)申请人 腾讯科技(深圳)有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人 谢若冰 鲁亚楠 林芬 (74)专利代理机构 广州三环专利商标代理有限公司 44202代理人 郝传鑫 熊永强(51)Int.Cl.G06F 16/33(2019.01)G06F 16/36(2019.01)G06F 17/27(2006.01)(54)发明名称一种文本解析方法及相关设备(57)摘要本发明实施例公开了一种文本解析方法及相关设备,包括:首先当检测到目标文本时,确定目标文本的主题类型;接着根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,该目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系;然后根据目标知识图谱,确定目标文本中的M个文本片段、以及M个文本片段之间的上下文关系;最后根据M个文本片段之间的上下文关系,确定目标文本的语义。

采用本发明实施例,可以提高文本语义解析的精确性,从而提高文本匹配效率和准确度。

权利要求书3页 说明书20页 附图4页CN 110096573 A 2019.08.06C N 110096573A权 利 要 求 书1/3页CN 110096573 A1.一种文本解析方法,其特征在于,所述方法包括:当检测到目标文本时,确定所述目标文本的主题类型;根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,所述目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系,所述R为大于1整数;根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的上下文关系,所述M为大于1且不大于R的整数;根据所述M个文本片段之间的上下文关系,确定所述目标文本的语义。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910237329.2
(22)申请日 2019.03.27
(71)申请人 银江股份有限公司
地址 310012 浙江省杭州市益乐路223号1
幢1层
(72)发明人 张云云 王开红 丁锴 陈涛 
蒋立靓 胡慷 沈晓宇 陈寅峰 
(74)专利代理机构 杭州之江专利事务所(普通
合伙) 33216
代理人 张慧英
(51)Int.Cl.
G06F 17/27(2006.01)
G06F 16/36(2019.01)
G06F 16/951(2019.01)
G06Q 50/18(2012.01)
(54)发明名称
一种面向司法文本数据的关键词提取方法
及系统
(57)摘要
本发明涉及一种面向司法文本数据的关键
词提取方法及系统,本发明首先以引入法律名称
和司法相关专业性词汇表用于分词,并且进行人
工复检来构建司法专业词汇标注表;然后通过将
构建司法专业词汇标注词典和大规模的用户词
典,进行分词,去除停用词等方法,获取词语;并
且采集统计各类纠纷与案由的关键词搜索词汇,
共同组成候选关键词;其次,加入标题词权重和
词语全局性权重值方法修正候选关键词TF_IDF
的权值,如果待提取的文档中未含有候选关键
词,那么采用文档中每个词的TF_IDF归一化值作
为TextRank算法初始权值输入,得到最终的词语
权值。

本发明可以较好地匹配司法文本数据,匹
配性高,适用于大部分的司法文本数据;并且加
快了提取速度,
同时提取准确度高。

权利要求书3页 说明书8页 附图3页CN 110059311 A 2019.07.26
C N 110059311
A
1.一种面向司法文本数据的关键词提取方法,其特征在于,包括如下步骤:
(1)采集并预处理司法文本数据,对司法文本数据进行分词、停用词去除,获取词语;
(2)构建关键词词典,并设置关键词词典标注词初始权值w initial ;
(3)利用TF_IDF模型计算文档d j 中词语word i 的TF_IDF权重,作归一化处理得到TF_IDF 权重归一化值tfidf ij_norm ;根据词语word i 在文档d j 中出现的位置计算标题词权值W title (word ij );利用词语word i 在文档d j 中的出现范围计算全局性权值W global (word ij );
(4)基于关键词初始权值w initial 、标题词权值W title (word ij )、全局性权重值W global (word ij )、TF_IDF权重归一化值tfidf ij_norm 计算得到词语word i 在文档d j
中的总体权值
(5)计算文档d j 所有词语的权重,按照词语的权重大小进行降序排列,将权值排在前k为的词语作为文档d j 的关键词。

2.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述分词采用司法专业词汇标注表,所述的司法专业词汇标注表通过提取法律相关名称词典和专业词库、组合常规词及人工复检的方法构建。

3.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述步骤(2)的具体步骤如下:
(2.1)采集各司法网站的关键词搜索词汇,作为第一词典标注词,并设置该类词典标注词的权重w initial1;
(2.2)统计步骤(1)获取的词语的词频,将词频在设定阈值范围内的词语作为第二词典标注词,并设置该类词典标注词的权重w initial2;
(2.3)将第一词典标注词和第二词典标注词合并,构建关键词词典,如果有重复出现的词典标注词,取较大的权重作为对应词的初始权值w initial 。

4.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述TF_IDF权重归一化值tfidf ij_norm 的计算方法如下:
1)设文档集合D ,某个文档的词语表示为d j ={word 1,word 2,...,word N },N表示文档d j 中出现词语的个数,word i 是在文档中出现词语,利用TF_IDF方法计算给初始候选关键词的权
重公式:
其中,tf ij 是指词语word i 在文档d j 中出现的频率;n i ,j 是指词语word i 在文档d j 中出现的次数;∑k n k ,j 是指词语word i 在文档d j 中所有词语的出现次数总和,k表示文档d j 内的词语;idf i 是指词语word i 的逆向文档数,可用中文件数目除以包含该词语的文件的数目,即|D|表示全部文档的文件总数,|{j:word i ∈d j }|表示包含词语word i 的文件数目(n i ,j ≠0的文件数目),θ为常量值;
2)将TF_IDF权重进行归一化处理,
归一化的权值计算公式如下:
权 利 要 求 书1/3页2CN 110059311 A。

相关文档
最新文档