【CN109754015A】用于画作多标签识别的神经网络及相关方法介质和设备【专利】

合集下载

【CN109711481A】用于画作多标签识别的神经网络相关方法介质和设备【专利】

( 19 )中华人民共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910001328 .8
(22)申请日 2019 .01 .02
(71)申请人京东方科技集团股份有限公司地址 100015 北京市朝阳区酒仙桥路10号
(72)发明人李月王婷婷
(74)专利代理机构北京正理专利代理有限公司 11257
代理人付生辉Leabharlann (51)Int .Cl . G06K 9/62(2006 .01) G06N 3/04(2006 .01)
(10)申请公布号 CN 109711481 A (43)申请公布日 2019.05.03
( 54 )发明名称用于画作多标签识别的神经网络、相关方
法、介质和设备 ( 57 )摘要
权利要求书3页说明书10页附图4页
CN 109711481 A
CN 109711481 A
权利要求书
1/3 页
1 .一种用于画作多标签识别的神经网络网络，其特征在于，包括：卷积网络，包括N阶卷积层，其中第1阶卷积层接收画作图片并输出第1阶特征图，第n阶卷积层接收第(n-1)阶卷积层输出的第(n-1)阶特征图并输出第n阶特征图；多特征层融合网络，用于融合至少一个高阶卷积层和至少一个低阶卷积层输出的特征图并输出融合后的特征图；空间正则化网络，用于接收所述融合后的特征图；第一内容标签全连接层，用于接收空间正则化网络输出的特征图并输出内容标签的第一预测概率；第二内容标签全连接层，用于接收第N阶卷积层输出的第N阶特征图并输出内容标签的第二预测概率，其中内容标签的第一预测概率和第二预测概率进行求和平均得到内容标签预测概率；题材标签全连接层，用于接收第N阶卷积层输出的第N阶特征图并输出题材标签预测概率；类别标签全连接层，用于接收第N阶卷积层输出的第N阶特征图并输出类别标签预测概率，其中1<n≤N。 2 .根据权利要求1所述的神经网络，其特征在于，还包括：加权全连接层，用于在将第N阶特征图输入到所述类别标签全连接层之前对所述第N阶特征图的每个通道用所述内容标签预测概率进行加权。 3 .根据权利要求1或2所述的神经网络，其特征在于，所述多特征层融合网络采用高阶特征图融合相邻低阶特征图的方式逐层进行融合。 4 .根据权利要求3所述的神经网络，其特征在于，所述卷积网络为GoogleNet网络，包括5阶卷积层，所述第1-5阶特征图均被输入到所述多特征层融合网络；所述多特征层融合网络用于使得：所述第5阶特征图经过1×1卷积并进行2倍上采样后与第4阶特征图融合生成第4阶融合特征图；所述第4阶融合特征图经过1×1卷积并进行2倍上采样后与第3阶特征图融合生成第3 阶融合特征图；所述第3阶融合特征层经过1×1卷积并进行2倍上采样后与第2阶特征图融合生成第2 阶融合特征图；以及所述第2阶融合特征层经过1×1卷积并进行2倍上采样后与第1阶特征图融合生成第1 阶融合特征图，所述多特征层融合网络输出第1融合特征图到所述空间正则化网络。 5 .根据权利要求3所述的神经网络，其特征在于，所述卷积网络为Resnet 101网络，包括5阶卷积层，所述第2-4阶特征图均被输入到所述多特征层融合网络；所述多特征层融合网络用于使得：所述第4阶特征图经过1×1卷积得到卷积后的第4阶特征图；

基于多任务多标签学习卷积神经网络的人脸属性识别方法[发明专利]

专利名称：基于多任务多标签学习卷积神经网络的人脸属性识别方法
专利类型：发明专利
发明人：严严,毛龙彪,王菡子
申请号：CN201910704048.3
申请日：20190731
公开号：CN110443189A
公开日：
20191112
专利内容由知识产权出版社提供
摘要：基于多任务多标签学习卷积神经网络的人脸属性识别方法，涉及计算机视觉技术。

首先采用多任务学习，同时学习人脸关键点检测和人脸属性识别两个任务；考虑不同属性的学习难度和学习收敛速度不同，将属性分为主观属性和客观属性，采用动态权重和自适应阈值策略来加快网络的收敛速度和缓解样本不平衡问题；最终根据训练好的网络模型，将主观属性和客观属性子网络的人脸属性识别结果作为最终的人脸属性识别结果。

使用动态权重方案和自适应阈值调整，加快网路收敛速度的同时可缓解标签不平衡问题；采用空间金字塔池化的方法训练三个不同的子网络，达到了端到端的训练进行多任务多人脸属性识别。

提高人脸属性识别的精度，尤其是难度较大的主观属性。

申请人：厦门大学
地址：361005福建省厦门市思明南路422号
国籍：CN
代理机构：厦门南强之路专利事务所(普通合伙)
代理人：马应森
更多信息请下载全文后查看。

如何利用神经网络进行多标签分类任务(七)

神经网络在近年来得到了广泛的应用，尤其是在图像和文本处理领域。

其中，多标签分类任务是神经网络的一个重要应用之一。

本文将探讨如何利用神经网络进行多标签分类任务，包括问题定义、常见的解决方法以及一些应用实例。

# 问题定义多标签分类任务是指给定一个样本，需要将其分到多个类别中。

与传统的单标签分类任务不同，多标签分类任务中的每个样本可能属于多个类别。

例如，在图像标注中，一张图片可能同时包含“猫”和“树”的标签。

在文本分类中，一篇文章可能同时属于“科技”和“环保”两个标签。

因此，多标签分类任务更贴近现实场景，也更具有挑战性。

# 解决方法在神经网络中，可以利用不同的架构来解决多标签分类任务。

常见的方法包括：1. One vs Rest (OvR)方法OvR方法是将多标签分类任务转化为多个独立的二分类任务。

具体来说，对于每个标签，训练一个二分类器来判断样本是否属于该标签。

最终将这些分类器的输出组合成多标签的结果。

虽然简单直观，但是OvR方法忽略了标签之间的相关性。

当标签之间存在相关性时，OvR方法可能导致不理想的结果。

2. Binary Relevance (BR)方法BR方法也将多标签分类任务转化为多个独立的二分类任务，但是与OvR方法不同的是，BR方法考虑了标签之间的相关性。

具体来说，对于每个标签，训练一个二分类器来判断样本是否属于该标签。

但是在预测阶段，考虑标签之间的相关性来修正分类器的输出。

BR方法在处理标签相关性时有一定的优势，但是也存在一定的局限性。

3. Deep learning方法随着深度学习的发展，越来越多的研究者开始探索利用深度学习方法来解决多标签分类任务。

例如，可以使用卷积神经网络（CNN）来处理图像多标签分类任务，使用循环神经网络（RNN）来处理文本多标签分类任务。

深度学习方法在处理多标签分类任务时能够更好地捕捉标签之间的相关性，取得了一些令人瞩目的成果。

# 应用实例多标签分类任务在现实场景中有着广泛的应用。

如何利用神经网络进行多标签分类任务(四)

在当今大数据时代，神经网络已经成为了解决多标签分类任务的一种有效工具。

多标签分类任务是指对一个数据样本进行多个标签的预测，这在许多实际应用中都有着重要的意义。

比如在图像识别中，一张图片可能同时包含了猫、狗和树的标签，而在文本分类中，一篇文章可能既属于科技类，又属于娱乐类。

因此，如何利用神经网络来解决多标签分类任务成为了一个备受关注的问题。

首先，神经网络在处理多标签分类任务时，需要考虑到每个标签之间的相关性。

在传统的单标签分类任务中，神经网络只需要输出一个类别的概率分布，直接选择概率最大的类别作为预测结果即可。

但在多标签分类任务中，每个数据样本可能对应多个标签，而这些标签之间可能存在着复杂的相关性。

这就需要神经网络能够学习到标签之间的相关性，从而更准确地进行多标签分类预测。

其次，神经网络在处理多标签分类任务时，需要选择合适的损失函数来进行训练。

在传统的单标签分类任务中，交叉熵损失函数是一个常用的选择，它能够有效地衡量模型输出的概率分布与真实标签之间的差异。

但在多标签分类任务中，每个数据样本可能对应多个标签，传统的交叉熵损失函数就不再适用。

因此，需要选择一种能够处理多标签分类任务的损失函数，比如二元交叉熵损失函数或者焦点损失函数，从而能够更好地指导神经网络的训练过程。

此外，神经网络在处理多标签分类任务时，需要考虑到样本不平衡的问题。

在实际的多标签分类任务中，某些标签可能会出现在大部分数据样本中，而另一些标签可能只会出现在少数数据样本中。

这就会导致模型在训练过程中对于少数标签的学习不足，从而影响模型的整体性能。

因此，需要采取一些方法来处理样本不平衡的问题，比如使用重采样技术或者调整损失函数的权重，从而能够更好地平衡每个标签的训练过程。

最后，神经网络在处理多标签分类任务时，需要选择合适的网络结构和模型架构。

在实际应用中，可以选择一些经典的神经网络结构，比如卷积神经网络、循环神经网络或者注意力机制等，从而能够更好地捕捉数据样本之间的空间和时间特征。

面向多标签图像分类的深度卷积神经网络

面向多标签图像分类的深度卷积神经网络Introduction随着互联网的发展，图像应用得到了广泛的应用，图像分类作为其中的一个研究方向，对于实现自动化和智能化的应用有着重要的作用。

随着大数据的出现，图像分类面临的挑战逐渐提升，需要一些更加高效的方法来提高识别的准确率。

多标签图像分类就是其中的一种挑战，其涉及到对于一个图像同时识别多种特征，比如想象一下一个汽车的图像，可能需要同时识别车的品牌、颜色、类型等多种特征。

深度卷积神经网络 (Deep Convolutional Neural Networks, DCNNs) 由于其能够逐层学习到高层次和抽象的特征，在图像分类任务中已经被证明是非常有效的。

Multi-label classification多标签图像分类（Multi-label classification）指的是在一个图像中同时识别出多个类别。

举个例子，一个包含人和狗的图片，我们需要同时识别出这两个不同的物体。

与此相对，单标签分类目标是把每个图像放到独立的分类中，每幅图片中有且仅有一个标签。

多标签分类的应用非常广泛，比如自然语言处理中的词性标注、新闻主题分类，以及近年来图像领域中的研究。

Deep Neural Network神经网络从19世纪的生物角度出发，通常是通过发放电信号来传递并处理信息。

深度神经网络的发展从90年代初开始，在涉及图像和语音信号的深度学习领域有着巨大的成功，如LeNet、AlexNet等。

现如今，深度学习已经成为了机器学习领域的重要分支，被广泛应用在许多领域，包括自然语言处理、计算机视觉、语音识别等。

Deep Convolutional Neural NetworkDCNNs 是一种深度神经网络，其结构受到了视皮层处理视觉信息的启发。

Convolutional Neural Networks (CNNs) 是其最具代表性的一个分支。

CNNs 的标志性特征是能够自动提取图像的低级特征，并且通过堆叠层次结构来逐步构建更高级别的特征。

深度学习中的多标签分类算法

深度学习中的多标签分类算法随着人工智能技术的发展，深度学习已经成为智能系统的核心组成部分。

在实际应用中，我们通常需要对实例进行多个标签的分类。

例如，在图片中同时识别出不同的动物、物体和场景。

这就需要应用到深度学习中的多标签分类算法。

一、什么是多标签分类多标签分类是指一个实例可以被分为多个标签，每个标签分别代表着它所属的类别。

它通常应用于文本分类、图像分类、音频分类、视频分类等领域。

以图像分类为例，一个物体可能同时属于多个类别，如一张狗的图片可能被分类为“动物”、“宠物”、“狗”等多个类别。

在传统的图像分类方法中，通常只考虑一个标签，而多标签分类则可以为它们赋予多个标签。

二、多标签分类的应用多标签分类在实际应用中非常广泛。

例如，在社交媒体平台上，我们可以使用多标签分类算法来标记用户的兴趣和行为。

在医学图像诊断中，我们可以使用多标签分类来辅助医生进行病理鉴定和诊断。

在商品推荐中，我们可以使用多标签分类来为用户推荐更相关的商品。

三、在深度学习中，多标签分类的主要算法包括卷积神经网络（CNN）、循环神经网络（RNN）和注意力机制等。

在CNN中，我们可以使用多通道卷积来实现多标签分类。

例如，在图像分类领域，我们可以通过某种方法将多个标签融合成一个标签向量，然后利用多通道卷积实现多标签分类。

在RNN中，我们可以使用门控循环单元（GRU）和长短时记忆网络（LSTM）等方法来实现多标签分类。

这种方法可以有效地利用序列中的上下文信息。

在注意力机制中，我们可以使用注意力加权的方法来获得特征的重要性，并更好地实现多标签分类。

例如，在图像分类中，我们可以利用注意力机制来进一步挖掘图像中的内容信息，从而更好地识别多个标签。

四、多标签分类的评价指标在多标签分类中，我们通常使用以下指标来评价模型：1.准确率（Accuracy）：分类正确的样本数与总样本数之比。

2.精确率（Precision）：分类为正的样本中真正是正的样本数与分类为正的样本数之比。

神经网络在多标签分类中的应用

神经网络在多标签分类中的应用随着人工智能的快速发展，神经网络成为了多标签分类中的一种重要工具。

多标签分类是指一个样本可能属于多个标签类别的问题，相较于传统的单标签分类，它更符合现实世界中的复杂情况。

神经网络在这个领域的应用，不仅提升了分类的准确性，还拓宽了多标签分类的应用范围。

首先，神经网络通过深度学习的方式，能够对大规模的数据进行训练和学习，从而提高分类的准确性。

多标签分类中，每个标签都可以看作是一个二分类问题，神经网络通过多个神经元的输出来表示每个标签的概率。

通过反向传播算法，神经网络能够根据标签的真实值和预测值之间的误差来调整网络的参数，不断优化分类的结果。

相较于传统的机器学习算法，神经网络能够自动学习特征，并且具有较强的非线性拟合能力，从而提高了分类的准确性。

其次，神经网络在多标签分类中的应用不仅局限于文本和图像领域，还可以扩展到其他领域。

例如，在生物医学领域，研究人员利用神经网络对基因组数据进行多标签分类，从而识别出与疾病相关的基因。

在推荐系统中，神经网络可以根据用户的历史行为和兴趣，对商品进行多标签分类，从而提供个性化的推荐结果。

这些应用的成功，进一步证明了神经网络在多标签分类中的广泛适用性。

此外，神经网络还可以结合其他技术，进一步提升多标签分类的效果。

例如，可以将卷积神经网络与循环神经网络相结合，用于处理文本数据。

卷积神经网络可以提取文本中的局部特征，而循环神经网络则可以捕捉文本中的上下文信息。

通过这种方式，神经网络能够更好地处理文本中的多标签分类问题。

类似地，可以将神经网络与图像处理技术相结合，用于处理图像数据的多标签分类。

这种融合多种技术的方法，使得神经网络在多标签分类中的应用更加灵活和高效。

尽管神经网络在多标签分类中的应用带来了很多好处，但也面临着一些挑战。

首先，神经网络的训练需要大量的标注数据，而在某些领域，标注数据很难获取。

其次，神经网络的训练过程较为复杂，需要较高的计算资源和时间成本。

一种多标签社交网络图像的标注方法及系统[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011045407.8(22)申请日 2020.09.29(71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫200号南京理工大学申请人南京浩翔基础软件研究院有限公司(72)发明人李泽超　练连荣　(74)专利代理机构北京高沃律师事务所 11569代理人崔玥(51)Int.Cl.G06F 16/583(2019.01)G06F 16/58(2019.01)G06K 9/62(2006.01)G06N 3/04(2006.01)(54)发明名称一种多标签社交网络图像的标注方法及系统(57)摘要本发明公开一种多标签社交网络图像的标注方法及系统，涉及社交网络图像标注技术领域，方法包括：获取图像数据集；根据图像数据集得到第一标签矩阵；利用柯西分布对第一标签矩阵进行去噪处理，得到第二标签矩阵；将图像数据集输入Resnet50残差网络，得到图像提取特征矩阵；将所述第二标签矩阵和所述图像提取特征矩阵输入CNN网络进行训练和优化，得到优化后的CNN网络；确定待标注特征向量；将待标注特征向量输入优化后的CNN网络中，得到待标注图像的标签。

本发明能够实现对弱监督社交网络图像标签进行准确标注。

权利要求书3页说明书12页附图3页CN 112182274 A 2021.01.05C N 112182274A1.一种多标签社交网络图像的标注方法，其特征在于，所述方法包括：获取图像数据集；所述图像数据集包括多个图像以及各所述图像对应的标签；根据所述图像数据集得到第一标签矩阵；利用柯西分布对所述第一标签矩阵进行去噪处理，得到第二标签矩阵；将所述图像数据集输入Resnet50残差网络，得到图像提取特征矩阵；所述图像提取特征矩阵包括所述图像数据集中每幅图像对应的2048维特征向量；将所述第二标签矩阵和所述图像提取特征矩阵输入CNN网络进行训练和优化，得到优化后的CNN网络；确定待标注特征向量；所述待标注特征向量为待标注图像对应的2048维特征向量；将所述待标注特征向量输入所述优化后的CNN网络中，得到待标注图像的标签。

基于深度学习神经网络的图表识别方法、装置及设备[发明专利]

专利名称：基于深度学习神经网络的图表识别方法、装置及设备
专利类型：发明专利
发明人：吴华希
申请号：CN201811135932.1
申请日：20180928
公开号：CN109359560A
公开日：
20190219
专利内容由知识产权出版社提供
摘要：本发明公开了一种基于深度学习神经网络的图表识别方法、装置及设备，其主要技术方案为所述神经网络获取研报中包含图表的待识别图片，并进行相应的数据预处理；逐层导入至所述神经网络单元的各个网络层，对所述待识别图片执行多次数据处理操作；最后对最终数据处理结果今天数据提取、还原，从而识别出所述待识别图片中的图表的位置区域并进行标注，输出为识别图片，显示其识别的图表的区域。

本发明能够自动识别研报中的图表的位置区域，并执行标注，便于后续对所标注的图表执行数据提取；能够基于样本的深度学习，不断完善识别过程，提高自动识别正确率；可拓展至多种不同图表的分别定位。

申请人：武汉优品楚鼎科技有限公司
地址：430000 湖北省武汉市东湖新技术开发区光谷大道77号金融港后台服务中心一期A1栋19层国籍：CN
更多信息请下载全文后查看。

如何利用神经网络进行多标签分类任务(Ⅱ)

神经网络技术是近年来人工智能领域最为火热的技术之一，它不仅在图像识别、自然语言处理等领域取得了巨大的成功，还在多标签分类任务中展现出了强大的潜力。

多标签分类任务是指对一个样本同时进行多个标签的分类，例如一张图片可能包含猫、狗和树木等多个标签。

在本文中，我们将探讨如何利用神经网络进行多标签分类任务。

神经网络的基本结构是由神经元和连接权值组成的多层网络，通过反向传播算法不断调整网络的权值，使得网络能够学习到输入与输出之间的映射关系。

在多标签分类任务中，神经网络通常使用多输出的结构，每个输出对应一个标签，通过调整网络的参数，使得网络能够同时预测多个标签。

首先，对于多标签分类任务，数据的表示形式非常重要。

在图像识别任务中，通常使用卷积神经网络（CNN）来提取图像的特征，然后将提取的特征输入到全连接层进行标签的预测。

而在自然语言处理任务中，可以使用循环神经网络（RNN）或者变种的长短期记忆网络（LSTM）来处理序列数据，然后通过全连接层输出标签的预测。

其次，神经网络的损失函数也需要进行相应的设计。

在多标签分类任务中，通常会使用交叉熵损失函数来衡量预测值与真实标签之间的差异。

此外，为了解决样本不平衡问题，可以采用加权交叉熵损失函数来平衡不同标签的重要性。

此外，神经网络的训练过程也需要谨慎设计。

在多标签分类任务中，通常会使用批量梯度下降（Batch Gradient Descent）或者随机梯度下降（StochasticGradient Descent）来更新网络的参数。

在训练过程中，还可以采用学习率衰减策略和正则化技术来提高网络的泛化能力。

另外，神经网络的模型选择和调参也是非常重要的。

在多标签分类任务中，可以选择不同深度和宽度的网络结构，通过交叉验证等技术来调整模型的参数，以获得更好的性能。

最后，神经网络的预测结果也需要进行后处理。

在多标签分类任务中，通常会使用阈值来对网络的输出进行二值化，从而得到最终的标签预测结果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

代理人付生辉
(51)Int .Cl . G06K 9/62(2006 .01) G06N 3/04(2006 .01) G06N 3/08(2006 .01)
(10)申请公布号 CN 109754015 A (43)申请公布日 2019.05.14
( 54 )发明名称用于画作多标签识别的神经网络及相关方
( 19 )中华人民共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910001380 .3
(22)申请日 2019 .01 .02
(71)申请人京东方科技集团股份有限公司地址 100015 北京市朝阳区酒仙桥路10号
(72)发明人王婷婷
(74)专利代理机构北京正理专利代理有限公司 11257
9 .根据权利要求6所述的神经网络，其特征在于，所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层，所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图；所述第二卷积层为3*3大小步长为2的卷积层；所述第二平均池化层为3*3大小，所述第九特征图具有2048维特征向量；所述第三全连接层为Softmax层。 10 .一种利用权利要求1-9中任一项所述的神经网络进行多标签识别的训练方法，其特征在于，包括：使用类别标签训练数据集对残差注意力网络和类别标签网络进行训练；使用内容标签训练数据集进行训练，调整所述残差注意力网络参数并对内容标签网络进行训练，同时保持类别标签子网络参数不变；使用题材标签训练数据集进行训练，保持残差注意力网络、内容标签网络和类别标签网络参数不变，调整题材标签网络参数；以及使用类别标签训练数据集进行训练，仅对类别网络进行训练。 11 .一种用于画作多标签的识别方法，其特征在于，包括：将画作图像输入到经过权利要求10所述的训练方法训练过的神经网络，从而输出内容标签的预测概率、题材标签的预测概率以及类别标签的预测概率。 12 .根据权利要求11所述的识别方法，其特征在于，还包括为内容标签和题材标签中的每个标签设置不同的最优概率阈值，其中所述内容标签的预测概率和题材标签的预测概率是通过与对应的最优概率阈值比较得到的。 13 .根据权利要求12所述的识别方法，其特征在于，还包括对每个标签设置多个概率阈值；利用所述多个概率阈值中的每一个概率阈值，得到标签的对应准确率；选择最高的准确率对应的概率阈值作为所述最优概率阈值。 14 .根据权利要求11所述的识别方法，其特征在于，所述画作图像在输入到所述神经网络之前，所述方法还包括：对所述画作图像进行数据增强。 15 .根据权利要求14所述的识别方法，其特征在于，所述数据增强采用多尺度裁剪方法。 16 .一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求10所述的训练方法或者如权利要求11-15中任一项所述的识别方法。 17 .一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求10所述的训练方法或
权利要求书3页说明书9页附图3页
CN 109754015Hale Waihona Puke ACN 109754015 A
权利要求书
1/3 页
1 .一种用于画作多标签识别的神经网络，其特征在于，包括：残差注意力网络，用于接收画作图像并输出第一特征图；内容标签网络，用于接收所述第一特征图并输出内容标签的预测概率；题材标签网络，用于接收所述第一特征图并输出题材标签的预测概率；以及类别标签网络，用于接收所述第一特征图并输出类别标签的预测概率。 2 .根据权利要求1所述的神经网络，其特征在于，还包括：残差网络，用于接收所述第一特征图并输出降维的第二特征图。 3 .根据权利要求2所述的神经网络，其特征在于，所述内容标签网络包括：空间正则化子网络，用于接收所述第一特征图并输出内容标签的第一预测概率；第一子网络，用于接收所述第二特征图并输出内容标签的第二预测概率；其中所述第一预测概率和第二预测概率通过取平均值计算得到所述内容标签的预测概率。 4 .根据权利要求3所述的神经网络，其特征在于，所述第一子网络包括：第一卷积层，用于接收所述第二特征图并输出第三特征图；第一平均池化层，用于接收第三特征图并输出第四特征图；第一全连接层，用于接收第四特征图并输出所述第二预测概率。 5 .根据权利要求2所述的神经网络，其特征在于，所述题材标签网络包括：第一加权模块，用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上，从而生成第五特征图；标签相关性网络，包括顺序连接的多个卷积层，用于对所述第五特征图进行卷积输出第六特征图；第二全连接层，用于接收第六特征图并输出所述题材标签的预测概率。 6 .根据权利要求2所述的神经网络，其特征在于，所述类别标签网络包括：第二加权模块，用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上，从而生成第七特征图；第二卷积层，用于接收第七特征图并输出第八特征图；第二平均池化层，用于接收第八特征图并输出第九特征图；第三全连接层，用于接收第九特征图并输出所述类别标签的预测概率。 7 .根据权利要求4所述的神经网络，其特征在于，所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层，所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图；所述第一卷积层由2048个3*3大小步长为2的卷积层组成；所述第一平均池化层为3*3大小，所述第四特征图具有2048维特征向量。 8 .根据权利要求5所述的神经网络，其特征在于，所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层，所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图；所述第五特征图为7*7*2048大小；
法、介质和设备 ( 57 )摘要
本发明公开一种用于画作多标签识别的神经网络及相关方法、介质和设备。本发明实施例的神经网络包括：残差注意力网络，用于接收画作图像并学习图像的注意力区域从而输出特征图；内容标签网络，用于接收特征图并输出内容标签的预测概率；题材标签网络，用于接收特征图并输出题材标签的预测概率；类别标签网络，用于接收特征图并输出类别标签的预测概率。该实施方式可实现画作图像的内容多标签识别、题材多标签识别及类别单标签识别。
2
CN 109754015 A
权利要求书
2/3 页
所述多个卷积层包括K个1*1*2048卷积层，512个1*1*K卷积层，512个1*1*512卷积层以及2048个7*7*1大小并且分为512组每组4个卷积核的卷积层，所述第五特征图连续经过所述多个卷积层，输出所述第六特征图，其中K为题材标签种类个数。