几种多示例学习算法研究分析

合集下载

人工智能常用算法模型

人工智能常用算法模型介绍人工智能（Artificial Intelligence，AI）是指通过计算机技术实现类似人类智能的一种技术。

人工智能常用算法模型是指在人工智能领域中常用的用于解决各种问题的算法模型。

这些算法模型可以帮助计算机实现自动化处理和决策，以模拟人类的思维过程和行为。

本文将介绍一些常用的人工智能算法模型，包括机器学习算法、深度学习算法等，并探讨它们在不同领域的应用。

机器学习算法模型机器学习（Machine Learning，ML）是一种人工智能的分支，它通过从大量数据中进行学习和模式识别，来实现对未知数据的预测和决策。

以下是一些常见的机器学习算法模型：1. 线性回归模型线性回归是一种用于预测连续性数值的模型。

它基于假设输入变量与输出变量之间存在线性关系，并通过拟合最优直线来进行预测。

线性回归模型可以应用于房价预测、销量预测等问题。

2. 逻辑回归模型逻辑回归是一种用于预测离散性数值的模型。

它基于假设输入变量与输出变量之间存在逻辑关系，并通过拟合最优曲线来进行预测。

逻辑回归模型常用于分类问题，如垃圾邮件分类、疾病诊断等。

3. 决策树模型决策树是一种用于进行决策的模型。

它通过一系列的判断条件和分支，将数据划分为不同的类别或预测结果。

决策树模型可用于预测乘客是否幸存、贷款违约风险等问题。

4. 支持向量机模型支持向量机是一种用于分类和回归分析的模型。

它通过找到一个最优的超平面，将数据分隔开来，使得不同类别的数据能够尽可能远离超平面。

支持向量机模型广泛应用于图像分类、手写数字识别等问题。

深度学习算法模型深度学习（Deep Learning，DL）是一种机器学习的方法，以神经网络为基础，通过多层次、分层次的学习和表达来解决复杂问题。

以下是一些常见的深度学习算法模型：1. 卷积神经网络模型卷积神经网络是一种使用卷积操作和池化操作进行图像处理和图像分类的模型。

它模拟了人类视觉系统的结构，通过提取图像的特征来实现图像识别、物体检测等任务。

基于在线多示例学习的目标跟踪

ｏｌｅＭＩｎｏｊｃｒｃｉｇａｅｓｄｅｓｗｌＤｆｒｎｐｒａｈｓａｅｃｍａｅｎｈｎｉＬｉｂｅｔｔｋｎｒｔｉｄａｅ１ｉｅｅｔａｐｏｃｅｒｏｐｒｄａｄｔｅｎａｕ．
ｒｓａｃｅｄｏｌｐｅｉｓａｃｅｒｉｇａｅｐｅｉｔｄｅｅｒｈｔｎｆｍｕｔｌｎｔｎｅｌａｎｒｒｄｃｅ．ｒｉｎ
２ＳｈｏｏｏｐｔｃｎｅＦａ．ｃｏｌｆＣｍｕｅＳｉｃ，ｎｎｒｅｄ
ｅ
，ｈｎｈｉ０４３ｈｎ）Ｓａｇａ２０３，Ｃｉａ
ＡｂｔａｔＡｎｗｌａｎａａｉｍ，ｎｍｅｙＭｕｔｌｎｔｎｅＬａｉｇａｄｔｅａｐｉａｉｎｏｓｒｃ：ｅｅｆｇｐｒｄｇｉａｌｌｐｅＩｓａｃｅｒｎｉｎｎｈｐｌ跟踪的研究方向．
关键词：在线学习；多示例学习；目标跟踪中图分类号：Ｔ８０４Ｎ２．文献标识码：Ａ
ＯｂｅｔＴａｋｎｉｌｅＭｕｔｌｎｔｎｅＬａｎｎｊｃｒｃｉｇｗｔＯｎｉｌｐｅＩｓｃｅｒｉｇｈｎｉａ
一
应用于目标跟踪中．目标跟踪中比较困难的是在如何选择训练样本．由于在跟踪过程中没有人的参与，因此跟踪器任何微小的差异都会导致目标定位的不准确，而其不准确的目标会成为分类器新的输人，从而导致分类器区分能力的下降，降低
比较有代表性的是基于检测的跟踪方法．它在第帧标定目标，以在线学习的方式训练用于跟踪

基于多示例学习的图像检索方法

（．ＤｅａｔｎｆＡｕｏｔｎＴｓｎｈａＵｎｖｒｉ１ｐｒｍｅｔｏｔｍａｉｉｇｕｉｅｓｔｏｙ。Ｂｉｎ００４ｈｎ：．Ｔｈ３Ｉｓｉｔ，ｅｊｇ１０８，Ｃｉａ２ｉｅ１ｎｔｕｅｔ１Ａｃｄｍｙ０ａｅ，ＣｈｎｒｓａｅＳｉｎｅａｄＴｅｈｏｏｙＣｏｐｒｔｎｅｊｇ１０５ｉａＡｅｏｐｃｃｅｃｎｃｎｌｇｒｏａｉ，Ｂｉｎ０８４，Ｃｈｎ）ｏｉｉａ
Ａｂｔａｔｓｒｃ：ＭｕｌｉｉｓａｅｅｒｎｇｈａｂｅｍｐｌｅｎＣｏｎｅ — ｓｄｍａｅｔｎｔｎｃｌａｎｉｓｅｎｅｏｙｄｉｔｎｔＢａｅＩｇＲｅｒｅｌ（ｔｉｖａＣＢＩ）ｆｒｔＳｒｅｕｌｙＲｏｉ’ ｇａｃｆｌｐｅｆｒａｃｎｓｖｉｈｅａｂｉｉｙｏｆｉａｅＴｈｈｅｉａｅｉｅｒｄａｕｌｉｉｔｎｅｂａ．Ｔｈｅｉａｅｉｒｏｍｎｅｉｏｌｎｇｔｍｇｕｔｍｇ．ｅｗｏｌｍｇｓｒｇａｄｅｓａｍｔｎｓａｃｇｍｇｓｐａｔｔｏｄｉｏｓｖｒｌｓｍａｉｅｏｓｎｇａｐｐｏａｈ－ｂａｅｕｓｉｎｇｍｏｌａｍｐｏｖｄＥＭｌ — ｒｉｉｎｅｎｔｅｅａｅｎｔｃｒｇｉｎｓｂｙｕｉｎａｒｃ一ｓｄｏｎｇａｓｍｘｉｄｅｎｄｉｒｅｃｕｓ— ｔｒｎｏｓｇｅｈｍａｅ，ｔｎｔｅｉｅｃｉｅｏｌ，ｔｘｔｅ，ｓａｅｉｇｔｅｍｎｔｔｅｉｇｈｅｈｅｒｇｏｎｓｄｓｒｂｄｂｙｃｏｒｅｕｒｈｐｅ，ａｄｉｖａｉｎｔｍｏｍｅｔｆａｕｒｓａｅｎｎｒａｎｅｔｅｒｒｇａｄｅｓｔｎｔｎｃｓｉｈｅｂａ．Ｎｅｔ，ｑｅｙｉａｓｐｅｙｔｓｒａｅｔａｆｍｅｎｔｏｒｓｏｎｎｇｐｉｅｒｄａｈｅｉｓａｅｎｔｇｘｕｒｍｇｅｏｓｄｂｈｅｕｅｒｒｎｓｏｒｄｉｏｃｒｅｐｄｉｏｓ— ｔｖｅａｄｎｇａｉｅｂｇｓａｕｔ—ｎｔｎｃｌｏｒｔｍｓｅｍｐｏｙｄｆｍａｅｒｔｉｖｌａｄｒｌｖａｅｆｅｂａｋ．Ｅｘｐｒ— ｉｎｅｔｖａｎｄａｍｌｉｉｓａｅａｇｉｈｉｌｅｏｒｉｇｅｒｅａｎｅｅｎｃｅｄｃｅｉｍｅｓｓｏｗｈｉｐｐｏｃｔａｂｔｅｅｕｔｔａｎｔｔｒｍｅｈｏ．ｎｔｈｔｓａｒａｈｇｅｅｔｒｒｓｌｈｈｅｏｈｅｔｄｓＫｅｒｓ：ｃｙｗｏｄｏｍｐｅｐｉａｉｎ；Ｃｈｉｓｎｆｒａｉｎｐｏｃｓｉｕｔｒａｐｌｃｔｏｎｅｅｉｏｍｔｏｒｅｓｎｇ；ｍｕｔ—ｎｓａｅｌａｎｉｌｉｉｔｎｃｅｒｎｇ；ｆｌｙａｕｏｓｇｅａｉｎ；ｕｌｔｅｍｎｔｔｏｃｎｔｎｓｄｉａｅｒｔｉｖａｏｅｔｂａｅｍｇｅｒｅｌ

多源域自适应的方法

多源域自适应的方法多源域自适应（Multi-source domain adaptation）指的是将知识从多个源域上迁移到一个目标域中，以提高目标域上的性能。

在机器学习和领域适应的研究中，多源域自适应是一个热门的研究方向，吸引了众多研究者的关注。

传统的领域适应方法通常在源域和目标域之间寻找相似的特征分布，然后使用一些转换方法将源域上的知识迁移到目标域上。

然而，在现实世界中，常常存在多个源域，且它们之间可能存在较大的差异。

因此，多源域自适应方法应运而生，用于处理多个源域之间的领域差异。

下面将介绍几种常见的多源域自适应方法：1. 多源域对齐方法（Multi-source Domain Alignment）多源域对齐方法通过学习一个共享的特征空间，使得不同源域的特征能够在该空间中对齐。

该方法通常使用一些最大化目标域和源域之间特征分布相似度的准则，如最大均值差异（Maximum Mean Discrepancy）或最大分类间隔（Maximum Margin Criterion）等。

同时，也可以使用一些图模型或图像对齐方法进行多源域的对齐。

2. 多任务学习方法（Multi-task Learning）多任务学习方法是一种常见的多源域自适应方法。

它通过同时学习多个相关任务来提取共享的特征表示，并将这些特征表示应用于目标任务。

该方法假设不同的源域任务之间可能存在一些相似性，从而可以将源域上学到的知识迁移到目标域上。

3. 迁移多示例学习方法（Transfer Multi-instance Learning）迁移多示例学习方法是一种适用于多源域多示例学习的方法。

多示例学习是一种弱监督学习，其中训练样本被组织成示例袋。

迁移多示例学习方法利用多个源域上的示例袋来构建目标域上的分类器，从而提高目标域上的分类性能。

4. 多源分布自适应方法（Multi-source Distribution Adaptation）虽然多源域自适应方法在领域适应研究中取得了一定的进展，但仍然存在一些挑战和问题。

弱监督学习算法详解及应用技巧

弱监督学习算法详解及应用技巧在机器学习领域，监督学习是一种常见的学习方法，它通过已知的标签来训练模型。

但是在实际应用中，很多数据并没有完整的标签信息，这就需要使用一种更加灵活的学习算法来处理这种情况。

弱监督学习算法就是这样一种算法，它不需要完整的标签信息，而是能够利用部分标签或者弱标签来进行学习。

本文将对弱监督学习算法进行详细的介绍，并探讨其应用技巧。

一、弱监督学习算法简介弱监督学习算法是一种能够利用不完整标签信息进行学习的算法。

在传统的监督学习中，训练数据通常包括输入特征和对应的标签，模型通过学习这些标签来进行预测。

而在弱监督学习中，标签信息可能是不完整的，只有部分标签信息或者弱标签信息。

这就需要算法能够从这些不完整的标签信息中学习到有效的知识。

常见的弱监督学习算法包括多示例学习（MIL）、半监督学习、迁移学习等。

这些算法都能够有效地利用不完整标签信息进行学习，并在实际应用中取得了很好的效果。

二、弱监督学习算法原理弱监督学习算法的原理主要是通过利用不完整的标签信息来进行模型训练。

在多示例学习中，训练数据被分为多个示例，每个示例可能包含多个样本，但只有一个标签。

模型需要通过学习这些示例来进行预测。

在半监督学习中，只有部分数据有标签信息，而其他数据则没有标签信息，模型需要通过利用有标签数据来进行学习，并将学到的知识应用到无标签数据上。

在迁移学习中，模型需要利用从一个领域学到的知识来进行另一个领域的学习。

这些算法都能够有效地利用不完整标签信息来进行学习，并取得良好的效果。

三、弱监督学习算法应用技巧1. 数据增强在应用弱监督学习算法时，数据增强是一种常用的技巧。

通过对训练数据进行扩充，可以增加数据的多样性，提高模型的泛化能力。

数据增强的方法包括图像旋转、翻转、缩放等操作，能够有效地提高模型的性能。

2. 标签传播在半监督学习中，标签传播是一种常用的技巧。

通过利用有标签数据和无标签数据之间的相似性来进行标签传播，可以有效地利用不完整标签信息进行学习。

多类类别不平衡学习算法_EasyEnsemble_M_李倩倩

多类类别不平衡学习算法_EasyEnsemble_M_李倩倩多类类别不平衡学习算法是解决多类类别分类问题中的不平衡数据分布的一种方法。

在现实生活中，很多多类分类问题中，不同类别的样本数量存在较大差异，造成了分类器对数量较少类别的学习效果较差。

为了解决这个问题，研究人员提出了多类类别不平衡学习算法。

EasyEnsemble是一种基于集成学习的多类类别不平衡学习算法。

它通过引入集成学习的思想，将不平衡分类问题转化为多个分类子问题，并通过集成子分类器的方式来提高整体分类效果。

算法的基本思路是对样本进行有放回的随机抽样，构造多个子样本集，然后分别训练多个分类器，最后通过集成分类器的方式得到最终分类结果。

具体的算法流程如下：1.输入：原始样本集D，分类器个数T2.初始化：集成分类器集合H=[]3. for t=1 to T do4.从样本集D中有放回的随机抽样获得子样本集D_t5.使用D_t训练第t个分类器h_t6.将h_t添加到集成分类器集合H中7. end for8.对于测试样本x，预测其类别为出现次数最多的类别EasyEnsemble算法通过构造多个子样本集和分类器集合，强化了分类器对少数类别的学习能力。

每个分类器只关注于其中一个子样本集，从而解决了少数类别样本不易学习的问题。

最后，通过集成所有分类器的结果，得到最终的分类结果，并通过多数投票的方式决定样本的分类。

EasyEnsemble算法相比其他多类类别不平衡学习算法具有以下特点：1.通过引入集成学习，能够有效提高分类器的性能，减少样本不平衡带来的负面影响。

2.通过有放回随机抽样，充分利用数据，减少了信息损失。

3.简单易实现，算法流程清晰，对于初学者来说上手较容易。

然而，EasyEnsemble算法也存在一些问题。

首先，在构造子样本集时，有放回的随机抽样可能导致子样本集存在一定程度的冗余，从而影响分类性能。

其次，EasyEnsemble算法在处理多类类别问题时，对于每个类别的样本数量仍然存在一定的差异，可能导致分类器对数量较少类别的学习结果不理想。

离群点算法

离群点算法全文共四篇示例，供读者参考第一篇示例：离群点（Outlier）是指数据集中与其他数据点明显不同的数据点。

离群点算法是指一系列用来检测和识别离群点的技术和方法。

在数据分析和机器学习中，离群点算法可以有效地识别异常数据点，帮助我们更准确地进行数据分析和建模。

离群点算法主要分为基于统计学的方法、基于聚类的方法和基于密度的方法等多种类型。

每种类型的算法都有其独特的优缺点和适用范围。

在实际应用中，我们可以根据具体的数据集和需求选择合适的算法进行离群点检测。

一种常用的离群点算法是基于统计学的方法，其中最常见的是Z 分数（Z-score）方法。

Z分数是一种标准化的统计量，表示数据点与平均值的偏离程度。

通过计算数据点的Z分数，我们可以判断数据点是否为离群点。

一般来说，Z分数绝对值大于3的数据点可以被认为是离群点。

除了Z分数方法外，还有一些其他基于统计学的离群点算法，如Tukey的箱线图（Boxplot）、Grubbs检验等。

这些方法都可以有效地检测离群点，但在实际应用中需要根据具体情况选择最合适的方法。

另一种常用的离群点算法是基于聚类的方法，其中LOF（Local Outlier Factor）算法是一种常见的基于聚类的离群点算法。

LOF算法通过计算数据点周围邻近点的密度来判断数据点是否为离群点。

密度较低的数据点很可能是离群点。

通过计算LOF值，我们可以对数据点进行离群点判断。

基于密度的离群点算法也是一种常用的方法，其中DBSCAN （Density-Based Spatial Clustering of Applications with Noise）算法是一种典型的基于密度的离群点算法。

DBSCAN算法通过将数据点分为核心点、边界点和噪声点来判断数据点是否为离群点。

在DBSCAN算法中，噪声点通常被认为是离群点。

离群点算法在数据分析和机器学习中扮演着重要的角色。

通过识别和处理离群点，我们可以得到更准确的数据分析结果，提高模型的准确性和稳定性。

gold-yolo代码解析

gold-yolo代码解析全文共四篇示例，供读者参考第一篇示例：Gold-Yolo是一种用于目标检测的深度学习算法，它是对传统Yolo算法的改进和优化。

Gold-Yolo算法在目标检测任务中取得了非常好的效果，在许多竞赛和实际应用中获得了广泛认可。

在本文中，我们将对Gold-Yolo的代码进行详细解析，帮助读者更好地理解这一优秀的算法。

Gold-Yolo算法的最大特点是引入了金字塔结构以提高检测精度和准确率。

金字塔结构在深度学习领域中被广泛应用，它可以通过多个尺度的特征图对目标进行更准确的检测和定位。

在Gold-Yolo算法中，金字塔结构被用来提取不同层级的特征，并在不同尺度下进行目标检测，使得算法在处理多尺度目标时表现更好。

Gold-Yolo算法的代码实现是基于深度学习框架PyTorch，PyTorch是一个开源的深度学习框架，提供了丰富的工具和接口，方便开发者进行深度学习的研究和实验。

Gold-Yolo的代码主要包括三部分：模型定义、数据处理和训练过程。

我们将分别对这三个部分进行详细解析。

让我们来看一下Gold-Yolo算法的模型定义部分。

在这部分代码中，主要包括网络结构的定义、损失函数的定义以及一些辅助函数的定义。

Gold-Yolo算法的网络结构主要由卷积层、池化层和全连接层组成，其中卷积层用于提取图像特征，池化层用于下采样，全连接层用于目标分类和定位。

损失函数的定义主要包括目标检测和目标定位的损失计算，这些损失函数是训练深度学习模型的重要指标。

在辅助函数的定义中，会包括一些数据预处理和后处理的函数，用于数据的加载和结果的解析。

让我们来看一下Gold-Yolo算法的训练过程部分。

在这部分代码中，主要包括模型的初始化、数据的加载、前向传播、反向传播和参数更新等步骤。

在训练过程中，我们需要持续地对模型进行优化，使其能够更好地适应数据集。

通过反向传播算法和梯度下降算法，我们可以不断地调整模型的参数，使其在训练集上的损失函数不断减小，从而提高模型的泛化能力。

一种基于笔画宽度特征和半监督多示例学习的文本区域鉴别方法

一种基于笔画宽度特征和半监督多示例学习的文本区域鉴别方法吴锐;杜庆安;张博宇;黄庆成【摘要】考虑到文本区域鉴别在视频文本检测中的重要作用,提出了一种基于笔画宽度特征的文本区域鉴别方法,该方法通过分析候选文本区域中笔画宽度的分布,有效地区分文本和非文本区域.此外针对笔画宽度信息提取过程中存在未知极性参数的问题,提出了一种半监督多示例学习(SS-MIL)算法,该算法可以充分利用训练样本中不完整的监督信息,提高文本区域分类器的性能.基于上述方法,实现了一个完整的视频文本检测系统,并在具有代表性的数据集上对其进行了充分的实验,实验结果表明,基于笔画宽度特征和SS-MIL的文本区域鉴别方法能够有效地辨别文本区域,从而使该系统检测视频文本的综合性能达到较高水平.【期刊名称】《高技术通讯》【年(卷),期】2016(026)002【总页数】8页(P111-118)【关键词】文本区域鉴别;笔画宽度;半监督学习;多示例学习(MIL)【作者】吴锐;杜庆安;张博宇;黄庆成【作者单位】哈尔滨工业大学计算机科学与技术学院哈尔滨150001;天津航天机电设备研究所天津300000;哈尔滨工业大学计算机科学与技术学院哈尔滨150001;哈尔滨工业大学计算机科学与技术学院哈尔滨150001【正文语种】中文在过去的数十年里，随着视频拍摄设备的广泛普及和互联网技术的飞速发展，视频数据的数量高速增长。

视频服务提供商亟需有效的方法对海量的视频数据进行管理和存储。

视频中的文本内容包含着丰富的语义信息，这些信息是进行视频资料自动注释、检索、压缩的重要依据。

从视频图像处理和文本检测的研究角度出发，目前已经提出了一些视频文本检测方法[1]。

这些方法大致可以分为三类：基于纹理的方法[2,3]，基于连通组件(connect-component)的方法[4-6]以及基于边缘的方法[7，8]。

这些方法从文本区域的不同特性出发，将前景(文本)从背景中剥离出来，然后将获得的前景组合成候选的文本区域。

Java中的机器学习与深度学习算法实现

Java中的机器学习与深度学习算法实现随着人工智能技术的发展，机器学习和深度学习在各个领域中都得到了广泛的应用。

作为一门强大的编程语言，Java也不例外。

Java提供了丰富的机器学习和深度学习框架，使开发者能够方便地实现各种算法，并应用于实际问题中。

本文将介绍Java中常用的机器学习和深度学习算法及其实现方式。

一、机器学习算法实现1.1 监督学习算法监督学习是机器学习的一种常见方法。

在Java中，我们可以使用Weka框架来实现各种监督学习算法，如决策树、支持向量机和朴素贝叶斯等。

通过Weka的API，我们可以加载数据集、进行特征选择、构建分类器模型，并使用测试集进行模型评估。

示例代码：```import weka.classifiers.Classifier;import weka.classifiers.trees.J48;import weka.core.Instances;import weka.core.converters.ConverterUtils.DataSource;public class SupervisedLearning {public static void main(String[] args) throws Exception {// 加载数据集DataSource source = new DataSource("data.arff");Instances data = source.getDataSet();// 设置类别属性data.setClassIndex(data.numAttributes() - 1);// 构建分类器Classifier classifier = new J48();classifier.buildClassifier(data);// 输出分类器模型System.out.println(classifier);}}```1.2 无监督学习算法无监督学习是另一种常见的机器学习方法，它不需要预先标记的训练数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ｉ数字技术　＿＿十ｆ丽　算法分析　

几种多示例学习算法研究分析　杨雪洁赵凯　（合肥师范学院公共计算机教学部安徽合肥２３０６０１）　

摘要：多示例学习与传统机器学习有很大不同，多示例学习中一个样本包中有多个示例，样本包有类别，而示例没有类别标记，属于一对多的学习框　架。本文介绍了多示例学习提出背景及基本特点，从包层次和示例层次两方面分析比较了几种具有代表性的多示例学习算法，最后展望了多示例学习　算法的进一步研究方向。　关键词：多示例学习机器学习ＢＰ算法ＫＮＮ算法　中图分类号：ＴＰ３９１　４１　文献标识￣ｉＬ＇ｑ：Ａ　文章编号：１００７—９４１６（２０１６）０８—０１５１－０１　

１引言　Ｔ．Ｇ．Ｄｉｅｔｔｅｒｉｃｈ等人在研究药物活性预测时提出了多示例学习　的概念［】］。该问题是通过机器学习方法对样本分子（已标记适合制药　及不适合制药　行学习，从而尽可能正确预测某些新分子是否适合　制药。研究人员因技术原因只知道哪些分子适合制药，而对于该分　子中哪一种具体形状适合制药并不清楚，因为一个药物分子可能有　多种可能的形状（同分异构体），要有一个形状起作用，则这个分子就　适于制药，若该分子所有示例都不适合制药，该分子才不适合制药，　该问题提出了样本和示例一对多的学习框架，在该框架中若按监督　学习直接以分子为对象进行学习，将所有适合制药的分子作为正例　学习，会出现由于正例中噪声太高而难以学习，因为正例中也会有　大量不适合制药的形状，所以该问题提出了一种新的学习方式一多　示例学习。　

２多示例学习　多示例学习中的训练示例没有被标记类别，监督学习中所有训　练样本都有具体类别；多示例学习中训练分子（包）是有具体类别，非　监督学习的训练样本都没有类别标记。在监督、非监督学习中，一个　样本就是一个示例，不可以再次分割，一个样本只能属于一个具体　的类别，即样本和示例是一一对应关系，而多示例学习，一个样本（即　包）中有多个示例，训练集由若干个有类别的包组成，其中每个包包　含一些没有类别的示例。若一个包中至少存在一个正示例，则该包　被标记为正包；一个包中不含有任何正例，则该包为反包。学习系统　通过对已经标定类别的包进行学习来建立模型，希望尽可能正确地　预测训练集以外的包的类别标记［２］。机器学习算法目标是要找出　ｕｎｋｏｗｎ　ｐｒｏｃｅｓｓ的最佳逼近方法，传统监督、非监督学习描述见　

Ｂａｇ　ｕｎｋｏｗｎ　ｐｒｏｃｅｓｓ　Ｒｅｓｕｌｌ　

图１传统学习描述　

Ｂａｇ　

图１，多示例学习问题描述见图２。　多示例学习的提出拓宽了机器学习解决问题的领域，该问题在　现实生活中可以找到很多原型，例如基于内容的图像检索、文本分　类、视频内容检测、计算机安全预测等。国内外研究人员提出了多种　多示例学习算法，大致可以分为两类，从具体示例角度的示例层次　算法和从包层次分析的包层次算法。　

３示例层次算法　示例层次算法早期具有代表性的是Ｔ．Ｇ．Ｄｉｅｔｔｅｒｉｃｈ等人提出的　三个轴一平行矩形（ＡＰＲ）算法。他们将一个分子看成一个包，该分子　的不同形状作为包中的不同示例，为表示这些示例，将该分子固定　在坐标原点，从原点放射出多条射线，射线与分子的交点到坐标原　点的距离作为一个属性，再加上分子中氧原子位置属性，包中的每　个示例可以用上述属性值来描述。ＡＰＲ算法基本思想是找出覆盖所　有正包示例的轴平行矩形，再通过贪心算法逐步排除反包中的反示　例以缩小矩形，最终找到一个最小矩形确定多示例数据集中上限和　下限，从而将所有不在矩形内的样本排除，最终落在矩形中的样本　即为正例。三种ＡＰＲ算法中预测效果较好的是Ｉｔｅｒａｔｅｄ－ｄｉｓｃｒｉｍ　ＡＰＲ算法，由于ＡＰＲ算法都是基于矩形的，对于解决麝香分子问题　效果较好，难以直接用于解决实际的多示例学习问题，不具有较好　的通用性。　另一种有代表性的方法是基于概率的多样性密度（简称ＤＤ）算　法。ＤＤ算法中每个包的示例是一个ｍ维空间的向量，对应空间中的　一个点，空间中存在某个区域，满足每个正包中至少有一个示例在　该区域内或者距离足够近，所有来自反包的示例到该区域的距离足　够远。为找到该区域，Ｍａｒｏｎ￣Ｊ多样性密度来衡量空间中的每个点。　一个点周围的正包数越多，反包示例越远，则该点多样性密度越大，　空间中多样性密度最大的点被认为是目标区域。算法采用ｎｏｉｓｙ－ｏｒ　模型和梯度下降法来寻找多样性密度最大的点，将全部正包中的示　例都作为候选的目标，进行一次全局搜索以避免局部最优解。该算　

１１３Ｓｔａｎｃｅ　＼　／’　／　’　ｕｎｋ。ｗｎ　ｐｒ。ｃｅ　ｓｌ　＼　

ｉｎｓｔａｎｃｅ　ｌ　＼　／　

ｌｒｌｓｔａｎｃｅ　图２多示例学习描述　・・；…下转第１５４页　

收稿日期：２０１６—０５—１３　基金项目：合肥师范学院校级科研项目，编号：２０１２ｋｊ０５；－－￣ｒ．省高校优秀青年人才基金重点项目，编号：２０１３ＳＱＲＬ０６３ＺＤ。　作者简介：杨雪洁（１９８２－－），女，安徽巢湖人，硕士，讲师，研究方向：智能计算与机器学习。　算法分析　ｉ　＃　。Ｉ与应用　５实验及结果分析　５．１实验环境　为了验证ＡＱＰＳＯ－Ｍ算法在虚拟机映射时资源调度的有效性，　本文采用的实验仿真平台是ＣＩｏｕｄｓｉｍ，对其进行了扩展，修改了　ＶｉｒｔｕａｌＭａｃｈｉｎｅ类，ＶＭＡｌｌｏｃａｔｉｏｎＰｏｌｉｃｙ类和ＤａｔａＣｅｎｔｅｒＢｒｏｋｅｒ　类中相关方法和属性，并与ＬＦＦ（Ｌｅａｓｔ　Ｆｕｌｌ　Ｆｉｔ）算法、ＰＳＯ算法、　ＱＰＳＯ算法进行对比。实验的参数设置如下：　仿真的硬件环境：Ｉｎｔｅｒ　ＣｏｒｅＴＭ　ｉ５－２４５０Ｍ＠２．５０ＧＨｚ，，８ＧＢ　内存，５００Ｇ硬盘。软件环境；ｗｉｎｄｏｗｓ　７操作系统，Ｅｃｌｉｐｓｅ８．６和　ｊａｖａ１．７．０语言开发工具。　在相同实验条件下，ＰＳＯ算法中ｃ１和ｃ２设为２，ＰＳＯ、ＱＰＳＯ和　ＡＱＰＳＯ三种算法的种群规模设置为１０，迭代次数设置为３００次。　模拟的物理主机节点的参数配置如表１所示。　当物理主机节点的ＣＰＵ利用率为１０ｏ％时耗电量记为２５０Ｗ｝当　物理主机节点的ＣＰＵ￣Ｉ］用率为ｏ％时，损耗的电量是ｌ７５ｗ。　模拟的虚拟机的参数配置如表２Ｎ示。　５．２实验结果与分析　

５．２．１任务完成时间的比较　通过对图１任务完成时间的分析，可以看出：ＬＦＦ算法在放置虚　拟机时花费的时间自始至终都最多，ＰＳＯ、ＱＰＳＯ和ＡＱＰＳＯ算法在虚　拟机请求数量较少时，三种算法完成虚拟机放置的时间没有太大差　别；随着虚拟机请求数量的增加，三种算法得到最优放置方案的时　间差距逐步增大。　５．２．２负载和能耗的对比　如图２所示：ＡＱＰＳＯ－Ｍ算法比其他三种算法选出的放置方案　中物理主机的ＣＰＵ利用率和耗电率都较优，这是因为算法关键参数　的自适应的优化调整及目标函数中对能耗的考虑，从而在一定程度　上提高了搜索效率，并降低了电源损耗。　

６结语　本章主要针对云计算虚拟机放置过程中资源调度的问题，引入　…●●●●●●＿●●●●●●●●●●●●●＿●●●●●●●●●●●●●●●●●●●●●●●●●　……上接第ｌ５０页　

量子粒子群算法，根据粒子当前的位置和全局最优位置的关系，采　用自适应调整收缩一扩张因子和粒子权值的方法，对量子粒子群算　法的关键参数指标进行了改进，提出一种改进量子粒子群的映射算　法ＡＱＰＳＯ—Ｍ，算法以优化数据中心能耗为目标。通过仿真实验和分　析，验证了ＡＱＰＳＯ—Ｍ算法在搜索效率和节能方面的优势。　参考文献　［１］唐红，徐光侠．云计算研究与发展综述［Ｊ］．数字通信，２０１０，（６）：２３—２８．　［２］孙香花．云计算研究现状与发展趋势［Ｊ］．计算机测量与控制，　２０１　１．１　９（５）：９９８—１　００１．　［３］Ａｒｍｂｒｕｓｔ　Ｍ。Ｆｏｘ　Ａ。Ｇｒｉｆｆｉｔｈ　Ｒ’ｅｔ　ａ１．Ａ　ｖｉｅｗ　ｏｆ　ｃｌｏｕｄ　ｃｏｍｐｕｔ—　

ｉｎｇ［Ｊ］．Ｃ０ｍｍｕｎ１ｃａｔ１０ｎｓ　ｏｆ　ｔｈｅ　ＡＣＭ，２０１　０，５３（４）：５０—５８．　［４］刘鹏．云计算［Ｈ］．北京：电子工业出版社，２０１　５．　［５］任崇广．面向海量数据处理领域的云计算及其关键技术研究［Ｄ］．　南京：南京理工大学计算机科学与工程学院，２０１　３．　［６］Ｖａｎ　Ｈ　Ｎ。Ｔｒａｎ　Ｆ　Ｄ，Ｍｅｎａｕｄ　Ｊ　Ｍ．Ａｕｔｏｎｏｍｉｃ　ｖｉｒｔｕａ］ｒｅｓｏｕｒｃｅ　ｍａｎａｇｅｍｅｎｔ　ｆｏｒ　ｓｅｒｖｉｃｅ　ｈｏｓｔｉｎｇ　Ｄ１ａｔｆ０ｒｍｓ［Ｃ］／ＩＣＳＥ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｓｏｆｔｗａｒｅ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｃｈａｌｌｅｎｇｅｓ　ｏｆ　Ｃｌｏｕｄ．２００９：１—８．　［７］Ｈｕ　Ｊ，Ｇｕ　Ｊ，Ｓｕｎ　Ｇ，ｅｔａ］．Ａ　ｓｃｈｅｄｕ１１ｎｇ　ｓｔｒａｔｅｇｙ　ｏｎ　ｌｏａｄ　ｂａｌａｎｃｉｎｇ　ｏｆ　ｖｉｒｔｕａｌ　ｍａｃｈｉｎｅ　ｒｅｓｏｕｒｃｅｓ　ｉｎ　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ　ｅｎ－　ｖｉｒｏｎｍｅｎｔ［Ｃ］．Ｐａｒａｌｌｅｌ　Ａｒｃｈｉｔｅｃｔｕｒｅｓ。Ａｌｇｏｒｉｔｈｍｓ　ａｎｄ　Ｐｒｏｇｒａｍ—　ｍ１ｎｑ（ＰＡＡＰ），２０ｌ　０　Ｔｈｉｒｄ　Ｉｎｔｅｒｎａｔｉｏｎａ］Ｓｙｍｐｏｓｉｕｍ　ｏｎ．ＩＥＥＥ。　２Ｏｌ　０：８９－９６．　［８］Ｃｈｅｎ　Ｙ，Ｄａｓ　Ａ，Ｑｉｎ　Ｗ，ｅｔａ１．Ｍａｎａｇ１ｎｇ　ｓｅｒｖｅｒ　ｅｎｅｒｇｙ　ａｎｄ　ｏｐｅｒａｔｉｏｎａ］ｃｏｓｔｓ　ｉｎ　ｈｏｓｔｉｎｇ　ｃｅｎｔｅｒｓ［Ｃ］．ＡＣＭ　ＳＩＧＭＥＴＲＩＣＳ　Ｐｅｒ－　ｆｏｒｍａｎｃｅ　Ｅｖａｌｕａｔｉｏｎ　Ｒｅｖｉｅｗ．ＡＣＭ，２００５。３３（１）：３０３－３ｌ　４．　［９］Ｋｕｓｉｃ　Ｄ，Ｋｅｐｈａｒｔ　Ｊ　０，Ｈａｎｓｏｎ　Ｊ　Ｅ，ｅｔａ］．Ｐｏｗｅｒ　ａｎｄ　ｐｅｒｆｏｒ—　ｍａｎｃｅ　ｍａｎａｇｅｍｅｎｔ　ｏｆ　ｖｉｒｔｕａｌｉｚｅｄ　ｃｏｍｐｕｔｉｎｇ　ｅｎｖｉｒｏｎｍｅｎｔｓ　ｖｉａ　ｌｏｏｋａｈｅａｄ　ｃｏｎｔｒｏｌ［Ｊ］．Ｃｌｕｓｔｅｒ　ｃｏｍｐｕｔｉｎｇ，２００９，１２（１）：１—１　５．　［１Ｏ］孙俊，方伟，吴小俊等．量子行为粒子群优化：原理及其应用［Ｈ］．北　京：清华大学出版社，２０１　１：３１—４２．　

通过改造传统ＢＰ误差函数，得到多示例下的学习算法，该误差函数　法在麝香分子上测试效果虽然不￣［ＩＩｔｅｒａｔｅｄ－ｄｉｓｃｒｉｍ　ＡＰＲ算法，但　可以应用于其他方面，如股票选择、基于内容的图像检索等。　由于需要多次使用梯度下降搜索目标示例，ＤＤ算法训练时间　花费较大，研究人员又提出了ＥＭ—ＤＤ算法，该算法在ＥＭ算法的Ｅ　步从训练集的每个示例包中选出决定各包类别的训练示例，再在Ｍ　步选出的示例中使用多样性密度算法以最大化多样性密度，反复进　行Ｅ步和Ｍ步直至算法收敛，该算法在麝香分子数据集预测精度一　度是最高的，与ＤＤ算法相比缩短了不少时间，但由于该方法是不断　迭代的过程，比较容易陷入局部最优。