自适应的软子空间聚类算法

合集下载

块对角子空间聚类中成对约束的主动式学习

块对角子空间聚类中成对约束的主动式学习

第51卷第2期 V o l.51N o.2山东大学学报(工学版)J O U R N A L O F S H A N D O N G U N I V E R S I T Y(E N G I N E E R I N G S C I E N C E)2021年4月A p r.2021文章编号:1672-3961 (2021)02-0065-09D O I: 10.6040/j.issn. 1672-3961.0.2020.182块对角子空间聚类中成对约束的主动式学习解子奇,王立宏*,李谩(烟台大学计算机与控制工程学院,山东烟台264005)摘要:针对块对角表示(b l o c k d i a g o n a l r e p r e s e n t a t i o n,B D R)子空间聚类算法在对子空间重叠的高维数据聚类时效果较差的问题,提出成对约束的块对角子空间聚类(c o n s t r a i n e d s u b s p a c e c lustering w i t h b l o c k d i a g o n a l r e p r e s e n t a t i o n,C B D R)算法,设计主 动式学习策略,获取用户提供的少量数据点成对信息,以改进B D R算法的性能,给出C B D R算法的目标函数和求解过程。

在 测试集上的试验结果表明,C B D R算法的聚类错误率和归一化互信息指标比B D R和S B D R(s t r u c t u r e d b l o c k d i a g o n a l r e p r e s e n­tation) 算法好,而且主动式选取点对方法优于随机选取点对方法,使用少于的约束信息可降低B D R的聚类错误率达到5%以上。

关键词:子空间聚类;主动式学习;成对约束;块对角表示;约束聚类中图分类号:T P181文献标志码:A引用格式:解子奇,王立宏,李熳.块对角子空间聚类中成对约束的主动式学习[J].山东大学学报(工学版),2〇21,51(2):65-73.X I E Ziqi, W A N G L i h o n g,L I M a n.Active learning o f pairwise constraints in block diagonal s u b space clustering[J]. Journal o f S h a n d o n g University (E n g i n e e r i n g Science) ,2021,51(2):65-73.Active learning of pairwise constraints in block diagonal subspace clusteringXIE Ziqi, WANG Lihong* , LI Man(S c h o o l o f C o m p u t e r a n d C o n t r o l E n g i n e e r i n g,Y a n t a i U n i v e r s i t y,Y a n t a i 264005,S h a n d o n g,C h i n a)A b s t r a c t:F o c u s i n g o n th e p o o r p e r f o r m a n c e o f s u b s p a c e c l ustering b y b l o c k d i a g o n a l r e p r e s e n t a t i o n(B D R)o n h i g h-d i m e n s i o n a l d a t a w i t h o v e r l a p p e d s u b s p a c e s,a n ac t i v e l e a r n i n g strategy w a s d e s i g n e d to o b t a i n partial p a i r w i s e i n f o r m a t i o n a m o n g a f e w d a t a points. A p a i r w i s e c o n s t r a i n e d b l o c k d i a g o n a l r e p r e s e n t a t i o n a l g o r i t h m(C BD R) w a s p r o p o s e d to i m p r o v e the p e r f o r m a n c e o f th eB D R a l g o r i t h m.T h e o b j e c t i v e f u n c t i o n a n d solut i o n p r o c e s s o f th eC BD R w e r e g i v e n.T h e e x p e r i m e n t a l results o n the test datasets s h o w e d that th e C B D R a l g o r i t h m r e d u c e d t h e c l ustering e rror b y m o r e t h a n5%w i t h less t h a n5%〇 cons t r a i n t i n f o r m a t i o n in t e r m s o f c l ustering e rror a n d n o r m a l i z e d m u t u a l i n f o r m a t i o n,w h i c h significantly o u t p e r f o r m e d t h e c o m p a r e d a l g o r i t h m s,i.e., B D R,S B D R (s t r u c t u r e d b l o c k d i a g o n a l r e p r e s e n t a t i o n)w i t h r a n d o m selection o f p a i r w i s e constraints.K e y w o r d s:s u b s p a c e c l ustering ;ac t i v e l e a r n i n g;p a i r w i s e constr a i n t s;b l o c k d i a g o n a l r e p r e s e n t a t i o n;c o n s t r a i n e d clustering〇引言聚类是一种基本的数据挖掘方法,通常应用于文本数据聚类、图像分割和人脸识别等实际问题中。

【计算机应用研究】_子空间_期刊发文热词逐年推荐_20140723

【计算机应用研究】_子空间_期刊发文热词逐年推荐_20140723

推荐指数 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
2014年 序号 1 2 3 4 5 6 7 8 9
2014年 科研热词 推荐指数 自适应波束形成 1 聚类融合信息 1 聚类融合 1 线性约束最小方差(lcmv) 1 特征分解 1 波束域 1 实数值链接分析 1 增强的软子空间聚类 1 信号子空间 1
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
科研热词 人脸识别 高维数据 遗传优化 谱估计 自回归模型 维数约简 粒子滤波 监督最大差异伸展算法 特征子空间 特征向量迭代估计 混合多尺度奇异值特征 流形学习 步态识别 正约束 正交频分复用 模糊c-均值聚类 模式识别 梯度非负矩阵分解 最大差异伸展算法 方差权重矩阵 故障模式 支持向量机 控制图 接地网 指定元分析 投影框架 径向基网络 局部保持 子空间迭代 子空间聚类 子空间分解 多故障诊断 反馈 压缩技术 信息处理技术 二维虚拟图像 主元分析 三维数据
推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2011年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

基于软聚类的深度图增强方法

基于软聚类的深度图增强方法

基于软聚类的深度图增强方法
杨洋;何童瑶;詹永照;赵岩;王新宇
【期刊名称】《江苏大学学报(自然科学版)》
【年(卷),期】2024(45)2
【摘要】针对现有的深度获取方式存在数据缺失、分辨率低等问题,提出一种基于软聚类的深度图增强方法,称为软聚类求解器.该方法利用软聚类的强边缘保持特性提高深度图增强的精度.将软聚类仿射矩阵和加权最小二乘模型有机结合,构建了软聚类求解器中的置信加权最小二乘模型,提出了基于迭代的求解方法.为评估所提出的方法,在多项深度图增强任务上进行试验,包括深度图补洞、深度图超分辨率和深度图纠正,评价指标包含了峰值信噪比(PSNR)、结构相似度(SSIM)、均方根差(RMSE)和运行效率.结果表明:文中方法在深度图补洞任务中的平均PSNR达到了42.28,平均SSIM达到了98.83%;在深度图超分辨率、深度图纠正任务中的平均RMSE达到了8.96、 2.36.文中方法处理1张分辨率为2 048×1 024像素的图像仅需5.03 s.
【总页数】8页(P183-190)
【作者】杨洋;何童瑶;詹永照;赵岩;王新宇
【作者单位】江苏大学计算机科学与通信工程学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于决策树的网络高维数据软子空间聚类方法研究
2.基于聚类算法的双进双出磨煤机入炉煤量软测量方法
3.一种基于随机游走的软子空间聚类集成方法
4.基于RGB引导的深度图增强方法
5.基于各向异性扩散算法的深度图像不匹配边缘增强方法
因版权原因,仅展示原文概要,查看原文内容请购买。

【计算机科学】_子空间_期刊发文热词逐年推荐_20140723

【计算机科学】_子空间_期刊发文热词逐年推荐_20140723

推荐指数 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
科研热词 高维数据 高维数据流 音频传输 非负矩阵分解 软子空间算法 自适应 网格划分 维度灾难 相似度量 核最大散度差判别分析 标签语义挖掘 标签 数据流流量 子空间聚类 子空间差异 子空间学习 子空间 信噪比 人脸识别 不等保护 k均值
2008年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
科研热词 子空间 高维数据 非负矩阵分解法 自主学习 空间离群点 离群点挖掘 数据流 局部离群点 动态模糊逻辑 动态模糊关系 剪枝 公理体系 人脸识别 zernike矩 rbf神经网络 boosting方法
2014年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
2014年 科研热词 推荐指数 高维数据 1 马尔科夫逻辑网 1 软子空间聚类 1 距离加权 1 血流图 1 聚类融合 1 维数灾难 1 线性鉴别分析(lda) 1 红外人脸识别 1 类别子空间 1 类内类间不确定度 1 离散余弦变换(dct) 1 独立子空间分析 1 特征融合 1 特征提取 1 流形学习 1 概率图模型 1 最大边缘准则 1 时空特征 1 无监督学习 1 数据挖掘 1 情感识别 1 异构信息网络 1 度量集中 1 局部自适应软子空间聚类 1 局部样条嵌入 1 子空间学习 1 子空间分解 1 子空间 1 多扰动 1 可分性 1 双树复小波 1 全域分析 1 人脸识别 1 人脸表情 1 互k最近邻 1 二维主成份分析 1 主题模型 1 qos预测 1

四类传统聚类算法简介

四类传统聚类算法简介

- leaf balance L •Parameter: T
BIRCH algorithm

An example of the CF Тree Initially, the data points in one cluster.
root A
A
BIRCH algorithm
root •
An example of the CF Тree The data arrives, and a check is made whether the size of the cluster does not exceed T.
传统聚类算法
• 基于划分的方法
• K-means算法
• 基于密度的方法
• DBSCAN算法
• FCM算法
• 基于网格的方法
• CLIQUE算法
• 基于层次的方法
• 层次凝聚的代表算法AGNES。层 次分裂的代表算法DIANA。 • 改进的层次聚类方法BIRTH
一、基于划分的方法
• 思想:给定包含n个样本的一个有限数据集,将数据集用划分方 法构建成k个聚类(k<n)
A
A
T
BIRCH algorithm
root •
An example of the CF Тree
If the cluster size grows too big, the cluster is split into two clusters, and the points are redistributed.
• 再使用循环定位技术将样本在各聚类间移动,来提高划分质量。
• 经典的基于划分的聚类方法k-means算法和FCM算法
K-means聚类算法

【国家自然科学基金】_子空间聚类_基金支持热词逐年推荐_【万方软件创新助手】_20140731

【国家自然科学基金】_子空间聚类_基金支持热词逐年推荐_【万方软件创新助手】_20140731

2009年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
推荐指数 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
k-means算法 dna微阵列数据 ap聚类
53 d-s证据理论 54 clique
推荐指数 4 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
科研热词 子空间聚类 聚类分析 聚类 数据挖掘 支持向量机 多类分类 高雏指标 高维数据索引 高维数据 高光谱 频繁模式 非线性建模 遥感 逆系统方法 辨识 谱聚类 聚类算法 聚类树 联合基尼值 网格划分 线性判别分析 粗糙集 类别保留投影 相对熵 相似兴趣子空间 目标检测 热工过程 模糊规则 模糊c均值聚类 模拟电路 核方法 最优聚类中心 最优变换 故障诊断 投影寻踪 属性关系图 密度聚类 子空间 基因表达数据 基于内容图像检索 图像分割 可视化 可信子空间 加速遗传算法 加权ls-svm 分解聚类 分类属性 农业综合生产力 亚像素目标 二又树 k均值聚类 fp.树

迁移学习中的领域自适应方法

极视角学术分享王晋东中国科学院计算技术研究所2017年12月14日1迁移学习简介23451 迁移学习的背景⏹智能大数据时代⏹数据量,以及数据类型不断增加⏹对机器学习模型的要求:快速构建和强泛化能力⏹虽然数据量多,但是大部分数据往往没有标注⏹收集标注数据,或者从头开始构建每一个模型,代价高昂且费时⏹对已有标签的数据和模型进行重用成为了可能⏹传统机器学习方法通常假定这些数据服从相同分布,不再适用文本图片及视频音频行为1 迁移学习简介⏹迁移学习⏹通过减小源域(辅助领域)到目标域的分布差异,进行知识迁移,从而实现数据标定。

⏹核心思想⏹找到不同任务之间的相关性⏹“举一反三”、“照猫画虎”,但不要“东施效颦”(负迁移)减小差异知识迁移135源域数据标记数据难获取1 迁移学习应用场景⏹应用前景广阔⏹模式识别、计算机视觉、语音识别、自然语言处理、数据挖掘…不同视角、不同背景、不同光照的图像识别语料匮乏条件下不同语言的相互翻译学习不同用户、不同设备、不同位置的行为识别不同领域、不同背景下的文本翻译、舆情分析不同用户、不同接口、不同情境的人机交互不同场景、不同设备、不同时间的室内定位⏹数据为王,计算是核心⏹数据爆炸的时代!⏹计算机更强大了!⏹但是⏹大数据、大计算能力只是有钱人的游戏⏹云+端的模型被普遍应用⏹通常需要对设备、环境、用户作具体优化⏹个性化适配通常很复杂、很耗时⏹对于不同用户,需要不同的隐私处理方式⏹特定的机器学习应用⏹推荐系统中的冷启动问题:没有数据,如何作推荐?⏹为什么需要迁移学习⏹数据的角度⏹收集数据很困难⏹为数据打标签很耗时⏹训练一对一的模型很繁琐⏹模型的角度⏹个性化模型很复杂⏹云+端的模型需要作具体化适配⏹应用的角度⏹冷启动问题:没有足够用户数据,推荐系统无法工作因此,迁移学习是必要的1 迁移学习简介:迁移学习方法常见的迁移学习方法分类基于实例的迁移(instance based TL)•通过权重重用源域和目标域的样例进行迁移基于特征的迁移(feature based TL)•将源域和目标域的特征变换到相同空间基于模型的迁移(parameter based TL)•利用源域和目标域的参数共享模型基于关系的迁移(relation based TL)•利用源域中的逻辑网络关系进行迁移1 迁移学习简介:迁移学习方法研究领域常见的迁移学习研究领域与方法分类12领域自适应问题345⏹领域自适应问题⏹按照目标域有无标签⏹目标域全部有标签:supervised DA⏹目标域有一些标签:semi-supervised DA⏹目标域全没有标签:unsupervised DA⏹Unsupervised DA最有挑战性,是我们的关注点123领域自适应方法453 领域自适应:方法概览⏹基本假设⏹数据分布角度:源域和目标域的概率分布相似⏹最小化概率分布距离⏹特征选择角度:源域和目标域共享着某些特征⏹选择出这部分公共特征⏹特征变换角度:源域和目标域共享某些子空间⏹把两个域变换到相同的子空间⏹解决思路概率分布适配法(Distribution Adaptation)特征选择法(Feature Selection)子空间学习法(Subspace Learning)数据分布特征选择特征变换假设:条件分布适配(Conditional distribution假设:联合分布适配(Joint distribution adaptation)假设:源域数据目标域数据(1)目标域数据(2)⏹边缘分布适配(1)⏹迁移成分分析(Transfer Component Analysis,TCA)[Pan, TNN-11]⏹优化目标:⏹最大均值差异(Maximum Mean Discrepancy,MMD)⏹边缘分布适配(2)⏹迁移成分分析(TCA)方法的一些扩展⏹Adapting Component Analysis (ACA) [Dorri, ICDM-12]⏹最小化MMD,同时维持迁移过程中目标域的结构⏹Domain Transfer Multiple Kernel Learning (DTMKL) [Duan, PAMI-12]⏹多核MMD⏹Deep Domain Confusion (DDC) [Tzeng, arXiv-14]⏹把MMD加入到神经网络中⏹Deep Adaptation Networks (DAN) [Long, ICML-15]⏹把MKK-MMD加入到神经网络中⏹Distribution-Matching Embedding (DME) [Baktashmotlagh, JMLR-16]⏹先计算变换矩阵,再进行映射⏹Central Moment Discrepancy (CMD) [Zellinger, ICLR-17]⏹不只是一阶的MMD,推广到了k阶⏹条件分布适配⏹Domain Adaptation of Conditional Probability Models viaFeature Subsetting[Satpal, PKDD-07]⏹条件随机场+分布适配⏹优化目标:⏹Conditional Transferrable Components (CTC) [Gong,ICML-15]⏹定义条件转移成分,对其进行建模⏹联合分布适配(1)⏹联合分布适配(Joint Distribution Adaptation,JDA)[Long, ICCV-13]⏹直接继承于TCA,但是加入了条件分布适配⏹优化目标:⏹问题:如何获得估计条件分布?⏹充分统计量:用类条件概率近似条件概率⏹用一个弱分类器生成目标域的初始软标签⏹最终优化形式⏹联合分布适配的结果普遍优于比单独适配边缘或条件分布⏹联合分布适配(2)⏹联合分布适配(JDA)方法的一些扩展⏹Adaptation Regularization (ARTL) [Long, TKDE-14]⏹分类器学习+联合分布适配⏹Visual Domain Adaptation (VDA)[Tahmoresnezhad, KIS-17]⏹加入类内距、类间距⏹Joint Geometrical and Statistical Alignment (JGSA)[Zhang, CVPR-17]⏹加入类内距、类间距、标签适配⏹[Hsu,TIP-16]:加入结构不变性控制⏹[Hsu, AVSS-15]:目标域选择⏹Joint Adaptation Networks (JAN)[Long, ICML-17]⏹提出JMMD度量,在深度网络中进行联合分布适配平衡因子当,表示边缘分布更占优,应该优先适配⏹联合分布适配(4)⏹平衡分布适配(BDA):平衡因子的重要性⏹平衡分布适配(BDA):平衡因子的求解与估计⏹目前尚无精确的估计方法;我们采用A-distance来进行估计⏹求解源域和目标域整体的A-distance⏹对目标域聚类,计算源域和目标域每个类的A-distance ⏹计算上述两个距离的比值,则为平衡因子⏹对于不同的任务,边缘分布和条件分布并不是同等重要,因此,BDA 方法可以有效衡量这两个分布的权重,从而达到最好的结果⏹概率分布适配:总结⏹方法⏹基础:大多数方法基于MMD距离进行优化求解⏹分别进行边缘/条件/联合概率适配⏹效果:平衡(BDA)>联合(JDA)>边缘(TCA)>条件⏹使用⏹数据整体差异性大(相似度较低),边缘分布更重要⏹数据整体差异性小(协方差漂移),条件分布更重要⏹最新成果⏹深度学习+分布适配往往有更好的效果(DDC、DAN、JAN)BDA、JDA、TCA精度比较DDC、DAN、JAN与其他方法结果比较⏹特征选择法(Feature Selection)⏹从源域和目标域中选择提取共享的特征,建立统一模型⏹Structural Correspondence Learning (SCL) [Blitzer, ECML-06]⏹寻找Pivot feature,将源域和目标域进行对齐⏹特征选择法其他扩展⏹Joint feature selection and subspace learning [Gu, IJCAI-11]⏹特征选择/变换+子空间学习⏹优化目标:⏹Transfer Joint Matching (TJM) [Long, CVPR-14]⏹MMD分布适配+源域样本选择⏹优化目标:⏹Feature Selection and Structure Preservation (FSSL) [Li, IJCAI-16]⏹特征选择+信息不变性⏹优化目标:⏹特征选择法:总结⏹从源域和目标域中选择提取共享的特征,建立统一模型⏹通常与分布适配进行结合⏹选择特征通常利用稀疏矩阵⏹子空间学习法(Subspace Learning)⏹将源域和目标域变换到相同的子空间,然后建立统一的模型⏹统计特征变换(Statistical Feature Transformation)⏹将源域和目标域的一些统计特征进行变换对齐⏹流形学习(Manifold Learning)⏹在流形空间中进行子空间变换统计特征变换流形学习⏹统计特征变换(1)⏹子空间对齐法(Subspace Alignment,SA)[Fernando, ICCV-13]⏹直接寻求一个线性变换,把source变换到target空间中⏹优化目标:⏹直接获得线性变换的闭式解:⏹子空间分布对齐法(Subspace Distribution Alignment,SDA)[Sun, BMVC-15]⏹子空间对齐+概率分布适配⏹空间对齐法:方法简洁,计算高效⏹统计特征变换(2)⏹关联对齐法(CORrelation Alignment,CORAL)[Sun, AAAI-15]⏹最小化源域和目标域的二阶统计特征⏹优化目标:⏹形式简单,求解高效⏹深度关联对齐(Deep-CORAL) [Sun, ECCV-16]⏹在深度网络中加入CORAL⏹CORAL loss:⏹流形学习(1)⏹采样测地线流方法(Sample Geodesic Flow, SGF) [Gopalan, ICCV-11]⏹把领域自适应的问题看成一个增量式“行走”问题⏹从源域走到目标域就完成了一个自适应过程⏹在流形空间中采样有限个点,构建一个测地线流⏹测地线流式核方法(Geodesic Flow Kernel,GFK)[Gong, CVPR-12]⏹继承了SGF方法,采样无穷个点⏹转化成Grassmann流形中的核学习,构建了GFK⏹优化目标:SGF方法GFK方法⏹流形学习(2)⏹域不变映射(Domain-Invariant Projection,DIP)[Baktashmotlagh,CVPR-13]⏹直接度量分布距离是不好的:原始空间特征扭曲⏹仅作流形子空间学习:无法刻画分布距离⏹解决方案:流形映射+分布度量⏹统计流形法(Statistical Manifold) [Baktashmotlagh, CVPR-14]⏹在统计流形(黎曼流形)上进行分布度量⏹用Fisher-Rao distance (Hellinger distance)进行度量⏹子空间学习法:总结⏹主要包括统计特征对齐和流形学习方法两大类⏹和分布适配结合效果更好⏹趋势:与神经网络结合1234最新研究成果5⏹领域自适应的最新研究成果(1)⏹与深度学习进行结合⏹Deep Adaptation Networks (DAN)[Long, ICML-15]⏹深度网络+MMD距离最小化⏹Joint Adaptation Networks (JAN)[Long, ICML-17]⏹深度网络+联合分布距离最小化⏹Simultaneous feature and task transfer[Tzeng, ICCV-15]⏹特征和任务同时进行迁移⏹Deep Hashing Network (DHN) [CVPR-17]⏹在深度网络中同时学习域适应和深度Hash特征⏹Label Efficient Learning of Transferable Representations acrossDomains and Tasks [Luo, NIPS-17]⏹在深度网络中进行任务迁移⏹领域自适应的最新研究成果(2)⏹与对抗学习进行结合⏹Domain-adversarial neural network[Ganin, JMLR-16]⏹深度网络中加入对抗[Tzeng, arXiv-17]⏹Adversarial Discriminative Domain Adaptation (ADDA)⏹对抗+判别⏹开放世界领域自适应⏹Open set domain adaptation[Busto, ICCV-17]⏹当源域和目标域只共享一部分类别时如何迁移?⏹与张量(Tensor)表示相结合⏹When DA Meets tensor representation[Lu, ICCV-17]⏹用tensor的思想来做领域自适应⏹与增量学习结合⏹Learning to Transfer (L2T) [Wei, arXiv-17]⏹提取已有的迁移学习经验,应用于新任务12345参考资料图:Office+Caltech、USPS+MNIST、ImageNet+VOC、COIL20数据集•[Pan, TNN‐11] Pan S J, Tsang I W, Kwok J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks, 2011, 22(2): 199‐210.•[Dorri, ICDM‐12] Dorri F, Ghodsi A. Adapting component analysis[C]//Data Mining (ICDM), 2012 IEEE 12th International Conference on. IEEE, 2012: 846‐851.•[Duan, PAMI‐12] Duan L, Tsang I W, Xu D. Domain transfer multiple kernel learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 465‐479.•[Long, ICML‐15] Long M, Cao Y, Wang J, et al. Learning transferable features with deep adaptation networks[C]//International Conference on Machine Learning.2015: 97‐105.•[Baktashmotlagh, JMLR‐16] Baktashmotlagh M, Harandi M, Salzmann M. Distribution‐matching embedding for visual domain adaptation[J]. The Journal of Machine Learning Research, 2016, 17(1): 3760‐3789.•[Zellinger, ICLR‐17] Zellinger W, Grubinger T, Lughofer E, et al. Central moment discrepancy (CMD) for domain‐invariant representation learning[J]. arXiv preprint arXiv:1702.08811, 2017.•[Satpal, PKDD‐07] Satpal S, Sarawagi S. Domain adaptation of conditional probability models via feature subsetting[C]//PKDD. 2007, 4702: 224‐235.•[Gong, ICML‐15] Gong M, Zhang K, Liu T, et al. Domain adaptation with conditional transferable components[C]//International Conference on Machine Learning.2016: 2839‐2848.•[Long, ICCV‐13] M. Long, J. Wang, G. Ding, J. Sun, and P. S. Yu, “Transfer feature learning with joint distribution adaptation,”in ICCV, 2013, pp. 2200–2207.•[Long, TKDE‐14] Long M, Wang J, Ding G, et al. Adaptation regularization: A general framework for transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5): 1076‐1089.•[Tahmoresnezhad, KIS‐17] J. Tahmoresnezhad and S. Hashemi, “Visual domain adaptation via transfer feature learning,” Knowl. Inf. Syst., 2016.•[Zhang, CVPR‐17] Zhang J, Li W, Ogunbona P. Joint Geometrical and Statistical Alignment for Visual Domain Adaptation, CVPR 2017.•[Hsu, AVSS‐15] T. Ming Harry Hsu, W. Yu Chen, C.‐A. Hou, and H. T. et al., “Unsupervised domain adaptation with imbalanced cross‐domain data,” in ICCV, 2015, pp. 4121–4129.•[Hsu, TIP‐16] P.‐H. Hsiao, F.‐J. Chang, and Y.‐Y. Lin, “Learning discriminatively reconstructed source data for object recognition with few examples,” TIP, vol. 25, no.8, pp. 3518–3532, 2016.•[Long, ICML‐17] Long M, Wang J, Jordan M I. Deep transfer learning with joint adaptation networks. ICML 2017.•[Wang, ICDM‐17] Wang J, Chen Y, Hao S, Feng W, Shen Z. Balanced Distribution Adaptation for Transfer Learning. ICDM 2017. pp.1129‐1134.•[Blitzer, ECML‐06] Blitzer J, McDonald R, Pereira F. Domain adaptation with structural correspondence learning[C]//Proceedings of the 2006 conference on empirical methods in natural language processing. Association for Computational Linguistics, 2006: 120‐128.•[Gu, IJCAI‐11] Gu Q, Li Z, Han J. Joint feature selection and subspace learning[C]//IJCAI Proceedings‐International Joint Conference on Artificial Intelligence. 2011, 22(1): 1294.•[Long, CVPR‐14] Long M, Wang J, Ding G, et al. Transfer joint matching for unsupervised domain adaptation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 1410‐1417.•[Li, IJCAI‐16] Li J, Zhao J, Lu K. Joint Feature Selection and Structure Preservation for Domain Adaptation[C]//IJCAI. 2016: 1697‐1703.•[Fernando, ICCV‐13] Fernando B, Habrard A, Sebban M, et al. Unsupervised visual domain adaptation using subspace alignment[C]//Proceedings of the IEEE international conference on computer vision. 2013: 2960‐2967.•[Sun, BMVC‐15] Sun B, Saenko K. Subspace Distribution Alignment for Unsupervised Domain Adaptation[C]//BMVC. 2015: 24.1‐24.10.•[Sun, AAAI‐16] Sun B, Feng J, Saenko K. Return of Frustratingly Easy Domain Adaptation[C]//AAAI. 2016, 6(7): 8.•[Sun, ECCV‐16] Sun B, Saenko K. Deep coral: Correlation alignment for deep domain adaptation[C]//Computer Vision–ECCV 2016 Workshops. Springer International Publishing, 2016: 443‐450.•[Gopalan, ICCV‐11] Gopalan R, Li R, Chellappa R. Domain adaptation for object recognition: An unsupervised approach[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 999‐1006.•[Gong, CVPR‐12] Gong B, Shi Y, Sha F, et al. Geodesic flow kernel for unsupervised domain adaptation[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 2066‐2073.•[Baktashmotlagh, CVPR‐13] Baktashmotlagh M, Harandi M T, Lovell B C, et al. Unsupervised domain adaptation by domain invariant projection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 769‐776.•[Baktashmotlagh, CVPR‐14] Baktashmotlagh M, Harandi M T, Lovell B C, et al. Domain adaptation on the statistical manifold[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2481‐2488.•[Ganin, JMLR‐16] Ganin Y, Ustinova E, Ajakan H, et al. Domain‐adversarial training of neural networks[J]. Journal of Machine Learning Research, 2016, 17(59): 1‐35.•[Busto, ICCV‐17] Panareda Busto P, Gall J. Open Set Domain Adaptation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017: 754‐763.•[Lu, ICCV‐17] Lu H, Zhang L, Cao Z, et al. When unsupervised domain adaptation meets tensor representations. ICCV 2017.•[Tzeng, arXiv‐17] Tzeng E, Hoffman J, Saenko K, et al. Adversarial discriminative domain adaptation[J]. arXiv preprint arXiv:1702.05464, 2017.•[Wei, arXiv‐17] Wei Y, Zhang Y, Yang Q. Learning to Transfer. arXiv1708.05629, 2017.。

k-means聚类算法研究及应用

k-means聚类算法研究及应用
K-means聚类算法研究及应用
一、简介
K-means聚类算法是一种非监督学习算法,它是一种广泛应用在模式分类和无监督式学习的数据挖掘技术。

它使用了基于距离的聚类算法,以相似性作为衡量子簇类别的标准,任务是将样本(属性)空间中的数据分为K个不同的类,使聚类的误差平方和最小化:通常假设样本由簇中心所处的子空间所构建,每个子空间由一个簇中心控制,因此K-means算法常常被形象地称为“均值聚类”算法。

二、原理
K-means聚类算法是一种迭代算法,它的基本思想是:首先,随机选取若干个“簇中心”,然后将其他的数据点根据其与“簇中心”的距离,归到最近的“簇中心”所代表的簇中。

然后根据新聚集的簇,重新更新这些“簇中心”;如此不断迭代,最终计算得到一组稳定的“簇中心”,这组“簇中心”所代表的簇就是最后的结果了。

三、应用
1、生物信息学:K-means聚类算法用于基因芯片和定量PCR,以及蛋白质表达数据。

2、计算机视觉:K-means用于图像分割,聚类,像素重新分配等。

3、自然语言处理:K-means用于文本聚类,文档分类,文本挖掘等方面。

4、机器学习:K-means用于各种拟合问题,比如参数估计,探索异常
值等等。

四、总结
K-means聚类算法是一种简单高效的聚类算法,它可以有效地将数据空间分割成几个簇,属于非监督学习算法,它的核心在于划分数据空间,对数据的模式分类和无监督式学习有较好的应用,如生物信息学、计
算机视觉、自然语言处理、机器学习等领域。

一种改进的子空间选择算法在聚类中的应用


Key words clustering ; high dimensional space; k nearest neighbors ; approximate nearest neighbors 摘 要 高维空间聚类由于其数据分布稀疏、 噪声数据多、差距趋于零现象” “ 等特征, 因而给传统的聚类 方法带来很大的阻碍. 为了解决这些问题 , 介绍了一种对于潜在子空间的选择方法. 原有方法采用 k 邻
关键词 聚类 ; 子 空间; 郁近; 近似部近 k
中图法分类号 T P3l l
聚类是数据挖掘研究 中的一个重要分析手段 , 目前的聚类算法主要分为层次方法和划分方 法. 层 次方法对给定的数据集进行层次分解, 对分解结果
题, 在处理海量数据集和高维数据上表现得尤为
明显 .
做合并或分裂形成聚簇, BIRcH[‘ ]和cu RE[2〕 是典
型的层次聚类算法 ; 分区方法利用某一个划分策略 对数据集进行分区, 得到的每个分区代表一个聚簇 ,
典型 算法包括 尔mediod[3] ,一 走 means[3〕 随着聚类 等.
在实际中的应用 越来越广泛 , 也逐 渐凸现 出一些 问
收稿 日期 :2007一 一 03 05
高维空间数据有如下特点 : 1 数据分布稀疏 、 ) 噪声数据较多; 2 维度高达一定程度时, ) 对给定数 据点、 距其最近的数据点与最远数据点间的距离随 着维度的增加渐趋于零 , 在此称为“ 差距趋零现象” . 并且 , 这些特点随着维度 的增 加更趋 明显. 为了处 理这些问题 , 通常采用将对聚簇无关或者影响不大
13 0
计算机研究与发展 200 , ( 增刊) 7 44
( 5 为 l o s ) w r ,T in动ua 协1* r it , 1咭 100084 ) o f t f a e s s y 及红

基于子空间维度加权的密度聚类算法


[ ywod ]cutr g hg i nin l aa sbp c ; i n in l ihig Ke r s ls i ; ihdme s a t;u sae dme s a weg t en o d o n
1 概述
聚类是数据挖 掘的主要任务之一 l,其 目的是 寻找数据 l j 集的一种划分 ,使得簇 内数据点 问的相似度尽 可能 大 ,而属 于不 同簇类的数据点 间相似度尽可能小 。现 已提 出了多种聚 类算法 ,然而 ,在高维数据空 间中,这些常 用的聚 类算 法的 聚类结果 常常 不尽 如人意 。主要原 因是 受 “ 维度效 应” _ J . 的影响 ,高维空间 中存在着大量不相关 的属性 ,令衡量 数据
第3 6卷 第 9 期
VL o 36






21 0 0年 5月
M a 01 y2 0
No 9 .
Co put rEng ne rng m e i ei
软件 技术 与数 据库 ・
文章编号:1 0 48 o0 9 06—0 文献标识码:A o —32( 10— 05 3 0 2 )
在经典 的 Pe C n算法基础上 ,引入子空间维度权重 的计 算方法 , rDe o 避免 Pe C n算法使 用全 空间距离度量带来 的问题 ,提高 了聚类 的质 rDe o 量 。在合成数据和实 际应 用数据集上的实验结果表 明,该算法 在高维数据聚类上可取得较 好的聚类精度 ,算法是 有效可行的 。
d me s o l y Ba e n t e c a sc Pr De n a g rt m,t i p rp e e t h t De n e st l trn l o i i n ina i . s d o h ls i e Co l o i t h h spa e r s n s t e S a Co ,a d n iy cuse i g ag rt hm o i h di nso a f r h g me i n l d t , i h i t o uc sa m e s r fs s a e d m e son lwe g tn O a o d t e p o l m xit g i r De n c u e y u i g f l di e i n l a a wh c n r d e a u e o ub p c i n i a i h i g t v i h r b e e si n P e Co a s d b sn u l m nso a n d s a c , nd i h s wa , h u l y o l se i si r v d Ex e i n a e u t o h o ri c a n a tc ld t h w h tt e a g rt m s i tn e a n t i y t e q a i fc u t r t ng i mp o e . p rme t l s lsb t n a tf i l d pr c i a a a s o t a h l o i r i a h i mo e a c r t , n se f c i ea d f a i e. r c u a e a d i i fe tv n e sbl t
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ISSN 1000-9825,CODEN RUXUEW Journal ofSoftware,Vo1.21,No.10,October 2010,PP.2513-2523 doi:l0 3724/SP J.10O1.2010 03763 ◎by Institute ofSoftware,the Chinese Academy ofSciences.All rights reserved. 

自适应的软子空间聚类算法 陈黎飞H,郭躬德 ,姜青山 (福建师范大学数学与计算机科学学院,福建福州 35m08) (厦门大学软件学院,福建厦门 361005) 

Adaptive Algorithm for Soft Subspace Clustering CHEN Li—FeiH,GUO Gong.De ,JIANG Qing—Shan 

E—mail:jOS@iscas.ac.cn http://www.jos org.cn Tel/Fax:+86..1 0..62562563 

(School ofMathematics and Computer Science,Fujian Normal University,Fuzhou 350108,China) (Software School,Xiamen University,Xiamen 361005,China) +Corresponding author:E-mail:c1fei@0nu.edu.cn,http://math.fjnu.edu.cn/newmath/Article/ShowArticle.asp?ArticIeID=741 

Chen LF,Guo GD,Jiang QS.Adaptive algorithm for soft subspace clustering.Journal of Software,201 0, 21(10):2513—2523.http://www.jos.org.cn/1000—9825/3763.htm 

Abstract: Soft subspace clustering is a key for high—dimensional data analysis.The existing algorithms usually 

require users to estimate some key global parameters in advance,and ignore the optimization of subspaces.A novel 

objective function,to be optimized by the soft subspace clustering algorithms,is proposed in this paper by taking into account both minimization of the compact subspace clusters and maximization of the subspaces in which the clusters exist.Based on this,a new locally feature weighting scheme is derived,and an adaptive algorithm for 

k-means type soft subspace clustering is presented.In the new algorithm,the optimal values of parameter are 

automatically computed,according with the dataset and its partitions.Experimental results carried out on SOme 

real—world and synthesis datasets demonstrate that the proposed method significantly improves the accuracy as well as the stability of the clustering results. Key words:clustering;high dimensional data;subspace;feature weighting;adaptability 

摘要: 软子空间聚类是高维数据分析的一种重要手段.现有算法通常需要用户事先设置一些全局的关键参数. 且没有考虑子空间的优化.提出了一个新的软子空间聚类优化目标函数,在最小化子空间簇类的簇内紧凑度的同时

, 最大化每个簇类所在的投影子空间.通过推导得到一种新的局部特征加权方式,以此为基础提出一种自适应的 

k-means型软子空间聚类算法.该算法在聚类过程中根据数据集及其划分的信息,动态地计算最优的算法参数.在实 际应用和合成数据集上的实验结果表明,该算法大幅度提高了聚类精度和聚类结果的稳定性. 关键词: 聚类;高维数据;子空间;特征加权:自适应性 

+Supported by the National Natural Science Foundation of China under Grant No.10771 176(国家自然科学基金):the Fujian 

Provincial Natural Science Foundation of China under Grant No.2009J01273(福建省自然科学基金);the Scientific Research Foundati0n 

f0r the Returned Overseas Chinese Scholars,Ministry ofEducation ofChina under Grant No.[2008]890(国家教育部留学回国人员科研 

届动基金);the Key Scientific Research Project of the Higher Education Institutions of Fujian Province of China under Grant No.JK2009006(福建省省属高校科研专项重点项目) Received 2009—04-24;Revised 2009—08.12:Accepted 2009—10.19 2514 中图法分类号:TP311 文献标识码:A Journal of Software软件学报Vo1.21,No.10,October 2010 

聚类是数据挖掘研究的一个重要手段,研究者已提出多种聚类算法….然而在许多实际应用中,数据具有很 高的维度(也称为特征或属性).例如,文本挖掘中由VSM(向量空间模型)【2]表示的文档向量可能具有几百甚至上 千个特征.受“维度效应(the curse of dimensionality)”[3,41的影响,当用传统算法聚类如此高维的数据时,有效性大 为降低.高维数据的处理问题是目前数据挖掘的挑战性任务之--[ . 高维数据空间中往往存在许多不相关的属性,使得要寻找的目标类只存在于某些低维子空间中,而不同的 簇类其关联的子空间通常也是不一样的[4,61在高维空间挖掘隐藏在不同低维子空间中簇类的过程,称为子空间 聚类(subspace clustering).现有多种类型的子空间聚类算法【4],其中,投影聚类(projective clustering)由于对数据 维度数目增长不敏感等优点,自Aggarwal等人_6】提出开始就获得了广泛的关注.其核心思想是,给定簇数目 在一个类k-means(或k-medoids)算法过程中对数据集进行划分的同时,搜索每个划分所在的最佳投影子空间. 最佳子空间通过局部特征加权(1ocally feature weighting) ̄术[J7]实现,对于每个划分,各维度被赋予不同的权重, 权重越大表示特征越重要,或与该划分的关联性越强. 根据加权方式的差异,现有算法可分为硬子空f(hard subspace) ̄l软子空间(soft subspace)聚类两种方法 J, 后者给维度赋予[0,1]区间的权值,表示维度与对应划分之间“模糊的”关联度,是近年来较为活跃的一个研究方 向.现有算法在定义加权方式时都引入了一些难以确定的参数,例如FWKMt 9J的所口8,LAC[7j的h,FSC【J UJ的 和s 以及EWKM[8]的 ,用于计算每个划分的投影子空间.实际应用中,以上算法的参数都需要用户给定.另外,这些 参数都被定义为全局的(不同的簇类使用统一的加权参数),因而无法根据数据集及其各异的簇结构特点进行自 动调节,这些都导致了算法对不同聚类问题泛化能力的降低.此外,现有算法在聚类过程中大多着重于数据集划 分的优化,而忽略了投影聚类问题的另一方面:簇类所在子空问的优化.这是不完备的. 本文提出一种自适应的算法ASC(adaptive soft—subspace clustering),用于对高维数据进行软子空间聚类. ASC基于经典的k-means聚类过程,实现数据集划分和投影子空间两方面的优化;除簇数目K以外,ASC不需要 用户设置额外的参数,而是在算法的每个迭代步骤根据数据集及其划分的特点,动态地计算优化的加权参数,为 每个簇类确定其最佳的投影子空间.在合成数据和实际应用数据集上的实验结果表明,ASC算法有效提高了聚 类精度和聚类结果的稳定性. 本文第1节主要介绍背景知识和相关的研究工作.第2节给出具体的ASC算法描述.第3节介绍实验环境 和实验结果分析.最后在第4节对本文进行总结并指出进一步的研究方向. 

1背景知识与相关工作 给定数据集DB= l 2,... .. },其中—f<xi1 …,赡 ..,XiD),称Xi为D >1)维数据空间的第i个数据点 (i=1,2 .,_Ⅳ).这里,Ⅳ(Ⅳ>1)表示数据点数目,并假设数据己作规范化处理使得所有的 ∈[0,1】产1,2,...,D.一个硬 聚类算法【 将DB划分为 个子集的集合c={cl,C2,...,c ,KVk ̄l,1≤|j}, ≤K nC尸 , 称为DB的第七个簇 (k=l…2…/O, 1)是给定的簇数目. 在投影聚类中,为识别某个簇类所处的子空间,可以采用维度加权的方法【 .71“】.设权重wkj ̄j个维度与 C 的相关程度,其值越大,表示该维度对于 越重要.在硬子空间聚类算法中,如PROCLUS[ 和FINDIT[ 】等, w {0,1},亦即只体现出维度是否与某个簇相关.这类算法通常需要事先给定相关维度的数目,例如 PROCLUS[ 的算法参数,,这在实际应用中是很困难的.软子空间聚类算法,如LAC[ ,EWKMt ,FWKM[ 】和 FSC[∞]等,使用软特征加权方法使得wH∈[0,1]K满足 D ∑ =1,k=1,2,...,K (1) 

相关文档
最新文档