有监督学习方法
有监督学习与无监督学习的区别

有监督学习与⽆监督学习的区别
有监督学习和⽆监督学习两者的区别:
1.有标签就是有监督学习,没有标签就是⽆监督学习,说的详细⼀点,有监督学习的⽬的是在训练集中找规律,然后对测试数据运⽤这种规律,⽽⽆监督学习没有训练集,只有⼀组数据,在该组数据集内寻找规律。
2. ⽆监督学习⽅法在寻找数据集中的规律性,这种规律性并不⼀定要达到划分数据集的⽬的,也就是说不⼀定要“分类”。
⽐如,⼀组颜⾊各异的积⽊,它可以按形状为维度来分类,也可以按颜⾊为维度来分类。
(这⼀点⽐监督学习⽅法的⽤途要⼴。
如分析⼀堆数据的主分量,或分析数据集有什么特点都可以归于⽆监督学习⽅法的范畴) ,⽽有监督学习则是通过已经有的有标签的数据集去训练得到⼀个最优模型,像我们的CNN(卷积神经⽹络)模型都是运⽤了有监督学习去训练出最优的模型,利⽤这个最优的模型就可以对⼀些图像进⾏场景分类。
3.有监督学习要实现的⽬标是“对于输⼊数据X能预测变量Y”(有答案和⽅法的学)。
⽽⽆监督学习要回答的问题是“从数据X 中能发现什么”(⾃学)。
深度学习中的监督学习/⽆监督学习算法:
深度学习是⼀种实现机器学习的技术,也包含了监督学习算法和⽆监督学习算法。
常见的卷积神经⽹络就是⼀种有监督学习⽅法,在图像分类(如⼈脸识别)上应⽤⾮常⼴泛。
⽣成对抗⽹络(GAN)是⼀种⽆监督学习⽅法,经常被⽤来做图像⽣成(如深度卷积对抗⽣成⽹络(DCGAN)可⽤于⽣成卡通图像)。
有监督、无监督与半监督学习【总结】

有监督、⽆监督与半监督学习【总结】概念有监督学习:训练数据既有特征(feature)⼜有标签(label),通过训练,让机器可以⾃⼰找到特征和标签之间的联系,在⾯对只有特征没有标签的数据时,可以判断出标签。
⽆监督学习(unsupervised learning):训练样本的标记信息未知,⽬标是通过对⽆标记训练样本的学习来揭⽰数据的内在性质及规律,为进⼀步的数据分析提供基础,此类学习任务中研究最多、应⽤最⼴的是"聚类" (clustering),其他⽆监督算法还有:密度估计(densityestimation)、异常检测(anomaly detection) 等。
半监督学习:训练集同时包含有标记样本数据和未标记样本数据,不需要⼈⼯⼲预,让学习器不依赖外界交互、⾃动地利⽤未标记样本来提升学习性能,就是半监督学习。
主动学习:有的时候,有类标的数据⽐较稀少⽽没有类标的数据很多,但是对数据进⾏⼈⼯标注⼜⾮常昂贵,这时候,学习算法可以主动地提出⼀些标注请求,将⼀些经过筛选的数据提交给专家进⾏标注,这个筛选过程也就是主动学习主要研究的地⽅了。
注:半监督学习与主动学习属于利⽤未标记数据的学习技术,只是其基本思想不同。
内容1、监督学习监督学习从训练数据集合中训练模型,再对测试据进⾏预测,训练数据由输⼊和输出对组成,通常表⽰为:测试数据也由相应的输⼊输出对组成。
输⼊变量与输出变量均为连续的变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题,输⼊变量与输出变量均为变量序列的预测问题称为标注问题。
监督算法常见的有:线性回归,神经⽹络,决策树,⽀持向量机,KNN等。
2、⽆监督学习聚类聚类试图将数据集中的样本划分为若⼲个通常是不相交的⼦集,每个⼦集称为⼀个"簇" (cluster).。
通过这样的划分,每个簇可能对应于⼀些潜在的概念(类别) ,这些概念对聚类算法⽽⾔事先是未知的,聚类过程仅能⾃动形成簇结构,簇所对应的概念语义需由使⽤者来把握和命名。
如何有效地进行学习过程中的监督与指导

如何有效地进行学习过程中的监督与指导有效地进行学习过程中的监督与指导,可以考虑以下几个方面:1. 明确学习目标:在开始学习之前,确保学生或学习者明确知道他们需要达到的目标。
这有助于他们保持专注并了解他们需要努力的方向。
2. 制定学习计划:制定一个详细的学习计划,包括学习的主题、时间表、资源和学习方法。
这有助于确保学习过程有条理,并有助于跟踪进度。
3. 提供反馈和评估:定期提供反馈和评估,以帮助学生了解他们的学习进度和成果。
这可以包括作业、测验、考试或口头提问等方式。
4. 鼓励自主学习:鼓励学生自主学习,培养他们的独立思考和解决问题的能力。
提供资源和指导,帮助他们找到适合自己的学习方法和策略。
5. 建立良好的学习环境:创造一个积极、支持性的学习环境,让学生或学习者感到被接纳和尊重。
鼓励他们提问、分享想法和合作,以促进互相学习和成长。
6. 调整教学方法:根据学生的需求和能力,灵活调整教学方法和策略。
这可以包括使用不同的教学工具、活动或资源,以确保学生能够理解和掌握所学内容。
7. 保持沟通:与学生或学习者保持定期沟通,了解他们的学习需求、问题和进展。
这有助于建立信任和良好的师生关系,并有助于提供个性化的指导和支持。
8. 鼓励反思和总结:鼓励学生在学习过程中进行反思和总结,以帮助他们了解自己的学习风格、进步和需要改进的地方。
这有助于他们成为自主的学习者,并能够更好地掌握所学知识。
总之,有效地进行学习过程中的监督与指导需要综合考虑学生的需求和能力,以及具体的学习目标和内容。
通过明确学习目标、制定学习计划、提供反馈和评估、鼓励自主学习、建立良好的学习环境、调整教学方法、保持沟通和鼓励反思和总结等方法,可以帮助学生更好地掌握所学知识,提高学习效果。
什么是有监督学习和无监督学习

什么是有监督学习和⽆监督学习 监督学习,就是⼈们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到⼀个最优模型(这个模型属于某个函数的集合,最优则表⽰在某个评价准则下是最佳的),再利⽤这个模型将所有的输⼊映射为相应的输出,对输出进⾏简单的判断从⽽实现分类的⽬的,也就具有了对未知数据进⾏分类的能⼒。
在⼈对事物的认识中,我们从孩⼦开始就被⼤⼈们教授这是鸟啊、那是猪啊、那是房⼦啊,等等。
我们所见到的景物就是输⼊数据,⽽⼤⼈们对这些景物的判断结果(是房⼦还是鸟啊)就是相应的输出。
当我们见识多了以后,脑⼦⾥就慢慢地得到了⼀些泛化的模型,这就是训练得到的那个(或者那些)函数,从⽽不需要⼤⼈在旁边指点的时候,我们也能分辨的出来哪些是房⼦,哪些是鸟。
监督学习⾥典型的例⼦就是KNN、SVM。
⽆监督学习(也有⼈叫⾮监督学习,反正都差不多)则是另⼀种研究的⽐较多的学习⽅法,它与监督学习的不同之处,在于我们事先没有任何训练样本,⽽需要直接对数据进⾏建模。
这听起来似乎有点不可思议,但是在我们⾃⾝认识世界的过程中很多处都⽤到了⽆监督学习。
⽐如我们去参观⼀个画展,我们完全对艺术⼀⽆所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(⽐如哪些更朦胧⼀点,哪些更写实⼀些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是⾄少我们能把他们分为两个类)。
⽆监督学习⾥典型的例⼦就是聚类了。
聚类的⽬的在于把相似的东西聚在⼀起,⽽我们并不关⼼这⼀类是什么。
因此,⼀个聚类算法通常只需要知道如何计算相似度就可以开始⼯作了。
那么,什么时候应该采⽤监督学习,什么时候应该采⽤⾮监督学习呢?我也是从⼀次⾯试的过程中被问到这个问题以后才开始认真地考虑答案。
⼀种⾮常简单的回答就是从定义⼊⼿,如果我们在分类的过程中有训练样本(training data),则可以考虑⽤监督学习的⽅法;如果没有训练样本,则不可能⽤监督学习的⽅法。
但是事实上,我们在针对⼀个现实问题进⾏解答的过程中,即使我们没有现成的训练样本,我们也能够凭借⾃⼰的双眼,从待分类的数据中⼈⼯标注⼀些样本,并把他们作为训练样本,这样的话就可以把条件改善,⽤监督学习的⽅法来做。
机器学习中的有监督学习,无监督学习,半监督学习

机器学习中的有监督学习,⽆监督学习,半监督学习在机器学习(Machine learning)领域。
主要有三类不同的学习⽅法:监督学习(Supervised learning)、⾮监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning),监督学习:通过已有的⼀部分输⼊数据与输出数据之间的相应关系。
⽣成⼀个函数,将输⼊映射到合适的输出,⽐如分类。
⾮监督学习:直接对输⼊数据集进⾏建模,⽐如聚类。
半监督学习:综合利⽤有类标的数据和没有类标的数据,来⽣成合适的分类函数。
⼀、监督学习1、监督式学习(Supervised learning),是⼀个机器学习中的⽅法。
能够由训练资料中学到或建⽴⼀个模式( learning model)。
并依此模式猜測新的实例。
训练资料是由输⼊物件(⼀般是向量)和预期输出所组成。
函数的输出能够是⼀个连续的值(称为回归分析)。
或是预測⼀个分类标签(称作分类)。
2、⼀个监督式学习者的任务在观察完⼀些训练范例(输⼊和预期输出)后,去预測这个函数对不论什么可能出现的输⼊的值的输出。
要达到此⽬的。
学习者必须以"合理"(见归纳偏向)的⽅式从现有的资料中⼀般化到⾮观察到的情况。
在⼈类和动物感知中。
则通常被称为概念学习(concept learning)。
3、监督式学习有两种形态的模型。
最⼀般的。
监督式学习产⽣⼀个全域模型,会将输⼊物件相应到预期输出。
⽽还有⼀种,则是将这样的相应实作在⼀个区域模型。
(如案例推论及近期邻居法)。
为了解决⼀个给定的监督式学习的问题(⼿写辨识),必须考虑下⾯步骤:1)决定训练资料的范例的形态。
在做其他事前,project师应决定要使⽤哪种资料为范例。
譬如,可能是⼀个⼿写字符,或⼀整个⼿写的词汇。
或⼀⾏⼿写⽂字。
2)搜集训练资料。
这资料需要具有真实世界的特征。
所以。
能够由⼈类专家或(机器或传感器的)測量中得到输⼊物件和其相相应输出。
有监督学习方法

非监督学习法本章重点1. 什么叫非监督学习方法,什么叫有监督学习方法?2. 非监督学习方法主要的用途3. 非监督学习方法的两种基本处理方法:按分布密集程度划分,与按相似度聚类划分4. 按分布密度程度划分的基本方法5. 动态聚类方法与分级聚类方法的概念6. 典型的动态聚类方法c-均值算法与isodata算法7. 使用非欧氏距离计算相似度的动态聚类方法8. 分级聚类方法本章课前思考题1. 如果给机器一维数据,机器能自动地找出其中存在的规律吗?2. 有人把非监督学习方法叫无教师的学习,而把第二章、第三章讨论的内容成为有监督学习,又称有教师的学习,你知道谁是教师吗?教师的作用体现在哪里?3. 机器能总结数据中存在的哪些规律呢?4. 机器能总结天气变化的规律,给出天气预报吗?5. 机器能炒股吗?6. 非监督学习方法与数据有关系吗?知识树5.1 引言以前各章讨论的分类器设计方法都是在样本集中的类别标签已知的条件下进行的,这些样本称为训练样本。
在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计,称为有监督的学习方法。
然而在实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本,因而只能从原先没有样本标签的样本集开始进行分类器设计,这就是通常说的无监督学习方法。
对一个具体问题来说有监督与无监督的作法是不相同的。
人们日常生活中经常要观察事物与分析事物,从中寻找其规律性,这就是非监督学习方法要解决的问题。
例如人们见到图5.1的道路图时,会发现中间有一条带与图中其它区域不同,见到图5.3会发现在这个二维空间中有数据显现出聚成两类的现象。
这就是事物(对我们来说就是数据集)自身体现出的一些规律性,非监督学习方法就是寻找数据集中体现出来的规律性。
从中我们可以强调非监督学习与有监督学习方法的以下几种不同点:1.有监督学习方法必须要有训练集与测试样本。
如何利用自监督学习提升学习自我管理能力方法

自监督学习是指个体依据自己的需要,通过自我激励、自我评价、自我激励和自我指导等方式,自觉地管理和控制自己的学习行为,以提高学习效果的能力。
在当今社会,自监督学习已经成为一种必备的学习方式。
下面将介绍一些利用自监督学习提升学习自我管理能力的方法。
一、设定明确的学习目标设定明确的学习目标是实现自监督学习的重要一步。
在设定学习目标时,要制定明确的、具体的、可衡量的目标,同时还要考虑到时间和实际情况。
明确的学习目标有助于激发学习的动力,提高学习的效率。
例如,如果你希望提升自己的英语水平,可以设定一个明确的目标:每天背诵十个新单词,每周阅读一本英文书籍。
二、制定详细的学习计划在设定好学习目标后,接下来就是制定详细的学习计划。
学习计划可以帮助我们有条不紊地进行学习,避免因为没有计划而导致学习效率低下。
学习计划可以包括每天、每周、每月的学习安排,可以将时间分配给不同的学科和任务,以保证全面而有序地进行学习。
三、养成良好的学习习惯良好的学习习惯是自监督学习的基础。
良好的学习习惯可以帮助我们在学习中保持高效率和高质量,也能够提高学习的自我管理能力。
例如,定时复习、制定学习计划、充分休息等等都是良好的学习习惯。
通过养成这些良好的学习习惯,可以提高学习效果,也有助于提升自我管理能力。
四、建立自我评价机制自我评价是自监督学习的重要环节。
建立自我评价机制可以帮助我们及时发现学习中的不足,从而及时调整学习策略。
自我评价可以包括成绩评价、学习态度评价、学习方法评价等等。
通过自我评价,可以更好地认识自己,找到自己的不足之处,从而更好地改进和提高。
五、培养自我激励能力自我激励是自监督学习的重要手段之一。
在学习过程中,不可避免地会遇到困难和挫折,这时就需要培养自我激励能力。
可以通过激励自己克服困难,不断提高认识水平,以推动自己不断向前。
通过培养自我激励能力,可以更好地应对学习中的各种挑战,提高自我管理能力。
六、寻求外部支持和帮助在自监督学习中,也可以寻求外部支持和帮助。
有监督学习(supervised learning)和无监督学习(unsupervised learning)

有监督学习(supervised learning)和无监督学习(unsupervised learning)机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。
监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。
在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊,等等。
我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出。
当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个(或者那些)函数,从而不需要大人在旁边指点的时候,我们也能分辨的出来哪些是房子,哪些是鸟。
监督学习里典型的例子就是KNN、SVM。
无监督学习(也有人叫非监督学习,反正都差不多)则是另一种研究的比较多的学习方法,它与监督学习的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。
这听起来似乎有点不可思议,但是在我们自身认识世界的过程中很多处都用到了无监督学习。
比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。
无监督学习里典型的例子就是聚类了。
聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。
因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
那么,什么时候应该采用监督学习,什么时候应该采用非监督学习呢?我也是从一次面试的过程中被问到这个问题以后才开始认真地考虑答案。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非监督学习法本章重点1. 什么叫非监督学习方法,什么叫有监督学习方法?2. 非监督学习方法主要的用途3. 非监督学习方法的两种基本处理方法:按分布密集程度划分,与按相似度聚类划分4. 按分布密度程度划分的基本方法5. 动态聚类方法与分级聚类方法的概念6. 典型的动态聚类方法c-均值算法与isodata算法7. 使用非欧氏距离计算相似度的动态聚类方法8. 分级聚类方法本章课前思考题1. 如果给机器一维数据,机器能自动地找出其中存在的规律吗?2. 有人把非监督学习方法叫无教师的学习,而把第二章、第三章讨论的内容成为有监督学习,又称有教师的学习,你知道谁是教师吗?教师的作用体现在哪里?3. 机器能总结数据中存在的哪些规律呢?4. 机器能总结天气变化的规律,给出天气预报吗?5. 机器能炒股吗?6. 非监督学习方法与数据有关系吗?知识树5.1 引言以前各章讨论的分类器设计方法都是在样本集中的类别标签已知的条件下进行的,这些样本称为训练样本。
在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计,称为有监督的学习方法。
然而在实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本,因而只能从原先没有样本标签的样本集开始进行分类器设计,这就是通常说的无监督学习方法。
对一个具体问题来说有监督与无监督的作法是不相同的。
人们日常生活中经常要观察事物与分析事物,从中寻找其规律性,这就是非监督学习方法要解决的问题。
例如人们见到图5.1的道路图时,会发现中间有一条带与图中其它区域不同,见到图5.3会发现在这个二维空间中有数据显现出聚成两类的现象。
这就是事物(对我们来说就是数据集)自身体现出的一些规律性,非监督学习方法就是寻找数据集中体现出来的规律性。
从中我们可以强调非监督学习与有监督学习方法的以下几种不同点:1.有监督学习方法必须要有训练集与测试样本。
在训练集中找规律,而对测试样本使用这种规律;而非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。
2.有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。
因此训练样本集必须由带标号的样本组成。
而非监督学习方法只有要分析的数据集本身,预先没有什么标号。
如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号为目的。
例如图5.1道路图像,有监督学习方法的目的是找到“道路”,而非监督学习方法则只是将中间一条带状区域区分开来,本质上讲与“道路”这个标号没有关系。
3.非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。
这一点是比有监督学习方法的用途要广泛。
譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。
4.用非监督学习方法分析数据集的主分量与用k-l变换计算数据集的主分量又有区别。
应该说后者从方法上讲不是一种学习方法。
因此用k-l变换找主分量不属于非监督学习方法,即方法上不是。
而通过学习逐渐找到规律性这体现了学习方法这一点。
在人工神经元网络中寻找主分量的方法属于非监督学习方法。
以上四点是对非监督学习方法的定义,及与有监督学习方法的区别。
例如图5.1表示对一幅道路图像按路面与非路面分类可用两种不同做法,其中左图是在图像中路面区与非路面中各找一个窗口,将其中每个象素分别作为这两类的训练样本集,用这两个样本集在特征空间的分布参数进行设计。
而无监督学习方法则不同,它不预先选择样本类别的样本集,而是将整幅图的像素都作为待分类样本集,通过它们在特征空间中表现出来的聚类现象,把不同类别划分开。
图5.1的有监督学习中,样本集分布呈现交迭情况,而无监督学习方法由于没有类别样本指导,无法确定它们的交迭情况,只能按分布的聚类情况进行划分。
在类似于该例的实际应用问题中,预先选定不同类别的样本往往不可能,如时间不允许,或无法用人工干予等因素。
另外在某些有监督学习方法中,也往往需要利用聚类方法将样本按其分布划分成若干子类等。
聚类方法就是无监督学习方法的一个内容,它是经常应用的一门技术。
图 5.1 无监督学习方法可以分成两大类,一类为基于概率密度函数估计的直接方法,指设法找到各类别在特征空间的分布参数再进行分类。
另一类称为基于样本间相似性度量的间接聚类方法,其原理是设法定出不同类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。
下面分别讨论这两种方法。
最常用的基于概率密度估计的直接方法的例子是直方图方法。
例如我们统计一所学校中学生身高分布就往往可采用直方图方法,把身高划分成一段段,如1米到1米75算一段,然后对每一段统计身高在此范围内的学生数,得到直方图。
如果这个学校的男女学生数目相近,则我们就会发现该直方图会体现出有两个分布高峰。
那么找到两高峰中的谷点,就会将学生划分成两类。
因此,使用概率统计方法的关键是能找出各个峰值区,这就是5.2节中的主要内容。
另一种方法则在5.3节中再进一步讨论。
5.2 单峰子类的分离方法对于样本在某一种度量中的分布统计,一般称为直方图统计,在样本数量很大时,又可作为概率统计的估计。
由于这种方法基于将样本投影到某个坐标轴上,因而称为投影方法。
使用投影方法有两个组成部分,一个是如何设计合适的坐标系统,另一是如何设计直方图。
如果对于各类别的类条件概率分布一无所知,我们只按待分类样本在特征空间的自然聚集进行划分。
如图5.2所示的一维特征空间中,样本在整个特征空间中呈现出两个分布高峰,如果从分布的谷点将此特征空间划分为两个区,则对应每个区域,样本分布就只有一个峰值,这些区域被称为单峰区域,而每个单峰区域则被看作不同的决策域。
落在同一单峰区域的待分类样本就被划分成同一类,称为单峰子类。
下面讨论一些单峰子类的划分算法。
图 5.2 5.2.1 投影法投影法的原理很简单,拿图5.3显示的一个二维空间为例。
在该分类问题中,两个类别分别在其特征空间中形成两个聚类,图中用两个区域的轮廓勾出这两类样本聚类的区域。
对人来说一旦画出这两类的空间分布,可以很容易地判断出这两类在特征空间聚集的区域,但是对计算机来说,要识别出这两类的分布情况,直接从二维的图形来说是很困难的,更不用说在高维特征空间直接对样本的分布作出判断了。
一个办法是如果将样本对某个方向的轴作投影,或换句话说只取这些样本的某一分量的统计值来看,样本的分布往往显现出高峰与低谷,找到低谷,将峰值分别划分在不同的区域中,每个区域只有一个高峰,并把聚在同一高峰下的样本划分为一类,这是计算机容易做到的。
对于样本在某一种度量中的分布统计,一般称为直方图统计,在样本数量很大时,又可作为概率统计的估计。
由于这种方法基于将样本投影到某个坐标轴上,因而称为投影方法。
图 5.3使用投影方法有两个组成部分,一个是如何设计合适的坐标系统,另一是如何设计直方图。
在样本属性完全不知的情况下,如何选择坐标系统,是比较困难的,因为这时还没有一个准则函数来表征这样一个坐标系统的性质。
一种启发式的办法是使待分类的样本在某个坐标轴方向具有最大的分散性,这可以采用上一章讨论过的k-l变换方法。
具体说来是用混合样本协方差矩阵作为k-l变换的产生矩阵,找到其特征值,并按大小排序,对应最大特征值的特征向量对此混合样本来说,离散程度最大,预期能发现明显的峰值,但是这种方法并不能保证分出各个聚类,例如图5.4所示情况,其两个特征向量都只呈现单峰状态,无法用此法将他们分开。
图 5.4投影法的具体算法分以下几个步骤:步骤1:计算样本协方差矩阵具有最大特征值的特征向量uj,把数据投影到uj轴上。
步骤2:用直方图方法求数据的边缘概率密度函数。
步骤3:在直方图的峰值间求最小值,在这些最小点作垂直于uj的各个超平面把数据划分为若干个聚类。
步骤4:如果在这个轴上没有这样的最小值,则用下一个最大特征值对应的特征向量重复以上过程。
步骤5:对每个得到的子集(聚类)重复上述过程,直到每个集不能再分(为单峰)为止。
5.2.2 基于对称集性质的单峰子集分离法不要求在一个多维空间中给单峰区域下严格的定义是困难的。
譬如一个单峰区域的数据集用γ表示,峰值在处形成,则可写在(5-1)但是仅满足(5-1)式的区域并不能保证是单峰区。
另一方面,如果考虑数据γ,其中任何一对点y1和y2之间的距离用式的性质外,还具有以下性质:表示,该数据集γ除了具备(5-1)篇二:有监督学习(supervised learning)和无监督学习(unsupervised learning) 有监督学习(supervised learning)和无监督学习(unsupervised learning) 机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervisedlearning)。
监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。
在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊,等等。
我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出。
当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个(或者那些)函数,从而不需要大人在旁边指点的时候,我们也能分辨的出来哪些是房子,哪些是鸟。
监督学习里典型的例子就是knn、svm。
无监督学习(也有人叫非监督学习,反正都差不多)则是另一种研究的比较多的学习方法,它与监督学习的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。
这听起来似乎有点不可思议,但是在我们自身认识世界的过程中很多处都用到了无监督学习。
比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。
无监督学习里典型的例子就是聚类了。
聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。
因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
那么,什么时候应该采用监督学习,什么时候应该采用非监督学习呢?我也是从一次面试的过程中被问到这个问题以后才开始认真地考虑答案。
一种非常简单的回答就是从定义入手,如果我们在分类的过程中有训练样本(training data),则可以考虑用监督学习的方法;如果没有训练样本,则不可能用监督学习的方法。