大数据机器学习 重点及作业整理

合集下载

大数据重点知识点

大数据重点知识点

大数据重点知识点一、引言大数据作为当下热门的话题,广泛应用于各个行业和领域。

它是指IT技术用于处理和分析海量、高速和多样化的数据,以实现信息的深度挖掘和价值的提取。

为了更好地理解大数据,本文将介绍大数据的重点知识点。

二、数据类型1. 结构化数据:指按照固定格式组织和存储的数据,如表格、关系数据库等。

2. 半结构化数据:指具有一定结构但不符合固定格式的数据,如XML文件、JSON等。

3. 非结构化数据:指没有固定格式和结构的数据,如文本、图片、音频、视频等。

三、数据采集与存储1. 传感器技术:通过各种传感器采集数据,如气温、湿度、压力等。

2. 云存储:使用云存储技术将大数据存储于云平台,提高数据的安全性和可扩展性。

3. 分布式文件系统:将大数据分散存储在多个节点上,提高数据的处理和访问效率。

四、数据清洗与预处理1. 数据去重:删除重复的数据,保证数据的唯一性和准确性。

2. 数据过滤:剔除噪声数据和异常数据,保留有效的数据样本。

3. 数据归一化:将不同数据的尺度统一,便于数据的比较和分析。

五、数据分析与挖掘1. 关联分析:发现数据之间的关联规则和关系,如购物篮分析、协同过滤推荐等。

2. 聚类分析:将相似的数据进行分组,挖掘数据的聚类模式。

3. 分类与预测:通过训练模型对数据进行分类和预测,如决策树、神经网络等。

六、数据可视化与展示1. 折线图:用于显示数据随时间变化的趋势和规律。

2. 柱状图:用于比较不同数据之间的数量或大小。

3. 饼图:用于展示不同数据的比例和占比。

4. 热力图:用于显示数据的空间分布和热点区域。

七、数据隐私与安全1. 数据加密:通过加密技术保护数据的机密性和完整性。

2. 访问控制:设置不同权限和角色,限制数据的访问和操作。

3. 数据备份和恢复:定期备份数据,以应对数据丢失或损坏的情况。

八、数据治理与规范1. 数据质量管理:确保数据的准确性、完整性和一致性。

2. 数据规范化:制定数据标准和规范,统一数据的表达和格式。

大数据导论知识点总结

大数据导论知识点总结

大数据导论知识点总结
1.大数据概述:大数据是指数据量超过传统数据处理能力的数据集合。

大数据的特点有三个方面:数据量大、数据类型多样、数据处理速度快。

3.大数据的挑战:大数据处理面临着几个挑战,包括存储和计算能力
的不足、数据质量的问题、隐私和安全的问题等。

4.大数据的技术基础:大数据的处理离不开一些基础技术,包括分布
式计算、并行处理、集群管理、数据库技术等。

5. 大数据的处理流程:大数据处理通常包括数据收集、数据存储、
数据处理和数据分析等步骤。

数据收集可以使用传感器、爬虫等方式获取
数据;数据存储可以使用分布式文件系统、数据库等方式进行存储;数据
处理可以使用分布式计算框架(如Hadoop、Spark等)进行处理;数据分
析可以使用机器学习、数据挖掘等技术进行分析。

6.大数据的应用领域:大数据在各个领域都有广泛的应用,包括但不
限于金融、医疗、交通、电商、社交媒体等。

大数据可以帮助企业进行精
准营销、优化生产流程、提高运营效率等。

7.大数据的伦理和隐私问题:大数据处理涉及到个人隐私和伦理问题。

在使用大数据进行分析时,需要注意遵守相关法律法规、保护用户隐私,
以及进行数据伦理审查。

8.大数据的发展趋势:随着技术的进步和应用需求的增加,大数据领
域正在不断发展。

未来的发展趋势包括更快的数据处理速度、更智能的数
据分析、更好的数据隐私保护等。

机器学习大作业

机器学习大作业

使用的工具是语义网络或谓词逻辑, 不再是数值或者统计方法。在概念获取中, 学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。 在这一阶 段, 人们认识到学习是个复杂而循序渐进的过程; 如果不要任何初始知识,则学 习系统无法学到高层次的概念。 (3)复兴时期:20 世纪 70 年代中期, 研究活动日趋兴旺, 各种学习方法不断 推出, 实验系统大量涌现 , 1980 年在卡内基 ·梅隆大学 ( CMU) 召开的第一届机 器学习专题研讨会, 标志着机器学习正式成为人工智能的一个独立研究领域。 (4)蓬勃发展时期:从 20 世纪 80 年代中后期到现在, 可以认为机器学习研 究进入一个新阶段, 已经趋向成熟。神经网络的复苏, 带动着各种非符号学习方 法与符号学习并驾齐驱, 并且已超越研究范围, 进入到自动化及模式识别等领域, 掀起一场联结主义的热潮,各种学习方法开始继承, 多策略学习已经使学习系统 愈具有应用价值, 开始从实验室走向应用领域。 1.1.3 机器学习的模型 机器学习系统主要由三个部分构成:环境、知识库和执行部分,如图 1.1 所 示。环境是信息的提供者,它向智能系统的学习部分提供所需信息,学习部分利 用所得信息对知识库进行修改, 不断地完善知识库,从而促使执行部分更加有效 地完成任务,同时执行部分再把信息反馈给学习部分。
2.3.3.核函数................................................................................................17 第三章 支持向量机的应用研究现状........................................................................19 3.1 应用概述........................................................................................................19 3.2 支持向量机的应用.........................................................................................19 3.2.1 人脸检测、验证和识别......................................................................19 3.2.2 说话人/语音识别..................................................................................20 3.2.3 3.2.4 3.2.5 文字/手写体识别............................................................................20 图像处理............................................................................................20 其他应用研究....................................................................................21

机器学习的知识重点

机器学习的知识重点

机器学习的知识重点机器学习是一门涵盖统计学、人工智能和计算机科学等多个领域的交叉学科,它研究如何设计和开发能够自动学习和改进的算法和模型。

在机器学习中,有一些重要的知识点需要特别关注和掌握。

本文将介绍机器学习的知识重点,帮助读者更好地理解和应用机器学习。

一、数据预处理在机器学习中,数据预处理是一个非常重要的步骤。

它包括数据清洗、特征选择、特征变换和数据集划分等过程。

数据清洗主要是处理缺失值、异常值和重复值等问题,确保数据的质量和完整性。

特征选择是从原始数据中选择最具代表性的特征,以提高模型的性能和泛化能力。

特征变换是将原始数据转化为适合模型输入的形式,如标准化、归一化和离散化等。

数据集划分是将数据集划分为训练集、验证集和测试集,用于模型的训练、调优和评估。

二、监督学习监督学习是机器学习中最常用的一种学习方式,它通过已有的标记数据来训练模型,然后对未知数据进行预测或分类。

在监督学习中,有一些重要的算法需要了解,如线性回归、逻辑回归、决策树、支持向量机和朴素贝叶斯等。

线性回归用于建立连续型变量之间的线性关系模型,逻辑回归用于建立二分类模型,决策树用于建立基于特征划分的分类模型,支持向量机用于建立最优间隔分类模型,朴素贝叶斯用于建立基于贝叶斯定理的分类模型。

三、无监督学习无监督学习是机器学习中另一种常用的学习方式,它通过未标记的数据来学习数据的结构和模式。

在无监督学习中,有一些重要的算法需要了解,如聚类、关联规则和降维等。

聚类是将相似的样本归为一类,不相似的样本归为不同类别,常用的聚类算法有K均值聚类和层次聚类等。

关联规则是挖掘数据集中的频繁项集和关联规则,常用的关联规则算法有Apriori算法和FP-growth算法等。

降维是将高维数据映射到低维空间,常用的降维算法有主成分分析和线性判别分析等。

四、模型评估与选择在机器学习中,模型的评估和选择是非常重要的,它决定了模型的性能和泛化能力。

常用的评估指标有准确率、精确率、召回率、F1值和ROC曲线等。

数据挖掘机器学习总结6篇

数据挖掘机器学习总结6篇

数据挖掘机器学习总结6篇第1篇示例:数据挖掘和机器学习是近年来备受关注的热门领域,随着大数据时代的到来,数据挖掘和机器学习的应用也变得越来越广泛。

它们通过分析大量的数据,从中提取有价值的信息和模式,帮助人们做出更加精准的决策。

本文将对数据挖掘和机器学习进行总结,包括其定义、应用、技术和发展趋势等方面,以期帮助读者更好地了解这一领域。

一、数据挖掘的定义与应用数据挖掘是一种从大量的数据中发现规律、模式和知识的过程,通过利用统计学、机器学习和数据库技术等方法,帮助人们从数据中挖掘出有用的信息。

数据挖掘的应用非常广泛,涉及到商业、金融、医疗、教育、交通等各个领域。

在商业领域,数据挖掘可以用于市场营销、客户关系管理、风险分析等方面;在医疗领域,数据挖掘可以用于疾病预测、药物研发等方面;在教育领域,数据挖掘可以用于学生成绩预测、教学优化等方面。

数据挖掘已经成为当今社会不可或缺的一部分,为各行各业的发展带来了巨大的推动力。

二、机器学习的定义与应用机器学习是人工智能的一个子领域,其主要目的是使机器能够通过学习数据来改善其性能。

通过对大量的数据进行分析和学习,机器可以不断提高其预测、识别和决策能力,从而实现自主智能的目标。

机器学习的应用也非常广泛,包括语音识别、图像识别、自然语言处理、智能推荐等领域。

在语音识别方面,机器学习可以帮助机器更准确地识别和理解人类语言;在图像识别方面,机器学习可以帮助机器识别图像中的物体和场景;在智能推荐方面,机器学习可以根据用户的历史行为和偏好,为其推荐个性化的产品和服务。

机器学习已经成为近年来人工智能发展的核心领域之一。

三、数据挖掘与机器学习的关系数据挖掘和机器学习有着密切的关系,它们可以相互促进,共同推动人工智能的发展。

数据挖掘可以为机器学习提供大量的训练数据,从而帮助机器学习算法更好地学习和模拟人类智慧;而机器学习可以为数据挖掘提供更加智能化的数据挖掘工具,使数据挖掘可以更快、更准确地发现数据中的规律和模式。

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支,它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。

对于学习者来说,掌握这两个领域的知识至关重要。

以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。

一、数据挖掘概述数据挖掘,简单来说,就是从大量的数据中提取出有用的信息和知识的过程。

它不仅仅是数据的收集和存储,更重要的是通过一系列的技术和方法,对数据进行深入分析和挖掘,以发现潜在的规律和趋势。

数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。

在数据分类中,我们根据已知的类别标签,将新的数据划分到相应的类别中。

聚类则是将数据按照相似性进行分组,而无需事先知道类别信息。

关联规则挖掘用于发现数据中不同属性之间的关联关系,例如购买了商品 A 的顾客往往也会购买商品 B。

异常检测则是识别出与大多数数据不同的异常值。

数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。

在数据准备阶段,需要对原始数据进行清理、转换和集成,以确保数据的质量和一致性。

数据探索阶段则通过可视化和统计分析等方法,对数据的特征和分布有一个初步的了解。

模型建立阶段选择合适的算法和模型,并使用训练数据进行训练。

模型评估通过使用测试数据来评估模型的性能,如准确率、召回率、F1 值等。

最后,将性能良好的模型部署到实际应用中。

二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。

它可以分为监督学习、无监督学习和强化学习三大类。

监督学习是在有标记的数据集上进行学习,常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。

线性回归用于预测连续值,逻辑回归用于分类问题,决策树可以生成易于理解的规则,支持向量机在处理高维数据和非线性问题上有较好的表现。

无监督学习是在无标记的数据集中寻找模式和结构,例如聚类算法(如 KMeans 聚类、层次聚类)和主成分分析(PCA)等。

大数据基础知识点总结

大数据基础知识点总结

大数据基础知识点总结大数据是一个指代庞大、复杂和高速增长数据集的术语,通常用于描述无法通过传统数据处理工具和技术来处理和分析的数据。

大数据的处理和分析需要一套特定的技术和知识。

以下是大数据的基础知识点的总结:1. 数据的特征:- 五V特征:大数据具有体积大、速度快、多样性、价值密度低和真实性高的特点。

- 数据类型:大数据可以包括结构化数据(如数据库表格)、半结构化数据(如日志文件)和非结构化数据(如图像、音频和视频)。

2. 大数据处理技术:- 分布式计算:大数据需要利用分布式计算框架(如Hadoop和Spark)来处理数据,使得数据可以在多个计算节点上并行处理。

- 数据存储:大数据需要使用高扩展性和容错性的存储系统(如HDFS和NoSQL数据库)来存储大规模数据。

- 数据清洗和预处理:大数据通常需要进行数据清洗和预处理,以去除噪音、标准化数据和处理缺失值等。

- 数据挖掘和分析:大数据可以通过数据挖掘和分析技术来提取有用的信息和洞察。

3. 大数据分析技术:- 批处理:批处理是一种通过一批数据进行分析和处理的方法,适用于对历史数据进行分析。

- 流处理:流处理是一种对实时数据流进行连续处理和分析的方法,适用于处理实时数据和生成实时结果。

- 机器学习:机器学习是一种使用算法和模型来对大数据进行建模和预测的方法,可以识别模式和关联性。

- 文本挖掘:文本挖掘是一种从大量文本数据中提取和分析信息的技术,包括文本分类、聚类和情感分析等。

4. 数据隐私和安全:- 数据隐私保护:大数据涉及大量敏感信息,需要通过数据脱敏、权限控制和加密等技术保护用户隐私。

- 数据安全:大数据需要采取措施来防止数据泄露、恶意攻击和未授权访问等风险,如访问控制和网络安全防护。

以上是大数据的基础知识点总结。

随着技术的不断发展和应用的普及,大数据正成为许多行业的关键资源,掌握大数据的基础知识对于从事相关领域的专业人士至关重要。

大一大数据期末必背知识点

大一大数据期末必背知识点

大一大数据期末必背知识点在当今数字化时代,大数据已经成为了各行各业的核心驱动力。

作为一名大一学生,了解和掌握大数据的基本概念和关键知识点,将有助于我们更好地适应和应对未来的挑战。

本文将探讨大一大数据期末必背的知识点,以帮助我们在考试中取得更好的成绩。

1. 大数据的定义和特征:大数据是指规模庞大、复杂度高、处理速度快的数据集合。

其特征包括四个方面:量大、速度快、多样性和价值密度低。

量大指的是数据规模的巨大性;速度快是指数据产生和处理的速度之快;多样性则表示数据的种类繁多;而价值密度低则意味着其中的有用信息往往埋藏在大量的无用数据背后。

2. 大数据处理的技术:为了有效处理大数据,我们需要掌握以下几种关键的技术:- 分布式存储和计算:大数据通常需要分布式存储和计算来处理,这样可以并行处理更大规模的数据。

- 数据挖掘和机器学习:利用数据挖掘和机器学习的算法,我们可以从大数据中发现隐藏的模式和规律。

- 可视化技术:通过可视化技术,我们可以将大数据转化为直观易懂的图形和图表,使复杂的数据变得更加易于理解和分析。

3. 大数据应用领域:大数据在各个领域都有广泛的应用,其中一些重要的领域包括:- 金融领域:大数据可以帮助金融机构预测市场趋势、发现欺诈行为和评估风险。

- 医疗保健领域:通过分析大数据,可以提高诊断准确性、改善疾病预测和预防、优化医疗资源配置等。

- 市场营销领域:大数据可以帮助企业更好地了解消费者行为,进行个性化推荐和定制化营销策略。

- 智慧城市:大数据在城市规划、交通管理、环境监测等方面的应用,可以提高城市的效率和可持续性。

4. 大数据隐私与安全:在大数据时代,隐私和安全问题变得尤为重要。

大数据的收集、存储和处理过程中,需要注意以下方面:- 数据保护:对于个人敏感信息的保护非常重要,必须确保数据在传输和存储过程中的安全性。

- 权限管理:限制谁可以访问和使用大数据,并确保数据使用的合法性和合规性。

- 匿名化和脱敏技术:采用适当的匿名化和脱敏技术,以保护个人隐私,同时满足数据分析的需求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.Bootstraping:名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。

其核心思想和基本步骤如下:(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。

(2)根据抽出的样本计算给定的统计量T。

(3)重复上述N次(一般大于1000),得到N个统计量T。

(4)计算上述N个统计量T的样本方差,得到统计量的方差。

应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。

通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。

bagging:bootstrap aggregating的缩写。

让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练样本组成,某个初始训练样本在某轮训练集中可以出现多次或根本不出现,训练之后可得到一个预测函数序列h_1,⋯⋯h_n,最终的预测函数H对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。

[训练R个分类器f_i,分类器之间其他相同就是参数不同。

其中f_i是通过从训练集合中(N 篇文档)随机取(取后放回)N次文档构成的训练集合训练得到的。

对于新文档d,用这R个分类器去分类,得到的最多的那个类别作为d的最终类别。

]boosting:其中主要的是AdaBoost(Adaptive Boosting)。

初始化时对每一个训练例赋相等的权重1/n,然后用该学算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较大的权重,也就是让学习算法在后续的学习中集中对比较难的训练例进行学习,从而得到一个预测函数序列h_1,⋯,h_m,其中h_i也有一定的权重,预测效果好的预测函数权重较大,反之较小。

最终的预测函数H对分类问题采用有权重的投票方式,对回归问题采用加权平均的方法对新示例进行判别。

(类似Bagging方法,但是训练是串行进行的,第k个分类器训练时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率。

)(pku,sewm,shinningmonster.)Bagging与Boosting的区别:二者的主要区别是取样方式不同。

Bagging采用均匀取样,而Boosting根据错误率来取样,因此Boosting的分类精度要优于Bagging。

Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而Boostlng的各轮训练集的选择与前面各轮的学习结果有关;Bagging的各个预测函数没有权重,而Boosting是有权重的;Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成。

对于象神经网络这样极为耗时的学习方法。

Bagging 可通过并行训练节省大量时间开销。

bagging和boosting都可以有效地提高分类的准确性。

在大多数数据集中,boosting的准确性比bagging高。

在有些数据集中,boosting会引起退化---Overfit。

Boosting思想的一种改进型AdaBoost方法在邮件过滤、文本分类方面都有很好的性能。

2.激活函数关于激活函数,首先要搞清楚的问题是,激活函数是什么,有什么用?不用激活函数可不可以?答案是不可以。

激活函数的主要作用是提供网络的非线性建模能力。

如果没有激活函数,那么该网络仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。

因此也可以认为,只有加入了激活函数之后,深度神经网络才具备了分层的非线性映射学习能力。

那么激活函数应该具有什么样的性质呢?可微性:当优化方法是基于梯度的时候,这个性质是必须的。

单调性:当激活函数是单调的时候,单层网络能够保证是凸函数。

输出值的范围:当激活函数输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的learning rate从目前来看,常见的激活函数多是分段线性和具有指数形状的非线性函数2.1sigmoidsigmoid是使用范围最广的一类激活函数,具有指数函数形状,它在物理意义上最为接近生物神经元。

此外,(0,1)的输出还可以被表示作概率,或用于输入的归一化,代表性的如Sigmoid交叉熵损失函数。

然而,sigmoid也有其自身的缺陷,最明显的就是饱和性。

从上图可以看到,其两侧导数逐渐趋近于0具有这种性质的称为软饱和激活函数。

具体的,饱和又可分为左饱和与右饱和。

与软饱和对应的是硬饱和,即sigmoid的软饱和性,使得深度神经网络在二三十年里一直难以有效的训练,是阻碍神经网络发展的重要原因。

具体来说,由于在后向传递过程中,sigmoid向下传导的梯度包含了一个f′(x)因子(sigmoid关于输入的导数),因此一旦输入落入饱和区,f′(x)就会变得接近于0,导致了向底层传递的梯度也变得非常小。

此时,网络参数很难得到有效训练。

这种现象被称为梯度消失。

一般来说,sigmoid网络在5层之内就会产生梯度消失现象此外,sigmoid函数的输出均大于0,使得输出不是0均值,这称为偏移现象,这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。

2.2tanhtanh也是一种非常常见的激活函数。

与sigmoid相比,它的输出均值是0,使得其收敛速度要比sigmoid快,减少迭代次数。

然而,从途中可以看出,tanh一样具有软饱和性,从而造成梯度消失。

2.3ReLU,P-ReLU,Leaky-ReLUReLU的全称是Rectified Linear Units,是一种后来才出现的激活函数。

可以看到,当x<0时,ReLU硬饱和,而当x>0时,则不存在饱和问题。

所以,ReLU能够在x>0时保持梯度不衰减,从而缓解梯度消失问题。

这让我们能够直接以监督的方式训练深度神经网络,而无需依赖无监督的逐层预训练。

然而,随着训练的推进,部分输入会落入硬饱和区,导致对应权重无法更新。

这种现象被称为“神经元死亡”。

与sigmoid类似,ReLU的输出均值也大于0,偏移现象和神经元死亡会共同影响网络的收敛性。

ReLU还经常被“诟病”的一个问题是输出具有偏移现象[7],即输出均值恒大于零。

偏移现象和神经元死亡会共同影响网络的收敛性。

本文作者公开在arxiv的文章[8]中的实验表明,如果不采用Batch Normalization,即使用MSRA初始化30层以上的ReLU网络,最终也难以收敛。

相对的,PReLU和ELU网络都能顺利收敛,这两种改进的激活函数将在后面介绍。

实验所用代码见https:///Coldmooon/Code-for-MPELU/。

ReLU另外一个性质是提供神经网络的稀疏表达能力,在Bengio教授的Deep Sparse Rectifier Neural Network[6]一文中被认为是ReLU带来网络性能提升的原因之一。

但后来的研究发现稀疏性并非性能提升的必要条件,文献RReLU[9]也指明了这一点。

针对在x<0的硬饱和问题,我们对ReLU做出相应的改进,使得这就是Leaky-ReLU,而P-ReLU认为,α也可以作为一个参数来学习,原文献建议初始化a 为0.25,不采用正则。

PReLU[10]是ReLU和LReLU的改进版本,具有非饱和性.与LReLU相比,PReLU中的负半轴斜率a可学习而非固定。

原文献建议初始化a为0.25,不采用正则。

个人认为,是否采用正则应当视具体的数据库和网络,通常情况下使用正则能够带来性能提升。

虽然PReLU引入了额外的参数,但基本不需要担心过拟合。

例如,在上述cifar10+NIN实验中,PReLU比ReLU和ELU多引入了参数,但也展现了更优秀的性能。

所以实验中若发现网络性能不好,建议从其他角度寻找原因。

与ReLU相比,PReLU收敛速度更快。

因为PReLU的输出更接近0均值,使得SGD更接近natural gradient。

证明过程参见原文[10]。

此外,作者在ResNet中采用ReLU,而没有采用新的PReLU。

这里给出个人浅见,不一定正确,仅供参考。

首先,在上述LReLU实验中,负半轴斜率对性能的影响表现出一致性。

对PReLU采用正则将激活值推向0也能够带来性能提升。

这或许表明,小尺度或稀疏激活值对深度网络的影响更大。

其次,ResNet中包含单位变换和残差两个分支。

残差分支用于学习对单位变换的扰动。

如果单位变换是最优解,那么残差分支的扰动应该越小越好。

这种假设下,小尺度或稀疏激活值对深度网络的影响更大。

此时,ReLU或许是比PReLU更好的选择。

数学形式与PReLU类似,但RReLU[9]是一种非确定性激活函数,其参数是随机的。

这种随机性类似于一种噪声,能够在一定程度上起到正则效果。

作者在cifar10/100上观察到了性能提升。

2.4ELU融合了sigmoid和ReLU,左侧具有软饱和性,右侧无饱和性。

右侧线性部分使得ELU能够缓解梯度消失,而左侧软饱能够让ELU对输入变化或噪声更鲁棒。

ELU的输出均值接近于零,所以收敛速度更快。

在ImageNet上,不加Batch Normalization30层以上的ReLU网络会无法收敛,PReLU网络在MSRA的Fan-in(caffe)初始化下会发散,而ELU网络在Fan-in/Fan-out下都能收敛2.5Maxout在我看来,这个激活函数有点大一统的感觉,因为maxout网络能够近似任意连续函数,且当w2,b2,…,wn,bn为0时,退化为ReLU。

Maxout能够缓解梯度消失,同时又规避了ReLU 神经元死亡的缺点,但增加了参数和计算量。

2.6Noisy Activation Functions当激活函数发生饱和时,网络参数还能够在两种动力下继续更新:正则项梯度和噪声梯度。

引入适当的噪声能够扩大SGD的参数搜索范围,从而有机会跳出饱和区。

在激活函数中引入噪声的更早工作可追溯到[5],但文献[5]的工作并不考虑噪声引入的时间和大小。

本篇的特点在于,只在饱和区才引入噪声,且噪声量与饱和程度相关——原式与泰勒展开式一次项之差δ。

算法1中g表示sigmoid,用于归一化δ。

注意,ReLU的δ恒为0,无法直接加噪声,所以作者把噪声加在了输入上。

2.7CReLU作者在观察第一层滤波器(filter)时发现,滤波器相位具有成对现象(pair-grouping phenomenon)。

这一发现揭示了网络的底层学到了一些冗余滤波器来提取输入的正负相位信息的可能性。

相关文档
最新文档