计算机视觉理论学习总结

合集下载

ai期末总结

ai期末总结尊敬的教授、老师们，大家好！我是XXX，今天我非常荣幸地站在这里，为大家分享我在AI课程的学习成果和总结。

一、总结回顾AI课程是一门旨在培养学生的思维能力以解决现实问题的课程，通过了解人工智能的基本原理和技术，培养学生的创新能力和团队合作精神。

在此期间，我学习了机器学习、深度学习、自然语言处理等重要的AI领域，并通过各类实践项目加深了对AI技术的理解与应用。

在这一学期里，我不仅学到了很多理论知识，更重要的是培养了解决问题的能力和方法。

在机器学习方面，我学习了监督学习、无监督学习和强化学习等各种学习方法，了解了常见的机器学习算法，如线性回归、逻辑回归、决策树等。

同时，我也学习了如何评估和优化模型的性能，并通过实践项目加深了对机器学习算法的理解与应用。

在深度学习方面，我详细学习了神经网络的结构和原理，了解了常见的深度神经网络模型，如卷积神经网络、循环神经网络等。

通过学习，我了解了深度学习在计算机视觉、自然语言处理等领域的应用，并通过实践项目，掌握了如何使用TensorFlow等工具构建和训练深度学习模型。

在自然语言处理方面，我学习了文本表示、语义分析、机器翻译等自然语言处理的基本技术，了解了Word2Vec、BERT等常见的文本表示模型。

通过实践项目，我了解了如何处理和分析自然语言数据，并完成了一些基础的自然语言处理任务。

除了理论知识的学习，我也参与了一些实践项目，这些项目不仅让我巩固了理论知识的学习，还培养了我与他人合作解决问题的能力。

例如，在一个图像分类的实践项目中，我和我的团队合作，在给定的数据集上构建了卷积神经网络模型，并对图像进行分类。

通过这个项目，我了解了图像分类的基本流程和方法，并学会了如何处理和预处理图像数据。

二、收获与体会在AI课程的学习中，我不仅学到了大量的专业知识，更重要的是培养了一些重要的能力和品质。

首先，我学会了抓住问题的本质和关键，找出解决问题的最有效方法。

在实践项目中，我们面临着各种问题和挑战，但只有找到问题的关键和核心，才能更好地解决它们。

计算机学习心得体会15篇

计算机学习⼼得体会15篇计算机学习⼼得体会15篇当我们经过反思，对⽣活有了新的看法时，好好地写⼀份⼼得体会，这样能够给⼈努⼒向前的动⼒。

但是⼼得体会有什么要求呢？下⾯是⼩编帮⼤家整理的计算机学习⼼得体会，欢迎阅读，希望⼤家能够喜欢。

计算机学习⼼得体会1 现代信息技术是以计算机为基础的，计算机的运⽤必将对传统的教育思想、教学内容、教学⽅法和课程体系产⽣巨⼤⽽深远的影响。

教育信息⽹络化，教育⽅式远程化，⽹络教学将成为⼀种新颖的教学模式。

不难想象，随着计算机技术、多媒体教学技术突飞猛进的发展和教育思想、教育观念进⼀步现代化，中⼩学计算机辅助教学将成为⼀种重要的教学⼿段和⽅法。

在当代，传统教育⾯临着许多挑战，教育正经历着⼀场从体制到思想的变⾰。

冲击必须承认。

长期以来，我们的教育滞后于经济的发展，不能较好地提供社会繁荣和个⼈发展所需的帮助。

信息社会提出了最新的教育需求，即⾯向未来的教育，以开发⼈的智慧和知识创造⼒为⽬标的教育。

计算机辅助教学问题，历来是教育⼯作者和任课教师都极为关注的问题，它直接回影响着计算机辅助课堂教学的⽅式和效果。

回顾过去的教育，可以发现，在⼈们的视野中，较少有⼈想过教育技术和教育⼿段及教学⼯具对教育改⾰的影响。

实际上，以传授知识为⽬的的教学⽅法虽然可以再挖掘⼈才，但是这种潜⼒已近极限，已经不能适应21世纪对创造性⼈才的需求。

⽽⽇渐普及的电脑教育通过教育⼿段和教育⼯具的改⾰，可以促进学⽣个性的发展。

随着⽹络化、多媒体技术等领域应⽤模式的形成，使未来的教育⼿段和教学⽅法充满新鲜的活⼒和开放的功能。

计算机教育具有以下特点： 1. 有助于改善学⽣的知识结构。

多媒体技术具有很多的辅助教学功能，只有了解它，驾驭它，才能为学校的教育教学服务。

与传统的封闭式教学体制不同，计算机帮助或代替教师执⾏部分教学任务，向学⽣传授知识和提供技能训练，直接为学⽣服务，可以显著改善教育者的教学负担。

这种打破地⾥限制、⽅便地访问国内或国际任何⼀个地区的教育信息的⽅式，使优秀的教育资源达到“天下”共享，不论远程教育内容丰富，随着⽹络硬件⽔平的提⾼，可以轻易地获取视频信息，⼤量的教学图⽚有助于提⾼学⽣的想象⼒及教学内容的理解。

识图实训总结报告

识图实训总结报告识图实训总结报告一、实训目标与任务本次实训的目标是培养学生在计算机视觉与模式识别方面的实践能力。

任务是通过学习和掌握识图的原理和方法，设计并实现一个可以实现识图功能的软件。

二、实训过程1. 学习理论知识：在实训开始之前，我们先学习了计算机视觉和模式识别的基本理论知识，包括图像处理、特征提取和机器学习等。

2. 软件设计与开发：根据实训要求，我们团队设计了一个基于深度学习算法的识图软件。

通过使用Python语言和相关的开发工具，我们实现了图像的处理和特征提取功能，并通过训练模型实现了图像分类和识图功能。

3. 数据集构建：为了实现准确的识图功能，我们需要准备一个包含各类图像的数据集，并对图像进行标注。

我们从互联网上搜集了大量的图片，并通过人工标注的方式对其进行分类和标记。

4. 模型训练与优化：在特征提取和数据标注完成后，我们使用训练集对模型进行训练，并通过验证集对模型进行优化。

通过不断调整模型的参数和优化算法，我们提高了识图的准确性和鲁棒性。

5. 测试和改进：在模型训练完成后，我们进行了一系列的测试，包括测试集的测试和实际场景的测试。

通过对测试结果的分析，我们发现了一些问题，并对模型进行了改进。

三、实训成果与反思1. 实训成果：通过这次实训，我们团队完成了一个具有一定准确性的识图软件。

我们的软件能够对输入的图像进行分类和识别，并输出相应的结果。

在测试中，软件的准确率达到了80%以上。

2. 反思与感悟：（1）团队协作：通过这次实训，我们认识到团队协作的重要性。

每个人都发挥自己的优势，共同努力，才能取得好的成果。

（2）理论与实践相结合：理论知识的掌握是实现实践目标的基础，但只有通过实践才能更好地理解和应用这些知识。

（3）持之以恒：实践是一项持续的过程，需要我们持之以恒地学习和实践。

在实训的过程中，我们遇到了各种问题和困难，但我们始终坚持下来，并最终取得了令人满意的成绩。

四、总结与展望通过这次实训，我深刻认识到了计算机视觉和模式识别的重要性，并提高了自己在这方面的技能。

计算机视觉与图像处理、模式识别、机器学习学科之间的关系

计算机视觉与图像处理、模式识别、机器学习学科(xuékē)之间的关系计算机视觉与图像处理、模式识别、机器学习(xuéxí)学科之间的关系在我的理解里，要实现计算机视觉必须有图像处理的帮助，而图像处理倚仗与模式识别的有效(yǒuxiào)运用，而模式识别是人工智能领域的一个重要分支，人工智能与机器学习密不可分。

纵观一切关系，发现计算机视觉的应用服务于机器学习。

各个环节缺一不可，相辅相成。

计算机视觉(shìjué)（computer vision），用计算机来模拟人的视觉机理获取和处理信息(xìnxī)的能力。

就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息(xìnxī)’的人工智能系统。

计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。

机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。

一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。

图像处理（image processing），用计算机对图像进行分析，以达到所需结果的技术。

又称影像处理。

基本内容图像处理一般指数字图像处理。

数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组，该数组的元素称为像素，其值为一整数，称为灰度值。

图像处理技术的主要内容包括图像压缩，增强和复原，匹配、描述和识别3个部分。

常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。

图像处理一般指数字图像处理。

模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

计算机新技术学习中遇到的问题及解决方法总结

计算机新技术学习中遇到的问题及解决方法总结计算机新技术学习中遇到的问题及解决方法总结随着科技的快速发展和进步，计算机科学与技术已经成为一门热门的学科。

随之而来的就是大量的新技术不断的涌现，如计算机视觉、自然语言处理、区块链等。

然而，对于很多人来说，学习过程中也会遇到许多问题。

本文总结了在学习过程中可能会遇到的问题及解决方法，希望能够帮助有需要的人士。

一、理论原理难以理解在学习计算机新技术过程中，一个普遍的问题是理论原理难以理解。

由于很多新技术需要掌握其理论基础才能够应用到实践中，因此理论原理的学习变得尤为重要。

但是，有时候可能会遇到一些数学或者物理的知识点，对于一些刚刚开始学习计算机的人来说可能会比较困难。

针对这个问题，我们可以从以下几个方面入手：1.多读一些教材或者科普书籍来理解这些知识点，可以尝试寻找一些针对初学者的入门教程。

2.可以利用各种学习资源，如视频教程、线上课程等，这对初学者而言有着特别的帮助。

3.可以参加相关领域的讨论会议，与其他人分享思路与经验，这样能够更快地掌握理论知识。

二、实践操作难度大在学习新技术的时候，我们还需要大量地进行实践操作。

然而，有时候实践操作也会遇到一些问题，可能是因为环境配置、代码编写难度、工具使用等等。

以下几点可以提供帮助：1.建议安装和使用一些强大而免费的编程工具，如Atom ，基于Web技术的解释器； Jupyter Notebook，非常适合Python初学者使用。

2.可以阅读相关文档和教程，学会操作技能。

3.尤其需要百度一下问题与错误信息，可能别人已经遇到了同样的问题，并且分享了解决方案。

三、时间和精力不足学习计算机新技术确实需要花费大量的时间和精力，特别是对于那些有着其他学科方面需求的人来说。

此时，我们需要采取以下措施：1.制定一个良好的学习计划，把时间分为几个段落，适量的留出一些空余时间，方便休息或者其他需求。

2.学习新技术不是短时间内可以完成的，应该抱着长期学习的心态，稳扎稳打，就能够慢慢积累。

2024年计算机学习心得体会(四篇)

2024年计算机学习心得体会____世纪是一个信息经济时代，为适应时代的发展，作为一名当代大学生，所受的社会压力将比任何时候的大学生都要来得沉重，因此在校期间，我们必须尽可能的利用好学习时间，尽可能地学习更多的知识和能力，学会创新求变，以适应社会的需要。

毕竟，不管将来是要从事什么样的相关行业，都需要掌握较为全面的计算机知识，因为小到计算机的组装维修，大到服务器的维护与测试，知道的更多更全面，那么对于自己以后找工作以及参加工作帮助就越大。

在知识经济时代，没有一个用人单位会傻到和知识作对，不是么?基于这样对社会现状的认识，让我积极、认真地对于学习计算机课程有了较为良好的心理基础。

而我在第一次接触计算机就觉得很新鲜，觉得很奇妙，上网、玩游戏什么的操作都很是简单，但随着需求的变化，自己对电脑接触的不断深入，对计算机的认识越来越深，特别是进到大学，专业要求进行电脑利用数据画图、学习了各种操作并不简单的办公软件等等之类。

更令人恼火的是，当在制图、办公过程中，遇到一些电脑系统出错导致文件成果丢失的令人恼火的突发问题时，我才深深地感受到自己计算机知识是多么的欠缺，自己终归不是学计算机专业的，对计算机知识的掌握都是零散的，对这些突发问题只能束手无策。

但大一并没有相关计算机课程，更多的时候只能自学，在第一个学年结束后，为了自己知识的充实，也为了响应学校计算机课程的改革的号召，我带着课程相关的两本教科书坐上了回家的火车，同时，也开始了一段并不一昧玩乐的大学第一个暑假。

翻开主教材的第一节，我不禁有点傻眼，和我想象中的第一节不一样，它不是什么我们会、却不精通的软件的相关学习(受大一专业课教材的影响)，而是在我的观念世界里地球人都能做到的--电脑开机，虽很意外可我还是认认真真的看了相关内容，也完成了实验要求。

在做着这项在我看来在简单不过的电脑操作时，我想了很多以前都不会想到的东西，简简单单一个开机键凝聚了多少代人的智慧!其实深思一下就能想到，在电脑发明的最开始的最开始，想要启动电脑绝对不是像现在轻轻松松地按一个开机键就能做到的。

计算机视觉的理论基础和应用探索

计算机视觉的理论基础和应用探索随着计算机技术的不断发展，计算机视觉技术也得到了迅速发展。

计算机视觉可以理解为计算机系统具备识别和理解图像信息的能力，它是一门交叉学科，涉及了图像处理、模式识别、机器学习和人工智能等领域。

计算机视觉技术的理论基础计算机视觉技术的理论基础主要包括图像处理、模式识别和机器学习等方面。

图像处理是计算机视觉技术的基础，它涉及到图像获取、压缩、增强、分割、匹配和调整等方面。

首先需要对图像进行数字化处理，将图像转化为计算机可以处理的数字信号，然后通过一系列的算法对图像进行处理，以实现各类目标，例如：图像增强可以使得图像更加清晰，图像分割可以将图像分成不同的区域等。

模式识别是计算机视觉技术的重要组成部分，可以理解为通过某些算法和方法识别图像中的特征，例如：人脸识别、文字识别等。

模式识别在计算机视觉中广泛应用，可以应用于智能监控、医学图像分析、自动驾驶等领域。

机器学习是计算机视觉技术的重要手段之一，它是一种通过大规模数据自动学习知识和经验的方法。

通过机器学习，计算机可以自动学习到图像的特征，并根据这些特征获取相关信息。

机器学习在计算机视觉领域也应用广泛，例如：图像分类、目标检测等领域。

计算机视觉技术的应用探索计算机视觉技术在各行各业都有广泛的应用，下面列举几个典型的应用场景。

智能监控：智能监控系统通过计算机视觉技术和机器学习方法，实现对监控区域内人或车辆的追踪和识别，并自动报警或做出相应处理。

医学图像分析：计算机视觉技术可以帮助医生对医学图像进行分析，例如：红外成像、X光片、MRI等。

这种技术可以辅助医生确定病情和治疗方案，并提供更精准的医学诊断。

自动驾驶：自动驾驶技术是未来的重要发展方向，计算机视觉技术可以帮助车辆感知周围环境，包括车辆和行人等，通过机器学习的方法实现车辆的自动控制。

工业自动化：工业自动化需要自动化的控制工具和自动感知工具，计算机视觉技术可以通过对工艺流程和产品的检测，实现智能化生产和质量控制。

MOT学习感悟范文

MOT学习感悟范文在学习MOT（Multiple Object Tracking）的过程中，我从中获得了许多宝贵的经验和感悟。

在这1200字以上的篇幅中，我将分享我学习MOT过程中的一些心得体会。

首先，学习MOT需要有一定的数学和计算机视觉的基础，这样才能够更好地理解和应用其中的算法和原理。

对于我来说，最有帮助的是计算机视觉和线性代数的知识。

计算机视觉方面的知识使我能够理解图像处理和特征提取的相关概念和技术；线性代数方面的知识则为我理解矩阵运算和向量表示提供了帮助。

当然，如果对于数学和计算机视觉的基础不够扎实，也可以通过学习相关的教材和参加在线课程来加强自己的理解。

其次，学习MOT需要有坚持不懈的努力和持续的练习。

MOT算法的理论和实践是紧密结合的，只有通过实际的编程实践才能更好地理解其中的问题和挑战。

在学习MOT的过程中，我不仅仅是阅读和理解论文和书籍，还参加了一些实际的项目和竞赛。

通过这些实战经验，我深刻地认识到光靠理论是远远不够的，只有不断地实践和调试代码，才能够真正地掌握和理解MOT算法。

此外，MOT的学习还需要良好的编程能力。

编程是MOT算法实现的必备技能，而且对于一些复杂的算法和模型，精确的代码实现是至关重要的。

在学习MOT的过程中，我通过阅读源代码和实践编写自己的实验代码，逐渐提高了我的编程能力。

同时，我也发现了一些编程技巧和调试方法，比如使用断点和日志来观察算法的执行过程，以及使用版本控制系统来管理和回滚代码的变更。

这些技巧和方法不仅能够提高编程的效率，还能够提高代码的可读性和可维护性。

学习MOT的过程还需要有强烈的求知欲和思考能力。

MOT是一个充满挑战和未知的领域，其中包含了许多深奥和复杂的问题。

只有通过不断地阅读和思考，才能够发现其中的规律和逻辑。

在学习MOT的过程中，我常常会遇到一些难以理解的地方或者是思路的瓶颈。

这时，我会主动寻找相关的论文和资料来进行参考和学习，并与他人进行讨论和交流。

计算机视觉日常实训报告

一、实训背景随着人工智能技术的飞速发展，计算机视觉作为人工智能的重要分支，在众多领域展现出巨大的应用潜力。

为了更好地掌握计算机视觉技术，提升自身实践能力，我们开展了为期一个月的计算机视觉日常实训。

本次实训旨在通过实际操作，加深对计算机视觉理论知识的理解，提高在实际项目中运用计算机视觉技术的能力。

二、实训内容1. 实训目标（1）掌握计算机视觉的基本原理和常用算法；（2）了解计算机视觉在实际应用中的技术实现；（3）提高动手实践能力，培养团队协作精神。

2. 实训内容（1）计算机视觉基础知识本次实训首先对计算机视觉的基本概念、发展历程、应用领域进行了介绍，使学员对计算机视觉有全面的认识。

（2）图像处理技术实训过程中，我们学习了图像处理的基本操作，如滤波、边缘检测、形态学变换等，为后续的计算机视觉应用打下基础。

（3）特征提取与匹配重点学习了特征提取和匹配的方法，如SIFT、SURF、ORB等，为图像识别、目标跟踪等应用提供技术支持。

（4）目标检测与跟踪实训中，我们学习了目标检测和跟踪的常用算法，如YOLO、SSD、Faster R-CNN等，并通过实际案例进行操作练习。

（5）图像分类与识别学习了图像分类和识别的常用算法，如支持向量机（SVM）、卷积神经网络（CNN）等，并通过实际项目进行应用。

（6）实际项目实践在实训的最后阶段，我们分组进行实际项目实践，如人脸识别、物体检测、场景识别等，提高团队协作能力和项目实践能力。

三、实训过程1. 理论学习实训初期，我们通过课堂讲解、文献阅读等方式，对计算机视觉的基本原理和常用算法进行学习。

2. 案例分析结合实际案例，分析计算机视觉技术在各个领域的应用，加深对理论知识的理解。

3. 动手实践通过实验操作，熟练掌握计算机视觉算法的实现过程，提高编程能力。

4. 项目实践分组进行实际项目实践，将所学知识应用于实际问题，提高团队协作能力和项目实践能力。

四、实训成果1. 理论知识掌握通过本次实训，学员对计算机视觉的基本原理和常用算法有了全面的认识，为后续的学习和研究奠定了基础。

计算机视觉与像处理学习计算机视觉和像处理的理论和应用技术

计算机视觉与像处理学习计算机视觉和像处理的理论和应用技术计算机视觉与图像处理：理论与应用技术计算机视觉和图像处理是现代计算机科学领域中的重要研究方向，它们涉及了图像的获取、处理、分析以及识别等多个领域。

本文将介绍计算机视觉与图像处理的基础理论和常见应用技术，帮助读者了解这一领域的相关知识和应用。

一、计算机视觉概述计算机视觉是一门研究如何使计算机“看”的学科，旨在通过计算机对图像进行处理和分析，使其具备理解图像内容和进行决策的能力。

计算机视觉可以应用于许多领域，如人脸识别、目标检测、图像搜索等。

二、图像处理基础理论1. 数字图像基础知识数字图像是计算机视觉和图像处理的基础，了解数字图像的特性对进一步学习该领域非常重要。

本节将介绍数字图像的概念、表示方式以及常见图像格式等内容。

2. 图像增强与滤波图像增强是指通过一系列的操作，使原始图像得到改善或者突出图像的某些特征。

滤波是图像处理中常用的一种方法，用于去除噪声、平滑图像以及增强图像边缘等。

3. 图像分割与边缘检测图像分割是指将图像划分为若干个具有独立特征的区域的过程，边缘检测是图像处理中常用的一种操作，用于识别图像中物体的边界。

三、计算机视觉技术1. 特征提取与描述特征提取是计算机视觉中的核心任务之一，它指的是从原始图像中提取出具有代表性的特征，用于后续的图像分析和识别。

常用的特征包括形状、纹理和颜色等。

2. 目标检测与识别目标检测是计算机视觉中的重要应用之一，它旨在从图像中准确定位和识别出感兴趣的目标，如人脸、车辆等。

目标识别则是进一步对检测到的目标进行分类和识别。

3. 图像分类与识别图像分类与识别是利用计算机视觉技术对图像进行分类和识别的过程，它可以应用于图像搜索、图像自动标注等领域。

常用的方法包括机器学习、深度学习等。

四、计算机视觉与图像处理的应用1. 自动驾驶计算机视觉和图像处理在自动驾驶领域发挥着重要作用，通过对车辆周围环境图像的处理和分析，实现车辆的自主驾驶和交通安全。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一部分：深度学习1、神经网络基础问题（1）Backpropagation后向传播是在求解损失函数L对参数w求导时候用到的方法，目的是通过链式法则对参数进行一层一层的求导。

这里重点强调：要将参数进行随机初始化而不是全部置0，否则所有隐层的数值都会与输入相关，这称为对称失效。

大致过程是:●首先前向传导计算出所有节点的激活值和输出值，●计算整体损失函数：●然后针对第L层的每个节点计算出残差（本质就是整体损失函数对每一层激活值Z的导数），所以要对W求导只要再乘上激活函数对W的导数即可（2）梯度消失、梯度爆炸梯度消失：这本质上是由于激活函数的选择导致的，最简单的sigmoid函数为例，在函数的两端梯度求导结果非常小（饱和区），导致后向传播过程中由于多次用到激活函数的导数值使得整体的乘积梯度结果变得越来越小，也就出现了梯度消失的现象。

梯度爆炸：同理，出现在激活函数处在激活区，而且权重W过大的情况下。

但是梯度爆炸不如梯度消失出现的机会多。

（3）常用的激活函数激活函数公式缺点优点Sigmoid σ(x)=1/(1+e−x)1、会有梯度弥散2、不是关于原点对称3、计算exp比较耗时-Tanh tanh(x)=2σ(2x)−1梯度弥散没解决1、解决了原点对称问题2、比sigmoid更快ReLU f(x)=max(0,x) 梯度弥散没完全解决，在（-）部分相当于神经元死亡而且不会复活1、解决了部分梯度弥散问题2、收敛速度更快Leaky ReLU f(x)=1(x<0)(αx)+1(x>=0)(x) - 解决了神经死亡问题Maxout max(wT1x+b1,wT2x+b2) 参数比较多,本质上是在输出结果上又增加了一层克服了ReLU的缺点，比较提倡使用（4）参数更新方法方法名称公式Vanilla update x += - learning_rate * dxMomentum update动量更新v = mu * v - learning_rate * dx # integrate velocityx += v # integrate positionNesterov Momentum（牛顿动量）x_ahead = x + mu * vv = mu * v - learning_rate * dx_ahead x += vAdagrad(自适应的方法，梯度大的方向学习率越来越小,由快到慢) cache += dx**2x += - learning_rate * dx / (np.sqrt(cache) + eps)Adam m = beta1*m + (1-beta1)dxv = beta2*v + (1-beta2)(dx**2)x += - learning_rate * m / (np.sqrt(v) + eps)（5）解决overfitting的方法dropout， regularization， batch normalizatin，但是要注意dropout只在训练的时候用，让一部分神经元随机失活。

Batch normalization是为了让输出都是单位高斯激活，方法是在连接和激活函数之间加入BatchNorm层，计算每个特征的均值和方差进行规则化。

2、CNN问题（1）思想改变全连接为局部连接，这是由于图片的特殊性造成的（图像的一部分的统计特性与其他部分是一样的），通过局部连接和参数共享大范围的减少参数值。

可以通过使用多个filter来提取图片的不同特征（多卷积核）。

（2）filter尺寸的选择通常尺寸多为奇数（1，3，5，7）（3）输出尺寸计算公式输出尺寸=(N - F +padding*2)/stride + 1步长可以自由选择通过补零的方式来实现连接。

（4）pooling池化的作用虽然通过卷积的方式可以大范围的减少输出尺寸（特征数），但是依然很难计算而且很容易过拟合，所以依然利用图片的静态特性通过池化的方式进一步减少尺寸。

（5）常用的几个模型，这个最好能记住模型大致的尺寸参数。

名称特点LeNet5 没啥特点-不过是第一个CNN应该要知道AlexNet 引入了ReLU和dropout，引入数据增强、池化相互之间有覆盖，三个卷积一个最大池化+三个全连接层VGGNet 采用1*1和3*3的卷积核以及2*2的最大池化使得层数变得更深。

常用VGGNet-16和VGGNet19Google Inception Net 我称为盗梦空间网络这个在控制了计算量和参数量的同时，获得了比较好的分类性能，和上面相比有几个大的改进：1、去除了最后的全连接层，而是用一个全局的平均池化来取代它；2、引入Inception Module，这是一个4个分支结合的结构。

所有的分支都用到了1*1的卷积，这是因为1*1性价比很高，可以用很少的参数达到非线性和特征变换。

3、Inception V2第二版将所有的5*5变成2个3*3，而且提出来著名的Batch Normalization；4、Inception V3第三版就更变态了，把较大的二维卷积拆成了两个较小的一维卷积，加速运算、减少过拟合，同时还更改了Inception Module的结构。

微软ResNet残差神经网络(Residual Neural Network) 1、引入高速公路结构，可以让神经网络变得非常深2、ResNet第二个版本将ReLU激活函数变成y=x的线性函数2、RNN1、RNN原理：在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward+Neural+Networks)。

而在RNN中，神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出。

所以叫循环神经网络2、RNN、LSTM、GRU区别●RNN引入了循环的概念，但是在实际过程中却出现了初始信息随时间消失的问题，即长期依赖（Long-Term Dependencies）问题，所以引入了LSTM。

●LSTM：因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的，RNN是叠乘，因此LSTM可以防止梯度消失或者爆炸。

推导forget gate，input gate，cell state， hidden information等因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的，RNN是叠乘，因此LSTM可以防止梯度消失或者爆炸的变化是关键，下图非常明确适合记忆：GRU是LSTM的变体，将忘记门和输入们合成了一个单一的更新门。

3、LSTM防止梯度弥散和爆炸LSTM用加和的方式取代了乘积，使得很难出现梯度弥散。

但是相应的更大的几率会出现梯度爆炸，但是可以通过给梯度加门限解决这一问题。

4、引出word2vec这个也就是Word Embedding，是一种高效的从原始语料中学习字词空间向量的预测模型。

分为CBOW(Continous Bag of Words)和Skip-Gram两种形式。

其中CBOW是从原始语句推测目标词汇，而Skip-Gram相反。

CBOW可以用于小语料库，Skip-Gram用于大语料库。

具体的就不是很会了。

3、GAN1、GAN的思想GAN结合了生成模型和判别模型，相当于矛与盾的撞击。

生成模型负责生成最好的数据骗过判别模型，而判别模型负责识别出哪些是真的哪些是生成模型生成的。

但是这些只是在了解了GAN之后才体会到的，但是为什么这样会有效呢？假设我们有分布Pdata(x)，我们希望能建立一个生成模型来模拟真实的数据分布，假设生成模型为Pg(x;θ)，我们的目的是求解θ的值，通常我们都是用最大似然估计。

但是现在的问题是由于我们相用NN来模拟Pdata(x)，但是我们很难求解似然函数，因为我们没办法写出生成模型的具体表达形式，于是才有了GAN，也就是用判别模型来代替求解最大似然的过程。

在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。

对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D(G(z)) = 0.5。

这样我们的目的就达成了：我们得到了一个生成式的模型G，它可以用来生成图片。

2、GAN的表达式通过分析GAN的表达可以看出本质上就是一个minmax问题。

其中V(D, G)可以看成是生成模型和判别模型的差异，而minmaxD说的是最大的差异越小越好。

这种度量差异的方式实际上叫做Jensen-Shannon divergence。

3、GAN的实际计算方法因为我们不可能有Pdata(x)的分布，所以我们实际中都是用采样的方式来计算差异（也就是积分变求和）。

具体实现过程如下：有几个关键点：判别方程训练K次，而生成模型只需要每次迭代训练一次，先最大化（梯度上升）再最小化（梯度下降）。

但是实际计算时V的后面一项在D(x)很小的情况下由于log函数的原因会导致更新很慢，所以实际中通常将后一项的log(1-D(x))变为-logD(x)。

实际计算的时候还发现不论生成器设计的多好，判别器总是能判断出真假，也就是loss几乎都是0，这可能是因为抽样造成的，生成数据与真实数据的交集过小，无论生成模型多好，判别模型也能分辨出来。

解决方法有两个：1、用WGAN 2、引入随时间减少的噪声4、对GAN有一些改进有引入f-divergence，取代Jensen-Shannon divergence，还有很多，这里主要介绍WGAN5、WGAN上面说过了用f-divergence来衡量两个分布的差异，而WGAN的思路是使用Earth Mover distance (挖掘机距离 Wasserstein distance)。

第二部分、机器学习准备1、决策树树相关问题（1）各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度（相对熵）●熵用于衡量不确定性，所以均分的时候熵最大●KL散度用于度量两个分布的不相似性，KL(p||q)等于交叉熵H(p,q)-熵H(p)。

交叉熵可以看成是用q编码P所需的bit数，减去p本身需要的bit数，KL散度相当于用q 编码p需要的额外bits。

●交互信息Mutual information ：I(x,y) = H(x)-H(x|y) = H(y)-H(y|x) 表示观察到x后，y的熵会减少多少。

（2）常用的树搭建方法：ID3、C4.5、CART上述几种树分别利用信息增益、信息增益率、Gini指数作为数据分割标准。

●其中信息增益衡量按照某个特征分割前后熵的减少程度，其实就是上面说的交互信息。