1强化学习介绍详解

合集下载

David Silver 《强化学习》第一讲简介

《强化学习》第一讲简介本讲是对于强化学习整体的一个简单介绍，描述了强化学习是什么，解决什么问题，大概用什么样的方式来解决问题。

介绍了强化学习中常用的概念。

这些概念非常重要，贯穿于整个强化学习始终，但是在这一讲，读者仅需对这些概念有个初步的印象。

引子推荐教材(下载地址)1. An Introduction to Reinforcement Learning, Sutton and Barto, 19982. Algorithms for Reinforcement Learning, Szepesvari, 2009强化学习在不同领域有不同的表现形式：神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。

强化学习是机器学习的一个分支：监督学习、无监督学习、强化学习。

强化学习的特点：1.没有监督数据、只有奖励信号2.奖励信号不一定是实时的，而很可能是延后的，有时甚至延后很多。

3.时间（序列）是一个重要因素4.当前的行为影响后续接收到的数据强化学习有广泛的应用：像直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等强化学习问题的提出∙奖励RewardR是信号的反馈，是一个标量，它反映个体在t时刻做得怎么样。

个体的工作就是最大化累计奖励。

t强化学习主要基于这样的”奖励假设”：所有问题解决的目标都可以被描述成最大化累积奖励。

∙序列决策Sequential Decision Making目标：选择一定的行为系列以最大化未来的总体奖励这些行为可能是一个长期的序列奖励可能而且通常是延迟的有时候宁愿牺牲即时（短期）的奖励以获取更多的长期奖励∙个体和环境Agent & Environment可以从个体和环境两方面来描述强化学习问题。

在t时刻，个体可以：1.有一个对于环境的观察评估O t，2.做出一个行为A t，3.从环境得到一个奖励信号R t+1。

环境可以：1.接收个体的动作A t，2.更新环境信息，同时使得个体可以得到下一个观测O t+1，3.给个体一个奖励信号R t+1。

什么是强化学习

强化学习强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP）。

按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL），以及主动强化学习（active RL）和被动强化学习（passive RL）。

强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。

求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类。

深度学习模型可以在强化学习中得到使用，形成深度强化学习。

强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）间保持平衡。

不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。

强化学习问题在信息论、博弈论、自动控制等领域有得到讨论，被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。

一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能，可以在围棋和电子游戏中达到人类水平。

中文名强化学习外文名Reinforcement Learning, RL别名再励学习，评价学习，增强学习；强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。

001-强化学习简介

001-强化学习简介强化学习并不会告诉你⼀个⽅向，也没有数据和标签，只会对结果进⾏评分（正确就会给⾼分，错误就会给低分），为了得到更⾼的分数，强化学习会记住使得⾃⼰获得⾼分的⽅法，从⽽获得最优解。

强化学习是机器学习⼤家族中的⼀⼤类, 使⽤强化学习能够让机器学着如何在环境中拿到⾼分, 表现出优秀的成绩. ⽽这些成绩背后却是他所付出的⾟苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.从⽆到有强化学习是⼀类算法, 是让计算机实现从⼀开始什么都不懂, 脑袋⾥没有⼀点想法, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到⽬的的⽅法. 这就是⼀个完整的强化学习过程. 实际中的强化学习例⼦有很多. ⽐如近期最有名的 Alpha go, 机器头⼀次在围棋场上战胜⼈类⾼⼿, 让计算机⾃⼰学着玩经典游戏 Atari, 这些都是让计算机在不断的尝试中更新⾃⼰的⾏为准则, 从⽽⼀步步学会如何下好围棋, 如何操控游戏得到⾼分. 既然要让计算机⾃⼰学, 那计算机通过什么来学习呢?虚拟⽼师原来计算机也需要⼀位虚拟的⽼师, 这个⽼师⽐较吝啬, 他不会告诉你如何移动, 如何做决定, 他为你做的事只有给你的⾏为打分, 那我们应该以什么形式学习这些现有的资源, 或者说怎么样只从分数中学习到我应该怎样做决定呢? 很简单, 我只需要记住那些⾼分, 低分对应的⾏为, 下次⽤同样的⾏为拿⾼分, 并避免低分的⾏为.⽐如⽼师会根据我的开⼼程度来打分, 我开⼼时, 可以得到⾼分, 我不开⼼时得到低分. 有了这些被打分的经验, 我就能判断为了拿到⾼分, 我应该选择⼀张开⼼的脸, 避免选到伤⼼的脸. 这也是强化学习的核⼼思想. 可以看出在强化学习中, ⼀种⾏为的分数是⼗分重要的. 所以强化学习具有分数导向性. 我们换⼀个⾓度来思考.这种分数导向性好⽐我们在监督学习中的正确标签.对⽐监督学习我们知道监督学习, 是已经有了数据和数据对应的正确标签, ⽐如这样. 监督学习就能学习出那些脸对应哪种标签. 不过强化学习还要更进⼀步,⼀开始它并没有数据和标签.他要通过⼀次次在环境中的尝试, 获取这些数据和标签, 然后再学习通过哪些数据能够对应哪些标签, 通过学习到的这些规律, 竟可能地选择带来⾼分的⾏为 (⽐如这⾥的开⼼脸). 这也就证明了在强化学习中, 分数标签就是他的⽼师, 他和监督学习中的⽼师也差不多.RL 算法们强化学习是⼀个⼤家族, 他包含了很多种算法, 我们也会⼀⼀提到之中⼀些⽐较有名的算法, ⽐如有通过⾏为的价值来选取特定⾏为的⽅法, 包括使⽤表格学习的 q learning, sarsa, 使⽤神经⽹络学习的 deep q network, 还有直接输出⾏为的 policy gradients, ⼜或者了解所处的环境, 想象出⼀个虚拟的环境并从虚拟的环境中学习等等.强化学习⽅法汇总 (Reinforcement Learning)了解强化学习中常⽤到的⼏种⽅法,以及他们的区别, 对我们根据特定问题选择⽅法时很有帮助. 强化学习是⼀个⼤家族, 发展历史也不短, 具有很多种不同⽅法. ⽐如说⽐较知名的控制⽅法 , , 还有基于对环境的理解的 model-based RL 等等. 接下来我们通过分类的⽅式来了解他们的区别.Model-free 和 Model-based我们可以将所有强化学习的⽅法分为理不理解所处环境,如果我们不尝试去理解环境, 环境给了我们什么就是什么. 我们就把这种⽅法叫做model-free, 这⾥的 model 就是⽤模型来表⽰环境, 那理解了环境也就是学会了⽤⼀个模型来代表环境, 所以这种就是 model-based ⽅法. 我们想象. 现在环境就是我们的世界, 我们的机器⼈正在这个世界⾥玩耍, 他不理解这个世界是怎样构成的, 也不理解世界对于他的⾏为会怎么样反馈. 举个例⼦, 他决定丢颗原⼦弹去真实的世界, 结果把⾃⼰给炸死了, 所有结果都是那么现实. 不过如果采取的是 model-based RL, 机器⼈会通过过往的经验, 先理解真实世界是怎样的, 并建⽴⼀个模型来模拟现实世界的反馈, 最后他不仅可以在现实世界中玩耍, 也能在模拟的世界中玩耍 , 这样就没必要去炸真实世界, 连⾃⼰也炸死了, 他可以像玩游戏⼀样炸炸游戏⾥的世界, 也保住了⾃⼰的⼩命. 那我们就来说说这两种⽅式的强化学习各⽤那些⽅法吧.Model-free 的⽅法有很多, 像 , , 都是从环境中得到反馈然后从中学习. ⽽ model-based RL 只是多了⼀道程序, 为真实世界建模, 也可以说他们都是 model-free 的强化学习, 只是 model-based 多出了⼀个虚拟环境, 我们不仅可以像 model-free 那样在现实中玩耍,还能在游戏中玩耍,⽽玩耍的⽅式也都是 model-free 中那些玩耍⽅式, 最终 model-based 还有⼀个杀⼿锏是 model-free 超级羡慕的. 那就是想象⼒.Model-free 中, 机器⼈只能按部就班, ⼀步⼀步等待真实世界的反馈, 再根据反馈采取下⼀步⾏动. ⽽ model-based, 他能通过想象来预判断接下来将要发⽣的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下⼀步的策略, 这也就是围棋场上 AlphaGo 能够超越⼈类的原因. 接下来, 我们再来⽤另外⼀种分类⽅法将强化学习分为基于概率和基于价值.基于概率和基于价值基于概率是强化学习中最直接的⼀种, 他能通过感官分析所处的环境, 直接输出下⼀步要采取的各种动作的概率, 然后根据概率采取⾏动, 所以每种动作都有可能被选中, 只是可能性不同. ⽽基于价值的⽅法输出则是所有动作的价值, 我们会根据最⾼价值来选着动作, 相⽐基于概率的⽅法, 基于价值的决策部分更为铁定, 毫不留情, 就选价值最⾼的, ⽽基于概率的, 即使某个动作的概率最⾼, 但是还是不⼀定会选到他.我们现在说的动作都是⼀个⼀个不连续的动作, ⽽对于选取连续的动作, 基于价值的⽅法是⽆能为⼒的. 我们却能⽤⼀个概率分布在连续动作中选取特定动作, 这也是基于概率的⽅法的优点之⼀. 那么这两类使⽤的⽅法⼜有哪些呢?⽐如在基于概率这边, 有 , 在基于价值这边有 , 等. ⽽且我们还能结合这两类⽅法的优势之处, 创造更⽜逼的⼀种⽅法, 叫做 , actor 会基于概率做出动作, ⽽ critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程.回合更新和单步更新强化学习还能⽤另外⼀种⽅式分类, 回合更新和单步更新, 想象强化学习就是在玩游戏, 游戏回合有开始和结束. 回合更新指的是游戏开始后,我们要等待游戏结束, 然后再总结这⼀回合中的所有转折点, 再更新我们的⾏为准则. ⽽单步更新则是在游戏进⾏中每⼀步都在更新, 不⽤等待游戏的结束, 这样我们就能边玩边学习了.再来说说⽅法, Monte-carlo learning 和基础版的 policy gradients 等都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在⼤多⽅法都是基于单步更新. ⽐如有的强化学习问题并不属于回合问题.在线学习和离线学习这个视频的最后⼀种分类⽅式是在线学习和离线学习, 所谓在线学习, 就是指我必须本⼈在场, 并且⼀定是本⼈边玩边学习, ⽽离线学习是你可以选择⾃⼰玩, 也可以选择看着别⼈玩, 通过看别⼈玩来学习别⼈的⾏为准则, 离线学习同样是从过往的经验中学习, 但是这些过往的经历没必要是⾃⼰的经历, 任何⼈的经历都能被学习. 或者我也不必要边玩边学习, 我可以⽩天先存储下来玩耍时的记忆, 然后晚上通过离线学习来学习⽩天的记忆.那么每种学习的⽅法⼜有哪些呢?最典型的在线学习就是 Sarsa 了, 还有⼀种优化 Sarsa 的算法, 叫做 Sarsa lambda, 最典型的离线学习就是 Q learning, 后来⼈也根据离线学习的属性, 开发了更强⼤的算法, ⽐如让计算机学会玩电动的 Deep-Q-Network.这就是我们从各种不同的⾓度来对⽐了强化学习中的多种算法.为什么⽤强化学习 Why?强化学习介绍强化学习 (Reinforcement Learning) 是⼀个机器学习⼤家族中的分⽀, 由于近些年来的技术突破, 和深度学习 (Deep Learning) 的整合, 使得强化学习有了进⼀步的运⽤. ⽐如让计算机学着玩游戏, AlphaGo 挑战世界围棋⾼⼿, 都是强化学习在⾏的事. 强化学习也是让你的程序从对当前环境完全陌⽣, 成长为⼀个在环境中游刃有余的⾼⼿.这些教程的教学, 不依赖于任何强化学习的 python 模块. 因为强化学习的复杂性, 多样性, 到现在还没有⽐较好的统⼀化模块. 不过我们还是能⽤最基础的⽅法编出优秀的强化学习程序!模拟程序提前看以下是我们将要在后续的课程中实现的⽜逼的⾃学程序.Youtube 的模拟视频都在这⾥:优酷的模拟视频在这⾥:下⾯是其中⼀些模拟视频:CartpoleMountain car课程要求教程必备模块强化学习有⼀些现成的模块可以使⽤, 但是那些模块并不全⾯, ⽽且强化学习很依赖与你给予的学习环境. 对于不同学习环境的强化学习, 可能RL 的代码就不同. 所以我们要抱着以不变应万变的⼼态, ⽤基础的模块, 从基础学起. 懂了原理, 再复杂的环境也不在话下.所以⽤到的模块和对应的教程:(必学), ⽤于学习的数据处理(可学), 偶尔会⽤来呈现误差曲线什么的(可学), 你可以⾃⼰⽤它来编写模拟环境(可学), 后⾯实现神经⽹络与强化学习结合的时候⽤到(可学), 提供了很多现成的模拟环境快速了解强化学习我也会制作每种强化学习对应的简介视频 (在这个学习列表⾥: ), ⼤家可以只花很少的时间来观看了解这些学习⽅法的不同之处. 有了⼀定概念和基础, 我们在这套教材⾥实现起来就容易多了. ⽽且不懂的时候也能只花很少的时间回顾就⾏.。

1强化学习介绍概述

1强化学习介绍概述强化学习是一种机器学习方法，通过智能体与环境之间的交互来学习动作策略，以使智能体能够在特定任务中取得最大的累积奖励。

与传统的监督学习和无监督学习不同，强化学习不依赖于事先标记好的训练样本，而是通过试错的方式进行学习。

在强化学习中，智能体通过观察当前状态，并选择一个动作来与环境进行交互。

环境会根据智能体选择的动作和当前状态，给予智能体一个奖励或惩罚。

智能体根据这个奖励或惩罚来调整自己的策略，以使得未来能够获得更大的累积奖励。

强化学习的目标就是通过与环境交互的过程，使得智能体能够找到最优的策略，以最大化累积奖励。

强化学习的关键概念包括：状态、动作、奖励和策略。

状态指的是智能体与环境的交互过程中的其中一种描述，可以是环境的观察结果或者智能体的内部状态。

动作指的是智能体在一些状态下选择的行为。

奖励是智能体根据环境给予的反馈，用于评估智能体的行为，可以是正值或负值。

策略是指智能体在不同状态下选择行动的方式，可以是确定性的规则，也可以是概率分布。

在强化学习中，智能体通过学习价值函数和策略函数来选择动作。

价值函数用于评估在一些状态下选择一些动作的好坏程度，可以是状态动作对的实际累积奖励或是预测累积奖励。

策略函数用于计算在一些状态下选择每个动作的概率分布，以决定下一步应该选择哪个动作。

智能体可以根据这些函数来选择最优的行为策略。

强化学习可以应用于各种领域，例如游戏、机器人控制、自动驾驶等。

在游戏中，智能体可以通过与游戏环境的交互来学习最优的游戏策略，以取得最高的得分。

在机器人控制中，智能体可以通过与环境的交互来学习如何进行动作控制，以完成特定的任务。

在自动驾驶中，智能体可以学习如何根据当前环境和交通规则来选择最佳的驾驶行为，以保证安全和高效。

强化学习的方法包括基于值函数和基于策略的方法。

基于值函数的方法通过学习价值函数来选择最优的动作，例如Q-learning和Deep Q-Network（DQN）。

强化学习的基本概念与方法

强化学习的基本概念与方法强化学习是一种机器学习的方法，旨在通过与环境的交互来学习并选择行动，以获得最大的累积奖励。

在这篇文章中，我将介绍强化学习的基本概念和方法，并讨论其在各个领域的应用。

一、强化学习的基本概念1.1 强化信号：在强化学习中，智能体通过环境与之交互获取强化信号，以衡量其行动的优劣。

这个信号可以是正数、负数或零，表示对智能体行为的评价。

1.2 状态和动作：智能体在特定时间点的状态被称为状态，而智能体在特定状态下采取的行动被称为动作。

强化学习的目标是通过选择最优动作，使累积奖励最大化。

1.3 奖励函数：奖励函数根据智能体的行动和当前状态的特征，为智能体提供即时奖励。

这个函数反映了环境的目标和智能体的预期。

1.4 策略：策略是一个映射，它根据当前状态选择一个行动。

强化学习的目标是通过改变策略来优化累积奖励。

二、强化学习的方法2.1 基于价值的方法：基于价值的方法主要侧重于评估不同状态的价值，并根据这些价值选择最优的行动。

这类方法包括值函数和动作值函数。

2.1.1 值函数：值函数衡量智能体在特定状态下的长期价值。

它可以分为状态值函数（V函数）和动作值函数（Q函数）。

2.1.2 Q学习：Q学习是一种基于值函数的强化学习方法，它通过迭代更新状态行动对的价值，来逼近最优动作值函数。

2.2 策略梯度方法：策略梯度方法直接优化策略，以选择最优动作。

这些方法通常使用梯度下降算法来更新策略参数。

2.2.1 REINFORCE算法：REINFORCE算法是一种典型的策略梯度方法，通过采样轨迹并使用梯度下降法更新策略参数来最大化累积奖励。

2.2.2 Actor-Critic算法：Actor-Critic算法结合了值函数评估和策略改进。

其中，Actor负责选择行动，Critic负责评估状态和行动对的值。

2.3 深度强化学习：深度强化学习将深度学习与强化学习相结合，使得智能体可以从原始观测数据中学习，并直接选择行动。

强化学习：基本概念解析(五)

强化学习：基本概念解析在当今科技飞速发展的时代，人工智能技术已经成为了各行各业的热门话题。

在人工智能领域中，强化学习作为一种重要的学习方法，受到了广泛的关注。

强化学习是一种通过智能体与环境的交互学习来实现最优行为策略的机器学习方法。

本文将对强化学习的基本概念进行解析。

强化学习的基本概念强化学习是一种通过试错来学习的方法，智能体在与环境的交互过程中，根据所获得的奖励信号来调整自己的行为，从而达到最优的决策策略。

在强化学习中，智能体不需要事先得到训练数据，而是通过与环境的交互来学习。

在强化学习中，智能体会在每一步的行动中得到一个奖励信号，根据这个奖励信号来调整自己的行为，使得未来的奖励最大化。

强化学习的目标是找到一个最优的策略，使得智能体能够在环境中获得最大的累积奖励。

强化学习的核心要素强化学习包括了智能体、环境、动作、奖励和价值函数等核心要素。

智能体是进行学习的主体，它通过与环境的交互来学习最优的行为策略。

环境是智能体所处的外部环境，智能体通过与环境的交互来获取奖励信号。

动作是智能体在环境中采取的行为，智能体根据动作的结果来获取奖励。

奖励是智能体在与环境交互过程中所获得的反馈信号，智能体通过奖励来调整自己的行为。

价值函数是智能体对不同状态或动作的价值进行评估，通过价值函数来指导智能体的学习过程。

强化学习的算法强化学习的算法包括了基于值函数的算法和基于策略的算法两种主要类型。

值函数的算法是通过价值函数来评估不同状态或动作的价值，然后选择最有价值的状态或动作来进行学习。

常见的值函数算法包括Q-learning和SARSA等。

而基于策略的算法是直接学习一个策略函数，使得智能体在不同状态下能够选择最优的动作。

常见的基于策略的算法包括Policy Gradient和Actor-Critic等。

强化学习的应用领域强化学习在许多领域都有广泛的应用，如智能控制、机器人学、自然语言处理、游戏领域等。

在智能控制领域，强化学习可以用于自适应控制、优化控制等方面，实现智能化的控制系统。

强化学习算法中的基于模型的强化学习方法详解

强化学习（Reinforcement Learning, RL）是一种机器学习方法，其目标是让智能体通过与环境的交互来学习最优的行为策略。

强化学习算法中的基于模型的强化学习方法是其中的一种重要方法，下面将对其进行详细的介绍。

1. 强化学习概述强化学习是一种通过观察周围环境而学会选择行为的机器学习方法。

与监督学习和无监督学习不同，强化学习是通过与环境的交互来学习的。

在强化学习中，智能体采取行动，环境对智能体的行动做出反馈，智能体根据这些反馈调整自己的行为策略，以使得获得的回报最大化。

2. 基于模型的强化学习方法基于模型的强化学习方法是强化学习中的一种重要方法，它的核心思想是建立一个对环境的模型，用这个模型来规划最优的行为策略。

在基于模型的强化学习中，智能体首先要对环境进行建模，然后利用这个模型来进行规划，最终选择最优的行为。

3. 模型建立在基于模型的强化学习中，建立环境模型是非常重要的一步。

环境模型可以是确定性的，也可以是随机的。

确定性的环境模型可以简化问题，但在现实世界中往往很难建立确定性模型，因此随机环境模型更为常见。

智能体通过与环境的交互，收集数据来建立环境模型，一般采用的方法有动态规划和模型学习。

4. 规划与控制在基于模型的强化学习中，一旦建立了环境模型，智能体就可以利用这个模型进行规划和控制。

规划是指根据环境模型来预测未来的状态和奖励，然后选择最优的行为策略。

而控制是指智能体根据规划选择最优的行为来与环境进行交互。

在规划和控制过程中，智能体需要解决探索和利用的平衡问题，即要在已知最优行为和探索未知行为之间进行权衡。

5. 基于模型的强化学习的优缺点基于模型的强化学习方法具有一定的优点和缺点。

其优点在于可以更好地利用环境模型进行规划，从而更有效地选择最优的行为策略。

而其缺点在于建立环境模型的过程可能非常复杂，尤其是在面对复杂的随机环境时，建立准确的模型可能非常困难。

6. 基于模型的强化学习的应用基于模型的强化学习方法在许多领域都有着广泛的应用。

强化经验总结

强化经验总结1. 强化学习简介强化学习是一种机器学习方法，旨在通过与环境的交互来学习最佳行动策略。

与监督学习不同，强化学习没有标记的训练数据，而是通过试错和奖励来进行学习。

强化学习的目标是使智能体在特定环境中获得最大的累积奖励。

2. 关键概念2.1 状态（State）状态是描述环境和智能体之间关系的信息。

在强化学习中，状态可以是原始数据（如图像）或经过处理的特征向量。

2.2 动作（Action）动作是智能体根据当前状态所采取的行动。

动作可以是离散的（如左、右、上、下）或连续的（如控制机器臂的力度）。

2.3 奖励（Reward）奖励是对智能体行为好坏的评价指标。

智能体根据奖励来调整自己的策略，以获得更高的累积奖励。

2.4 策略（Policy）策略定义了智能体在给定状态下采取每个动作的概率分布。

目标是找到最优策略，使智能体获得最大的累积奖励。

2.5 值函数（Value Function）值函数衡量了在给定状态下，智能体可以获得的长期累积奖励。

值函数可以是状态值函数（衡量状态的好坏）或动作值函数（衡量在给定状态下采取动作的好坏）。

2.6 强化学习算法强化学习算法用于从环境中学习策略和值函数。

常见的算法包括Q-learning、SARSA、Deep Q Network (DQN)等。

3. 关键发现3.1 基于模型与无模型方法强化学习算法可以分为基于模型和无模型方法。

基于模型的方法通过建立环境模型来预测状态转移和奖励，然后利用这些信息进行规划。

无模型方法直接从与环境的交互中学习，不需要环境模型。

3.2 探索与利用之间的平衡在强化学习中，探索是指尝试未知动作以获取更多信息，而利用是指根据当前已知信息选择最佳动作。

探索与利用之间需要进行平衡，以便尽可能快地找到最优策略。

3.3 离散与连续动作空间强化学习中的动作空间可以是离散的或连续的。

对于离散动作空间，可以使用表格型方法（如Q-learning）进行学习。

对于连续动作空间，需要使用函数逼近方法（如DQN）来估计值函数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

动物（学习者）必须尝试各种动作，并且渐渐趋近于那些表现最好的动作，以达到目标。
相关定义
• 为便于研究，定义几个概念 agent（学习的主体，如小猫、小狗、人、机器人、控制程序等）
agent特点 1、能感知环境的状态 2、选择动作（可能会影响环境的状态） 3、有一个目标（与环境状态有关的） agent以目标为导向，与不确定的环境之间进行交互，在交互过程中强化好的动作，获得经验。
强化学习介绍
• 本书中所有强化学习方法围绕估计值来组织，但这不是解决强化学习问题所必须的。 • 直接在策略空间中搜索而不利用值函数的方法称为进化方法。 • 适合用在策略空间比较小或者策略空间被构造地很好地情况下。
例子：Tic－Tac－Toe
初始 1→0.5 2→0.5 3→0.5 4→0.5 。。。 39 →0.5 当前 1→0.5 2→0.5 3→0.5 S 4→0.5 。。。 100→1 S’ 。。。 39 →0.5
V (s) V (s) [V (s ') V (s)]
不断对弈，不断更新估计
例子：Tic－Tac－Toe
更新贪心走棋之前的状态s：
V (s) V (s) [V (s) V (s)]
例子：Tic－Tac－Toe
强化学习关键特征
• 学习时与环境交互（本例中与对手交互）
• 有一个清晰的目标
强化学习历史
• 主要有两条线路
• 一条线路关注试错学习，以动物心理学为起点。（贯穿人工智能早期）
• 另一条线路关注最优控制问题以及使用值函数和动态规划的解决方案。
强化学习历史
• 最优控制描述的问题是如何设计一个控制器来随时间而最小化动态系统的行为计量 • 一个解决这个问题的方法是使用动态系统中状态和值函数的概念来定义一个函数方程，即贝尔曼方程。
• 用贝尔曼方程来解决最优控制中心。
• 改变动作选择的趋向是根据动作结果好坏来决定的。
强化学习历史
• 围绕以上两条路产生了第三条路，即时间差分方法。 • 三条路线整合起来形成现代强化学习。
强化学习介绍
简介
• 一种能够让机器解决科学或经济方面学习问题的设计方案，并通过数学分析或计算实验来评估的方法称为强化学习。
• 从交互中进行，以目标为导向。
强化学习介绍
• 学习者不被告知采取哪个动作，而是通过尝试来发现获得最大奖赏的动作。 • agent必须尝试各种动作，并且渐渐趋近于那些表现最好的动作，以达到目标。
强化学习介绍
• 监督学习是从样例中学习，样例是由富有知识的外部监督者提供的。这是一种重要的学习方法，但是它不能单独地用于交互学习。
• 强化学习没有外部指导者，是在交互中，从自身经验中学习。
强化学习挑战
• 学习者必须尝试各种动作，并且渐渐趋近于那些表现最好的动作，以达到目标。 • 尝试各种动作即为试错，也称为探索 • 趋近于好的动作即为强化，也称为利用探索与利用之间的平衡，是强化学习的一个挑战。探索多了，有可能找到差的动作，探索少了，有可能错过好的动作。总体趋势：探索变少，利用变多监督学习中根本就不存在探索和利用的平衡问题，样例学习阶段之后，就只有利用了。
相关定义
• agent的目标导向 • 与许多其他学习方法相比，其他方法只考虑了子任务，而没有解决怎样可以把这些子任务整合到一个更大的框架中。
• 而强化学习是以最终目标为导向的，可以把不同的子任务整合到一个大框架中。
强化学习的基本要素
• • • • 策略奖赏函数值函数环境模型
强化学习的基本要素
• 值函数：一个状态的值一个agent从那个状态开始到将来预期的累积的奖赏和。 • 在决策和评价决策中考虑最多的是值。
强化学习的基本要素
• 环境模型模拟了环境的行为，即给定一个状态和动作，模型可以预测必定导致下一个状态和下一个奖赏。模型一般用于规划。
• 规划是算出来的，强化学习是试出来的。 • 将模型和规划结合到强化学习是一个新进展，也是我们学习研究的重要内容。
• 策略定义了agent在给定时间内的行为方式，一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。
• 可能是一个查找表，也可能是一个函数
强化学习的基本要素
• 奖赏函数是强化学习问题中的目标，它把环境中感知到的状态映射为单独的一个奖赏
• 奖赏函数可以是改变策略的基础。
强化学习的基本要素
例子
• 小牛羚在出生后几分钟内挣扎着站起来。半小时后，每小时能跑几十公里
例子
• 一个进行石油提炼操作的搅拌控制器。
• 该控制器逐步优化产量/成本/质量之间的平衡 • 而不是严格按照工程师的最初设置来搅拌。
例子
• 走到电梯门口，发现等电梯的人很多
• 选择：1等电梯；2走下去 • 根据经验来选择，是强化学习
例子
• 家长一直采用严厉的方法对待子女，从不尝试平和的方式对待子女。 • 或许错过了采取更好动作的机会（如平和的教育方式）。
例子
这些例子中，随时间推移，学习者利用它获得的经验不断提高自己的性能。
简言之，强化学习就是试出来的经验。
自主学习
分析一下动物自主学习的特点： 1、试错：尝试不同的做法（动作） 2、强化：有好处多做，没有好处少做 3、目标：是动物努力的方向，目标导向
例子
• 一个机器人决定：1、进入一个新房间去寻找更多垃圾，2、寻找一条回去充电的路。 • 它根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验
强化学习关键特征
• 强化学习明确整个问题时一个以目标为导向的agent与不确定环境交互问题
例子
• 五子棋：棋手通过数学公式计算，发现位置1比位置2价值大，这是强化学习吗？ • 这不叫强化学习，叫规划 • 如果通过几次尝试，走位置1比走位置2赢棋的可能大，得出经验，则为强化学习