科研报告模板

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在右图中，b 和 c 图的纳什均衡点很容易找到，借助它们我们就能在非对称博弈中找到 a 图中的最佳策略。当然，我们也可以反过来，通过非对称博弈来找寻对应体中的平衡点。
OpenAI提出一种基于层次化的强化学习，在这种方法中，智能体用几个高层次动作组成的序列表征复杂的行为。这样一来，智能体就可以解决复杂得多的任务，学习效率会大大提高。整个解决方案中可能需要2000步左右的低层次动作，层次化策略就可以把它们转化成10个高层次动作组成的序列，那么在这个10步动作的序列中进行搜索就比在2000步的序列中进行搜索高效得多。
多智能体的深度强化学习
CONTENTS 目录
01
基本原理
02
前沿问题
03
研究方向*
04
技术路线*
01 深度强化学习为什么能从AI领域脱颖而出？（选题的价值）
02 强化学习解决什么问题？（应用场景）
通过对比SL和RL来说明：
监督学习（模仿学习）——智能感知问题强化学习（自主学习）——序列决策问题
这个高层次策略都学会了利用一个敌人（子策略从未见过）来让它更快地达到目标。采用的层次强化学习方法把大约需要3000个时间步长的迷宫问题简化成了一个10步的子策略选择问题。
03 多智能体强化学习是否具有研究价值？
• 2017年9月，OpenAI提出了一种新的算法LOLA，让深度强化学习智能体在更新自己策略的同时，考虑到他人的学习过程，甚至实现双赢。两个 LOLA 智能体相遇后会出现“以牙还牙/投桃报李”（tit-for-tat）策略，最终在无限重复囚徒困境中出现合作行为。
• 2017年6月，OpenAI设计了一种新的算法 MADDPG，能让多智能体学会合作、竞争与交流。
• 2017年10月，DeepMind 发表论文，提出了多智能体强化学习方法，有望在星际争霸2上战胜人类，并为应用于游戏的 AI 技术的开发提供帮助。
来自百度文库
国内外研究现状及关键问题
在国外，Google、Uber、Mobileye等科技企业都在着手强化学习技术的研发，目前主要还停留在试验阶段。
在国内，百度、阿里、腾讯等公司在从事强化学习的研究。近日，美国权威杂志《麻省理工科技评论》(MIT Technology Review)发布了2017全球十大突破性技术榜单，强化学习 (Reinforcement Learning)技术位列该榜单第一位。
DeepMind提出将博弈论融入多智能体研究，让纳什均衡变得更简单。研究人员能快速容易地在更复杂的不对称博弈游戏中找到取得纳什均衡的策略，这类游戏中玩家通常有不同的战略、目标和奖励。