机器学习基础强化学习2020/12/3强化学习第 10-1 课强化学习( Reinforcement learning )概述K- 摇臂赌博机贝尔曼( Bellman )方程MDP ( Markov decision process )问题建模基于价值迭代( Value iteration )的求解方法策略迭代( Policy iteration )的求解方法比较 Value iteration 和 Policy iterationQ-learning2020/12/3强化学习第 10-2 课(强化学习)强化学习诞生于上世纪 80 年代,最初应用于制造业,特别是工业机器人的自动控制,近年来随着其他机器方法的成熟开始应用于更加”智能”的场景,除了大名鼎鼎的 Alpha GO , google deepmind 团队还应用强化学习实现了计算机自主学习玩 Atari 系列电子游戏并超越了人类玩家的水平
2020/12/3强化学习第 10-3 课(强化学习)强化学习( Reinforcement learning )的基本内涵是将问题用代理( Agent ,有的地方也将其翻译为智能体)和环境进行建模
其中代理能够对环境执行一些特定的动作 a∈A ,从而到达某个状态 s∈S ,然后我们就可以根据该状态为代理赋予特定的奖励 r
强化学习的基本思想如下图所示:2020/12/3强化学习第 10-4 课(强化学习)强化学习( Reinforcement learning )的基本内涵是将问题用代理( Agent ,有的地方也将其翻译为智能体)和环境进行建模
其中代理能够对环境执行一些特定的动作 a∈A ,从而到达某个状态 s∈S ,然后我们就可以根据该状态为代理赋予特定的奖励 r
强代理的目标是最大化未来的奖励总和,它通过将未来可获得的最大奖励添加到当前的奖励来实现这一点(类似于贪心算