Foundations of Machine LearningReinforcement LearningReinforcement LearningLesson 10 - 1强化学习( Reinforcement learning )概述K- 摇臂赌博机贝尔曼( Bellman )方程MDP ( Markov decision process )问题建模基于价值迭代( Value iteration )的求解方法策略迭代( Policy iteration )的求解方法比较 Value iteration 和 Policy iterationQ-learningReinforcement LearningLesson 10 - 2强化学习( Reinforcement learning )概述强化学习诞生于上世纪 80 年代,最初应用于制造业,特别是工业机器人的自动控制,近年来随着其他机器方法的成熟开始应用于更加”智能”的场景,除了大名鼎鼎的 Alpha GO , google deepmind 团队还应用强化学习实现了计算机自主学习玩 Atari 系列电子游戏并超越了人类玩家的水平
Reinforcement LearningLesson 10 - 3强化学习( Reinforcement learning )概述强化学习( Reinforcement learning )的基本内涵是将问题用代理( Agent ,有的地方也将其翻译为智能体)和环境进行建模
其中代理能够对环境执行一些特定的动作 a∈A ,从而到达某个状态 s∈S ,然后我们就可以根据该状态为代理赋予特定的奖励 r
强化学习的基本思想如下图所示:Reinforcement LearningLesson 10 - 4强化学习( Reinforcement learning )概述强化学习( Reinfor