电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

FAFU机器学习 10-1einforcementearning中文VIP免费

FAFU机器学习 10-1einforcementearning中文FAFU机器学习 10-1einforcementearning中文FAFU机器学习 10-1einforcementearning中文FAFU机器学习 10-1einforcementearning中文FAFU机器学习 10-1einforcementearning中文
机器学习基础强化学习2020/12/3强化学习第 10-1 课强化学习( Reinforcement learning )概述K- 摇臂赌博机贝尔曼( Bellman )方程MDP ( Markov decision process )问题建模基于价值迭代( Value iteration )的求解方法策略迭代( Policy iteration )的求解方法比较 Value iteration 和 Policy iterationQ-learning2020/12/3强化学习第 10-2 课(强化学习)强化学习诞生于上世纪 80 年代,最初应用于制造业,特别是工业机器人的自动控制,近年来随着其他机器方法的成熟开始应用于更加”智能”的场景,除了大名鼎鼎的 Alpha GO , google deepmind 团队还应用强化学习实现了计算机自主学习玩 Atari 系列电子游戏并超越了人类玩家的水平。2020/12/3强化学习第 10-3 课(强化学习)强化学习( Reinforcement learning )的基本内涵是将问题用代理( Agent ,有的地方也将其翻译为智能体)和环境进行建模。其中代理能够对环境执行一些特定的动作 a∈A ,从而到达某个状态 s∈S ,然后我们就可以根据该状态为代理赋予特定的奖励 r 。强化学习的基本思想如下图所示:2020/12/3强化学习第 10-4 课(强化学习)强化学习( Reinforcement learning )的基本内涵是将问题用代理( Agent ,有的地方也将其翻译为智能体)和环境进行建模。其中代理能够对环境执行一些特定的动作 a∈A ,从而到达某个状态 s∈S ,然后我们就可以根据该状态为代理赋予特定的奖励 r 。强代理的目标是最大化未来的奖励总和,它通过将未来可获得的最大奖励添加到当前的奖励来实现这一点(类似于贪心算法),从而通过潜在的奖励影响当前行动。这个潜在奖励( Value )是从当前状态开始的所有未来动作的奖励期望值的加权和。2020/12/3强化学习第 10-5 课K- 摇臂赌博机探索与利用与一般监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形 : 最大化单步奖赏,即仅考虑一步操作 . 需注意的是,即使在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作 .欲最大化单步奖赏需考虑两个方面 : 一是需知道每个动作带来的奖赏,二是要执行奖赏最大的动作 . 若每个动作对应的奖赏是一个确定值,那么尝试一遍所有的动作便能找出奖赏最大的动作 . 然而,更一般的情形是...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

FAFU机器学习 10-1einforcementearning中文

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部