基于值函数的强化学习方法及应用研究分析数学与应用数学专业VIP免费

下载本文档

阅读 129
下载 24
格式 docx
大小 1.36 MB
约36页
2024-09-06 发布于山西
收藏
评论
点赞(0)
海报
举报

1/36页

2/36页

3/36页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/36

文本预览下载提示常见问题

目录第一章绪论························································································11.1研究背景及意义·····································································11.2研究现状················································································21.3论文的主要工作及组织结构····················································3第二章背景知识介绍············································································52.1马尔科夫决策过程····································································52.2基于模型的动态规划方法··························································62.3基于蒙特卡罗方法的理论·························································62.4基于时间差分的强化学习方法··················································72.4.1SARSA学习··········································································82.4.2Q-learning方法·······································································9第三章Q-learning及其改进算法研究····················································103.1Q-learning算法········································································103.1.1Q-learning简介······································································103.1.2Q-learning算法收敛性讨论···················································123.1.3Q-learning算法分析······························································143.1.4单一估计器造成高估的证明·················································163.2DoubleQ-learning方法···························································163.2.1DoubleQ-learning的提出·····················································163.2.2算法分析················································································173.3WeightedQ-learning·································································193.3.1简介·······························································...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

基于值函数的强化学习方法及应用研究分析数学与应用数学专业

您可能关注的文档

文章天下 + 关注: 实名认证
内容提供者

各种文档应有尽有

收藏店铺进入空间

基于值函数的强化学习方法及应用研究分析数学与应用数学专业VIP免费

基于值函数的强化学习方法及应用研究分析数学与应用数学专业

您可能关注的文档

相关文档

热门下载

相关标签

基于值函数的强化学习方法及应用研究分析 数学与应用数学专业VIP免费

基于值函数的强化学习方法及应用研究分析 数学与应用数学专业

您可能关注的文档

相关文档

热门下载

相关标签

基于值函数的强化学习方法及应用研究分析数学与应用数学专业VIP免费

基于值函数的强化学习方法及应用研究分析数学与应用数学专业