人们和组织都使用奖励（从零食到工资奖金和飞行常客里程）VIP免费

下载本文档

阅读 192
下载 4
格式 doc
大小 30.5 KB
约2页
2024-11-02 发布于山西
收藏
评论
点赞(0)
海报
举报

1/2页

2/2页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

人们和组织都使用奖励（从零食到工资奖金和飞行常客里程），通过称为强化学习的过程来塑造行为。例如，如果狗收到响应口头命令而翻身的食物，则该行为对口头提示的反应的可能性将增加。在写作神经元，Sendhilnathan和他的同事1描述了可以支持这样的奖励驱动学习神经信号。值得注意的是，作者在哪里发现了这些信号-不是在长期与强化学习有关的大脑区域中，而是在小脑中，这是一种历史上与错误驱动而非奖励驱动的学习相关的大脑结构。小脑以其在运动技能学习中的作用而闻名，这是通过练习使运动变得平稳和准确的过程。五十年的研究2支持这样的想法：当您练习诸如网球反手之类的动作时，小脑会利用有关错误的反馈，通过削弱造成这些错误的神经元联系来逐步完善运动的准确性。人们普遍认为小脑使用类似的纠错学习算法来支持认知3，因为小脑中有助于认知功能（例如导航4和社交行为5）的区域具有与那些小脑相同的基本电路结构。控制运动。在过去的三年中，然而，一直存在的研究显示在小脑奖励相关的神经元活动乱舞6-12。在大脑的纠错部分中，奖励信号在做什么？Sendhilnathan等。利用猴子的快速学习能力来获得对小脑中与奖赏相关的信号传导的新见解。在每个实验阶段，作者向猴子展示了两个以前在计算机屏幕上从未见过的视觉提示。如果动物举起左手作出反应，则任意分配的提示会导致猴子获得果汁奖励。如果猴子举起右手，另一个提示将产生奖励。研究人员在猴子通过反复试验学习到的过程中，监视了小脑中称为浦肯野细胞的神经元的活动，以对每种视觉提示做出正确的反应（图1）。Sendhilnathan等。发现小脑浦肯野细胞的活动携带有关猴子最近一次完成这项任务的成功或失败的信息。正确响应提示后，一个亚群显示出高活性；另一人在尝试失败后表现出活跃。这些信号在试验结束后几百毫秒出现，并一直持续到下一次试验完成为止。这样，他们似乎提供了一种工作记忆，可以使一项试验的结果指导下一个行为选择。这些信号让人联想到大脑大脑皮质的额叶和顶叶区域的神经元所携带的信号，这些信号根据多“”次试验的奖励历史记录了不同行为选择的价值13。在当前的研究中，小脑神经元仅跟踪最新试验的结果。但是在这项任务中，单项试验的结果为猴子提供了足够的信息，可以推断出下一次试验的正确反应-例如，如果猴子对一个视觉提示做出反应时抬起右手没有得到奖励，那么对该提示的正确响应必须是举起左手，而对其他视觉提示的正确响应将是举起右手。有趣的是，如果任务需要小脑神经元是否可以跟踪奖励的更广泛的历史，以及在执行此计算时小脑是否与大脑皮层相互作用。重要的是，只有在学习了一组新的提示-响应关联时，小脑中才会出现有关先前试验结果的信息。随着猴子在试验中提高其性能，编码每个结局的神经元活动逐渐减弱。此外，当猴子通过对几个月训练中掌握的视觉提示做出回应而获得奖励时，就没有信号出现。这些观察结果表明，小脑神经元并不仅仅是携带有关奖励的信息，有关奖励的预测或动物在预期奖励时所做出的运动。相反，小脑似乎在学习如何在新情况下获得奖赏方面特别做出了贡献。作者推测，小脑可能会提高对奖励的学习速度，14。Sendhilnathan及其同事发现的信号与小脑运动控制所涉及的信号之间存在一些有趣的相似之处。首先，与奖励驱动的学习，对于某些运动技能，小脑浦肯野细胞选择性地向新的运动学习，不利于执行旧的运动技能15，16。其次，浦肯野细胞活动所携带的信息可以指导正在进行的行为以及基于运动和奖励的学习过程中的学习诱导17。第三，Purkinje细胞携带的信号可以支持工作记忆，其形式是在一次基于奖励的学习中从一个试验到下一个试验维持的活动形式，以及在提示和运动对动作的反应之间的延迟期间保持的活动形式。果然不出所料，这似乎支持运动计划11，18。最后，在两种类型的学习过程中，单个的Purkinje细胞在数百毫秒的特定时间段内都处于活动状态，随着时间的流逝，信息似乎在各个细胞之间传递19。这些惊人的相似之处增加了小脑为错误驱动的运动学习和奖励驱动的强化学习执行类似功能的可能性。我们从成功和失败中汲取教训。以前，这两种学习方式都归因于不同的大脑结构，...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

人们和组织都使用奖励（从零食到工资奖金和飞行常客里程）

人们和组织都使用奖励（从零食到工资奖金和飞行常客里程），通过称为强化学习的过程来塑造行为

例如，如果狗收到响应口头命令而翻身的食物，则该行为对口头提示的反应的可能性将增加

在写作神经元，Sendhilnathan和他的同事1描述了可以支持这样的奖励驱动学习神经信号

值得注意的是，作者在哪里发现了这些信号-不是在长期与强化学习有关的大脑区域中，而是在小脑中，这是一种历史上与错误驱动而非奖励驱动的学习相关的大脑结构

小脑以其在运动技能学习中的作用而闻名，这是通过练习使运动变得平稳和准确的过程

五十年的研究2支持这样的想法：当您练习诸如网球反手之类的动作时，小脑会利用有关错误的反馈，通过削弱造成这些错误的神经元联系来逐步完善运动的准确性

人们普遍认为小脑使用类似的纠错学习算法来支持认知3，因为小脑中有助于认知功能（例如导航4和社交行为5）的区域具有与那些小脑相同的基本电路结构

在过去的三年中，然而，一直存在的研究显示在小脑奖励相关的神经元活动乱舞6-12

在大脑的纠错部分中，奖励信号在做什么

Sendhilnathan等

利用猴子的快速学习能力来获得对小脑中与奖赏相关的信号传导的新见解

在每个实验阶段，作者向猴子展示了两个以前在计算机屏幕上从未见过的视觉提示

如果动物举起左手作出反应，则任意分配的提示会导致猴子获得果汁奖励

如果猴子举起右手，另一个提示将产生奖励

研究人员在猴子通过反复试验学习到的过程中，监视了小脑中称为浦肯野细胞的神经元的活动，以对每种视觉提示做出正确的反应（图1）

Sendhilnathan等

发现小脑浦肯野细胞的活动携带有关猴子最近一次完成这项任务的成功或失败的信息

正确响应提示后，一个亚群显示出高活性；另一人在尝试失败后表现出活跃

这些信号在试验结束后几百毫秒出现，并一直持续到下一次试验完成为止

这样，他们似乎提供了一种工作记忆，可以使一项试验的

文章天下 + 关注: 实名认证
内容提供者

各种文档应有尽有

收藏店铺进入空间

人们和组织都使用奖励（从零食到工资奖金和飞行常客里程）VIP免费

人们和组织都使用奖励（从零食到工资奖金和飞行常客里程）

您可能关注的文档

相关文档

热门下载

相关标签