人们和组织都使用奖励(从零食到工资奖金和飞行常客里程),通过称为强化学习的过程来塑造行为
例如,如果狗收到响应口头命令而翻身的食物,则该行为对口头提示的反应的可能性将增加
在写作神经元,Sendhilnathan和他的同事1描述了可以支持这样的奖励驱动学习神经信号
值得注意的是,作者在哪里发现了这些信号-不是在长期与强化学习有关的大脑区域中,而是在小脑中,这是一种历史上与错误驱动而非奖励驱动的学习相关的大脑结构
小脑以其在运动技能学习中的作用而闻名,这是通过练习使运动变得平稳和准确的过程
五十年的研究2支持这样的想法:当您练习诸如网球反手之类的动作时,小脑会利用有关错误的反馈,通过削弱造成这些错误的神经元联系来逐步完善运动的准确性
人们普遍认为小脑使用类似的纠错学习算法来支持认知3,因为小脑中有助于认知功能(例如导航4和社交行为5)的区域具有与那些小脑相同的基本电路结构
在过去的三年中,然而,一直存在的研究显示在小脑奖励相关的神经元活动乱舞6-12
在大脑的纠错部分中,奖励信号在做什么
Sendhilnathan等
利用猴子的快速学习能力来获得对小脑中与奖赏相关的信号传导的新见解
在每个实验阶段,作者向猴子展示了两个以前在计算机屏幕上从未见过的视觉提示
如果动物举起左手作出反应,则任意分配的提示会导致猴子获得果汁奖励
如果猴子举起右手,另一个提示将产生奖励
研究人员在猴子通过反复试验学习到的过程中,监视了小脑中称为浦肯野细胞的神经元的活动,以对每种视觉提示做出正确的反应(图1)
Sendhilnathan等
发现小脑浦肯野细胞的活动携带有关猴子最近一次完成这项任务的成功或失败的信息
正确响应提示后,一个亚群显示出高活性;另一人在尝试失败后表现出活跃
这些信号在试验结束后几百毫秒出现,并一直持续到下一次试验完成为止
这样,他们似乎提供了一种工作记忆,可以使一项试验的