A unified framework for dopamine signals across timescales

HyungGoo R. Kim; Athar N. Malik; John G. Mikhael; Pol Bech; Iku Tsutsui-Kimura; Fangmiao Sun; Yajun Zhang; Yulong Li; Mitsuko Watabe-Uchida; Samuel J. Gershman; Naoshige Uchida

doi:10.1016/j.cell.2020.11.013

单元格。作者手稿；PMC 2021年12月10日提供。

以最终编辑形式发布为：

单元格。2020年12月10日；183（6）：1600–1616.e25。

2020年11月27日在线发布。数字对象标识：2016年10月10日/j.cell.2020.11.013

预防性维修识别码：PMC7736562号

NIHMSID公司：美国国家卫生研究院1646306

PMID：33248024

跨时间尺度的多巴胺信号统一框架

HyungGoo R.Kim先生,^1,^7,^8,⁹ 阿塔尔·马利克,^1,^2,⁷ 约翰·米哈尔,^三，⁴ 波尔·贝奇,¹ 池津木村,¹ 孙方苗,⁶ 张亚军,⁶ 李玉龙,⁶ Mitsuko Watabe-Uchida公司,¹ 塞缪尔·杰什曼,⁵和内田直志^1,⁸

HyungGoo R.Kim先生

¹美国马萨诸塞州剑桥市神性大道16号哈佛大学分子和细胞生物学系脑科学中心，邮编02138。

⁷这些作者贡献均等。

⁹导线触点

查找文章依据HyungGoo R.Kim先生

阿塔尔·马利克

¹美国马萨诸塞州剑桥市神性大道16号哈佛大学分子和细胞生物学系脑科学中心，邮编02138。

²美国马萨诸塞州波士顿水果街55号马萨诸塞州总医院神经外科02114。

⁷这些作者贡献均等。

查找文章依据阿塔尔·马利克

约翰·米哈尔

^三美国马萨诸塞州波士顿龙伍德大道220号哈佛医学院神经科学项目，邮编02115。

⁴哈佛医学院医学博士项目，地址：260 Longwood Avenue，Boston，MA 02115，U.S.A。

查找文章依据约翰·米哈尔

波尔·贝奇

¹美国马萨诸塞州剑桥市神性大道16号哈佛大学分子和细胞生物学系脑科学中心，邮编02138。

查找文章依据波尔·贝奇

池津木村

¹美国马萨诸塞州剑桥市神性大道16号哈佛大学分子和细胞生物学系脑科学中心，邮编02138。

查找文章依据池津木村

孙方苗

⁶北京大学生命科学学院膜生物学国家重点实验室，北京100871。；北京清华生命科学中心，北京100871。；北京大学国际发展集团/麦戈文脑研究所，北京100871，中国。

查找文章依据孙方苗

张亚军

⁶北京大学生命科学学院膜生物学国家重点实验室，北京100871。；北京清华生命科学中心，北京100871。；北京大学国际发展集团/麦戈文脑研究所，北京100871，中国。

查找文章依据张亚军

李玉龙

⁶北京大学生命科学学院膜生物学国家重点实验室，北京100871。；北京清华生命科学中心，北京100871。；北京大学国际发展集团/麦戈文脑研究所，北京100871，中国。

查找文章依据李玉龙

Mitsuko Watabe-Uchida公司

¹美国马萨诸塞州剑桥市神性大道16号哈佛大学分子和细胞生物学系脑科学中心，邮编02138。

查找文章依据Mitsuko Watabe-Uchida公司

塞缪尔·杰什曼

⁵美国马萨诸塞州剑桥牛津街52号哈佛大学脑科学中心心理学系，邮编02138。

查找文章依据塞缪尔·杰什曼

内田直志

¹美国马萨诸塞州剑桥市神性大道16号哈佛大学分子和细胞生物学系脑科学中心，邮编02138。

查找文章依据内田直志

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1:图S1。值函数与TD RPE信号之间的关系，与 图1. (A类)TD RPE方程(δ)在奖励地点之前(x₀= 100). ${\hat{V（V）}}_{x}$ ，状态估计值x.年，贴现系数（0<γ≤ 1). (B类)TD RPE可以上升或下降的条件。（顶部）价值函数。（底部）TD RPE。图中显示了五种不同形式的值函数以及根据（A）中的等式得出的TD RPE。以绿色绘制的值函数满足评估域上的渐变条件，而以红色绘制的值功能则不满足。注意，当价值被贴现因子贴现时γ，TD RPE为零（深棕色）。相反，当该值变为足够凸由于单独的空间折扣因素τ(τ<γ)TD TPE可以加速（浅绿色）。我们在这里设置γ=0.99，以及τ= 0.98. 请参见方法,理论背景. (C类)速度和TD RPE之间的关系。当更快地遍历状态时，值函数的凸性将随着时间的变化而增强。因此，TD RPE在更快的条件下表现出更大的斜坡。黑色虚线表示快速、中等和慢速条件下的试验结束。这里，我们设置γ=0.99，轨道长度为20，速度为2、1和0.5，分别适用于快速（黄色）、中等（黑色）和慢速（红色）条件。
值为二次型，峰值标准化为一，即。， $\hat{V（V）} (x) = {(\frac{x}{20})}^{2}$
NIHMS1646306补充-1.pdf（232K）
GUID:EC63E94F-4D11-44A5-BE37-224421A68E2D
2:图S2。荧光测量信号处理和示例培训课程，与 图1. (A类)连接到光电二极管（蓝色）的电流放大器的原始电压输出。慢漂移（红色）由使用2分钟移动窗口的最低10%的信号定义。漂移修正信号(B类)通过从原始信号（A，蓝色）中减去缓慢漂移基线（A，红色）来定义。(C类)从漂移校正信号中减去会话范围的平均值，然后将结果除以会话范围的标准偏差，以计算z评分荧光信号。(天)从多巴胺神经元中表达GFP的对照动物收集的原始信号。来自与（A）相同放大器增益的信号非常平滑，没有波动，这证实了在我们的头部固定设置中，运动伪影可以忽略不计。(E类)培训第1天收集的数据。（顶部）光栅图，显示按场景移动开始对齐的舔事件。使用0.2秒的时间窗口对试验中的舔舔事件进行平均。（中间）瞬时速度采用彩色编码，并对试验进行平均。（下图）Z评分多巴胺轴突信号是彩色编码的，并在整个试验中取平均值。(F类,G公司,H（H）). 分别在第2天、第3天和第4天（该动物训练的最后一天）收集的数据。格式化为(E类). (我)训练课程最后一天任务期间的平均跑步速度总结（n=16只小鼠）。(J型)z-评分GCaMP信号的时间进程，来自表现出慢速或不跑步的动物（左侧，n=5只小鼠；跑步速度<=5cm/s）和表现出快速跑步的动物的时间进程（右侧，n=11只小鼠；奔跑速度>5cm/s的）。中间带斜坡R（右）两组间s无显著差异（p=0.27，n=5和11，Wilcoxon秩和检验）。
NIHMS1646306补充-2.pdf（610万）
GUID:6155D6D5-D38F-46B4-B6A9-FF02DC240288
三：图S3。钙记录时段和人群平均值示例 实验1,2,三、和4,与相关 图2. (A类)的示例会话实验1（传送和暂停实验）。（顶部）每个条件下的事件时间进程（黑色S：标准；红色L：长传送；橙色S：短传送；黄色P：暂停）in实验1（中）示例会话中的Z评分多巴胺轴突信号。试验按条件排序；远程传送（L，红色）、短距离传送（S，橙色）、暂停（P，黄色）和标准状态（S，黑色）。（底部）每个条件下的试验平均反应。(B类)动物平均舔（顶行）、运动速度（中行）和多巴胺轴突信号（底行）的时间进程(n个=11只小鼠）。传送响应由场景移动开始（左栏）或奖励开始（中栏）对齐。注意，当反应与奖励开始一致时，预期舔和运动减慢重叠，这表明动物的食欲行为是基于它们在虚拟空间中的位置，而不仅仅是基于经过的时间。（右栏）暂停条件下的响应与场景移动开始对齐。(C类)的示例会话实验2（三电信实验）。在距离起始位置较短（红色）、中间（橙色）或较长（黄色）的距离处，通过传送对试验进行排序。黑色表示标准状态。(天)平均舔、运动速度和多巴胺轴突信号（n=11只小鼠）。标记了远程端口（实线）和供水（虚线）。(E类)的示例会话实验3（速度操纵实验）。试验按场景移动速度排序（×0.5：红色，×1：黑色，×2：黄色）。(F类)种群-舔、运动速度和多巴胺轴突信号的平均值（n=15只小鼠）。(G公司)的示例会话实验4。试验按速度剖面排序。(H（H）)平均舔、运动速度和多巴胺活性（n=5只小鼠）。(我)每种情况下的速度时间进程。
NIHMS1646306补充-3.pdf（790万）
GUID:BE646B93-7139-43D6-B01C-02C662918B49
4:图S4。剩余响应和控制条件数据的量化，与 图3和和4。4. (A–D)使用以下示例计算价值模型剩余响应的分步程序实验2（T2和T3试验）。(A类)在标准条件（黑色）下的平均响应用于预测实验条件下的值信号，假设值是位置的函数(x). (B类)传送的开始和结束位置被转换为标准条件下的时间点（黑线）。通过拼接获得预测值信号(C类)传送定时之前和之后的段（分别在b中的a和b）。然后将预测值信号与观测信号进行比较。(天)残差是作为观测值信号和预测值信号之间的差值而获得的。(E类)无反应控制会话的结果。在开始标准任务的训练之前，一组动物进行了实验1–三如所示图2但在目标位置没有奖励（参见方法). （左）每种情况下的峰值（p=1.00，n=4只小鼠，Kruskal-Wallis试验）。（中间）每种条件下的标准化峰值（p=0.33，n=8只小鼠，Kruskal-Wallis试验）实验2（三个传送实验，对应于图3G). （右）在[-1 s 0 s]时相对于奖励开始的平均反应（p=0.65，n=8只小鼠，Kruskal-Wallis试验）实验3（速度操纵实验）。(F、 G公司)GFP对照动物的结果。GFP对照动物评估荧光信号中的运动伪影（参见方法). (F类)中的结果摘要实验1–三在线性追踪任务中（n=5只小鼠）。(G公司)中的结果摘要实验1–三在移动栏任务中(n个＝4只小鼠）。(H（H）)中的值、RPE（左）和混合模型（右）之间的AIC比较实验4（动态速度）。(我)轨道之间的远程传送实验。在标准条件下，动物完成了轨道1（黑色）或轨道2（灰色）的试验。在轨道间传送条件下，动物从轨道1传送到轨道2（青色），或从轨道2传送到轨道1（绿色）（n=6只小鼠）。(J型)动物要么在轨道1中向前传送（红色），要么传送到轨道2（青色）（n=6只小鼠）。(K（K）)动物在第1轨道（黑色）和第2轨道（灰色）分别获得小（2μL）和大（12μL）奖励（n=4只小鼠）。(我)在正向（红色）和反向（黄色）传送实验中的平均舔舔、运动速度和多巴胺反应（n=6只小鼠）。(M（M）)第一天推出第二轨的平均点击率实验5a（一） ●●●●。在奖励前的预期舔舐在两个轨迹之间有显著差异（P=0.031，n=6只小鼠，Wilcoxon符号秩检验），表明aniamls可以在感知上区分这两个轨迹。
NIHMS1646306增补-4.pdf（470万）
GUID:6BFD8B32-76E3-4A33-9B91-2E430BDEC2A6
5:图S5。多巴胺神经元的异慷慨跃迁编码RPE的峰值，与 图5. (A类)多巴胺神经元光遗传学鉴定过程中收集的原始电压信号。该神经元对激光脉冲（青色，20Hz，持续5ms）作出可靠响应。(B–D类)光学基因标记多巴胺神经元的特征（n=131个神经元，包括20个仅包含在图5D). (B类)（顶部）激光诱发和自发棘波之间的皮尔逊相关系数直方图。（底部）激光诱发棘波（青色）和自发棘波（黑色）之间单个神经元的棘波波形比较。(C类)激光诱发棘波的潜伏期。（顶部）神经元平均潜伏期直方图。三角形表示中间值（3.77 ms）。（底部）神经元潜伏期的标准偏差直方图。三角形表示中间值（1.06 ms）。(天)（顶部）。所有识别的神经元都被激光脉冲显著调制（p<0.05，SALT测试）(Kvitsiani等人，2013年). （底部）每个激光频率出现峰值的概率。(E类)反应（相对于基线的auROC）按斜坡斜率排序（n=78个神经元）。(F类)在不同的实验阶段，斜坡坡度保持不变（蓝色，r=0.77，p=3.5×10⁻¹⁷,实验1; 红色，r=0.76，p=1.8×10⁻¹⁶,实验3，Spearman相关性）。每天，只包含标准条件（标准会话）的会话之后都会有实验1和实验3.减去每只动物的斜率平均值，以分析出内侧效应(图5D). (G公司)狂犬病注射实验说明。在VTA中注射AAV-flex-TVA-mCherry，在VS中注射Rabies-GCaMP和BFP，靶向伏隔核核心（参见方法). (H（H）)显示BFP局部表达的代表性图像，指示伏隔核周围的注射部位。(我)在VTA中表达mCherry（红色）和GCaMP6f（绿色）。(J型)在早期（黑色）和晚期（绿色）训练中（n=3只小鼠），舔食（顶部）和VTA（底部）多巴胺钙活性的平均时间进程。(K–M公司)正极放电尖峰活性(K（K）,图5G)，负斜坡(我,图5H)、和无采样(M（M）,图5I)神经元实验3. (N个)神经元的反应图5J. (O（运行）)在单神经元水平上，神经元的放电频率随着场景的速度而增加（p=5.5×10⁻⁷和8.3×10⁻⁵，n=83个神经元，Wilcoxon符号秩检验分别用于慢速与标准速度和快速与标准速度）。(P（P）)用于模型拟合分析的尖峰滤波器（黑色）和GCaMP滤波器（绿色）。这些过滤器是由对奖励的未治愈反应的平均反应定义的（参见方法). 脉冲响应滤波器用于根据峰值（蓝色）计算预测的GCaMP（Chen等人，2013）。(问)使用带有单调递增约束（R）的多项式基进行拟合（浅绿色）的数据和预测示例²= 0.47). (R（右）)使用（Q）（蓝色）中的最佳参数重建值函数的形状。根据重建值函数、最佳时间贴现因子γ和标准条件下的移动速度计算TD信号（红色）。
NIHMS1646306增补-5.pdf（1500万）
GUID:36F7D89C-2979-4881-8FD4-AEDADF0D67D0
6:图S6。VTA中的多巴胺细胞体活性编码RPE，与 图5和和6。6. (A类)VTA中单单元录音的四重奏位置(图5). (B类)VTA中细胞体钙记录的纤维尖端位置。绿色，AAV-GCaMP注射液（n=6只小鼠）。蓝色，狂犬病-GCaMP注射液（n=3只小鼠）。(C类)VS中多巴胺浓度记录的纤维尖端位置(天)腹侧纹状体钙记录的纤维尖端位置。蓝色，位置实验4和第5页（n=5只小鼠，图2M–P（P）;图4H–J型). 红色，位置实验5a,5亿、和6（n=6只小鼠，图4A–G公司). 绿色，位置实验1,三操作意外事件中的8a和8b（n=8只小鼠，图7E–G公司;图S7C–G公司). (E类–G公司)VTA（底部）中的平均舔舐（顶部）、移动速度（中部）和荧光（光度）信号实验1(E类，n=6只小鼠），实验2(F类，n=6只小鼠），以及实验3(G公司，n=5只小鼠）。垂直线表示传送或暂停事件。虚线表示奖赏。格式与相同图2C,、G、，G公司,、K、，K（K）分别是。(H–J)中的结果实验1(H（H）n=5只小鼠），实验2(我，n=5只小鼠），以及实验3(J型，n=6只老鼠）使用移动条任务。格式与相同图7I,，J，J型,、K、，K（K）分别是。
NIHMS1646306增补-6.pdf（5.9米）
GUID:7FB14F1A-FEED-4E35-9805-C4638911E874
7:图S7。操作偶然性和感官证据对多巴胺活性的影响，与 图7. (A–B)延迟奖励任务和虚拟线性跟踪任务的行为数据。(A类)带有气味提示的延迟奖励任务中的平均舔舔次数（顶部）和跑步速度（底部）。(B类)标准虚拟直线轨道任务中的舔舐（顶部）和运行速度（底部）。(C–J型)具有操作性偶然事件的虚拟线性跟踪任务的结果。(C类)在标准条件下（n=8只小鼠）训练的最后一天，舔食（顶部）、运动（底部）和多巴胺能轴突钙信号（底部）。斜坡R（右）小于被动任务，但显著大于零（p=0.02，n=8只小鼠，Wilcoxon符号秩检验比较中位数与零；p=0.48，n=8,16只小鼠分别用于操作和被动任务，Wilcox秩和检验）。箭头表示视觉场景的中位数。(天)平均舔、运动速度和轴突钙信号实验1（n＝7只小鼠）。箭头表示视觉场景的中位数。(E类)平均舔、移动速度和荧光信号实验3（n＝7只小鼠）。(F类)在实验8a，在减少感官证据条件下（橙色），通过在墙上使用统一图案消除位置线索(图7E). (G公司)在实验8b在测试中，一个纯色的场景被用来不产生光流（橙色）。(H（H）)量化结果实验1（左）长距离传输的峰值响应显著大于标准条件下的峰值（p=0.02，n=7只小鼠，Wilcoxon符号秩检验）（右）多巴胺活性，与长距离传输（红色）、短距离传输（橙色）或暂停（黄色）事件一致。标准条件下的反应与动物通过传送目的地的时间一致（上午70点）。(我)量化结果实验3视觉速度增益显著调节了奖励前的反应（p=0.009，df=2，n=7只小鼠，F=7.05，单向重复测量方差分析）。操作型任务（1.7）的增益乘数小于被动型任务（2.0），以避免动物在缓慢状态下多次试验失败。(J型)量化结果实验8在图案化（左）和纯色（右）条件下，接近期间的舔舐率显著大于基线。图顶部的填充点表示显著的成对差异，n=6只小鼠，Wilcoxon符号秩检验）。(K–O型)动杆实验。(K（K）)示例会话中VS中的多巴胺能轴突钙信号。(我)个体动物的舔舔速度（顶部）、运动速度（中部）和多巴胺能轴突信号的时间进程（灰色）以及动物间的平均值（黑色，n=12只小鼠）。灰色水平条表示用于计算渐变的时间窗口R（右）. (M–O型)移动条任务中的统计分析。(M（M）)（顶部）归一化峰值响应实验1(图7I). 远距离传送的峰值中位数显著大于1（p=0.039，n=9只小鼠，Wilcoxon符号秩检验）。（底部）试验总结R（右）中位数检验R（右）（黑色三角形）显著小于零（中位数r=−0.50，p=0.0078，Wilcoxon符号秩检验）。(N个)（顶部）归一化峰值实验2(图7J). （底部）试验总结R（右）中位数检验R（右）（开放三角形）与零无差异（p=0.43，n=10只小鼠，Wilcoxon符号秩检验）。(O（运行）)（顶部）结果实验3(图7D). 从棒运动开始到奖赏开始的多巴胺能轴突平均信号。反应有显著差异（n=11只小鼠，p<10⁻⁴Kruskal-Wallis试验）。（底部）所有测试R（右）s明显大于零，中值R（右）显著大于零（中位数r=0.38，p=0.0010，Wilcoxon符号秩检验）。
NIHMS1646306补充-7.pdf（600万）
GUID:238E494C-107C-4593-B94F-F4A60A21EDA8
8:补充视频1。目标条件标准方法中的视觉刺激，与图1.
美国国立卫生研究院1646306增补-8.mp4（540万）
GUID:0CFDD1B8-34D2-4A24-BACE-94BA0525C75E
9:补充视频2。视觉刺激实验1（远程传送、短距离传送和暂停条件），与图2.
美国国立卫生研究院1646306增补件-9.mp4（530万）
GUID:23227DEF-2BC3-4376-A89B-32D56A0C650E
10:补充视频3。视觉刺激实验3（低速和高速条件），与图2.
NIHMS1646306增补-10.mp4（380万）
GUID:A5BCA9E3-7AD2-4B91-AA37-4A8482FE1ED3
11:补充视频4。视觉刺激实验5a（轨道2中的标准条件，从轨道1传送到轨道2，从轨道2传送到轨道1），相关图4.
NIHMS1646306增补-11.mp4（690万）
GUID:D5FDF4A7-AC38-466E-AD45-D0E12120235F
12:补充视频5。标准条件下的移动杆刺激，与图7.
NIHMS1646306增补-12.mp4（330万）
GUID:D11A43D0-C03C-4BD3-9CDA-53D1D09A68E0

数据可用性声明: 数据和分析代码将以某种形式提供，用于复制或扩展分析。数据可视化的MATLAB代码可以在https://github.com/hkim09/libkm.

总结

中脑多巴胺神经元的快速相位活动被认为是奖励预测错误（RPE）的信号，类似于机器学习中使用的时间差错误。然而，最近描述缓慢增加的多巴胺信号的研究却提出，它们代表状态值，并独立于躯体刺激活动。在这里，我们使用虚拟现实开发了实验范式，将RPE与价值区分开来。我们检测了不同阶段的多巴胺回路活动，包括体细胞尖峰反应、体细胞和轴突的钙信号以及纹状体多巴胺浓度。我们的结果表明，多巴胺信号的激增与RPE相一致，而不是与值相一致，这种激增在检查的所有阶段都可以观察到。多巴胺信号的激增可以由一种动态刺激驱动，这种刺激表明一种渐进的奖励方式。我们对快速相位和缓慢斜坡的多巴胺信号提供了统一的计算理解：多巴胺神经元在逐时刻的基础上对值进行类似导数的计算。

图形摘要

保存图片、插图等的外部文件。对象名称为nihms-1646306-f0008.jpg

ETOC公司：

对经历虚拟现实远程传送和速度操纵的小鼠的多巴胺回路活动和纹状体多巴胺浓度的检查表明，快速相位和缓慢斜坡多巴胺信号都是逐时刻计算值的变化。

引言

多巴胺在控制学习、动机和运动方面起着重要作用。了解多巴胺传递的信息对于确定多巴胺如何调节各种功能至关重要。一个有影响力的观点是，中脑多巴胺神经元的相位活动代表了强化学习算法中使用的时间差异奖励预测错误（TD-RPE）(Schultz等人，1997年;Niv，2009年;Eshel等人，2015年;Starkweather等人，2017年). 在许多动物物种和不同任务条件下观察到符合TD RPE的反应模式(拜耳和格利姆彻，2005年;克拉克等人，2012年;Watabe Uchida等人，2017)RPE假说极大地影响了我们对多巴胺功能的理解。然而，许多这些实验使用了相对简单的行为范式，使用离散的刺激和结果。同样的原则是否适用于更复杂的情况仍有待检验。

几项使用能够在环境中活动的动物进行的研究表明，纹状体中多巴胺的浓度在几秒钟的时间尺度内升高(菲利普斯等人，2003年;Roitman等人，2004年;Howe等人，2013年;Hamid等人，2016;伯克，2018;莫赫比等人，2019年;Engelhard等人，2019). 一些作者认为，这些缓慢的多巴胺波动不能用TD RPE来解释，他们还提出，它们代表随着动物接近奖励位置而增加的状态值（状态值或动机值）(伯克，2018;Hamid等人，2016;Howe等人，2013年). 此外，最近的一项研究(莫赫比等人，2019年)结论是，腹侧被盖区（VTA）多巴胺神经元的尖峰活动中没有这些激增活动，激增的多巴胺信号来自纹状体多巴胺轴突的局部调制。然而，还需要做更多的工作来确定（1）产生多巴胺信号激增的机制是什么，以及（2）是什么行为条件导致多巴胺信号的激增。

理论上，价值与RPE是分开的。TD零售物价指数(δ_吨)由定义

δ_{吨} = {第页}_{吨} + γ \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨})

哪里第页_吨是动物收到的奖励吨,S公司_吨是动物当时所处的状态吨,γ是贴现系数（0<γ<1），以及 $\hat{V（V）} ({S公司}_{吨})$ 是状态的值S公司_吨（即状态值）定义为所有未来奖励的总和，其中未来奖励按系数指数折扣γ(方法). TD RPE包含近似为连续时间点处的值之间的差的项，吨和 $吨 + 1 (即, γ \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨})$ ，其中γ接近1）。因此，在没有即时奖励的情况下，TD RPE约为导数价值的。因此，多巴胺代表价值的观点与多巴胺代表TD RPE的观点不一致。

然而，在许多情况下，很难区分RPE和价值。无论多巴胺是否代表RPE或值，都可能发生多巴胺升高(格什曼，2014;劳埃德和大雁，2015;盛田加藤，2014). 一项理论研究表明形状价值函数的重要性：如果价值函数足够凸面的接近奖励的功能，TD RPE可以表现出正斜坡(格什曼，2014) (方法,图S1). 因此，仅仅存在多巴胺斜坡并不能区分这两种可能性。

在这里，我们试图发展实验范式，以经验将RPE与价值分离。为了实现这一目标，我们专注于RPE的核心属性，即RPE近似于价值的导数。我们使用视觉虚拟现实的实验使我们能够将这两种可能性区分开来。结果表明，多巴胺信号的增强与TD RPE一致，但与数值不一致。

结果

使用虚拟现实将RPE与价值分离

想象一下，一只老鼠沿着直线轨迹移动以获得奖励(图1A). 人们可以假设，当动物接近奖励时，其所在位置的价值单调增加。现在想象一下，动物在移动时突然传送的靠近球门的位置(图1B). 如果多巴胺代表价值，那么它在传送时应呈现阶梯式增加，然后继续逐渐增加，达到目标时的最大水平(图1C，左）。相反，如果多巴胺代表RPE，它在传送时应该表现出相位兴奋，反映出值的瞬时增加(图1C，右侧）。接下来想象一下鼠标的速度被控制了(图1D). 如果多巴胺代表RPE，则速度会调节斜坡的幅度，速度越快幅度越大(图1E，右侧）。相反，无论速度如何，奖励前的价值都会达到相同的水平(图1E，左）。重要的是，这项实验直接测试了斜坡本身的性质——斜坡是否与RPE或值一致。这些实验的主要目的是区分多巴胺信号是否与依赖于位置或该函数导数的单调递增函数一致。前者支持价值假设，而后者支持RPE假设。

保存图片、插图等的外部文件。对象名为nihms-1646306-f0001.jpg

在单独的窗口中打开

图1。

使用虚拟现实分离价值和RPE的实验。

(A类)虚拟线性轨迹。(B类)状态值作为位置的函数。红色箭头，传送。(C类)预测状态值（左）和TD RPE（右）如何通过远程传输进行调制（红色曲线）。(天)速度操纵。(E类)预测。(F类)起始位置的示例场景。(G公司)（顶部）舔食率的时间进程（灰色）和动物间的平均值（黑色）（n=16只小鼠）。（底部）运动速度（灰色）和平均值（黑色）。绿色、红色和蓝色水平条表示图1H中用于分析的时间窗口。(H（H）)（上图）冲动舔（绿色）、预期舔（红色）和奖励后舔（蓝色）的频率与训练天数的关系*p<0.05（n=16只小鼠）。训练日内，预期舔次数增加，冲动舔次数减少，奖励后舔次数没有变化（r=0.39，−0.36，0.04；p=2.7×10⁻⁷, 3.9 × 10⁻⁶，分别为0.64，Spearman相关）。（底部）运动速度。(我)纤维荧光测定法（光度法）实验。(J型)记录实验动物（绿色）和GFP对照动物（红色）的位置（分别为16只和6只小鼠）。(K（K）)平均轴突钙信号（n=16只小鼠）。灰色水平条描绘了一个用于计算皮尔逊相关性的时间窗口（斜坡R（右）). (我)斜坡R（右）s.*p<0.05。(M、 N个)信号(M（M）)和斜坡R（右）秒(N个)来自GFP动物（p>0.05，Wilcoxon每日签名秩检验，n=6只小鼠）。另请参见图S2.

我们在头戴眼镜的老鼠身上使用了虚拟现实(Dombeck等人，2007年)进行远程传送和速度操作。在第一组实验中，视觉场景(图1F)以恒定的速度移动，小鼠在目标位置接受一滴水（5μl）(视频S1). 几天来，老鼠在球门附近产生了预期的舔食(图1G，top，n=16只小鼠，p=0.00043，Wilcoxon符号秩检验）。尽管场景一直在移动，而不考虑运动（即“被动”状态），但超过一半的动物发展了奔跑行为(图1G，底部）。

我们首先监测了多巴胺能轴突投射到腹侧纹状体（VS，或伏隔核核心）的钙信号(Babayan等人，2018年;Menegas等人，2017年,2018)使用光纤荧光法（光度法）(图1I,，J）。J型). 训练后，轴突钙信号在3-4秒的时间范围内逐渐增强(图1K,、L、，我,图S2E–H（H）). 我们根据相关系数量化了斜坡（“斜坡R（右）“）钙信号与时间之间的关系（n=16只小鼠，r=0.18±0.04；使用平均钙示踪的皮尔逊相关系数为0.45，95%置信区间（CI）=[0.43，0.48]，p<10⁻²⁰). 在整个实验过程中，预期舔食和奔跑速度均与爬坡信号无关（16只小鼠的预期舔食和奔跑速度分别为p=0.37和0.13，ANCOVA，n=93次实验）。我们没有观察到慢速和快速奔跑动物之间的坡度有显著差异(图S2J).

这些多巴胺信号的激增不太可能与舔或运动伪影相关。首先，表达对钙不敏感的绿色荧光蛋白（GFP）的小鼠没有表现出斜坡(图1M,，N）。N个). 其次，在不同的任务中，我们没有使用类似的技术观察到斜坡信号(Babayan等人，2018年;Menegas等人，2017年,2018)，尽管预期舔是相似的（也可以参见下面的延迟奖励任务）。除斜坡外，我们还观察到场景运动开始时的阶段性反应和奖赏前的轻微下降(方法).

多巴胺信号增强与RPE一致

然后我们进行了4个实验，以确定多巴胺信号是否代表RPE或值。在实验1除了标准条件外，我们还随机交错了三个测试条件，其中包括长传送、短传送或5秒暂停(图2A;视频S2). 如果多巴胺代表价值，那么多巴胺信号会在长距离和短距离传送后呈阶梯状增加，并在奖励前达到最大值(图2B，左）。如果多巴胺代表RPE，多巴胺信号将显示相态兴奋，其强度随传送的长度而变化(图2B，右侧）。当场景移动暂停时，取决于奖励距离的值将保持不变，而RPE将降至基线，因为时间上的值没有变化。对于“值”在暂停条件下的表现，存在一些模糊性：例如，如果动物判断任务在暂停时中止，则该值也可能会降低回基线。我们从整体上使用这些结果来判断哪一个假设能够简约地解释整个数据。

保存图片、插图等的外部文件。对象名称为nihms-1646306-f0002.jpg

在单独的窗口中打开

图2。

VS的多巴胺轴突活动与RPE一致。

(A类)实验1值函数中描述了长传送、短传送和暂停。(B类)预测。T、传送。P、暂停。(C类)通过传送或暂停校准的平均钙信号（n=11只小鼠）。格式如（B）所示。标准条件（黑色）的轨迹与奖励开始对齐。(天)标准化峰值反应（左）和状态值预测残差（右）的比较（n=11只小鼠；图S4A–天). 带实心圆圈的水平条表示显著差异。(E类)实验2.在三个位置（T1、T2、T3）进行传送。(F类)预测。(G公司)平均钙信号（n=11只小鼠）。四只场景速度略快于其他动物的老鼠被排除在时间进程图中，但被纳入其他分析（参见方法). (H（H）)（左）标准化峰值随着接近奖励而增加（中位数测试R=0.45，p=6.1×10⁻⁵，n=15只小鼠）。（右）状态值预测的残差（中位数测试R=0.20；p=0.0031，n=15只小鼠）。(我)实验3. (J型)预测。(K（K）)平均钙信号（n=15只小鼠）。(我)（左）与奖励相比，在[-1 s 0 s]时的平均奖励前反应。（右）回归系数的比较。回归系数的中位数仅为场景移动速度的正值（p=6.1×10⁻⁵分别为0.64和0.45，n=15只小鼠）。(M（M）)实验4. (N个)预测。(O（运行）)平均钙信号（n=5只小鼠）。(P（P）)奖励前钙信号的比较。

在远程传送试验中，预期的舔食和运动速度的变化反映了远程传送的目的地(图S3B)这证实了小鼠使用视觉线索预测奖励，而不仅仅依赖于经过的时间。一次长距离传输诱发了一次大的钙瞬变，其峰值大于标准条件下的斜坡峰值(图2C,、D、，天，左侧，峰值之间的比率：2.25±0.31，p=0.0010，n=11只小鼠；图S3A). 短传动诱发的相态兴奋小于长传动，但仍大于标准条件下斜坡的峰值，从而违反了价值假设(图2C,、D、，天左，比率：1.35±0.14，p=0.024，n=11只小鼠）。在暂停试验中，钙信号降低到基线水平，然后在场景运动恢复时出现阶段性兴奋(图2C,、D、，天，左），与RPE一致。

为了量化这些结果，我们根据价值假设生成了预测响应(图S4A–天; 看见方法). 如果多巴胺代表价值，那么与这些预测的偏差应该很小且没有系统性。在大多数动物中（11只中有9只），观察到的信号的偏差遵循支持RPE假设的系统模式(图2D右中位数测试R（右）r=-0.64，n=11只小鼠，p=0.002；看见方法“测试”的定义R（右）’).

由于价值是不可观察的，因此通常很难评估价值函数的形状。在实验2，我们试图推断价值函数的形状(图2E–H（H）;图S3C,天). 在测试中，小鼠从三个位置中的一个位置以相同的距离向前传送(图2E). 如果基础值函数为凸形，则在距离目标较近的位置进行远程传输时，响应的幅度应较大。事实上，相态钙信号遵循这种模式(图2H)，与凸值函数一致。

为了测试斜坡本身是否代表RPE，我们在测试中将场景移动为快速（×2速度）或慢速（×0.5速度）(实验3,图2I–我;图S3E,F类;视频S3). 观察到的钙信号与RPE预测一致(图2K,、L、，我，左侧，p=6.1×10⁻⁵和6.1×10⁻⁴，n=15只小鼠）。回归分析表明，斜坡的大小可以通过场景的速度来预测，但不能通过移动速度来预测(图2L，右侧）。GFP对照小鼠未表现出系统性调节(图S4F).

然而，我们注意到，在快速场景移动开始后不久，信号突然增加。这可能是因为场景移动的速度成为了早期奖励的预测线索。虽然这仍然与RPE一致，但我们设计了一个额外的实验，将这种潜在的混淆最小化(实验4;图2M–P（P）;图S3G–我). 场景移动的速度随时间动态调整(图S3I). 这使我们能够改变速度，而不改变条件之间的奖励时间。我们发现，奖励前多巴胺的反应随着瞬时速度的改变而改变(图2O). 紧邻球门前的钙信号变化很大(图2P，p=0.002，df=2，n=5只小鼠，F=14.3，单向重复测量ANOVA），违反了数值计算，它预测无论速度如何，多巴胺信号都应在目标处达到相同水平。

接下来，我们使用模型拟合分析来测试RPE或值是否可以更好地解释数据。状态值首先定义为空间的函数(图3A). 基于此值函数，我们预测了每种情况下的钙信号。然后，我们得到了一组参数，使剩余平方和最小化(图3A,，B）。B类). 使用Akaike信息准则（AIC）量化鱼鳞的质量，以惩罚模型中参数的数量。我们首先使用了一个价值函数，其价值按固定利率贴现(τ)作为到目标距离的函数（指数值函数；值函数对特定形状的要求稍后将放宽）。在所有实验条件下，RPE模型对数据的解释远远好于价值模型(图3D，所有四个拟合操作实验的p<0.004，H₀：个体中位数ΔAIC为零，n=11，15，15，15实验1,2,三和所有）。相反，在标准条件下，差异不显著(图3D，“标准”；p=0.07，n=16只小鼠），表明我们的分析没有偏见。

保存图片、插图等的外部文件。对象名称为nihms-1646306-f0003.jpg

在单独的窗口中打开

图3。

RPE模型比价值模型更好地解释了数据。

(A类)模型拟合程序。蓝色曲线，GCaMP过滤器。(B类)适合示例。（顶部）数据。（中）最适合RPE模型。粗线条，模型预测。细线，数据。（底部）最符合价值模型。(C类)基于指数值函数的AIC比较。填充符号，p<0.05（排列测试）。较小的AIC值表示更适合。(天)（C）中两种模型之间的差异。(E类)（左）相对于指数RPE模型的AIC。的组合数据集实验1–三已使用。 $τ^{(x_{0} - x)}$ 指数折扣； $β X（X） = Σ (β_{k个} x^{k个})$ ，五阶多项式；βX,（f）’(x)>0，单调递增约束下的五阶多项式；Δt表示奖励，值基于给定当前速度的奖励时间。实心圆点表示重要性。（右）混合动力车型。混合物（1−α)V（V）(x) +αδ(x); 分数导数模型。分数导数模型未显示显著性。(F类)值函数的形状（左）、RPE（右，深绿色）和通过RPE模型获得的预测钙信号（右，绿色），使用βX,（f）’(x) > 0. 未显示试启动时瞬态RPE的峰值。(G公司)最佳α在混合模型中。(H（H）)导数的最佳拟合阶(一)在FD模型中。另请参见图S3和S4系列.

我们进一步用更任意形状的值函数拟合数据（例如5^第个阶多项式）(图3E,βX;图S4H)，允许我们以更加数据驱动的方式派生值函数。我们还包括一个价值模型，在该模型中，状态值是根据给定当前速度的奖励时间计算的（Δt到奖励）。具有多项式值函数的RPE模型最能解释数据。然而，即使是简单的指数RPE模型也优于所有的价值模型(图3E，p<0.0003，H₀：个体平均ΔAIC为零，n=15只小鼠）。这些结果表明，钙信号实验1–三RPE比状态值更好地解释。请注意，拟合模型还捕捉到了初始瞬态响应和奖励前的下降（请参见方法有关拟合值函数形状的注释）。

这些分析表明，如果相互比较，RPE模型比价值模型更好。然而，答案可能介于这两种可能性之间。为了解决这个问题，我们首先考虑RPE和值的线性组合，以及权重α(0 ≤α≤1）表示RPE信号的分数（混合模型）。与RPE模型相比，使用该混合模型的拟合仅略有改进(图3E对，中庸R（右）²增加了2%）。RPE术语的权重(α)接近1(图3G,实验1–三, 0.92 ± 0.12;实验4, 0.99 ± 1.2 × 10⁻⁴，平均值±标准差）。其次，我们考虑了根据导数的顺序，响应介于值和RPE之间的可能性。具体来说，RPE近似值函数的一阶导数 $(\frac{d日 V（V）}{d日吨})$ 而值函数本身就是它自己的零阶导数。“分数阶导数”方法允许定义导数的非整数阶 $(\frac{{d日}^{一}}{d日吨^{一}} V（V）)$ (波德鲁布尼，1998年)通过这种方法，可以通过改变一从0到1(图3H，左）。我们发现，使用指数值函数从数据中获得的导数的最佳拟合阶接近于1(图3H，对，实验1–三, 1.1 ± 0.12;实验4，1.28±0.08，平均值±标准差）。

总之，这些结果表明，计算价值函数一阶导数的RPE模型是解释VS中多巴胺能轴突活动的优越模型，几乎没有价值贡献。

VS中的多巴胺轴突对感觉意外没有反应

最近的一些研究表明，多巴胺神经元被感觉意外、感觉（身份）预测错误或唤醒激活(2019年舒尔茨;Stalnaker等人，2019年;Takahashi等人，2017). 接下来，我们通过在两条轨道之间进行远程传送来测试上述反应是否是由于感官上的意外(图4A). 在测试中，老鼠被传送到轨道之间，而没有改变到目标的距离，所以传送事件会导致感官预测错误，而不会引起数值变化(图4B–天,视频S4). 在轨道间远程传送时，我们没有观察到瞬态激发(图4D;图S4I，p=0.31和0.84，n=6只小鼠），尽管正向传送引起了大量的瞬时激活(图4E–G公司,图S4J). 在两条轨道之间的远程传送过程中，缺乏响应并不是因为无法区分两条轨道，也不是因为无法识别远程传送。一旦给这两首曲目分配了不同数量的奖励(图4H–J型,图S4K)，我们观察到了不同水平的预期舔食和两条轨道之间的钙信号(图4J左侧和中部，舔食和钙信号分别为p=0.019和0.001，n=4只小鼠，配对t检验）。此外，轨道间的远程传输导致钙信号的瞬态变化，与状态值的变化一致(图4J，p=0.012，n=4只小鼠，配对吨-测试）。最后，我们还执行了与前向传送相同大小的后向传送。虽然在这些条件下，感觉惊讶的程度似乎是相似的，但反向传送导致了钙信号的减少，而不是增加(图4K–M（M）,图S4L). 这些结果表明，纯粹的感官惊喜不会刺激多巴胺神经元，但值的改变很重要。

保存图片、插图等的外部文件。对象名为nihms-1646306-f0004.jpg

在单独的窗口中打开

图4。

冲动和心灵传送反应不能用感官上的惊讶来解释。

(A类)轨迹1和轨迹2上的场景。(B类)实验5a.箭头，在轨道之间传送。(C类)平均钙信号(n个=6只小鼠）。T、传送。(天)基线下钙反应。(E类)实验5b红色，向前传送。青色，在轨道之间传送。(F类)平均钙信号（n=6只小鼠）。(G公司)基线下钙反应。(H（H）)实验5c.箭头，在轨道传送之间。第二赛道获得了巨额奖励。(我)平均钙信号（n=4只小鼠）。(J型)（左）预期舔食的比较（3/4只小鼠显示出显著差异，使用试验数据进行Wilcoxon秩和检验）。（中间）钙反应的比较（3/4小鼠显示出显著差异，使用试验数据进行未配对t检验）。（右）传送时钙反应的瞬时变化（p=0.006和0.021，分别为大到小和小到大，n=4只小鼠，配对吨-测试）。(K（K）)实验6.箭头，向前（红色）和向后（橙色）传送。(我)平均钙信号（n=6只小鼠）。(M（M）)钙反应的比较。对正向传送的反应显著大于对反向传送的反应（p=0.03，n=6，Wilcoxon符号秩检验）(N个)实验7奖励大小在不同的试验区块中发生了变化。(O（运行）)平均钙信号（n=10只小鼠）。(P（P）)钙反应的比较，使用O（灰色条）所示的时间窗口进行量化。（左）斜坡震级。（右）电信响应。另请参见图S4.

接下来，我们研究了斜坡反应和心灵传输反应的大小是否对奖励的大小敏感。轨道1中的奖励金额在多个试验区块中发生了变化(图4N–P（P）). 在大剂量组中，与小剂量组相比，小鼠表现出更大的预期舔食（p=0.008，n=10只）。在大面积街区，斜坡和相位响应的幅度较大(图4O，左，左，4P，4便士左，p=0.049，n=10只小鼠；图4O，对，右侧，4P，4便士，右侧，p=0.0020，n=10只小鼠）。因此，对远程传送的斜坡和瞬态响应都对结果值敏感。

总之，我们在实验中观察到的反应不能用感官惊讶来解释，而可以用TD RPE追踪来简约地解释变化价值的。

多巴胺神经元的尖峰活性表现出与RPE一致的斜坡

上述结果表明，VS中多巴胺轴突的活性与TD RPE一致。然而，尚不清楚这些结果是否适用于单神经元水平。例如，不同数量的多巴胺神经元可能分别是斜坡、瞬态反应和速度依赖性调节的基础。此外，最近的一项研究得出结论，VTA多巴胺神经元的尖峰活动没有增加，这表明多巴胺轴突的局部调节独立于躯体尖峰活动(莫赫比等人，2019年). 为了解决这些问题，我们接下来描述了VTA多巴胺神经元的尖峰活动（我们重点关注实验1和三其中包含了图1) (图5A). 光门控阳离子通道（通道视紫红质-2）在多巴胺神经元中表达，根据对激光脉冲的短潜伏期反应将记录的神经元归类为多巴胺能神经元(图S5A–天) (Cohen等人，2012年;利马等人，2009年). 因为VS投射的多巴胺神经元沿着VTA的中-外侧（ML）轴扩散(Farasat等人，2019年)，我们沿着ML轴记录了大范围的神经元（共有13只小鼠的122个神经元；VTA的102个神经元[ML<900μm] ）。

保存图片、插图等的外部文件。对象名称为nihms-1646306-f0005.jpg

在单独的窗口中打开

图5。

VTA多巴胺神经元的峰值活动解释了钙信号的激增。

(A类)实验。(B类)标准条件下VTA多巴胺神经元（n=102）的平均放电率。灰色条，用于量化（C）中斜坡的时间窗口。(C类)坡道分布R（右）s.中间值（三角形）为阳性（p=0.0001，n=102个神经元）。(天)斜坡坡度作为ML位置的函数（n=122）。灰条，图5E、F中使用的神经元亚群（黑色，n=16个神经元来自3只小鼠；深灰色，n=66个神经元来自4只小鼠；灰色，n=20个神经元来自三只小鼠）。两个中间组的中值斜率均大于零（分别为p=0.004、0.009和0.39）。虚线，类型2回归拟合。(E类)D表示神经元组的平均放电(F类)从峰值预测钙信号。深色表示D中的组(G–J型)神经元示例。显示阳性斜坡的示例神经元(G公司，斜坡R（右），r=0.018，p=0.009），负斜率(H（H），斜坡R（右），r=-0.0214，p=0.0001），并且没有斜坡(我，斜坡R（右），r=0.005，p=0.49）。(J型)一个表现出类似价值反应的神经元（P（P）). (K（K）)（顶部）平均峰值活动（n=88）。（底部）预测钙信号。(我)（顶部）平均峰值活动（n=83）。(我)（底部）预测钙信号。(M（M）)产品质量比较（AIC）。（左）ΔAIC相对于基于指数值函数的RPE模型。格式化为图3E.（右）混合模型中的ΔAIC。(N个)最适合混合模型。(O（运行）)导数的最佳拟合阶(一). (P（P）)单神经元活动。神经元按ΔAIC在值和RPE模型（指数值函数）之间排序（n=78个神经元）。每个时间段的接收器工作特性曲线下面积（auROC）用于量化基线的发射率变化。箭头指示传送或暂停开始的时间。(问)单神经元活动。如图5M所示，使用三种不同的值函数，数值模型和RPE模型之间的ΔAIC，分数阶导数模型中导数的最佳拟合阶数，以及斜坡斜率（n=78个神经元）。(R（右）)（左）归一化最佳拟合值函数的平均值（n=78个神经元）。（右）根据单个神经元的值函数预测的平均RPE（深绿色）。预测钙信号（绿色）。另请参见图S5.

大多数经光学鉴定的多巴胺神经元对奖赏表现出强烈的阶段性反应(图5B92/102个神经元有显著性）。平均而言，峰值活动呈现出正斜坡（斜率：0.16±0.04峰值/s²). 在神经元中，我们观察到跃迁的显著差异，一些神经元逐渐跃迁，而另一些则逐渐下降(图5C,图S5E). 在更多的中间记录中，更多的神经元显示出阳性斜坡，并且斜坡的幅度更大(图5D,、E、，E类，黑色，斜率=0.41±0.11峰值/s²). 在更多的横向记录中，阳性斜坡的神经元较少，且斜坡的幅度较小(图5D,、E、，E类，深灰色，斜率=0.12±0.04峰值/s²)并且在最横向的位置平均减少(图5D,、E、，E类，灰色，斜率=0.09±0.09峰值/s²). 斜坡坡度与ML位置之间存在显著相关性(图5D，r=−0.21，p=0.019，n=122个神经元，Spearman相关），与单神经元成像结果一致(Engelhard等人，2019).

我们接下来问，尖峰的小幅增加是否可以解释钙信号的斜坡(图1,,2).2). 根据峰值活动和GCaMP6m的脉冲响应计算预测钙信号(图S5P,方法). 我们发现，与原始放电率相比，斜波信号变得更加显著，相位反应变得不那么显著，从而导致内侧神经元的预测钙反应出现显著的正斜波，而外侧神经元出现轻微的负斜波(图5F).

目前尚不清楚记录的神经元是否投射到我们监测轴突钙信号的VS上(图2). 为了解决这个问题，我们接下来使用改良狂犬病病毒从我们的VS记录位点逆行标记VTA多巴胺神经元的胞体进行荧光测定。对标记神经元的注射部位和胞体位置的检查表明，投射到荧光测量记录部位的多巴胺神经元在VTA中广泛分布，但在内侧VTA中富集(图S5H,我) (Lammel等人，2008年)（但请看，Ikemoto，2007年). 在这些逆行标记的神经元中记录到的钙信号显示出正的斜坡(图S5J).

接下来，我们检查了单个神经元的活动是否与RPE或使用值一致实验1和三如上所述，远程传送的相位响应和速度操纵中斜坡幅度的变化将支持RPE假设(图1A–E类). 相反，积极和消极斜坡的存在并不能区分这两个假设；如上所述，充分凸的值函数将导致正斜坡，但基于RPE假设，不太凸的值函数可能导致负斜坡(图S1). 我们发现大部分神经元，包括阳性、阴性或无斜坡的神经元(图5G–我)，在传送时表现出阶段性反应（68/88个神经元）。观察到一个相控反应，无论它们是阳性还是阴性斜坡（r=0.13，p=0.24；n=88个神经元，长距离传输反应和斜坡反应之间的Spearman相关性R（右）). 斜坡的大小由场景移动的速度调节（中值测试R（右），r=0.18，p=5.2×10⁻¹²n=88个神经元；27/88个神经元显著大于零，斯皮尔曼相关性使用试验数据）。平均峰值活动也显示出与RPE相一致的特征，预测的钙反应类似于VS中的轴突钙信号(图5K,，L）。我). 我们还观察到极少数不符合RPE的神经元(图5J).

接下来，我们对单个神经元进行了模型拟合分析。我们采用了相同的装配程序(图3A)用相对窄的滤波器平滑尖峰活动后(图S5P) (图S5Q–R（右）). 平均而言，具有简单指数值函数的RPE模型优于我们测试的所有价值模型(图5M，左侧，p<2×10⁻¹⁰对于所有价值模型，H₀：个体中位数ΔAIC为零，n=78）。与RPE模型相比，结合RPE和值的混合模型几乎没有改善拟合度(图5M，右；平均R²增长1.8%；AIC差异在1/78个神经元中显著），RPE的重量接近1(图5N,α=0.91±0.20，平均值±标准差）。单个神经元分数导数的最佳拟合阶数接近1(图5O，a=1.11±0.27，n=78个神经元，平均值±s.d.）。因此，就像轴突钙信号一样，尖峰活性几乎完全编码RPE，几乎没有价值。

为了进行更仔细的检查，我们根据RPE模型与值模型（ΔAIC）相比对活动的拟合程度对神经元进行分类(图5P,，Q）。问). 对传送的阶段性反应、暂停时的下降以及对不同速度的反应在神经元中广泛存在(图5P). 模型拟合分析表明，与价值模型相比，大多数神经元更喜欢RPE(图5Q，对至少62/78个神经元、三列ΔAIC、置换测试有显著意义）。无论单个神经元是升高还是降低，这都是正确的(图5Q，“斜率”列，r=0.09，p=0.42，n=78个神经元，Spearman相关）。接下来，我们通过使用灵活的值函数进行模型拟合分析来推断值函数的形状。由尖峰数据导出的平均值函数虽然完全独立于轴突钙信号的测量，但与由轴突钙信息导出的值函数表现出显著的相似性(图5R; 与相比图3F).

总之，这些结果表明，大多数单个神经元与RPE一致，并且相对分布在VTA上。在这些神经元中，位于内侧区的神经元表现出更多的阳性斜坡。

VTA中的体钙和VS中的多巴胺浓度与RPE一致

Raves病毒的一个潜在警告(图S5J)就是它的毒性。因此，我们接下来使用腺相关病毒在VTA多巴胺神经元中表达GCaMP，并记录体细胞钙信号。我们发现在VTA中测得的钙信号显示出类似的上升水平。进一步测试实验1–三(图6A–天;图S6)显示出与VTA多巴胺神经元群体预测的钙动力学惊人的相似性(图5K,，L我底部）。

保存图片、插图等的外部文件。对象名称为nihms-1646306-f0006.jpg

在单独的窗口中打开

图6。

VTA多巴胺神经元的体细胞钙和VS信号RPE中的多巴胺。

(A类)实验。(B–D类)平均钙信号实验1（B，n=6只小鼠），实验2（n=6只小鼠），以及实验3（n=5只小鼠）。(E类)实验。(F–小时)平均多巴胺信号实验1(F类，n=9只小鼠），实验2(G公司，n=10只小鼠）和实验3(H（H），n=10只小鼠）。另请参见图S6.

释放后，多巴胺浓度的动态会受到其他因素的影响，如扩散、受体结合和再摄取。如果RPE信号是暂时整合的，多巴胺浓度可以转换为一个类似值的量。因此，我们使用基因编码多巴胺传感器（GRAB）测量VS中的多巴胺浓度_DA2米) (图6E). 我们发现多巴胺信号与其他实验中的钙信号相似(图6F–H（H）). 长距离传送的瞬态激励超过了标准条件下的斜坡峰值(图6Fp=0.004，n=9只小鼠），斜坡信号的大小由场景移动的速度调节(图6H，中值测试R（右）r=0.43，p=0.002，n=10只小鼠；9/10只小鼠表现出显著试验R（右）). 这些结果表明多巴胺的浓度仍然代表RPE。

提示奖励接近可以导致多巴胺斜坡与RPE一致

在以前的实验中，在延迟奖励任务中没有观察到激增活动，在延迟的奖励任务中，奖励在一个提示后以相对较短的固定延迟传递（例如。Cohen等人，2012年;Starkweather等人，2017年). 为了进行更直接的比较，我们使用了一个延迟奖励任务，该任务使用气味线索，延迟时间覆盖了上述任务的时间尺度(图7A;方法). 用于单神经元记录的动物子集(图5)在持续记录峰值的同时，在同一会话中执行延迟奖励任务。虽然预期舔是相似的(图S7A,B类)在气味任务中，平均尖峰活性表现为轻微的负增长，在线性追踪任务中表现为正增长(图7B–天)，显示了多巴胺神经元活动的任务特异性调节。

保存图片、插图等的外部文件。对象名称为nihms-1646306-f0007.jpg

在单独的窗口中打开

图7。

表明奖赏接近性的动态感觉刺激可以引起与RPE一致的多巴胺升高。

(A类)带有气味提示的延迟任务。中的动物子集图5使用了。(B类)平均放电率（顶部，n=67个神经元）和预测的钙反应（底部）。(C类)线性追踪任务中与（B）中相同神经元的标准条件（n=174个会话，来自标准和实验1,三来自n=67个神经元）。(天)延迟奖励任务中的斜坡（气味D，斜率=−0.06±0.02峰值/s²p=0.018，n=67）和线性跟踪任务（平均任务，斜率=0.10±0.03峰值/s²p=0.002，n=67个神经元）。(E类)空间提示操作(实验8)（左）去除了有图案的、明显的墙壁图案。（右）标准场景（黑色，n=6只小鼠）和图案场景（橙色）中的钙信号。箭头，场景的中间位置。(F类)（左）纯色，通过纯色刺激去除光流（右）。标准场景（黑色，n=6只老鼠）和纯色场景（橙色）中的钙信号。(G公司)斜坡R（右）s（实验8a和8b分别为p=0.063和0.031，n=6）。(H（H）)移动酒吧实验。当酒吧到达目标位置时（虚线，仅用于说明目的），便可获得奖励。(我)实验1带移动条。钙信号通过长条形传输（红色）、短条形传输（橙色）和暂停（黄色）排列（n=9只小鼠）。标准条件下的钙信号（黑色）与奖励开始（黑色虚线）一致。(J型)实验2（n=10只小鼠）。垂直线，传送。(K（K）)实验3（n=11只小鼠）。(我)基于指数值函数的价值模型和RPE模型之间AIC的比较。(M（M）)两种模型之间的差异。除标准条件外，所有中值ΔAIC均与零显著不同（p=[0.20 0.008 0.02 0.04 0.004]，n=[9 8 8 9]）。(N个)模型变体的AIC。格式与相同图3E. (O–Q公司)使用多巴胺传感器测量的平均多巴胺信号。(O（运行）)实验1（n=8只小鼠）(P（P）)实验2（n=8只小鼠），以及(问)实验3（n=8只小鼠）使用移动杆。另请参见图S7.

一些动物在直线追踪任务中表现出运动活动(图1G，底部）。然而，运动活动与爬坡幅度无关(图S2J;图2L右侧）。以前的研究(Hamid等人，2019年;莫赫比等人，2019年)提示多巴胺在操作性任务（当动物必须采取特定行动才能获得奖励时）中存在，但在巴甫洛夫式任务（无论动物的行动如何，都会获得奖励）中不存在。从技术上讲，我们的线性轨道任务在设计上是巴甫洛夫式的。然而，目前尚不清楚老鼠是如何理解这项任务的。因此，我们设计了额外的实验来阐明产生多巴胺斜坡的任务条件。

我们训练了一组新的小鼠进行操作应急，使其必须移动一定距离才能获得奖励。我们观察到类似于上述巴甫洛夫设计的多巴胺斜坡(图S7C). 传送的结果(图S7D,H（H）)和速度操纵(图S7E,我)也类似，表明操作上下文中的爬坡活动也代表RPE。为了评估线索的作用，我们引入了动物无法根据视觉输入估计其位置的其他轨迹。修改后的轨道具有统一的墙壁图案(图7E)或完全没有图案(图7F). 尽管这些动物表现出预期的舔食(图S7J)舔的时机越来越广(图S7F,G公司，顶部）。在这两种操作条件下，虽然场景运动开始导致钙的少量增加，但我们没有观察到正的斜坡，这在奖励之前有点持续(图7F,、G、，G公司，底部）。因此，动物是否必须进行某种运动才能获得奖励，这对于产生多巴胺斜坡并不重要。相反，结果强调了线索对接近奖励的重要性。

为了测试非导航提示是否会产生多巴胺斜坡，我们使用了一个从计算机显示器顶部向下移动的黑色水平条。酒吧到达某个位置时，动物收到了一滴水(图7H,视频S5). 与我们的假设一致，一旦动物学会了这个任务(图S7K)，我们观察到一个类似于线性追踪任务中的多巴胺斜坡(图S7L).

接下来我们进行了一系列类似于实验1–三使用移动条。结果与使用导航刺激获得的结果基本一致(图7I–K（K）;图S7M–O（运行）). 模型拟合分析证实，RPE模型比价值模型更好地解释了数据(图7L–N个). 此外，使用多巴胺传感器（GRAB）测量VS中的多巴胺信号_DA2米)，显示了类似的结果(图7O–问). 总之，这些结果表明，表明接近奖励的动态线索可以导致多巴胺神经元活动激增，而激增的活动编码TD RPE。

讨论

在这项研究中，我们开发了一组实验范式来分离RPE和其他难以消除歧义的值。我们发现，心灵传送和速度操纵分别引起了阶段性多巴胺反应和斜坡幅度的变化，这与RPE一致。此外，我们检测到的多巴胺传递的所有阶段都是如此——体细胞的尖峰活性和钙信号、轴突的钙信号和VS中的多巴胺浓度。我们还发现，提示与奖赏的时间接近度逐渐增加的线索在导致多巴胺升高中起着重要作用，无论提示是导航性的还是更抽象的，或者任务是操作性的还是巴甫洛夫式的。综上所述，我们证明了缓慢波动的多巴胺信号以秒为时间尺度编码RPE，类似于相态多巴胺信号。因此，我们的结果提供了一个跨越这些时间尺度的多巴胺信号作为RPE的统一解释。计算值的逐时刻变化是TD RPE的一个特点，它为机器学习中的学分分配问题提供了解决方案(萨顿和巴托，1998年). 然而，大脑中的多巴胺神经元是否以这种方式计算RPE尚未得到测试。我们的结果表明，多巴胺神经元在逐时刻的基础上计算类似导数的信号值，从而实例化了TD误差信号的中心原理。

实验设计、解释和限制

本研究最初的动机是预测，如果值函数足够凸，TD误差可能会增加(格什曼，2014). 然而，我们的解释并不局限于这个假设。相反，问题是多巴胺信号是否可以用定义在空间上的单调递增函数或其导数来解释。更广泛地说，我们试图根据实验中的一组参数，从经验上推导出多巴胺信号的简约数学描述。我们的模型验证结果表明，通过假设存在一个函数，该函数随着奖赏的临近而增加，多巴胺信号可以用其一阶导数来描述。其他观察结果，如对奖励金额的依赖性和对感官惊喜的缺乏反应，表明这些功能与我们所认为的价值和TD误差非常匹配。正是通过这些分析，我们推断了“最小”假设下的势能函数（存在单调递增函数，并允许多巴胺能活性代表其[分数]导数）。然而，这些分析并非完全“无假设”。很有意思的是，我们是否可以从一组更多样的潜在函数中，以更数据驱动的方式推导出一组多巴胺信号的数学方程(Schmidt和Lipson，2009年;Brunton等人，2016年).

我们的结果在多大程度上可以推广，还有待确定。最近的一项研究表明，即使没有明确的感官提示，当在跑车上跑了一定距离后给予奖励时，多巴胺也可能会增加(Guru等人，2020年). 在这样的实验中，可能很难消除所有的感官线索（例如，车轮的旋转可能提供线索）。此外，动物自身的动作可能是一种暗示(基林和费特曼，1988年). 在我们的实验中，在没有位置提示的情况下，即使在跑了固定距离后给予奖励，也没有观察到多巴胺的增加(图7E–G公司). 然而，我们不能排除在充分训练后可能出现多巴胺升高的可能性。此外，有人建议，在某些条件下进行广泛训练后，多巴胺斜率变小(Guru等人，2020年). 我们的实验通常包含一些测试，这些测试可能会阻止动物完全了解标准条件。此外，虚拟现实并不能完全再现真实的环境。例如，与真实环境中的空间线索相比，我们实验中的空间提示可能不够直观，这可能会降低学习的效率。最后，我们的结果与与位置相关的值函数一致。这很可能是因为位置比我们实验中的其他参数更能合理预测接近奖励的程度。如果一个不同的变量能够更好地预测与奖励的接近程度，那么在这种情况下，价值函数可能是该变量的函数，而不是位置的函数，正如我们的移动杆实验所建议的那样。

多巴胺信号斜坡的起源和状态不确定性的潜在作用

虽然我们的结果表明，多巴胺神经元的峰值活动中存在多巴胺信号的激增，但我们不能排除轴突调制也在信号形成中发挥作用的可能性。多巴胺释放可以在多巴胺神经元的轴突局部调节(Cachope等人，2012年;Threlfell等人，2012年;Zhou等人，2001年). 通常很难直接比较躯体活动和神经递质释放体内因为得出结论需要观察到的细胞体和轴突之间完全匹配，而且尖峰活动和递质释放之间可能存在一些非线性关系。

然而，无论是在动作电位水平还是相关的钙信号水平上，体细胞都存在斜坡信号。这也是从VS逆行标记的多巴胺神经元的情况，在VS中监测轴突活动。有趣的是，我们在VTA中观察到斜坡信号的ML梯度(图5D). 一项研究(莫赫比等人，2019年)没有观察到多巴胺神经元峰电位升高，可能是因为该研究以VTA的外侧区为目标，强调了从匹配的躯体和轴突对进行记录的重要性。

我们的研究表明，提示与奖励的接近度逐渐增加的线索在产生斜坡信号中起着关键作用。那么，如何解释多巴胺信号增强与否的任务之间的差异呢？在强化学习中，根据世界的当前“状态”计算值。在这个框架中，状态由各种类型的信息共同定义，例如位置、存在于其中的对象以及从显著事件经过的时间。在自然情况下，由于动物接收到的部分信息，状态常常是模糊的，状态的不确定性可以改变价值函数的形状(Babayan等人，2018年;Gershman和Uchida，2019年;Ludvig等人，2008年;Starkweather等人，2017年). 我们在本研究中使用的任务在状态不确定性结构方面与延迟奖励任务不同。在我们的虚拟现实和移动条任务中，感官输入不断提供关于接近奖励的信息，表明关于当前位置（状态）的不确定性可能会随着时间的推移保持不变，甚至减少。相反，众所周知，根据韦伯定律，接近奖励的不确定性随着无线索时间的流逝而成比例增加(Gibbon等人，1997年). 状态不确定性结构的这种差异可能导致任务之间的值函数形状不同。直接从理论上进一步检验这些想法是很有意思的(Mikhael等人，2019年)并在未来进行实验。

多巴胺信号多样性的层次结构

连同其他证据(Watabe Uchida等人，2017;Parker等人，2016年;豪和董贝克，2016年;Menegas等人，2017年,2018)，目前的结果加强了VS中的多巴胺信号类似于TD RPE的观点。虽然这个群体中的多巴胺神经元表现出一定的多样性(Engelhard等人，2019;Kremer等人，2020年)，至少可以在RPE的框架内理解一些观察到的可变性。相反，在全球范围内，纹状体不同区域的多样性要大得多(考克斯和维滕，2019年;Watabe-Uchida和Uchida，2019年). 因此，多巴胺神经元的多样性是分层组织的。以这种分层的方式观察多巴胺信号的多样性，重要的是要弄清楚每个子系统内多巴胺信号相对较小的变化是否具有任何功能意义。最近一项关于分布式强化学习的研究表明，相对较小的RPE变异性有助于实现计算优势(Dabney等人，2020年). 此外，了解每个多巴胺子系统在全球范围内运作的计算原理也很重要。我们的实验范式将是检验多巴胺信号本质的有力手段。深入了解多巴胺信号的本质将有助于在未来解决这些问题。

STAR方法

本文的在线版本中提供了详细的方法，包括以下内容：

资源可用性

潜在联系人

有关资源和试剂的进一步信息和请求应直接发送给首席联系人HyungGoo Kim，并由其完成(moc.liamg@miK.R.ooGgnuyH).

材料可用性

这项研究没有产生新的独特试剂。

数据和代码可用性

数据和分析代码将以某种形式提供，用于复制或扩展分析。数据可视化的MATLAB代码可以在https://github.com/hkim09/libkm.

实验模型和受试者详细信息

老鼠

共有69只成年小鼠用于实验。36只成年雄性小鼠使用钙指示剂（GCaMP）进行实验。在多巴胺转运体（DAT）基因启动子的控制下，20只小鼠表达Cre重组酶的基因是杂合的(Bäckman等人，2006年)（DAT-Cre或B6.SJL-Slc6a3^{tm1.1（cre）Bkmn}/J小鼠；杰克逊实验室；RRID:IMSR_JAX:006660）。七只小鼠是DAT-Cre小鼠和tdTomato转基因系杂交的结果，使得它们对DAT-Cre是杂合的，对tdTomato也是杂合的（Gt（ROSA）^{26号分拣9（CAGtd番茄）Hze}杰克逊实验室）(Madisen等人，2010年). 我们没有观察到这些小鼠之间的结果有差异，因此将结果合并。将6只成年C57/BL6J DAT-Cre雄性小鼠用于GFP对照实验。10只成年C57/BL6J野生型雄性小鼠使用多巴胺传感器进行实验。四只成年C57/BL6J DAT-Cre雄性小鼠被用于使用表达GCaMP的狂犬病的实验。13只成年C57/BL6J DAT-Cre雄性小鼠用于电生理记录实验。所有小鼠与C57/BL6J小鼠回交5代以上。动物被单独安置在12小时黑暗/12小时光照周期内（07:00至19:00黑暗）。所有程序均按照美国国立卫生研究院实验动物护理和使用指南进行，并经哈佛动物护理和利用委员会批准。

方法详细信息

手术和病毒注射

VS中GCaMP信号的纤维荧光测定手术。

为了准备动物进行记录，我们进行了一次包含三个关键部分的单一手术：（1）将一种在Cre重组酶（AAV-FLEX-GCaMP）存在下表达GCaMP的腺相关病毒（AAV）注射到中脑，（2）安装头罩，以及（3）将一条或多条光纤植入纹状体(Babayan等人，2018年;Menegas等人，2017年). 手术时，所有小鼠都是2-4个月大的。所有手术均在无菌条件下进行，用异氟醚麻醉动物（0.5−1.0 L/min时为1–2%）。每次手术后3天内给予镇痛药（酮洛芬用于术后治疗，5 mg/kg，I.P.；丁丙诺啡用于术前治疗，0.1 mg/kg，I.P.）。我们去除了大脑表面的皮肤，并用空气吹干了头骨。为了在多巴胺神经元中特异性表达GCaMP，我们单方面注射250 nl的AAV5-CAG-FLEX-GCaMP6m（1×10¹²颗粒/ml，Penn Vector Core）注入VTA和SNc（总计500 nl）。为了靶向VTA，我们做了一个小开颅手术，并在前角3.1、侧角0.6、深度4.4和4.1 mm处注射病毒。为了靶向SNc，我们在前角3.3、侧角1.6、深度3.8和3.6 mm处注射了病毒。病毒注射持续几分钟，然后在几分钟内缓慢取出注射吸管。

然后，我们在头骨顶部粘上一个头饰板，安装了一个用于头部固定的头饰板（C&B Metabond，Parkell）。我们使用环形头罩，以确保纹状体上方的颅骨可用于纤维植入。最后，在同一手术中，我们还将光纤植入VS（伏隔核核）。对于一部分动物，我们还将纤维植入背内侧或背外侧纹状体。为此，我们首先使用光纤支架（SCH_1.25，Doric Lenses）将光纤（直径200μm，多立克透镜）缓慢放入纹状体。我们用于靶向的坐标为前角1.0，横向1.1，深度4.1 mm。纤维降低后，我们首先用UV固化环氧树脂（Thorlabs，NOA81）将其固定在颅骨上，然后再涂一层黑色Ortho-Jet牙科粘合剂（伊利诺伊州朗牙）。在等待15分钟使这种胶水干燥后，我们涂上少量快速固化环氧树脂（A00254，Devcon），将纤维套管连接到下面的胶水和头板上。在等待环氧树脂固化15分钟后，手术完成。

VTA中GCaMP信号的纤维荧光测定手术。

上述结果表明，与尖峰活动相比，轴突钙信号的放大可能是由于钙信号的动力学较慢。此外，细胞体尖峰活性的增加表明，VS轴突钙活性的增加可能源于体细胞尖峰的增加。如果这些都是真的，那么在多巴胺神经元的细胞体上测得的钙信号也应显示出与轴突上的钙信号类似的激增水平，以及我们在上述实验中观察到的RPE特征。为此，我们记录了VTA中多巴胺神经元的钙信号。病毒的注射方式与VS中的记录方式相同。为了在VTA中进行记录，我们将一根纤维放置在3.1个角处，横向0.6，深度4.1毫米。

狂犬病解剖追踪和GCaMP荧光测定手术。

投射到伏隔核核心的多巴胺神经元被一种表达钙指示剂的改良狂犬病病毒逆行标记（Reardon等人，2016）。首先向成年雄性DAT-Cre小鼠左侧内侧VTA（AP−3.05，ML 0.4，深度4.3–4.5 mm）注射0.5μL AAV5-FLEX-TVA-mCherry（通过UNC载体核心定制AAV制剂）。两周后，将0.5μL AAV1-CAG-BFP（通过UNC载体核心定制AAV制剂）和CVS-N2c的1:2混合物注射给小鼠^ΔG-GCaMP6f（EnvA）（由Catherine Dulac的实验室提供，从HHMI Janelia获得）到左VS（AP+1.1，ML+1.0，深度3.85–3.95 mm），然后在左内侧VTA内植入光纤（AP−3.05，ML 0.4，深度4.35 mm）。

多巴胺传感器信号的光纤荧光测量手术。

为了直接检查VS中的多巴胺浓度是否代表RPE或值，我们使用基因编码的多巴胺传感器（第二代传感器，GRABDA2m）直接测量多巴胺（Sun等人，2018年，2020年）。这种多巴胺传感器（GRABDA2m）在VS的神经元中表达，并通过植入VS的光纤测量荧光信号(图6E). 病毒注射前的手术程序与上述GCaMP注射相同。我们将400 nl AAV9-hSyn-DA2m（Vigene bioscience）注入VS中，而不是GCaMP。注射完成后，我们以与GCaMP记录手术相同的方式植入光纤和头板。

光标记多巴胺神经元的单单位记录手术。

我们进行了两次手术，均以左VTA为靶点进行立体定向（前角：后3.1 mm，侧0.6 mm，腹4.2 mm）。在第一次手术中，我们注射了500 nl携带反向ChR2编码序列（H134R）的AAV5，该序列融合到表达荧光报告基因eYFP的序列上，两侧有双链液氧磷站点（AAV5-DIO-ChR2-EYFP）(Tsai等人，2009年). 我们之前的研究表明，这种病毒在多巴胺神经元中的表达具有高度选择性和高效性(Cohen等人，2012年). 2周后，我们进行了第二次手术，植入了一个头部钢板和定制的微驱动器，其中包含8个手足和一根光纤。

虚拟现实设置

虚拟环境显示在三台液晶显示器（LCD）上，显示器的细框（宽53厘米，高30厘米）分别位于动物的左侧、前部和右侧(Chen等人，2013a;Harvey等人，2009年). 使用带有高性能图形卡（NVIDIA Quadro K2200）的工作站计算机来呈现视觉图像。ViRMEn软件(Aronov和Tank，2014年)用于生成虚拟对象并使用透视投影渲染视觉图像。通过帧间回调函数中的测量间隔和光电二极管的测量，确认图像帧没有下降，同时测试程序改变每帧屏幕的亮度。

在三台显示器的中央，离屏幕底部7.5厘米的地方，对动物进行头枕固定。将小鼠置于圆柱形泡沫塑料跑步机上（直径20.3厘米，宽度10.4厘米）。使用旋转编码器对跑步机的旋转速度进行编码。使用微处理器（Teensy 3.2）上运行的定制Arduino程序将编码器的输出脉冲转换为连续电压信号。

水奖励是通过动物嘴前的一个水嘴给予的。使用红外传感器（OPB819Z，TT Electronics）监测舔舌动作。来自旋转编码器和舔传感器的电压信号被数字化到安装在视觉刺激计算机上的基于PCI的数据采集系统（PCIe-6323，National Instruments）中。通过微型电磁阀（LHDA 1221111H，The Lee Company）和开关（2N7000，On Semiconductor）控制时间和水量。视觉刺激计算机产生模拟输出TTL脉冲，向动物提供奖励。

开环设置下的虚拟直线轨迹实验

动物在虚拟的直线轨道上训练(图1A长度为150个任意单位a.u.，宽度为30 a.u.）。迷宫由一个起点平台和一条两边都有墙的走廊组成。墙壁有四种不同的纹理图案，帮助动物识别虚拟空间中的位置(视频S1).

我们首先训练动物进行标准的接近目标任务，以学习目标位置和奖励之间的联系。一旦动物学会了这项任务，我们就进行了一系列测试，以检测多巴胺信号的性质。我们通常连续两天运行每个任务（零休息或一天休息）。每天一次的会议从5到10次标准试验开始，以帮助动物在进行任何试验之前记住任务。除非另有说明，在3-6%的试验中，在试验间隔期间给予了意想不到的奖励（5μl）。

目标任务的标准方法。

会议在深灰色背景下开始。试验从呈现视觉场景开始，将动物放在起始位置（0a.u.）。在一个随机延迟（1s偏移加上从平均值为1.5 s、截止值为3.5 s的修改指数分布中得出的随机延迟）之后，视觉场景开始向前移动。速度线性增加1s，直到达到13 a.u./s，之后速度保持恒定，直到动物到达目标位置（97 a.u.）。一滴水奖励（5μl）通过放在动物嘴前的水嘴递送。没有使用奖励遗漏试验。一旦给予奖励，视觉刺激在随机延迟后被关闭（从平均值为1s的指数分布中提取，其中添加了1s的偏移量）。如果延迟超过4 s，则重新绘制延迟。从平均值为3 s的指数分布中绘制出试验间隔（ITI），其中添加了3.5 s的偏移量。如果ITI超过10秒，则重新绘制。

实验1（传送到同一目的地并暂停）。

以下三种测试条件与标准条件随机交错。每个测试条件包含20%的试验。

长传送：当动物到达预定位置（40 a.u.）时，它被传送到靠近奖励的位置（70 a.u.。）。在传送时，屏幕被短暂地（93毫秒）屏蔽为黑色。
短距离传送：当动物到达另一预定位置（65 a.u.）时，它被传送到同一目的地（70 a.u.。）。
暂停：当动物到达目的地（上午70点）时，场景的行进暂停5秒，然后场景移动恢复。

在所有试验中，当动物到达相同的目标位置时（上午97点），它都会得到奖励。

实验2（三遥任务）。

以下三种类型的传送条件与标准条件随机交错，所有传送条件的频率总计为33–40%。在部分试验中，当动物到达三个传送位置之一（上午5点、25点和45点）时，它被传送到距离目标位置较近的位置（分别为上午35点、55点和75点），传送距离相同（上午30点）。在传送时，屏幕短暂（93毫秒）变黑。场景进度比训练期间慢了20%，除了前四只动物。这四只动物的数据被排除在种群时间进程之外，但被纳入其他统计分析。

实验3（速度操纵）。

在部分试验中（20%），场景的进展速度是标准条件下的两倍。在其他一些试验中（20%），进展速度是标准情况下的一半。其余的试验与标准的目标接近任务相同。操纵条件下场景的加速度与标准条件相同（13a.u./s²).无报酬对照实验我们测试了对心灵传送的短暂反应是由于短暂的停电还是在没有奖励的情况下视觉场景的突然改变。在标准接近目标状态下开始奖励训练之前，一组动物进行了实验1(n个=7只小鼠），实验2(n个=13只小鼠），以及实验3(n个=13只老鼠）在目标位置没有奖励。10%的试验在试验间隔期间获得了意想不到的奖励。我们对每个方案进行一次试验（70-100次试验），每天进行一到两次对照试验。

实验4（动态速度操纵）。

在速度操纵任务中(实验3)，动物可能会利用场景移动的速度作为提前或延迟奖励（即奖励时间）的提示。排除多巴胺信号由时间驱动而由场景移动速度奖励信号的可能性。我们在试验中动态地改变场景的速度，同时保持试验开始和奖励之间的总时间(图S3I)常数。我们使用了三种试验类型：（1）加速，（2）减速，和（3）标准条件。瞬时速度遵循以下方程式(Kim等人，2015年):

五_{1} (吨) = 罪 (\frac{吨 + 吨_{远离的}}{2 吨_{0}} * 2 * 第页 我 + θ_{我})

五_{2} (吨) = 五_{放大器} ({| 五_{1} (吨) |}^{k个} 签名 (五_{1} (吨)) + 1) + 五_{远离的, 我}

G公司 (吨) = 经验 (- {(\frac{(吨 - 吨_{0})}{σ_{水平}})}^{{n个}_{水平}})

五 (吨) = G公司 (吨) * 五_{2} (吨)

式中，i=1，2，对于两个相反的相位，t₀= 6,吨_远离的= 1.5,σ_水平= 5,n个_水平= 12,五_放大器= 10,五_远离的,1= 4.309,五_远离的,2,. = 4.641, θ₁= 0,θ₂=π，k=0.7143。当试验持续时间与标准条件相同时，动物在奖励位置附近减速（i=1）或加速（i=2）(图2M).

实验5a（轨道间传送）。

我们测试了视觉场景的突然变化是否会引起短暂的兴奋。一旦动物被完全训练用于标准线性轨道（轨道1，图4A，左），我们引入了第二条线性轨迹（轨迹2，图4A，右）其中墙图案与轨道1不同(补充电影4). 在这两条轨迹中，动物在轨迹末端（97 a.u.）获得相同数量的水（4μL）。在60%的试验中，小鼠完成了轨道1中的任务。在每个轨道的3/8次试验中，小鼠被传送到另一个轨道的相同位置(图4B公元55年）。

实验5b（轨道传送和正向传送之间）。

在中收集数据后实验5a，我们用同样的动物来证实，在同一个会话中，一个前向传送引发了一个瞬间兴奋(图4E). 在50%的试验中，小鼠开始在轨道1中进行试验，在剩余的试验中开始在轨道2中进行试验。在轨道1中启动的1/3试验中，小鼠从40 a.u.向前传送到70 a.u.。在轨道1中的另1/3试验中，小鼠从轨道1传送到轨道2（60 a.u.）。在轨道2开始试验时，小鼠既没有被传送到轨道1，也没有被传送至轨道1。

实验5c（不同奖励金额的轨道间远程传送）。

动物在轨道1中获得2μL，在轨道2中获得12μL(图4H). 在一组试验中（每种情况下为1/6），动物被传送到前方（40 a.u.），从轨道1传送到轨道2（60 a.u.u），或从轨道2传送到轨道1（60 a.u）。远期电信试验未用于分析。

实验6（前后传送）。

我们随机地将标准、正向传送（从40 a.u.到70 a.u.）和反向传送（从70 a.u.u到40 a.u.u。；图4K)条件。每个操作条件包含20%的试验。

实验7（奖励大小操作）。

我们交替进行25个试验，在小剂量（2.25μl/试验）和大剂量（10μl/实验）条件之间切换(图4N). 没有明确提示通知闭塞开关。在的第一天实验7，我们随机选择第一个块是小的还是大的。另一个奖励大小用于第二天的第一个街区。在部分试验中（20%），我们将动物从45 a.u.传送到75 a.u。。

闭环环境下的虚拟线性轨道实验

在上述主要实验中(实验1–7)场景运动与动物运动解耦，无论动物的动作如何（“开环”或巴甫洛夫式），都会提供奖励。在这个范例中，场景运动与动物的运动相结合，动物需要移动预定的距离以获得奖励（“闭环”或操作）。虚拟环境与轨迹1相同，只是轨迹的长度从150 a.u.增加到1000 a.u.。进行修改是为了防止动物在轨迹末端使用隐现的线索来估计它们的位置。

培训标准接近目标任务。

在实验装置中进行习惯化后，对小鼠进行1-2天的“跑步训练”。在本次训练中，小鼠获得3μL的水，水的间隔与它们的跑步速度成反比，下限为1.5s。在小鼠获得一致的跑步行为后（小鼠在整个训练期间处于运动状态超过30%，平均跑步速度大于5cm/s），我们以阶梯方式引入了闭环线性轨迹。在试验开始时，小鼠被放置在八个起始位置之一（0、20、30、40、50、60、70、75 a.u.；奖励位置97 a.u.）。在训练的第一天，试验从距离奖励地点最近的起始位置（上午75点）开始。下一次试验的开始位置是根据当前试验的性能概率确定的：在试验成功后，鼠标位于距离奖励位置一步远的位置，概率为0.2。在一次试验失败后，老鼠被定位在离奖励位置更近一步的地方，概率为0.5。否则，在下一次试验中，起始位置保持不变。如果动物在20秒内没有离开起始位置，或者动物在离开起始位置后40秒内没有到达目标位置，则试验被中止并标记为不成功。从训练的第二天开始，第一次试验的开始位置被设置为比前一次训练的开始位置近两步，表现稳定。通过这种概率阶梯程序，老鼠逐渐学会了始终如一地奔跑。

一旦动物在0 a.u.的起始位置获得稳定的跑步行为，我们运行一个自适应增益调整协议。该协议自适应地改变了个体的视觉增益，使得运动开始和奖赏传递之间的间隔（momotion_duration）变得类似于开环条件下的间隔（7.5 s）。每次试验，我们计算目标增益：

目标增益 = 运动_持续时间 / 7.5

并根据学习速率（α）自适应更新增益_我)在试验期间呈指数下降：

{获得}_{我 + 1} = {获得}_{我} + α_{我} * (目标 {获得}_{我} - 1)

α_{我} = 0.1 * 经验 (- 试验编号 / 70)

一旦在一个或两个会话中获得了收敛的自适应增益，该增益将被固定，以供进一步训练和实验。

一旦动物表现出稳定的表现（成功率>85%）和预期的舔食，则将小鼠记录在标准试验和试验试验中(实验1和三). 测试后，一些小鼠在实验8如下所述。

实验1和3。

我们进行了传送和暂停实验(实验1)以及速度操纵实验(实验3)在闭环虚拟现实环境中检查多巴胺信号的性质。实验操作（例如，操作试验的比例、传送和暂停中的位置动力学）与开环实验相同。

实验8（空间线索操作）。

为了研究提示接近奖励在产生多巴胺信号中的作用，我们在标准虚拟现实任务中操纵了视觉提示。我们准备了两条与原始轨迹（轨迹1）相比墙模式不同的线性轨迹。轨道3在蓝色墙壁上有一个规则的黑点图案（有图案，图7E，左下；实验8a)它消除了与线性轨迹中特定位置相关的线索，但产生了一种视觉流。轨道4由没有地板图案的实心蓝色墙壁组成，在视觉场景中没有产生光流（实心彩色，图7F，左下；实验8b). 动物被要求跑相同的距离才能在轨迹1、3和4上获得奖励。在训练和录音期间，测试曲目（曲目3或4）与标准曲目（音轨1）随机交错（25%-33%）。

带有气味提示的延迟奖励任务

在我们实验室以前的实验中，在延迟奖励任务中没有观察到多巴胺神经元活动的激增，在延迟的奖励任务中，奖励在提示后以固定的延迟传递（例如。Cohen等人，2012年;Starkweather等人，2017年). 我们试图将当前任务中多巴胺神经元的活动与之前未观察到多巴胺神经元活动激增的任务中多巴曼神经元的活动进行比较。当前实验和之前实验的一个不同之处在于时间尺度：虽然本研究中场景运动开始和奖励之间存在相对较长的时间延迟（约7秒），但之前的研究使用了相对较短的延迟（例如，2–3秒）（但请参见Fiorillo等人，2008年;小林和舒尔茨，2008年). 在对小鼠进行全面的接近目标任务训练后，对一组用于单神经元记录的小鼠进行经典条件反射（延迟奖励任务）训练，使用气味线索（13只小鼠中有6只）。我们使用了与虚拟现实实验相同的带有三个监视器的行为装置，另外还配备了定制的嗅觉仪（气味传递机器）(内田和缅因州，2003年). 计算机显示器上的绿色背景短暂闪烁（0.25秒），表示试验开始。试验开始提示开始后1.25秒，发出气味0.5秒，然后发出水奖励。不同的气味表明气味开始和奖励之间的延迟不同（气味A、气味B、气味C和气味D分别为0.6 s、1.5 s、3.75 s、9.375 s）。这里只报道了气味C和D的试验，以匹配时间刻度。针对每个气味线索调整试验间隔，使试验开始信号（闪光）之间的间隔平均在气味线索之间相似，并且在17到20秒之间。训练3到7天后，动物表现出预期的舔食。一旦我们在完全训练过线性跟踪任务和气味-奖励关联任务的小鼠身上发现了一个光识别神经元，我们首先对气味-奖励关联任务进行了70-90次试验，然后在线性跟踪中进行了一系列标准和操作实验。为了更直接地与虚拟现实任务进行比较，我们只显示了使用两种气味（气味C和D）的结果，这两种气味与线性跟踪任务具有相似的延迟。

气味与之前的研究相似(内田和缅因州，2003年). 将每种加臭剂以1/10的稀释度溶解在矿物油中。将30μl气味溶液置于玻璃纤维滤纸上。过滤后的空气通过滤纸，产生1 L/min的总流量。使用的加臭剂包括乙酸异戊酯、（+）-香芹酮、1-己醇、对-氰戊烯、丁酸乙酯、1-丁醇、柠檬烯、二甲氧基苯、己酸、4-庚酮和丁香酚。随机分配给每只老鼠一组气味剂。

移动条任务

我们使用了与线性跟踪任务中相同的三监视器显示设置。背景是灰色的。在虚拟环境中，一个黑色环形物体被用来渲染三个屏幕上的黑色条。物体（垂直厚度为2.5厘米）以恒定速度垂直移动，以表示奖励接近(视频S5).

标准任务。

屏幕顶部最初显示了一个黑色条。在一个随机的试验间隔后，条形图开始以恒定的速度（3.7 cm/s）从屏幕顶部移动到底部。当杆到达目标位置（距离屏幕顶部25厘米，杆开始移动后6.7秒）时，滴下一滴水（5μl）。在随机延迟后（与1D迷宫任务相同），棒被移回初始位置。在试验间隔期间，屏幕保持打开。

实验1移动横杆：两次传送和一次暂停任务。

在部分试验中（分别为12.5%），当杆的位置达到屏幕上两个位置之一（距离屏幕顶部10.9厘米或16.25厘米）时，杆突然向下移动6.25厘米或0.93厘米，并保持匀速移动。在另外12.5%的试验中，横杆运动暂停5.0秒，之后运动恢复。这些测试条件与标准条件随机交错。

移动条实验2：三个远程任务。

当杆的中心距离屏幕顶部达到1.56、6.9或12.18厘米时（杆运动开始后分别为0.4秒、1.37秒或2.78秒），杆的位置移动了6.6厘米（分别占总试验的12.5%）。传送条件与标准条件随机交错。

实验三：速度操纵任务。

杆的运动速度是标准状态（20%）的两倍或标准状态（2%）的一半。

动物数量和训练历史

下表中的垂直顺序表示每种动物的近似实验顺序，每种动物在“动物”列中的唯一数字表示其身份。实验中动物的数量各不相同，并非所有动物都进行了所有可能的实验，因为（1）一些实验的开发较晚（例如。实验1成立时间晚于实验2和三)，（2）一些技术问题阻碍了我们进行进一步的实验（例如，几周的实验后信号的整体衰减或无意中移除了头板等），或（3）我们故意在不同的实验中分配动物，以确保每个实验都有足够的样本量。

共有16只动物（小鼠1-16）用于主要实验（VS中的GCaMP荧光测定，实验1–三在虚拟线性轨道和移动条任务中）。16只动物中的4只（小鼠13-16）在VS和VTA中植入了光纤。

共有6只小鼠（小鼠13-15、17-19）用于VTA的GCaMP荧光测定。6只小鼠中的3只在VS中也有光纤。小鼠18和19用实验5和6（见下文）。

共有6只小鼠（20-25只小鼠）用于GFP对照实验。

共有6只小鼠（小鼠18、19、26–29）用于实验5和6用GCaMP荧光测定法对VS小鼠29进行进一步测试实验4（见下文）。

共有5只小鼠（小鼠29–31、33、34）用于实验4在VS中使用GCaMP荧光测定法。共有4只小鼠（小鼠30–33）用于实验7VS中的GCaMP荧光测定法。注意，两只小鼠（小鼠30和31）在这两种小鼠中进行了测试实验4和7.

我们使用一组8只独立的小鼠（小鼠35-42）进行闭环（操作意外）实验。

我们使用一组10只独立的小鼠（小鼠43-52）进行多巴胺传感器的实验。

我们使用4只独立的小鼠（小鼠53-56）进行狂犬病病毒实验。由于COVID19关闭，一只老鼠（老鼠53）在实验意外终止之前没有学习任务。因此，小鼠53仅用于解剖研究。小鼠54–56用于纤维荧光实验和解剖学研究。

共有13只小鼠（57–69只小鼠）用于电生理记录。其中八只小鼠（小鼠61-66、68、69）在延迟奖励任务中通过气味线索进行额外检查。10只小鼠（小鼠57–64、68、69）的记录位点被证实位于VTA中，而3只小鼠（鼠65–67）的记录部位含有SNc。我们从每只动物中收集了以下数量的神经元：2个来自小鼠57的神经元（中-横向坐标[ML]=509μm），13个来自小鼠58的神经元（ML=417μm）、1个来自小鼠59的神经元（ML=320μm，1个神经元来自小鼠63（ML=798μm），6个神经元来自鼠64（ML=846μm）、9个神经元来自老鼠65（ML=1048μm。

实验动物总结

	协议	动物	图
VS、GCaMP	轨道1，标准培训	1–16	图1 K,、L、，我,S2E公司–J型
	无上下文，实验3,2，或1	5,6,7,8,9,13,14,15,16	图S4E
	实验3（速度）	1–15	图2I–我,S3E系列,F类
	实验2（3个远程端口）	1–15	图2E–H（H）,S3C系列,天
	实验1（传送和暂停）	5–15	图2A–天,S3A系列,B类
	实验7（奖励规模操纵）	2–11	图4N–P（P）
	移动杆，标准条件	1,3,5,6,7,8,9,10,13,14,15,16	图S7K,我
	移动杆，实验3（速度）	1,3,5,6,7,8,9,13,14,15,16	图7I,S7O公司
	移动杆，实验2（3个远程端口）	3,5,6,7,8,9,13,14,15,16	图7J,S7N系列
	移动杆，实验1（传送和暂停）	5,6,7,8,9,13,14,15,16	图7K,700万美元
VTA、GCaMP	轨道1，标准培训	13–15, 17–19
	实验3（速度）	13,14,15,18,19	图6D,S6G系列
	实验2（3个远程端口）	13,14,15,17,18,19	图6C,S6F系列
	实验1（传送和暂停）	13,14,15,17,18,19	图6B,S6E系列
	移动杆，标准条件	13,14,15,17,18,19
	移动杆，实验3（速度）	13,14,15,17,18,19	图S6J
	移动杆，实验2（3个远程端口）	14,15,17,18,19	图S6I
	移动杆，实验1（传送和暂停）	14,15,17,18,19	图S6H
VS、GFP	轨道1，与GCaMP VS主要任务相同	20–25	图1M,，编号，N个,S4F系列,G公司
VS、GCaMP	轨道1，培训	18,19,26,27,28,29
	实验6（向前和向后传送）	18,19,26,27,28,29	图4K–M（M）,S4L系列
	实验5a（轨道之间的电传）	18,19,26,27,28,29	图4B–天,S4I系列
	实验5b（向前+轨道间传送）	18,19,26,27,28,29	图4E–G公司,S4J系列
VS、GCaMP	实验4（动态速度操纵）	29,30,31,33,34	图2M–P（P）,S3G系列–我
	实验7（奖励规模操纵）	30,31,32,33	图4H–J型,S4K系列
VS、GCaMP	轨道1，近距离训练	35–42
	闭环，轨道1，标准	35–42	图S7C
	闭环，实验3（速度）	35–41	图S7E,我
	闭环，实验1（传送和暂停）	35–41	图S7D,H（H）
	闭环，实验8a（场景操纵）	36–40, 42	图7E,S7F系列,J型
	闭环，实验8b（场景操纵）	36–40, 42	图7F,S7G公司,J型
VS、DA传感器	轨道1，与GCaMP VS主要任务相同	43–52	图6E–H（H）
	移动条，标准，实验3,1,2	44,45,47–52	图7O–问
VTA、GCaMP（狂犬病）	狂犬病解剖学	53–56
	轨道1，标准条件培训	54,55,56	图S5J
VTA、ephys	轨道1，标准培训	57–69
	气味任务	61–66、68、69（8/13只小鼠）	图7A–天,S7A系列,B类
	轨道1，标准培训	（65–67:SNc小鼠）	图5B–E类,S5E系列
	实验1（传送和暂停）		图5K,，P，P（P）,S5O系列
	实验3（速度），		图5L,，PP（P）
	实验7（奖励规模操纵）

在单独的窗口中打开

光纤荧光法（光度法）

如我们之前的研究所述，使用定制的纤维荧光计（光度计）系统记录大脑的荧光信号(Babayan等人，2018年;Menegas等人，2017年). 二极管泵浦固体激光器（DPSSL；80–500μW；Opto Engine LLC，UT，USA）发出的蓝光（473 nm）通过中性密度滤光片（4.0光学密度，美国新泽西州Thorlabs）衰减，并使用0.65 NA显微镜物镜（Olympus）耦合到光纤跳线（400μm，Doric Lenses）中。连接到植入光纤的接插线用于向大脑发送激发光，并收集来自大脑的荧光发射信号。使用二向色镜（T556lpxr，Chroma）将来自大脑的荧光信号与激发光进行光谱分离，通过带通滤波器（ET500/50，Chrome），聚焦到光电探测器（FDS100，Thorlabs）上，并使用电流前置放大器（SR570，Stanford Research Systems）进行放大。同时采集红色荧光团（tdTomato）的数据（带通滤波器ET605/70 nm，Chroma），但未用于进一步分析。来自前置放大器的电压信号通过1kHz的数据采集板（PCI-e6321，National Instruments）进行数字化，并使用LabVIEW（National Inst鲁ments）编写的自定义软件存储在计算机中。

使用在多巴胺神经元中表达GFP的小鼠检测运动伪影。我们在DAT-Cre小鼠的VTA和SNc中注射AAV5-FLEX-GFP，并以与GCaMP动物相同的方式收集行为和荧光信号。原始电压轨迹与GCaMP有质的不同，在相同的放大器配置下没有明显的波动。虽然动物学习任务和获得的行为与GCaMP动物相似，但我们没有观察到暴跳如雷。我们既没有观察到对远程传送的阶段性反应，也没有观察到测试条件之间的任何显著差异。

电生理学

我们基于以前的研究记录技术(Cohen等人，2012年;Kvitsiani等人，2013年;利马等人，2009年). 我们使用定制的螺杆驱动VTA进行细胞外记录，该螺杆驱动包含八个四极杆，它们粘在200μm的光纤上（ThorLabs）。将Tetrodes（佛罗里达州棕榈海岸Sandvik）粘在纤维上，并将其夹住，使其尖端从纤维末端延伸200-500μm。我们使用带有Intan前端的Open Ephys记录系统（RHD2132，Intan技术）记录神经信号。以30 kHz的频率连续记录每条导线的宽带信号。为了提取尖峰时间，信号在300-6000 Hz之间进行带通滤波，并使用MClust-4.3（A.D.Redish）离线排序。要纳入数据集，必须很好地隔离一个神经元（衡量单元隔离质量，L比率<0.05）(Schmitzer-Torbert和Redish，2004年). 我们还通过使用10–15秒30μA直流电造成电解损伤来验证记录部位。

为了明确识别多巴胺神经元，我们使用ChR2观察激光触发的棘波(Cohen等人，2012年;利马等人，2009年). 光纤与具有模拟振幅调制的二极管泵浦固态激光器耦合（Laserglow Technologies）。在每一次录音的开始和结束时，我们发送了10列473 nm的光脉冲，每列5 ms长，频率为1、5、10、20和50 Hz，强度为5–20 mW/mm²在光纤的尖端。要纳入我们的数据集，神经元必须满足三个标准。（i）神经元的尖峰时间必须受到光脉冲的显著调制。我们用刺激相关电位潜伏期测试（SALT）对此进行了测试(Kvitsiani等人，2013年). 我们使用了一个显著值P（P）<0.05，激光照射后时间窗为10ms。（ii）激光诱发的棘波必须与自发棘波几乎相同。这确保了光诱发的尖峰反射实际的尖峰，而不是光化学伪影。（iii）神经元在激光脉冲后必须具有较短的尖峰潜伏期，并且尖峰潜伏期几乎没有抖动。事后组织学分析表明，侧柱记录穿透了SNc。因此，我们将这些记录排除在主要分析之外。我们的大多数分析都基于VTA中记录的所有剩余多巴胺神经元（ML位置<900μm，102个神经元，除了图5D).

组织学

用磷酸盐缓冲盐水（PBS）灌流小鼠，然后用4%多聚甲醛灌流PBS。用振动棒（徕卡）在100μm冠状切片上切割大脑。脑切片装载在玻璃载玻片上，并用4′，6-二氨基-2-苯基吲哚（DAPI，Vectashield）染色。使用标准小鼠脑图谱确定纤维和四极杆尖端的位置(Franklin和Paxinos，2008年).

量化和统计分析

理论背景

定义。

在强化学习理论中(萨顿，1988年)，给定状态的值被定义为所有未来奖励的总和，其中奖励按固定比率折扣(γ，贴现系数，0<γ≤1）单位时间：

V（V） ({S公司}_{吨}) = {第页}_{吨} + γ {第页}_{吨 + 1} + γ^{2} {第页}_{吨 + 2} + γ^{三} {第页}_{吨 + 三} + \dots,

(1)

在哪里？第页_吨是当时的奖励吨,S公司_吨是当时的状态吗吨、和V（V）(S公司_吨)是状态的值S公司_吨.在状态转换和奖励遵循马尔可夫过程的假设下，方程式（1）可以重写为：

V（V） ({S公司}_{吨}) = {第页}_{吨} + γ \cdot V（V） ({S公司}_{吨 + 1}),

(2)

这就是所谓的贝尔曼方程(贝尔曼，1954年). 代理接近真实值V（V）(S公司_吨)有一个经过学习的估计 $\hat{V（V）} ({S公司}_{吨})$ ，因此如果真值被完全学习，即。， $\hat{V（V）} ({S公司}_{吨}) = V（V） ({S公司}_{吨})$ ，然后

\hat{V（V）} ({S公司}_{吨}) = {第页}_{吨} + γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) .

(3)

然而，在代理了解真实值之前方程式（3）平均不会相等。这两个术语之间的差异表示值预测中的误差，因此定义了时间差异奖励预测误差（TD RPE，或δ):

δ_{吨} = {第页}_{吨} + γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨}) .

(4)

根据该定义，TD RPE包含在连续时间点评估的状态估计值之间的差异， $γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨})$ .何时γ=1，该项正好是估计值函数的时间导数。什么时候？γ不是1但很接近，这个术语是大约估计值的导数。因此，TD RPE大约是估计价值加上收到的奖励的衍生物(第页_吨)(格什曼，2014). 由于该特性，值的意外增加和减少分别导致TD RPE中的正瞬态和负瞬态（“相位”）变化。

TD RPE，定义如下方程式（4）解释了简单经典条件反射范式中多巴胺反应的三个特征(Schultz等人，1997年):

多巴胺神经元被预测未来奖赏的线索所兴奋。在TD模型中，之所以会出现这种情况，是因为奖赏提示表明提示时的值大于最初的预期值（即动物现在期望奖赏即将到来）。
当一个预测的奖励被忽略时，多巴胺神经元会暂时将其放电降低到基线以下。在TD模型中，这是因为忽略奖励时的价值现在低于最初的预期。
未经预测的奖励会刺激多巴胺神经元。然而，当一个线索预测到奖赏的传递时，多巴胺神经元对预测奖赏的反应会大大降低。在TD模型中，这是因为由于收到奖励而产生的激励被2中的负面响应抵消了。

斜坡条件。

考虑一次只提供一个奖励的试验T型。然后在收到奖励之前(吨<T型)，TD RPE很简单

δ_{吨} = γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨}) .

(5)

价值必须如何随时间变化才能产生渐变TD RPE？我们可以通过写出TD RPE单调增加的充分必要条件来研究这个问题，即。，

δ_{吨 + 1} > δ_{吨}

(6)

为所有人吨<T型.扩展不平等（6）,

γ \cdot \hat{V（V）} ({S公司}_{吨 + 2}) - \hat{V（V）} ({S公司}_{吨 + 1}) > γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨}),

(7)

可以改写为

(1 - \frac{1}{γ}) (\hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨})) + (\hat{V（V）} ({S公司}_{吨 + 2}) - 2 \cdot \hat{V（V）} ({S公司}_{吨 + 1}) + \hat{V（V）} ({S公司}_{吨})) > 0

(8)

左边的第一个术语不平等（8）对应于估计值的时间导数，按负常数缩放，而第二项对应于估计价值的二阶导数(Mikhael等人，2019年).

不平等（8）表示渐变TD RPE的条件。注意，当接近1时，第一项接近于零。因此，条件大致是二阶导数必须大于零，这是所有凸函数都满足的一个性质。然而，确切的条件更具限制性：因为值随时间增加，所以第一项为负。因此，为了满足条件，第二项必须足够积极，以超过第一项的消极影响。粗略地说，值函数必须“足够凸”以满足斜坡条件。

有关插图，请参见图S1A我们展示了对应于许多不同值函数的TD-RPE。很容易看出，顶部面板中以绿色绘制的值函数满足评估域的渐变条件，而以红色绘制的值功能则不满足。如底部面板所示，只有满足斜坡条件的值函数(不平等（8）)产生快速增长的TD RPE。

速度操纵模拟。

我们将状态对应于位置，并假设值函数与状态（即。， $\hat{V（V）} (S公司) ~ {S公司}^{2}$ ). 该值函数符合斜坡条件(图S1A，绿色曲线）。我们展示了图S1B当绘制随时间变化的曲线时，变速状态的进展如何导致凸度（和一阶导数）变化的值函数。应用方程式（4）到这些值的函数会导致TD RPE出现斜坡，并且其大小会随着速度的增加而增加。

定量分析

误差条和阴影表示平均值±标准偏差，除非另有说明。显著性水平0.05用于确定显著性差异。除非另有说明，大多数统计分析均采用非参数检验，即Wilcoxon符号秩检验。

荧光测定法（光度法）。

通过陷波滤波器（MATLAB，Natick，MA）去除原始电压信号中的电源线噪声。电压信号的基线由使用2分钟窗口的最低10%的信号来定义。从原始信号中减去基线值，然后根据整个会话的平均值和标准偏差对结果进行z评分(图S2A–C类). 用于绘制平均多巴胺反应实验7使用光纤荧光测定法，减去试验开始前1-0s的荧光水平。GCaMP信号和多巴胺传感器信号的处理方式相同。

舔和移动。

Lick定时被定义为输出信号在阈值以上的偏转点（峰值）。为了绘制舔的时间进程，使用200 ms的窗口，通过移动平均值计算瞬时舔率。

我们使用以下时间窗口量化舔食率。冲动舔：从视觉场景运动开始到奖励前2秒；预期舔食：相对于奖励[-1秒0秒]；奖励后舔：相对于奖励[0s 2 s]。相同的时间窗口用于量化速度。净预期盈利和预期放缓的定义如下：

净预期舔舐 = 预期舔食率 - 脉冲舔食率

预期放缓 = 脉冲速度 - 预期速度

多巴胺渐变（渐变R）。

我们使用标准条件下的试验来量化荧光信号的斜坡。我们使用单独试验或平均反应计算时间点和z评分荧光信号之间的皮尔逊相关系数。对于线性跟踪任务，对于光纤荧光测量数据，我们使用相对于奖励开始的时间窗口[−3.5 s−1s]，对于峰值数据，使用[−5 s−1 s]。我们使用了一个较小的荧光测定窗口，因为对刺激或运动的缓慢延迟反应常常会使斜率偏移。对于移动条任务，我们使用相对于奖励开始的时间窗口[-4.5 s−1 s]。

会话平均时间进程。

个体试验中的舔舔、运动速度和z评分多巴胺反应通过外部事件（例如试验开始或传送开始）进行校准，然后使用移动平均法进行平滑。我们使用200毫秒的时间窗口来舔和刺信号。我们没有平滑运动速度和荧光信号。然后对每个实验条件下的试验结果进行平均，以生成会话平均时间过程。

人口平均时间进程。

对于荧光测量记录实验，我们通常为每个实验方案运行两个会话。因为我们也没有观察到斜坡上的显著差异R（右）或测试R（右）（参见下文定义)在钙数据的第一次和第二次会话之间，我们使用第二次会话绘制群体平均时间进程并进行统计分析。我们从第二个会话数据集中计算会话平均时间进程的平均值（作为所有会话平均值的平均值）以及每个实验条件的标准误差（会话总数为样本大小）。人群平均时间进程用于总结行为和多巴胺反应。我们使用多巴胺传感器数据绘制人群PSTH。

使用归一化峰值总结响应。

分别使用相对于远程传输和暂停开始的时间窗口[0.6 s–2.1 s]和[2 s–5 s]，通过会话平均时间过程峰值来量化对远程传输和停顿的响应。使用从试验开始到奖励开始的时间窗口，通过标准条件中的峰值对试验条件中的峰进行标准化(图2D，左，左，2H，2小时，左）。

基于状态值模型的剩余响应。

在远程传送条件下，在远程传送前后保持前向场景运动。因此，对远程传送的相位响应可能会受到斜坡的污染。为了进行更准确的模型比较，我们基于状态值预测生成了模型响应(图S4A–天). 例如，如果多巴胺信号代表RPE，则预测偏差将受到以下条件的系统调节：远距离传输的大正偏差，短距离传输的小正偏差，以及暂停试验的负偏差。该过程从标准条件下的会话平均时间过程开始。模型响应在时间上移动了因传送而缩短的量（长传送为2.2秒，短传送为0.25秒）或因暂停而延长的量（5秒）。为了解释GCaMP信号中的神经潜伏期，结果进一步延迟了0.3秒。然后将剩余响应定义为从经验响应中减去模型响应。偏离值模型被定义为分别使用时间窗[0.6 s–2.1 s]和[2 s–5 s]相对于传送和暂停开始的平均剩余响应(图2D，对，右侧2H，2小时，右侧）。从平均剩余反应中减去每个试验的基线活动，该基线活动由试验开始时使用时间窗口[-1 s–0 s]的平均反应定义。

总结响应的变化（ΔF/F差异）。

量化体内钙离子转运时的反应变化实验5c(图4J)和实验6(图4M)，我们首先使用每个会话的前传送窗口（相对于传送的−0.2 s和0 s）和后传送窗口（相对传送的0.6 s和2.1 s）计算平均响应。然后，我们使用第一个窗口从第二个窗口的响应中减去响应。

总结单个单元数据的响应。

对于单个试验，通过分别使用与感兴趣事件相关的时间窗[0.05s–0.45s]、[0.1s–0.5s]、+0.1s–0.5 s]平均响应来量化对奖励、传送和暂停的响应。基线反应由使用相对于试验开始的时间窗口[-1 s–0 s]的平均反应定义。从兴趣反应中减去基线反应，以获得事件的净调节。

根据峰值数据估计GCaMP信号。

我们推断，关键差异可能在于尖峰信号和钙信号之间的不同动力学。也就是说，由于钙的动力学和钙指示物的动力学（GCaMP6m）较慢，单个峰值会导致钙的秒-时间尺度增加。为了验证我们的假设，我们根据记录实验中获得的尖峰活性和GCaMP6m对单个尖峰的脉冲响应生成了预测的钙信号(图S5P). 我们根据单个突触和GCaMP反应之间的关系估计单个神经元的GCaMP响应(Chen等人，2013b). 我们用GCaMP内核卷积了整个会话中的spike序列(图S5P)从单个神经元活动中获得估计的GCaMP信号(图5F). 通过纤维荧光测定法测得的GCaMP信号可以近似于神经元间汇集的钙信号。为了估计单个试验的荧光测定反应，我们在相同的实验条件下随机选择卷积反应的单个试验，并根据感兴趣的事件进行校准，并总结神经元的卷积反应。我们在多次试验中重复了这一点（n=100图5F; n=200图5K–我)生成预测的GCaMP响应。

然后将结果转换为z评分。对于图5Fz评分反应是对每个亚组神经元的基线评分。应该注意的是，转换为z分数有效地丢弃了关于基线发射的信息。这也是斜坡信号相对于基线可能被夸大的部分原因。我们注意到荧光测定信号的量化通常基于基线的相对变化，基线定义为特定时间窗口内的荧光水平。该方法还丢弃了关于基线活动水平的信息，并可能夸大本研究中观察到的斜坡信号。

总结测试条件下的响应（测试R）。

使用Spearman相关性对每个疗程的不同条件下与价值模型的系统偏差进行量化。对于实验1（远程传输和暂停），为每个条件分配数字，以量化测试条件与基于值模型的剩余响应之间的逐次试验相关性（长远程传输=1；短远程传输=2；暂停=3）。显著的负相关表明，在长距离传输中，剩余响应较大，在短距离传输中为中等，在暂停状态下最小。α=0.05用于确定试验Rs的显著性实验2（三次远程传送），我们计算了位置和剩余响应之间的Spearman相关性。正相关表明，对远程传送的反应随着接近奖励位置而增加。对于实验3，我们计算了从试验开始到奖励开始的速度条件和基线校正（使用试验开始的时间窗口[-1 s–0 s]）平均反应之间的Spearman相关性。分配的数字表明，正相关表明响应随着场景速度的增加而增加（慢速=1；标准速度=2；快速=3）。除了在单个疗程中测试逐试验相关性的重要性外，我们还进一步测试了测试的中位数R（右）使用Wilcoxon符号秩检验，动物之间的s与零有显著差异。

统计分析。

我们在单次治疗和人群水平上进行了统计分析。对于个体会话分析，使用锁定到外部事件（例如奖励开始）的时间窗口量化个体试验的平均反应。使用非参数检验（例如，威尔科森符号秩检验）来测试反应是否显著大于或小于参考值（例如，零）。有显著差异的数据集用一个实心圆圈标记。对于群体水平分析，使用Wilcoxon符号秩检验，将单个会话的平均响应用于条件之间的比较或与参考值（例如，零或一）的比较。条件之间的显著差异由连接两个条件的水平线上的实心圆圈表示。在每种情况的顶部使用p值或星号标记与基线的显著差异。我们对所有统计检验都使用了双尾检验。

跨段斜坡R分析。

我们研究了任务相关行为是否以及在多大程度上可以解释Ramping的可变性R（右）跨会话。对于每节课，我们量化了平均增长率R（右）净预期收益率和运行速度。我们研究了舔舔速度或跑步速度是否可以解释斜坡的变异性R（右）使用协方差分析（ANCOVA）。在分析中，斜坡R（右）因变量为，舔食率或奔跑速度均为协变量，动物身份为分类自变量。

试验-试验回归分析实验3.

我们研究了如何通过视觉场景速度、运动速度和多元线性回归的全球趋势来解释接近过程中平均多巴胺反应的试验间变异(图2L，右侧）。

响应 = β_{0} + β_{维斯} {V（V）}_{维斯} + β_{本地} {V（V）}_{本地} + β_{试验} {试验}_{数} + ε

模型拟合

模型拟合数据和核的预处理。

对于荧光测定数据，z评分多巴胺信号和其他行为信号（存储在1kHz）被降采样至100Hz，然后通过试验开始对每个条件进行平均。我们首先独立安装各个会话(图3C). 对于组合数据集(图3D，'所有条件'；图3E–H（H）)，我们连接了不同实验的数据。这使我们能够使用一组参数拟合同一动物的数据。数据来自实验4因为数据是用不同的动物收集的，所以没有合并(图S4H). 由于动物数量不多，因此将数据包含在组合数据集中(实验1–三)只要动物至少有一个操纵实验。我们获得了GCaMP的内核(F类)通过平均GCaMP在训练的最后一天对意外奖励的反应(图S5P). 当我们使用单尖峰响应滤波器时，结果类似(Chen等人，2013b)用于预测钙反应(图5E).

对于峰值数据，对每个神经元进行了响应拟合。我们使用了同时具有这两种功能的神经元实验1和实验3（n=78个神经元）。由于多巴胺神经元的放电频率较低（约5个峰/秒），使用100ms窗口时，放电频率的时间进程通常很嘈杂，导致低R²。我们使用250毫秒的窗口进一步平滑了它。将实验结果串联起来，然后进行z评分。Z评分使我们能够对几乎所有模型参数使用与拟合荧光测量数据相同的边界条件。对于内核过滤器(F类)，我们使用了对意外奖励的平均响应(图S5P).

模型拟合程序。

用于状态值和RPE模型之间的定量比较(图3)，我们检查了哪种模型更适合每只动物的平均钙信号。在这项分析中，我们将重点放在奖励前的时期，在这个时期观察到了多巴胺信号的上升。我们首先定义了跨空间的值函数的形状。然后，我们预测了每种实验条件下的数值或TD RPE信号的时间进程。然后，我们将预测值或TD RPE转换为钙信号或心率，并将这些预测与数据中的平均反应进行比较。

当时的TD RPE吨(δ_吨)定义如下：

δ_{吨} = γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨})

哪里S公司_吨是当时的状态吗吨, $\hat{V（V）} ({S公司}_{吨})$ 是状态的估计值S公司_吨、和γ是贴现系数（0<γ≤ 1). 请注意，此公式不包括奖励交付时间。为了适应线性跟踪任务中的响应，我们将线性跟踪的位置用作S公司_吨; 也就是说，状态值被定义为位置的值。为了适应移动条任务中的响应，我们使用条的垂直位置作为S公司_吨.

随着动物接近目标位置，状态值预计会增加。为了使TD信号为正值并向上倾斜，值函数必须沿着动物穿过的相关尺寸呈凸形（参见方法,理论背景). 由于状态值的确切形状是未知的，我们研究了值函数的几种形状。我们的第一个模型将价值函数的形状定义为具有贴现因子的跨空间指数衰减函数τ.

\hat{V（V）} ({S公司}_{吨}) = β_{1} \cdot τ^{({S公司}_{T型} - {S公司}_{吨})}

哪里β₁是表示目标位置值的系数，而S公司_T型是目标（target）的位置，因此，S公司_T型−S公司_吨对应于从当前位置到目标的距离。请注意，折现系数τ不必与贴现因子相同γTD误差的定义。

我们还使用时间-回报模型（Δt-回报）拟合了测量数据。在该模型中，价值函数是根据获得奖励的估计时间计算的。估计是通过将要奖励的距离除以瞬时速度（通过100 ms窗口平滑）来完成的。

\hat{V（V）} ({S公司}_{吨}) = β_{1} \cdot γ^{(Δ 吨)}

式中Δt=(S公司_T型−S公司_吨)/五_吨。请注意，此模型产生了一些其他价值模型没有的功能。例如，当动物暂停时实验1，Δt变为无穷大，此时的值变为零。当动物被传送到更近的位置时，瞬时速度突然增加，这导致价值的瞬时增加。虽然模型预测实验1以某种方式模拟TD模型中的响应实验3与其他价值模型类似，不随速度增加。

我们模型中的潜在变量（值和TD RPE）是基于在100 Hz下采样的瞬时位置计算的。由于感知延迟以及信号背后的内在生物机制（例如动作电位动力学或细胞内钙），测量的神经信号的动力学比我们模型中的潜在变量的动力学慢。为了解释时间动态的差异，用核滤波器卷积预测值或TD RPE(F类)以反映测量信号的动力学。根据经验脉冲函数估计滤波器，以响应上述未治愈的奖励。对于TD RPE模型，钙信号年_吨通过卷积预测δ_吨使用内核过滤器和偏移项。

年_{吨} = (β_{0} + δ_{吨}) * F类 + ε_{吨}

哪里ε_吨表示高斯分布随机误差。对于值模型，通过卷积预测钙信号 $\hat{V（V）} ({S公司}_{吨})$ 使用内核过滤器。

年_{吨} = (β_{0} + \hat{V（V）} ({S公司}_{吨})) * F类 + ε_{吨}

我们还使用RPE值混合模型拟合了测量数据。该模型是RPE和价值项的加权线性总和。RPE模型的系数反映了当两个模型都用于解释数据时RPE的相对贡献。

年_{吨} = (β_{o个} + α Z轴 (δ_{吨}) + (1 - α) Z轴 (\hat{V（V）} ({S公司}_{吨}))) * F类 + ε_{吨}

其中Z（x）表示Z评分。我们注意到，有时最佳拟合结果包括δ_吨和 $\hat{V（V）} ({S公司}_{吨})$ 无法解释的（例如，积极的 $\hat{V（V）} ({S公司}_{吨})$ 和负片δ_吨其锰含量远大于测量信号）。为了避免这种情况，我们对δ_吨通过调整成本函数。如果卷积的范围 $\hat{V（V）} ({S公司}_{吨})$ 在标准条件下 $(我_{\hat{V（V）}})$ 大于测量信号范围的两倍(我)，残差平方和（SSR）增加了一个乘数，如下所示。这一限制使得每个成分都合理，但对滤光片的质量没有明显影响（荧光测定数据的r平方平均减少0.06%，峰值数据的r方差平均减少0.03%）。

调整后的SSR = 固态继电器 * \frac{我_{\hat{V（V）}}}{我} * 100, 如果 我_{\hat{V（V）}} > 我

最后，我们使用一个模型来拟合测量数据，在该模型中，模型本身的导数性质可以连续变化，从零阶导数（相当于价值模型）到二阶导数（具有一阶导数的模型近似于RPE模型）。分数导数可以定义为将具有整数的微分学扩展到非整数。

我们使用了MATLAB函数fgl衍生使用Grünwald-Letnikov公式计算分数导数(波德鲁布尼，1998年).

年_{吨} = (β_{o个} + fgl衍生 (\hat{V（V）} ({S公司}_{吨}), α) * F类 + ε_{吨}

通过最小化从场景移动开始到奖励传递前0.5秒的时间窗口中的残差平方和（SSR）来进行模型拟合。为了找到在数值上最小化SSR的参数，我们使用了一个带约束的非线性函数求解器（fminco，MATLAB）。示例起点（p0）、下限（LB）和上限（UB）的集合如下：

TD模型，指数 $(γ, τ, β_{1}, β_{0}) : \hat{V（V）} ({S公司}_{吨}) = β_{1} \cdot τ^{({S公司}_{T型} - {S公司}_{吨})}$ , $δ_{吨} = γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨})$
p0=[0.96 0.96 25 0]；LB=[0.8 0.8 1−2]；UB=[1 1 150 2]；
价值模型，指数 $(τ, β_{1}, β_{0}) : \hat{V（V）} ({S公司}_{吨}) = β_{1} \cdot τ^{({S公司}_{T型} - {S公司}_{吨})}$
p0=[0.96 0.60]；LB=[0.8 0−2]；UB=[1 10 2]；
价值模型，时间回报(τ,β₁,β₀)
p0=[0.5 0.60]；LB=[0.1 0−2]；UB=[1 10 2]；
TD-值混合模型，指数 $(γ, τ, β_{1}, β_{0}, α) : \hat{V（V）} ({S公司}_{吨}) = β_{1} \cdot τ^{({S公司}_{T型} - {S公司}_{吨})}$
p0=[0.96 0.96 25 0 0.5]；磅=[0.8 0.8 0.005−2 0]；UB=[1 1 500 2 1]；
指数分数导数模型(τ,β₁,β₀,α),
p0=[0.95 0.6 0 0.5]；LB=[0.8 0−2 0]；UB=[1 200 2 2]；

参数搜索的起点要么是示例起点（p0），要么是从上下限之间的均匀分布中随机抽取的。求解器重复250次（分数导数重复50次），并选择SSR最小的参数。

经验值函数可能偏离简单的数学形式（例如指数）。为了建模更一般的值函数形状，我们还使用了五阶多项式回归。

\hat{V（V）} ({S公司}_{吨}) = \sum_{k个 = 0}^{5} β_{k个} {S公司}_{吨}^{k个}

δ_{吨} = γ \cdot \hat{V（V）} ({S公司}_{吨 + 1}) - \hat{V（V）} ({S公司}_{吨}) = \sum_{k个 = 0}^{5} β_{k个} (γ {S公司}_{吨 + 1}^{k个} - {S公司}_{吨}^{k个})

年_{吨} = \hat{V（V）} ({S公司}_{吨}) * F类 + ε = \sum_{k个 = 0}^{5} β_{k个} ({S公司}_{吨}^{k个} * F类) + ε

年_{吨} = δ_{吨} * F类 + ε = \sum_{k个 = 0}^{5} β_{k个} ((γ {S公司}_{吨 + 1}^{k个} - {S公司}_{吨}^{k个}) * F类) + ε

价值模型的系数可以确定地找到。对于TD模型，我们使用一系列γ以0.0005为步长从0.97到1的值，并使用γ最大值R（右）².

由于多项式回归允许值函数随着动物的接近而减小，我们进一步使用了一种约束线性最小二乘法（MATLAB中的‘sqlin’函数）使值函数单调增加。V（s+1）−V（s）>0，s=0，2，3，…94。对于TD模型，在一组值上计算SSR，并像我们为回归模型所做的那样选择最佳参数。

为了比较模型之间的拟合优度，Akaike信息准则（AIC）(Akaike，1973年)已使用。

AIC公司 = N个 \times 自然对数 (\frac{固态继电器}{N个}) + 2 K（K）

哪里N个是数据点的数量，SSR是残差的平方和，K（K）是可用参数的数量。AIC是使用从场景移动开始到奖励发放前0.5秒的时间窗口计算的。计算多项式拟合的AIC时，参数的数量(K（K）)增加了一个以补偿对γ为了进行比较，我们计算了目标模型和参考模型（ΔAIC公司=AIC公司_目标−AIC公司_裁判). 正值表明，考虑到参数数量，参考模型比目标模型更好地解释了数据。

采用排列检验检验R平方和AIC差异的显著性。使用1s箱对数据进行随机洗牌，并执行相同的拟合程序以找到最佳拟合。我们重复了1000次，以获得最佳影片的发行。为了测试R平方的显著性，P值被定义为洗牌后R平方的比例大于实际（未洗牌）数据的R平方。为了检验AIC差异的显著性，通过从感兴趣模型的AIC中减去指数TD模型的AIC来获得混洗AIC差异的分布。P值被定义为洗牌AIC差异的分数，其值比经验AIC差异更极端。α=0.05用于确定显著性。分数导数模型被省略用于显著性测试，因为分数导数计算比其他配件长几个数量级，因此无法进行置换测试。

我们使用单调递增约束的多项式基函数，根据拟合中的最佳拟合参数重建值函数的形状(图3F;图5F). 我们首先在标准条件下生成位置的时间过程，并基于每个时间点的位置计算值函数。结果通过每只动物（荧光法）或神经元（棘波）的峰值进行标准化。根据重建值函数和最佳伽马计算RPE信号。结果是所有动物的平均值(图3F，右，深绿色）或神经元(图5R，右，深绿色）。GCaMP过滤器(图S5P，绿色）与RPE信号进行卷积，并对所有动物的结果进行平均(图3F，绿色）或神经元(图5F，绿色）。为了平滑显示预测信号，GCaMP滤波器的长尾部分(图S5P，绿色；4s至5s）乘以线性函数，y=（5–x）。

关于拟合值函数形状的注释

首先，RPE模型包含初始瞬态响应，对应于试验启动时数值的逐步增加(图3F，右侧）。这些反应类似于多巴胺神经元对预测奖励或试验开始信号的线索的反应(Bromberg-Martin等人，2010年;Schultz等人，1997年). 其次，得到的值函数表明，值函数的凸性减小，更接近目标(图3F，左），这导致TD错误减少（尽管它仍然是正的），以及奖赏传递前的相应钙信号(图3F，右侧）。在之前的研究中，观察到了价值函数的类似变化以及奖励前多巴胺信号的轻微减少，这表明状态不确定性在产生这些变化中的重要性(Cohen等人，2012年;Starkweather等人，2017年).

关键资源表

试剂或资源	来源	标识符
抗体

细菌和病毒菌株
AAV5-CAG-FLEX-jGCaMP6m-WPRE-SV40型	UPenn矢量核	不适用
AAV9-hSyn-DA2m型	Vigene生物科学	不适用
AAV5-EF1a-DIO-hChR2（H134R）-EYFP	UNC矢量核心	不适用


化学品、肽和重组蛋白质

关键商业分析


存放的数据

实验模型：生物体/菌株
鼠标：B6.SJL-Slc6a3^{tm1.1（cre）Bkmn}/J型	杰克逊实验室	杰克斯#006660
小鼠：B6.Cg-Gt（ROSA）^{26号分拣9（CAG-td番茄）Hze}/J型	杰克逊实验室	杰克斯#007909
鼠标：。C57BL/6焦耳	杰克逊实验室	邮编：000664


软件和算法
VirMEn（虚拟现实MATLAB引擎）	德米特里·阿罗诺夫	https://pni.princeton.edu/pni-software-tools/virmen
MATLAB（2018b用于分析，2011b用于VirMEn）	迈斯沃克	http://www.mathworks.com
MClust软件（4.3.02版）	A.大卫·雷迪什	http://redislab.neuroscience.um.edu/Mlust/MClust.html
打开Ephys GUI	打开Ephys	https://open-ephys.org/gui

其他
Isosol（异氟烷，USP）	Vedco公司	不适用
酮洛芬（用于镇痛）	帕特森兽医	货号07-803-7389
丁丙诺啡	帕特森兽医	分类号07-850-2280
LRS-0473 DPSS激光系统	激光辉光技术	分类号R471003FX
Sandvik Kanthal HP Reid精密四极杆线材	山特维克	猫#PF000591型
单光纤插管	多立克镜片	MFC_200/245–0.53_5毫米MF1.25_FLT
32通道放大器板	Intan技术公司	RHD2132型
打开Ephys收购委员会	打开Ephys	https://openephys.org/acq-board网站

在单独的窗口中打开

集锦

时间差（TD）误差是机器学习中一个强大的教学信号
远程传输和速度控制用于表征小鼠的多巴胺信号
缓慢爬升和阶段性多巴胺反应传递TD错误
多巴胺神经元逐时刻计算TD误差或数值变化

补充材料

1

图S1。值函数与TD RPE信号之间的关系，与 图1. (A类)TD RPE方程(δ)在奖励地点之前(x₀= 100). ${\hat{V（V）}}_{x}$ ，状态估计值x.年，贴现系数（0<γ≤ 1). (B类)TD RPE可以上升或下降的条件。（顶部）价值函数。（底部）TD RPE。图中显示了五种不同形式的值函数以及根据（A）中的等式得出的TD RPE。以绿色绘制的值函数满足评估域上的渐变条件，而以红色绘制的值功能则不满足。注意，当价值被贴现因子贴现时γ，TD RPE为零（深棕色）。相反，当该值变为足够凸由于单独的空间折扣因素τ(τ<γ)TD TPE可以加速（浅绿色）。我们在这里设置γ=0.99，以及τ= 0.98. 请参见方法,理论背景. (C类)速度和TD RPE之间的关系。当更快地遍历状态时，值函数的凸性将随着时间的变化而增强。因此，TD RPE在更快的条件下表现出更大的斜坡。黑色虚线表示快速、中等和慢速条件下的试验结束。这里，我们设置γ=0.99，轨道长度为20，速度为2、1和0.5，分别适用于快速（黄色）、中等（黑色）和慢速（红色）条件。

值为二次型，峰值标准化为一，即。， $\hat{V（V）} (x) = {(\frac{x}{20})}^{2}$

单击此处查看。^{（232K，pdf格式）}

2

图S2。荧光测量信号处理和示例培训课程，与 图1. (A类)连接到光电二极管（蓝色）的电流放大器的原始电压输出。慢漂移（红色）由使用2分钟移动窗口的最低10%的信号定义。漂移修正信号(B类)通过从原始信号（A，蓝色）中减去缓慢漂移基线（A，红色）来定义。(C类)从漂移校正信号中减去会话范围的平均值，然后将结果除以会话范围的标准偏差，以计算z评分荧光信号。(天)从多巴胺神经元中表达GFP的对照动物收集的原始信号。来自与（A）相同放大器增益的信号非常平滑，没有波动，这证实了在我们的头部固定设置中，运动伪影可以忽略不计。(E类)培训第1天收集的数据。（顶部）光栅图，显示按场景移动开始对齐的舔事件。使用0.2秒的时间窗口对试验中的舔舔事件进行平均。（中间）瞬时速度采用彩色编码，并对试验进行平均。（下图）Z评分多巴胺轴突信号是彩色编码的，并在整个试验中取平均值。(F类,G公司,H（H）). 分别在第2天、第3天和第4天（该动物训练的最后一天）收集的数据。格式化为(E类). (我)训练课程最后一天任务期间的平均跑步速度总结（n=16只小鼠）。(J型)z-评分GCaMP信号的时间进程，来自表现出慢速或不跑步的动物（左侧，n=5只小鼠；跑步速度<=5cm/s）和表现出快速跑步的动物的时间进程（右侧，n=11只小鼠；奔跑速度>5cm/s的）。中间带斜坡R（右）两组间s无显著差异（p=0.27，n=5和11，Wilcoxon秩和检验）。

单击此处查看。^{（6.1M，pdf格式）}

三

图S3。钙记录时段和人群平均值示例 实验1,2,三、和4,与相关 图2. (A类)的示例会话实验1（传送和暂停实验）。（顶部）每个条件下的事件时间进程（黑色S：标准；红色L：长传送；橙色S：短传送；黄色P：暂停）in实验1（中）示例会话中的Z评分多巴胺轴突信号。试验按条件排序；远程传送（L，红色）、短距离传送（S，橙色）、暂停（P，黄色）和标准状态（S，黑色）。（底部）每个条件下的试验平均反应。(B类)动物平均舔（顶行）、运动速度（中行）和多巴胺轴突信号（底行）的时间进程(n个=11只小鼠）。传送响应由场景移动开始（左栏）或奖励开始（中栏）对齐。注意，当反应与奖励开始一致时，预期舔和运动减慢重叠，这表明动物的食欲行为是基于它们在虚拟空间中的位置，而不仅仅是基于经过的时间。（右栏）暂停条件下的响应与场景移动开始对齐。(C类)的示例会话实验2（三电信实验）。在距离起始位置较短（红色）、中间（橙色）或较长（黄色）的距离处，通过传送对试验进行排序。黑色表示标准状态。(天)平均舔、运动速度和多巴胺轴突信号（n=11只小鼠）。标记了远程端口（实线）和供水（虚线）。(E类)的示例会话实验3（速度操纵实验）。试验按场景移动速度排序（×0.5：红色，×1：黑色，×2：黄色）。(F类)种群-舔、运动速度和多巴胺轴突信号的平均值（n=15只小鼠）。(G公司)的示例会话实验4。试验按速度剖面排序。(H（H）)平均舔、运动速度和多巴胺活性（n=5只小鼠）。(我)每种情况下的速度时间进程。

单击此处查看。^{（7.9M，pdf格式）}

4

图S4。剩余响应和控制条件数据的量化，与 图3和和4。4. (A–D)使用以下示例计算价值模型剩余响应的分步程序实验2（T2和T3试验）。(A类)在标准条件（黑色）下的平均响应用于预测实验条件下的值信号，假设值是位置的函数(x). (B类)传送的开始和结束位置被转换为标准条件下的时间点（黑线）。通过拼接获得预测值信号(C类)传送定时之前和之后的段（分别在b中的a和b）。然后将预测值信号与观测信号进行比较。(天)残差是作为观测值信号和预测值信号之间的差值而获得的。(E类)无反应控制会话的结果。在开始标准任务的训练之前，一组动物进行了实验1–三如所示图2但在目标位置没有奖励（参见方法). （左）每种情况下的峰值（p=1.00，n=4只小鼠，Kruskal-Wallis试验）。（中间）每种条件下的标准化峰值（p=0.33，n=8只小鼠，Kruskal-Wallis试验）实验2（三个传送实验，对应于图3G). （右）在[-1 s 0 s]时相对于奖励开始的平均反应（p=0.65，n=8只小鼠，Kruskal-Wallis试验）实验3（速度操纵实验）。(F、 G公司)GFP对照动物的结果。GFP对照动物评估荧光信号中的运动伪影（参见方法). (F类)中的结果摘要实验1–三在线性追踪任务中（n=5只小鼠）。(G公司)中的结果摘要实验1–三在移动栏任务中(n个＝4只小鼠）。(H（H）)中的值、RPE（左）和混合模型（右）之间的AIC比较实验4（动态速度）。(我)轨道之间的远程传送实验。在标准条件下，动物完成了轨道1（黑色）或轨道2（灰色）的试验。在轨道间传送条件下，动物从轨道1传送到轨道2（青色），或从轨道2传送到轨道1（绿色）（n=6只小鼠）。(J型)动物要么在轨道1中向前传送（红色），要么传送到轨道2（青色）（n=6只小鼠）。(K（K）)动物在第1轨道（黑色）和第2轨道（灰色）分别获得小（2μL）和大（12μL）奖励（n=4只小鼠）。(我)在正向（红色）和反向（黄色）传送实验中的平均舔舔、运动速度和多巴胺反应（n=6只小鼠）。(M（M）)第一天推出第二轨的平均点击率实验5a（一） ●●●●。在奖励前的预期舔舐在两个轨迹之间有显著差异（P=0.031，n=6只小鼠，Wilcoxon符号秩检验），表明aniamls可以在感知上区分这两个轨迹。

单击此处查看。^{（47M，pdf格式）}

5

图S5。多巴胺神经元的异慷慨跃迁编码RPE的峰值，与 图5. (A类)多巴胺神经元光遗传学鉴定过程中收集的原始电压信号。该神经元对激光脉冲（青色，20Hz，持续5ms）作出可靠响应。(B–D类)光学基因标记多巴胺神经元的特征（n=131个神经元，包括20个仅包含在图5D). (B类)（顶部）激光诱发和自发棘波之间的皮尔逊相关系数直方图。（底部）激光诱发棘波（青色）和自发棘波（黑色）之间单个神经元的棘波波形比较。(C类)激光诱发棘波的潜伏期。（顶部）神经元平均潜伏期直方图。三角形表示中间值（3.77 ms）。（底部）神经元潜伏期的标准偏差直方图。三角形表示中间值（1.06 ms）。(天)（顶部）。所有识别的神经元都被激光脉冲显著调制（p<0.05，SALT测试）(Kvitsiani等人，2013年). （底部）每个激光频率出现峰值的概率。(E类)反应（相对于基线的auROC）按斜坡斜率排序（n=78个神经元）。(F类)在不同的实验阶段，斜坡坡度保持不变（蓝色，r=0.77，p=3.5×10⁻¹⁷,实验1; 红色，r=0.76，p=1.8×10⁻¹⁶,实验3，Spearman相关性）。每天，只包含标准条件（标准会话）的会话之后都会有实验1和实验3.减去每只动物的斜率平均值，以分析出内侧效应(图5D). (G公司)狂犬病注射实验说明。在VTA中注射AAV-flex-TVA-mCherry，在VS中注射Rabies-GCaMP和BFP，靶向伏隔核核心（参见方法). (H（H）)显示BFP局部表达的代表性图像，指示伏隔核周围的注射部位。(我)在VTA中表达mCherry（红色）和GCaMP6f（绿色）。(J型)在早期（黑色）和晚期（绿色）训练中（n=3只小鼠），舔食（顶部）和VTA（底部）多巴胺钙活性的平均时间进程。(K–M公司)正极放电尖峰活性(K（K）,图5G)，负斜坡(我,图5H)、和无采样(M（M）,图5I)神经元实验3. (N个)神经元的反应图5J. (O（运行）)在单神经元水平上，神经元的放电频率随着场景的速度而增加（p=5.5×10⁻⁷和8.3×10⁻⁵，n=83个神经元，Wilcoxon符号秩检验分别用于慢速与标准速度和快速与标准速度）。(P（P）)用于模型拟合分析的尖峰滤波器（黑色）和GCaMP滤波器（绿色）。这些过滤器是由对奖励的未治愈反应的平均反应定义的（参见方法). 脉冲响应滤波器用于根据峰值（蓝色）计算预测的GCaMP（Chen等人，2013）。(问)使用带有单调递增约束（R）的多项式基进行拟合（浅绿色）的数据和预测示例²= 0.47). (R（右）)使用（Q）（蓝色）中的最佳参数重建值函数的形状。根据重建值函数、最佳时间贴现因子γ和标准条件下的移动速度计算TD信号（红色）。

单击此处查看。^{（1500万，pdf）}

6

图S6。VTA中的多巴胺细胞体活性编码RPE，与 图5和和6。6. (A类)VTA中单单元录音的四重奏位置(图5). (B类)VTA中细胞体钙记录的纤维尖端位置。绿色，AAV-GCaMP注射液（n=6只小鼠）。蓝色，狂犬病-GCaMP注射液（n=3只小鼠）。(C类)VS中多巴胺浓度记录的纤维尖端位置(天)腹侧纹状体钙记录的纤维尖端位置。蓝色，位置实验4和第5页（n=5只小鼠，图2M–P（P）;图4H–J型). 红色，位置实验5a,5亿、和6（n=6只小鼠，图4A–G公司). 绿色，位置实验1,三操作意外事件中的8a和8b（n=8只小鼠，图7E–G公司;图S7C–G公司). (E类–G公司)VTA（底部）中的平均舔舐（顶部）、移动速度（中部）和荧光（光度）信号实验1(E类，n=6只小鼠），实验2(F类，n=6只小鼠），以及实验3(G公司，n=5只小鼠）。垂直线表示传送或暂停事件。虚线表示奖赏。格式与相同图2C,、G、，G公司,、K、，K（K）分别是。(H–J)中的结果实验1(H（H）n=5只小鼠），实验2(我，n=5只小鼠），以及实验3(J型，n=6只老鼠）使用移动条任务。格式与相同图7I,，J，J型,、K、，K（K）分别是。

单击此处查看。^{（59M，pdf）}

7

图S7。操作偶然性和感官证据对多巴胺活性的影响，与 图7. (A–B)延迟奖励任务和虚拟线性跟踪任务的行为数据。(A类)带有气味提示的延迟奖励任务中的平均舔舔次数（顶部）和跑步速度（底部）。(B类)标准虚拟直线轨道任务中的舔舐（顶部）和运行速度（底部）。(C–J型)具有操作性偶然事件的虚拟线性跟踪任务的结果。(C类)在标准条件下（n=8只小鼠）训练的最后一天，舔食（顶部）、运动（底部）和多巴胺能轴突钙信号（底部）。斜坡R（右）小于被动任务，但显著大于零（p=0.02，n=8只小鼠，Wilcoxon符号秩检验比较中位数与零；p=0.48，n=8,16只小鼠分别用于操作和被动任务，Wilcox秩和检验）。箭头表示视觉场景的中位数。(天)平均舔、运动速度和轴突钙信号实验1（n＝7只小鼠）。箭头表示视觉场景的中位数。(E类)平均舔、移动速度和荧光信号实验3（n＝7只小鼠）。(F类)在实验8a，在减少感官证据条件下（橙色），通过在墙上使用统一图案消除位置线索(图7E). (G公司)在实验8b在测试中，一个纯色的场景被用来不产生光流（橙色）。(H（H）)量化结果实验1（左）长距离传输的峰值响应显著大于标准条件下的峰值（p=0.02，n=7只小鼠，Wilcoxon符号秩检验）（右）多巴胺活性，与长距离传输（红色）、短距离传输（橙色）或暂停（黄色）事件一致。标准条件下的反应与动物通过传送目的地的时间一致（上午70点）。(我)量化结果实验3视觉速度增益显著调节了奖励前的反应（p=0.009，df=2，n=7只小鼠，F=7.05，单向重复测量方差分析）。操作型任务（1.7）的增益乘数小于被动型任务（2.0），以避免动物在缓慢状态下多次试验失败。(J型)量化结果实验8在图案化（左）和纯色（右）条件下，接近期间的舔舐率显著大于基线。图顶部的填充点表示显著的成对差异，n=6只小鼠，Wilcoxon符号秩检验）。(K–O型)动杆实验。(K（K）)示例会话中VS中的多巴胺能轴突钙信号。(我)个体动物的舔舔速度（顶部）、运动速度（中部）和多巴胺能轴突信号的时间进程（灰色）以及动物间的平均值（黑色，n=12只小鼠）。灰色水平条表示用于计算渐变的时间窗口R（右）. (M–O型)移动条任务中的统计分析。(M（M）)（顶部）归一化峰值响应实验1(图7I). 远距离传送的峰值中位数显著大于1（p=0.039，n=9只小鼠，Wilcoxon符号秩检验）。（底部）试验总结R（右）中位数检验R（右）（黑色三角形）显著小于零（中位数r=−0.50，p=0.0078，Wilcoxon符号秩检验）。(N个)（顶部）归一化峰值实验2(图7J). （底部）试验总结R（右）中位数检验R（右）（开放三角形）与零无差异（p=0.43，n=10只小鼠，Wilcoxon符号秩检验）。(O（运行）)（顶部）结果实验3(图7D). 从棒运动开始到奖赏开始的多巴胺能轴突平均信号。反应有显著差异（n=11只小鼠，p<10⁻⁴Kruskal-Wallis试验）。（底部）所有测试R（右）s明显大于零，中值R（右）显著大于零（中位数r=0.38，p=0.0010，Wilcoxon符号秩检验）。

单击此处查看。^{（6.0M，pdf格式）}

8

补充视频1。目标条件标准方法中的视觉刺激，与图1.

单击此处查看。^{（5.4M，mp4）}

9

补充视频2。视觉刺激实验1（远程传送、短距离传送和暂停条件），与图2.

单击此处查看。^{（530万英里/小时）}

10

补充视频3。视觉刺激实验3（低速和高速条件），与图2.

单击此处查看。^{（3.8M，mp4）}

11

补充视频4。视觉刺激实验5a（轨道2中的标准条件，从轨道1传送到轨道2，从轨道2传送到轨道1），相关图4.

单击此处查看。^{（6.9M，mp4）}

12

补充视频5。标准条件下的移动杆刺激，与图7.

单击此处查看。^{（330万英里/小时）}

致谢

我们感谢C.Harvey和D.Aronov的虚拟现实系统。我们感谢B.Babayan、W.Menegas和E.Soucy的光纤荧光检测设置。我们感谢A.Shakel的组织学。我们感谢J.Assad和K.Svoboda的评论。我们也感谢内田实验室的成员对手稿的讨论和批判性阅读。在哈佛大学FAS科学研究计算小组的支持下，对FASRC加农炮集群进行了一些分析。这项工作得到了NIH拨款U19 NS113201（给N.U.和S.J.G.）、R01MH095953（给N.U）、R01-MH101207（给N.U-）、NS108740（给N.Us）、T32GM007753（给J.G.M.）、T22MH020017（给J.M.）和U01NS103558（给Y.L.）的支持；西蒙斯全球大脑合作组织（致联合国）；哈佛心智与行为学院授予（S.J.G.和N.U.），阿尔弗雷德·斯隆基金会（S.J.G）的研究奖学金；和中国青年千人计划（Y.L.）。

脚注

出版商免责声明：这是一份未经编辑的手稿的PDF文件，已被接受出版。作为对客户的服务，我们正在提供这份早期版本的手稿。手稿将经过编辑、排版和校对，然后才能以最终形式出版。请注意，在制作过程中可能会发现错误，这可能会影响内容，所有适用于该杂志的法律免责声明都适用。

补充信息

补充信息包括7幅图、5段视频。

利益申报

作者声明没有相互竞争的利益。

参考文献

Akaike H（1973）。信息论作为Petrov BN和Csaki F（Eds.）中最大似然原理的扩展第二届信息理论国际研讨会（布达佩斯：Akadémiai Kiadó），第267-281页。[谷歌学者]
Aronov D和Tank DW（2014）。啮齿动物虚拟现实系统中二维空间导航的神经电路参与.神经元 84, 442–456.[PMC免费文章][公共医学][谷歌学者]
Babayan BM、Uchida N和Gershman SJ（2018年）。多巴胺系统中的信念状态表征.自然通信 9, 1891.[PMC免费文章][公共医学][谷歌学者]
Bäckman CM、Malik N、Zhang Y、Shan L、Grinberg A、Hoffer BJ、Westphal H和Tomac AC（2006年）。表达多巴胺转运体基因座3'非翻译区Cre重组酶的小鼠菌株的特性.起源 44, 383–390. [公共医学][谷歌学者]
拜耳HM和Glimcher PW（2005年）。中脑多巴胺神经元编码定量奖赏预测错误信号.神经元 47, 129–141.[PMC免费文章][公共医学][谷歌学者]
Bellman R（1954）。动态规划理论.牛市。阿默尔。数学。Soc公司 60, 503–515.[谷歌学者]
Berke JD（2018）。多巴胺是什么意思？自然神经科学 21, 787–793.[PMC免费文章][公共医学][谷歌学者]
Bromberg-Martin ES、Matsumoto M和Hikosaka O（2010年）。外侧缰核和多巴胺神经元的不同强直和时相预期活动.神经元 67, 144–155.[PMC免费文章][公共医学][谷歌学者]
Brunton SL、Proctor JL和Kutz JN（2016）。非线性动力系统稀疏辨识从数据中发现控制方程.美国国家科学院 113, 3932–3937.[PMC免费文章][公共医学][谷歌学者]
Cachope R、Mateo Y、Mathur BN、Irving J、Wang H-L、Morales M、Lovinger DM和Cheer JF（2012年）。胆碱能中间神经元的选择性激活增强伏隔相多巴胺的释放：为奖赏处理设定基调.单元格代表 2, 33–41.[PMC免费文章][公共医学][谷歌学者]
Chen G、King JA、Burgess N和O'Keefe J（2013a）。视觉和运动如何在海马体位置码中结合.美国国家科学院 110, 378–383.[PMC免费文章][公共医学][谷歌学者]
Chen T-W、Wardill TJ、Sun Y、Pulver SR、Renninger SL、Baohan A、Schreiter ER、Kerr RA、Orger MB、Jayaraman V等（2013b）。用于神经活动成像的超灵敏荧光蛋白.性质 499, 295–300.[PMC免费文章][公共医学][谷歌学者]
Clark JJ、Hollon NG和Phillips PEM（2012年）。巴甫洛夫学习和决策评估系统.货币。操作。神经生物学 22, 1054–1061.[PMC免费文章][公共医学][谷歌学者]
Cohen JY、Haesler S、Vong L、Lowell BB和Uchida N（2012）。腹侧被盖区奖惩神经元类型特异性信号.性质 482, 85–88.[PMC免费文章][公共医学][谷歌学者]
Cox J和Witten IB（2019年）。奖励学习和决策的纹状体电路.国家神经科学评论 20, 482–494.[PMC免费文章][公共医学][谷歌学者]
Dabney W、Kurth-Nelson Z、Uchida N、Starkweather CK、Hassabis D、Munos R和Botvinick M（2020年）。基于多巴胺的强化学习中的价值分配码.性质 577, 671–675.[PMC免费文章][公共医学][谷歌学者]
Dombeck DA、Khabbaz AN、Collman F、Adelman TL和Tank DW（2007年）。用细胞分辨率成像清醒、活动小鼠的大规模神经活动.神经元 56, 43–57.[PMC免费文章][公共医学][谷歌学者]
Engelhard B、Finkelstein J、Cox J、Fleming W、Jang HJ、Ornelas S、Koay SA、Thiberge SY、Daw ND、Tank DW等人（2019年）。VTA多巴胺神经元中感觉、运动和认知变量的专门编码.性质 570, 509–513.[PMC免费文章][公共医学][谷歌学者]
Eshel N、Bukwich M、Rao V、Hemmelder V、Tian J和Uchida N（2015）。多巴胺预测错误背后的算法和局部电路.性质 525, 243–246.[PMC免费文章][公共医学][谷歌学者]
Farasat N、Costa KM、Stojanovic S、Albert S、Kovacheva L、Shin J、Egger R、Somayaji M、Duvarci S、Schneider G等人（2019年）。确定轴突投射内中脑多巴胺神经元的体内功能多样性.埃利夫 8.[PMC免费文章][公共医学][谷歌学者]
Fiorillo CD、Newsome WT和Schultz W（2008）。多巴胺神经元奖赏预测的时间精度.自然神经科学 11, 966–973. [公共医学][谷歌学者]
Franklin KB和Paxinos G（2008）。立体定向坐标系下的小鼠大脑（爱思唯尔学术出版社；圣地亚哥：）。[谷歌学者]
Gershman SJ（2014）。多巴胺斜坡是奖励预测错误的结果.神经计算 26, 467–471. [公共医学][谷歌学者]
Gershman SJ和Uchida N（2019年）。相信多巴胺.Nat Rev神经科学1–12.[PMC免费文章][公共医学][谷歌学者]
Gibbon J、Malapani C、Dale CL和Gallistel CR（1997年）。走向时间认知的神经生物学：进展与挑战.神经生物学的当前观点 7, 170–184. [公共医学][谷歌学者]
上师A、Seo C、Post RJ、Kullakanda DS、Schaffer JA和典狱长MR（2020年）。中脑多巴胺神经元活动增强表明认知地图的使用.生物Rxiv2020.05.21.108886.[谷歌学者]
Hamid AA、Pettibone JR、Mabrouk OS、Hetrick VL、Schmidt R、Vander Weele CM、Kennedy RT、Aragona BJ和Berke JD（2016）。中边缘区多巴胺是工作价值的信号.自然神经科学 19, 117–126.[PMC免费文章][公共医学][谷歌学者]
Hamid AA、Frank MJ和Moore CI（2019年）。多巴胺波作为时空信贷分配机制.生物Rxiv729640[PMC免费文章][公共医学][谷歌学者]
Harvey CD、Collman F、Dombeck DA和Tank DW（2009年）。虚拟导航中海马位置细胞的细胞内动力学.性质 461, 941–946.[PMC免费文章][公共医学][谷歌学者]
Howe MW和Dombeck DA（2016）。运动和奖赏期间不同多巴胺能轴突的快速信号.性质 535, 505–510.[PMC免费文章][公共医学][谷歌学者]
Howe MW、Tierney PL、Sandberg SG、Phillips PEM和Graybiel AM（2013年）。纹状体中多巴胺信号的延长表示远距离奖赏的接近和价值.性质 500, 575–579.[PMC免费文章][公共医学][谷歌学者]
Ikemoto S（2007）。多巴胺奖赏回路：从中脑腹侧到伏隔核-嗅结节复合体的两个投射系统.大脑研究综述 56, 27–78.[PMC免费文章][公共医学][谷歌学者]
Killeen PR和Fetterman JG（1988年）。计时行为理论.精神病Rev 95, 274–295. [公共医学][谷歌学者]
Kim HR、Angelaki DE和DeAngelis GC（2015年）。基于运动视差的MT神经元与深度知觉的功能联系.神经科学杂志 35, 2766–2777.[PMC免费文章][公共医学][谷歌学者]
Kobayashi S和Schultz W（2008年）。奖励延迟对多巴胺神经元反应的影响.神经科学杂志 28, 7837–7846.[PMC免费文章][公共医学][谷歌学者]
Kremer Y、Flakowski J、Rohner C和Lüscher C（2020年）。个体VTA多巴胺神经元的上下文依赖性多路复用.神经科学杂志 40, 7489–7509.[PMC免费文章][公共医学][谷歌学者]
Kvitsiani D、Ranade S、Hangya B、Taniguchi H、Huang JZ和Kepecs A（2013）。前额叶皮层两种中间神经元类型的不同行为和网络相关性.性质 498, 363–366.[PMC免费文章][公共医学][谷歌学者]
Lammel S、Hetzel A、Häckel O、Jones I、Liss B和Roeper J（2008）。双中脑皮质边缘多巴胺系统中脑前额叶神经元的独特特性.神经元 57, 760–773. [公共医学][谷歌学者]
Lima SQ、Hromádka T、Znamenskiy P和Zador AM（2009年）。PINP：一种标记神经元群的新方法，用于体内电生理记录中的识别.公共科学图书馆 4，e6099。[PMC免费文章][公共医学][谷歌学者]
Lloyd K和Dayan P（2015）。夯实斜坡：Accumbens中相态多巴胺信号的算法、实现和计算解释.公共科学图书馆计算。生物 11，e1004622。[PMC免费文章][公共医学][谷歌学者]
Ludvig EA、Sutton RS和Kehoe EJ（2008年）。多巴胺系统模型中刺激表征和奖惩错误的时间.神经计算 20, 3034–3054. [公共医学][谷歌学者]
Madisen L、Zwingman TA、Sunkin SM、Oh SW、Zariwala HA、Gu H、Ng LL、Palmiter RD、Hawrylycz MJ、Jones AR等（2010年）。一种用于小鼠全脑的强大且高通量的Cre报告和表征系统.自然神经科学 13, 133–140.[PMC免费文章][公共医学][谷歌学者]
Menegas W、Babayan BM、Uchida N和Watabe-Uchida M（2017年）。小鼠腹侧和后纹状体多巴胺信号新线索的反向初始化.ELife科学 6，e21886。[PMC免费文章][公共医学][谷歌学者]
Menegas W、Akiti K、Amo R、Uchida N和Watabe-Uchida M（2018年）。投射到后纹状体的多巴胺神经元加强了对威胁性刺激的回避.自然神经科学 21, 1421–1430.[PMC免费文章][公共医学][谷歌学者]
Mikhael JG，Kim HyungGoo。R.、Uchida N和Gershman SJ（2019年）。多巴胺信号的激增和状态不确定性.生物Rxiv [谷歌学者]
Mohebi A、Pettibone JR、Hamid AA、Wong J-MT、Vinson LT、Patriarch T、Tian L、Kennedy RT和Berke JD（2019年）。学习和动机的可分解多巴胺动力学.性质 570, 65–70.[PMC免费文章][公共医学][谷歌学者]
Morita K和Kato A（2014）。纹状体多巴胺激增可能表明皮质-基底神经节回路中具有遗忘功能的灵活强化学习.前部神经电路 8, 36.[PMC免费文章][公共医学][谷歌学者]
Niv Y（2009）。大脑中的强化学习.数学心理学杂志 53, 139–154.[谷歌学者]
Parker NF、Cameron CM、Taliaferro JP、Lee J、Choi JY、Davidson TJ、Daw ND和Witten IB（2016）。中脑多巴胺神经元终末的奖赏和选择编码依赖于纹状体靶点.自然神经科学 19, 845–854.[PMC免费文章][公共医学][谷歌学者]
Phillips PEM、Stuber GD、Heien MLAV、Wightman RM和Carelli RM（2003年）。亚秒级多巴胺释放促进可卡因寻求.性质 422, 614–618. [公共医学][谷歌学者]
波德鲁布尼一世（1998）。分数微分方程：分数导数、分数微分方程、其求解方法及其应用简介（圣地亚哥：学术出版社；）。[谷歌学者]
Roitman MF、Stuber GD、Phillips PEM、Wightman RM和Carelli RM（2004）。多巴胺是觅食的亚秒调节剂.神经科学杂志 24, 1265–1271.[PMC免费文章][公共医学][谷歌学者]
Schmidt M和Lipson H（2009）。从实验数据中提取自由形式的自然定律.科学类 324, 81–85. [公共医学][谷歌学者]
Schmitzer-Torbert N和Redish AD（2004）。序贯导航中啮齿动物背侧纹状体的神经元活动：多重T任务空间和奖赏反应的分离.神经生理学杂志 91, 2259–2272. [公共医学][谷歌学者]
舒尔茨W（2019）。相态多巴胺活性作用的研究进展.F1000分辨率 8, 1680.[PMC免费文章][公共医学][谷歌学者]
Schultz W、Dayan P和Montague PR（1997年）。预测和奖励的神经基质.科学类 275, 1593–1599. [公共医学][谷歌学者]
Stalnaker TA、Howard JD、Takahashi YK、Gershman SJ、Kahnt T和Schoenbaum G（2019年）。多巴胺神经元群表示感觉预测误差的含量.埃利夫 8.[PMC免费文章][公共医学][谷歌学者]
Starkweather CK、Babayan BM、Uchida N和Gershman SJ（2017年）。多巴胺奖赏预测误差反映了跨时间的隐藏状态推断.自然神经科学 20, 581–589.[PMC免费文章][公共医学][谷歌学者]
萨顿RS（1988）。学习通过时间差异的方法进行预测.马赫数学习三, 9–44.[谷歌学者]
Sutton RS和Barto AG（1998年）。强化学习：简介（马萨诸塞州剑桥：麻省理工学院出版社；）。[谷歌学者]
Takahashi YK、Batchelor HM、Liu B、Khanna A、Morales M和Schoenbaum G（2017年）。多巴胺神经元对预期回报感觉特征预测错误的反应.神经元 95, 1395–1405. e3。[PMC免费文章][公共医学][谷歌学者]
Threlfell S、Lalic T、Platt NJ、Jennings KA、Deisserth K和Cragg SJ（2012年）。纹状体多巴胺释放由胆碱能中间神经元的同步活动触发.神经元 75, 58–64. [公共医学][谷歌学者]
Tsai H-C、Zhang F、Adamantidis A、Stuber GD、Bonci A、de Lecea L和Deisseroth K（2009）。多巴胺能神经元的相控放电足以进行行为调节.科学类 324, 1080–1084.[PMC免费文章][公共医学][谷歌学者]
Uchida N和Mainen ZF（2003年）。大鼠嗅觉辨别的速度和准确性.自然神经科学 6, 1224–1229. [公共医学][谷歌学者]
Watabe Uchida M和Uchida N（2019）。多多巴胺系统：多巴胺的灾难.冷泉港。交响乐团。数量。生物[公共医学][谷歌学者]
Watabe-Uchida M、Eshel N和Uchida N（2017年）。报酬预测误差的神经电路.每年。神经科学评论 [PMC免费文章][公共医学][谷歌学者]
Zhou FM、Liang Y和Dani JA（2001）。内源性烟碱胆碱能活性调节纹状体多巴胺释放.自然神经科学 4, 1224–1229. [公共医学][谷歌学者]