介绍
基底前脑的胆碱能神经元对联想学习很重要。这一观点得到了选择性胆碱能细胞丢失的支持,这种丢失与阿尔茨海默病患者的认知能力下降平行。1,2虽然病变和药理学研究是确凿的,三,4,5他们无法解决BFCN如何控制学习。为了解决BFCN对联想学习的贡献机制,重要的是在与动物和人类遇到的行为相关事件的时间尺度相当的时间分辨率下研究BFCN活动的行为相关性。6,7这是最近才有可能实现的,这得益于光遗传学和成像工具的发展。8,9,10,11
基底前脑选择性胆碱能损伤显示会损害啮齿动物的学习能力12,13,14,15,16,17,18和猴子,19大脑前动脉或前交通动脉瘤破裂导致基底前脑损伤,导致人类严重的学习障碍。20先前对基底前脑的研究表明,对胆碱能和/或非胆碱能基底前脑神经元的行为显著刺激的反应可能是基底前脑参与学习的基础。9,10,11,21,22具体来说,胆碱能激活可能导致皮层乙酰胆碱释放增加,从而导致感觉反应的可塑性变化。23,24最近的一项研究通过听觉恐惧学习过程中BFCN的体成像将上述证据联系起来。11然而,尚不清楚BFCN如何在学习过程中处理具有不同预测特征的感官线索,这可以作为对预测不同结果的感官事件的不同行为反应的基础。因此,还缺乏一个支持联想学习的胆碱能神经元反应的综合模型。我们开始通过在概率巴甫洛夫线索结果任务中记录胆碱能活动来填补这一知识空白,这使我们能够在学习过程中直接控制结果概率和线索结果偶然性。25值得注意的是,奖励期望也可以由奖励大小来操纵。26,27然而,由于我们假设BFCN对结果概率敏感,因此我们选择操纵奖励概率,尽管这很难学习,因为动物必须通过多次试验来推断概率差异,而奖励大小可以从单个试验中学习。28
我们使用纤维光度法成像BFCNs的体钙反应29并在小鼠执行头戴式听觉概率巴甫洛夫提示结果任务时,记录已确定的基底前脑胆碱能神经元的活动。25BFCNs通过结果预测刺激和强化传递被激活。奖赏刺激激活胆碱能神经元与未来奖赏可能性存在差异,随后的反应时间由这种激活水平预测。与预期奖励相比,BFCN在意料之外的情况下也表现出更强的激活能力。我们表明,这些发现可以用一个由刺激诱导的、价-量预测误差的行为模型来解释,在该模型中,动物对相反价的结果进行了不同的缩放。我们没有观察到强化缺失后BFCN的强烈放电率变化,这表明我们观察到的BFCN反应主要由感觉刺激驱动。因此,这些结果表明,中枢胆碱能系统传播一个刺激驱动的、价-量预测错误信号,可以指导联想学习。
结果
小鼠接受概率巴甫洛夫条件反射任务训练
我们训练小鼠(n=11)进行头部固定概率巴甫洛夫线索结果任务(A) ●●●●。25,28在这个联想学习任务中,两种不同音调(条件刺激)预测80%几率的水奖赏(10%惩罚、10%遗漏、“可能的奖赏”提示)或65%几率的面部吹气(25%奖励、10%遗漏,“不可能的奖惩”提示);这些意外事件反映了仔细的校准,以保持小鼠对任务的积极性)。根据行为反馈(无条件刺激)之前的提示,奖励和惩罚既可以是预期的,也可以是令人惊讶的。老鼠学习了这项任务,表现为在“可能的奖励”提示后进行明显更多的预期舔(B–1E)。
小鼠接受概率巴甫洛夫条件反射任务训练
(A) 行为训练示意图和任务框图。在不允许老鼠舔的可变前期,随后呈现两个音调完全分开的纯音中的一个,它预测奖励、惩罚或没有不同的偶然事件(“可能的奖励”和“不可能的奖励“线索)。
(B) 对线索的舔反应的光栅图,预测示例会话中可能的奖励(顶部)和不太可能的回报(底部)。黄色阴影,响应窗口(RW);灰色阴影,钢筋交付(RD)。
(C) 舔反应的周期时间直方图(PETH)与同一会话中的线索开始对齐。
(D) (左)所有动物所有时间段舔食反应的平均PETH(n=36个时间段)。(右)可能奖励和不可能奖励试验中RW中预期舔舔率的统计比较(中位数±中位数SE,n=36个疗程,p=8.7697×10−7,Wilcoxon签名等级测试;***p<0.001)。
(E) (左)所有动物所有阶段(n=36个阶段)舔反应的平均PETH,根据四种可能的结果进行划分:预期或意外奖励、预期或意外惩罚。(右)RW中四种可能结果的预期舔食率的统计比较(中位数±中位数SE,n=36个疗程,从上到下,p=1.4131×10−6,p=2.6341×10−6,p=0.8628,p=6.8863×10−7,p=1.2065×10−6,p=0.9687,Wilcoxon符号秩检验p<0.001;不另作说明,p>0.05)。
BFCN群体对条件刺激和非条件刺激的反应
我们通过注射AAV2/9.CAG在Broca(HDB)斜带水平核的BFCNs中表达GCaMP6s。弯曲。GCAMP6。WPRE公司。在ChAT-Cre小鼠(n=7)中,SV40在胆碱能神经元中选择性表达由胆碱乙酰转移酶启动子驱动的Cre重组酶,10,30,31并在HDB中植入光纤。当小鼠执行概率巴甫洛夫任务时,我们对HDB-BFCNs进行了体钙成像(A–2C和S1). GCaMP的激发等色波长用于校正荧光的非钙依赖性变化(例如,漂白和潜在运动伪影)。32我们首先询问BFCNs作为一个群体是否对听觉线索刺激做出反应,这些听觉线索刺激预测了不同偶然事件的结果。荧光dff反应与线索呈现一致,揭示了BFCN群体对结果提示刺激的钙反应(D和2E)。与预测“可能惩罚”的线索相比,预测“可能奖励”的线索的这些反应要大得多(D和2E,p=0.00029,Wilcoxon符号秩检验,n=17次)。根据我们和其他人公布的结果,8,9,10,11我们期望BFCN在给予奖惩后也会有钙反应。事实上,当dff记录与强化相一致时,我们观察到胆碱能人群对水奖励和喷气惩罚的强烈反应(F和2G)。此外,我们发现,尽管观察到的差异小于线索反应,但BFCN对意外奖励的反应显著高于预期奖励(F、 p=0.0129,Wilcoxon符号秩检验,n=17个疗程)。我们没有发现BFCN对意外惩罚和预期惩罚的钙反应之间存在显著差异(G、 p=0.0684,Wilcoxon符号秩检验,n=17个疗程)。
BFCN群体对条件刺激和非条件刺激的反应
(A) 行为小鼠HDB-BFCNs体钙成像示意图。
(B) HDB中光纤轨迹的组织学重建(白色星号)。比例尺,500μm。插图显示放大的视图。比例尺,200μm。
(C) 所有成像小鼠的光纤位置(n=7)。Br,与Bregma的前后距离。
(D) HDB胆碱能神经元的体钙成像示例。(左)dff信号与预测条件刺激的结果一致。(顶部)带有可能奖励(不太可能惩罚)提示的试验;(中间)带有不太可能的奖励(可能的惩罚)线索的审判;(底部)PETH。(中间)dff信号与奖赏传递对齐。(顶部)具有预期回报的试验;(中)奖励惊人的试验;(底部)PETH。(右)dff信号与喷气惩罚相一致。(上图)受到意外惩罚的审判。(中期)预期处罚的审判。(底部)PETH。
(E) (左)Z评分dff的平均PETH与结果预测条件刺激一致(n=17个疗程)。(右)可能奖励和不可能奖励线索后dff平均标准化差异条形图。中位数±中位数SE,***p<0.001,p=0.00029,Wilcoxon符号秩检验。
(F) (左)Z评分dff的平均PETH与预期和意外奖励一致(n=17个疗程)。(右)意外和预期奖励后dff平均归一化差异条形图。中位数±中位数SE,*p<0.05,p=0.0129,Wilcoxon符号秩检验。
(G) (左)Z评分dff的平均PETH与预期和意外惩罚一致(n=17个疗程)。(右)预期和意外惩罚后dff平均归一化差异条形图。中值的中位数±SE,不另统计,p>0.05,p=0.0684,Wilcoxon符号秩检验。另请参阅图S1.
概率巴甫洛夫条件反射期间基底前脑胆碱能神经元的视基因识别
根据不同的结果预期,单个BFCN的峰值是否对条件刺激和非条件刺激表现出相似的差异反应?我们估计,14–20个已鉴定的BFCN样本足以以80%的统计能力回答这样的问题(假设30%–40%的放电率变化对应于0.3–0.4的预测效应大小,可在60%的记录神经元中检测到;完整程序可在https://github.com/hangyabalazs/statistical-power网站;A) ●●●●。我们通过注射AAV.2.5.EF1a在BFCNs中表达通道视紫红质。DiO.hChR2(H134R).eYFP。将WPRE.hGh植入ChAT-Cre小鼠(n=4)基底前脑,并将其植入八个可移动四极电极和一根光纤(B和3C),对执行概率巴甫洛夫任务的小鼠的BFCNs进行光学遗传学标记。10,11我们记录了25个经光学鉴定的、表达ChAT的BFCNs(p<0.01,刺激相关电位潜伏期测试33)在执行任务的小鼠中(D–3G,S2系列、和第3章). 在动物达到稳定行为表现的阶段记录胆碱能神经元。仔细对记录电极位置进行组织学重建后发现,25个神经元中有21个来自HDB,而25个神经元的其余4个位于内侧隔(n=2)和腹侧苍白球(n=2;D) ●●●●。由于这些神经元对条件性和非条件性刺激表现出相似的反应,因此本研究将它们作为一个单一的数据集进行处理;然而,限制对HDB胆碱能神经元的数据分析得出了类似的结果。
概率巴甫洛夫条件反射期间基底前脑胆碱能神经元的视基因识别
(A) 统计能力是不同预期效应大小下细胞计数的函数。虚线,80%功率;实线,90%功率。
(B) 光遗传标记示意图。ChAT-Cre小鼠注射AAV2/5。EF1a。二极管hChR2(H134R)-eYFP。WPRE.hGH公司。八只可移动的河豚连同一根光纤被植入HDB。
(C) (左)ChAT-Cre小鼠的冠状切片,显示胆碱能神经元(eYFP,绿色)和四极轨道(DiI,红色)的分布。比例尺,1000μm。(右上角)HDB的放大视图。白色箭头指向四极电极尖端的电解损伤。比例尺,100μm。(右下)靶区胆碱能神经元的共焦图像。比例尺,10μm。
(D) 重建所有已鉴定胆碱能神经元的定位。不同的标记对应于单个小鼠。数字对应于距Bregma的前后距离,单位为mm。
(E) (左)已识别胆碱能神经元的原始细胞外记录。(右)示例胆碱能神经元的平均波形。录音上方的橙色标记表示胆碱能峰。
(F) 胆碱能神经元示例的光栅图,显示对1ms蓝色激光脉冲的短潜伏期反应。
(G) 所有已识别的胆碱能神经元的彩色PETH与激光脉冲发作一致,按反应潜伏期排序(黑色,无尖峰;白色,高放电率)。另请参阅图S2和第3章.
对奖励线索、意外奖励和吹气惩罚的大胆碱能反应
我们首先询问单个BFCN是否对预测不同概率结果的听觉线索刺激表现出尖峰反应。为了解决这个问题,我们将BFCN尖峰与线索开始对齐,并检查了单个BFCN的光栅图和事件前后时间直方图(PETH)(参见图S4用于分析的示意图)。我们发现,BFCN对两种听觉线索都有反应,“可能的回报”线索的中位峰值潜伏期为133.5 ms,“不可能的回报“线索的中位数峰值潜伏期422 ms(A、 4B和第5章A;四分位范围,两种提示类型分别为44.5–231 ms和273–573.5 ms)。为了涵盖这两个峰值,我们选择了一个500毫秒的反应窗口(C500),在该窗口中,我们根据BFCN反应是否预示未来回报的高概率或低概率,将其与条件线索刺激进行比较。根据C500窗口中PETH峰值反应的比较,BFCN对“可能的奖励”线索的反应强151%(p=0.0008,Wilcoxon符号秩检验;C类;包括14个神经元,其中小鼠遇到了10次以上的意外奖励试验;看见图S6对于所有n=25个神经元),我们也通过基于峰值数的统计数据进行了验证(p=0.00061,在C500窗口中对BFCN放电率进行Wilcoxon符号秩检验;C) ●●●●。因此,BFCN对表示高回报概率的感官刺激反应更大。
胆碱能神经元对奖励线索和意外奖励的反应更大
(A) 示例BFCN的顶部、光栅图(顶部)和PETH(底部)与线索开始对齐,分别用于预测可能的奖励/不太可能的惩罚(绿松石)与不太可能的奖励/可能的惩罚(紫色)的线索。(底部)确定的BFCN的平均线索对齐PETH,超过10个意外奖励试验(误差,平均值±SE;n=14;参见图S6所有n=25个神经元)。
(B) 已识别的BFCN的平均线索对齐PETH在线索呈现周围放大。
(C) (左)线索预测可能的奖励和那些预测不可能的奖励后峰值反应的差异。***p<0.001,p=0.0008,Wilcoxon符号秩检验,n=14。(右)线索预测可能的奖励和那些预测不可能的奖励后的平均放电率差异p<0.001,p=0.00061,Wilcoxon符号秩检验,n=14。Box-whisker图显示了中间值、四分位范围和非离群值范围。
(D) 与(A)中相同示例BFCN的(顶部)光栅图(顶部)和PETH(底部)与奖励交付对齐,分别用于线索预测可能的奖励(浅绿色,预期奖励)后的奖励和线索预测不太可能的奖励后的奖励(深绿色,意外奖励)。(底部)确定的BFCN的平均薪酬调整PETH,具有>10个意外奖励试验(误差,平均值±SE;n=14;参见图S6所有n=25个神经元)。
(E) 确定的BFCN的平均薪酬调整PETH在奖励交付时间附近扩大。
(F) (左)预期和意外奖励后的峰值响应差异。*p<0.05,p=0.0245,Wilcoxon符号秩检验,n=14。(右)预期和意外奖励后的平均射速差异。*p<0.05,p=0.02026,Wilcoxon符号秩检验,n=14。Box-whisker图显示了中间值、四分位范围和非离群值范围。
(G) 与(A)和(D)中相同示例BFCN的(顶部)光栅图(顶部)和PETH(底部)与惩罚传递对齐,分别用于预测可能奖励(深紫色,意外惩罚)的线索后惩罚和预测不可能奖励(浅紫色,预期惩罚)的提示后惩罚。(右)已识别BFCN的平均惩罚调整PETH在惩罚执行时间附近扩大。
(H) 确定的BFCN的平均惩罚对齐PETH(超过10次意外奖励试验)(误差,平均值±SE;n=14;参见图S6所有n=25个神经元)。
(一) (左)预期惩罚和意外惩罚后的峰值反应差异。n.s.,p>0.05,p=0.7869,Wilcoxon符号秩检验,n=14。(右)预期惩罚和意外惩罚后的平均射击率差异。n.s.,p>0.05,p=0.8393,Wilcoxon符号秩检验,n=14。Box-whisker图显示了中间值、四分位范围和非离群值范围。另请参阅图S4–S7.
接下来,我们测试了在巴甫洛夫条件反射期间,个体BFCN是否对奖赏的传递做出反应,以及这种反应是否取决于之前对两个听觉线索传递的奖赏可能性的预期。因此,我们将相同BFCN的峰值时间与奖励交付时间对齐,再次检查光栅图和PETH(D和4E)。我们发现,奖励还引发了大量BFCN反应,预期奖励和意外奖励的中位峰值延迟分别为86.5和82.7毫秒(图S5B类;四分位范围为78.13–100.25毫秒和54.5–92.5毫秒(对于预期和意外奖励)。为了比较BFCN对预期奖励和意外奖励的反应,我们基于上述延迟测量(R200)定义了奖励交付后200毫秒的反应窗口。我们发现,期望值较低的奖励导致胆碱能放电显著增强(69.3%,p=0.0245,威尔科森符号秩检验R200反应峰;F) ,也通过放电率比较证实(p=0.02026,威尔科森对R200窗口中BFCN放电率的符号秩检验;F) ●●●●。这些发现表明,BFCN的反应受到报酬期望的调节。
我们采取了类似的方法来调查BFCN对实施喘息惩罚的反应。BFCN对惩罚的反应也增加了发射率,峰值延迟非常短(G、 4H,和S6系列C类;中位数和四分位间距,24.5 ms和15.5–36 ms用于意外惩罚,24 ms和15.5–32 ms用于预期惩罚),证实了先前的结果。8,10,34当在200毫秒的反应窗口(P200)中直接比较对意外惩罚和预期惩罚的反应时,我们没有发现预期的显著调节(p=0.7869,Wilcoxon峰反应的符号秩检验;I;p=0.8393,Wilcoxon射击率签名等级测试)。在遗漏之后,我们没有检测到两个方向的射速有显著变化(图S7).
胆碱能反应由刺激驱动、价加权、无符号预测误差的强化学习模型解释
上述BFCN对条件刺激和非条件刺激的差异反应反映了结果预期,提示存在预测错误编码。35基于奖惩后BFCN的积极反应,我们假设BFCN可能代表无符号预测错误。如果结果预测误差的正负值相等,那么它将跟踪强化的期望,而与效价无关。因此,它可以预测对条件线索刺激的相同反应,条件线索刺激以固定的概率预示强化,只对强化遗漏率敏感。然而,与那些预测不太可能的奖赏但可能的惩罚的神经元相比,胆碱能神经元在预测可能奖赏的线索后表现出更强的反应。因此,我们的结果表明,BFCN对预期的积极和消极结果分配了不同的权重,这可能与强化物的绝对主观值的差异有关。我们没有观察到BFCN对强化遗漏的反应,这表明BFCN的反应是由感觉刺激驱动的,因此,刺激驱动的价标无符号预测误差模型可以解释BFCN峰值动力学。
为了测试这一点,我们实现并拟合了一个简单的三参数强化学习(RL)模型35,36胆碱能反应:
哪里C类代表胆碱能反应,S公司是一个比例参数,用于解释BFCN的不同平均燃烧率,对和P(P)是真实的,而E(右)和E(P)由任务突发事件决定的预期奖惩。为了考虑对水奖励和空气抽吸惩罚的相对敏感性的假设差异,我们引入了两个权重参数,η1和η2(0 ≤η1,η2≤1),这可以控制BFCN反应分别受到积极和消极结果预期的影响。取奖惩预测误差项之和的绝对值,可确保与配价无关的正向胆碱能反应,从而得出无符号奖惩预计误差的简单模型。我们发现,该模型很好地拟合了BFCN对C500、R200和P200响应窗口定义的不同线索和增强物的反应射速变化(A–5C),显著优于建模期望与任务意外事件不匹配的控制模型(所有n=25个BFCN的p=0.0014;仅检测HDB胆碱能神经元的p=0.0037;关于模型最大可能性的Wilcoxon符号秩检验;参见STAR方法).
胆碱能反应由刺激驱动、价加权、无符号预测误差的强化学习模型解释
(A) 胆碱能神经元数据的强化学习模型拟合示意图。平均发射率(FR)值通过包含任务意外事件的三参数RL模型进行拟合。
(B) 示例BFCN在提示呈现后500 ms响应窗口和奖惩后200 ms响应窗口中的开火率,按试验类型分开。条形图表示试验的平均值±SE。覆盖了与最佳RL模型相对应的假设发射率,用开圆圈表示。
(C) 相同响应窗口中所有已识别BFCN(n=25)的平均发射率。条形图表示神经元的平均值±SE。平均模型发射率用空心圆表示。
(D) 根据每个BFCN的最适合RL模型模拟尖峰响应(参见STAR方法). PETH的计算方法与实际数据相同,并在建模响应上取平均值(n=25)。
(E) 控制对奖励和惩罚期望的差异敏感性的两个模型参数的总和(η1+ η2)与可能奖励与不太可能奖励预测线索后的预期舔舐率差异相关(R=0.4773,Pearson相关系数;p=0.007,线性回归,F检验)。另请参阅图S8.
接下来,我们基于最适合的RL模型模拟单个BFCN的尖峰序列。基线发射由泊松过程建模,其频率与所建模BFCN的基线发射率相匹配,模拟发射响应在线索和强化事件发生后以固定延迟按照高斯分布进行添加,其中添加的尖峰数量由每个BFCN最适合的RL模型确定。当对模拟尖峰训练和真实数据进行相同的分析时,我们发现模拟PETH定性地再现了BFCN对线索和奖励的反应(D) ●●●●。这些结果进一步证明,我们观察到的BFCN反应与刺激诱导的、价加权的、无符号预测误差的表示一致。
最合身的η1值明显大于最佳拟合值η2值,表明BFCN对奖励的反应比惩罚预期的反应更为敏感(p=0.0001,Wilcoxon符号秩检验;中位数±SE,η1, 0.61 ± 0.04,η2, 0.37 ± 0.05). 同时,最适合η2值显著高于0.2,表明小鼠也学会了预测阴性结果,根据模型反映在其胆碱能反应中(p=0.0058,Wilcoxon符号秩检验)。这些参数可能反映了不同动物和记录天数的水奖励和喷气惩罚内部评估的潜在差异,以及对单个BFCN奖励期望的不同敏感性。我们假设这些参数反映了神经元之间的行为变异性,而不是异质性,这意味着这些参数在记录会话和单个小鼠内表现出一致性。事实上,我们发现最佳匹配中的内差小于跨差η1参数(p=0.002,Mann-Whitney U检验),且最佳拟合的区间内差异小于区间间差异η2参数(p=0.047,Mann-Whitney U检验;n=25;图S8). 这表明,结果期望的最合适的标度参数反映了个体BFCN的不同敏感性,而不是不同诱导和/或行为差异。
感知到的奖惩预测误差由以下因素控制η1和η2在我们的模型中;因此,它们共同决定了BFCN表示的无符号结果预测误差的大小。如果这能像以前的研究所建议的那样推动接近行为,21,37,38,39然后我们可以预计动物的预期舔食行为与这些模型参数相关。事实上,我们发现η1以及这两个参数的总和(η1
+ η2)表征胆碱能神经元对瞬时结果预测的敏感性,与行为线索分化密切相关,行为线索分化以预期舔食率差异为指标(p=0.012,R=0.52,p=0.056,R=0.33η1和η2分别为;p=0.007,R=0.48η1
+ η2; n=25;E和第8节; 当计算n=14个神经元的惊喜奖励试验>10次时,p=0.0013和R=0.78;皮尔逊相关系数、线性回归和单侧F检验)。
胆碱能反应预测反应时间
量化动物对结果预期的敏感性与行为表现的模型参数的相关性促使我们进一步评估BFCN反应是否可以预测动物行为。BFCN对结果提示的反应始终在动物第一次舔之前(A和6B)。当我们将胆碱能尖峰与不允许小鼠舔食的前一阶段之前的最后一次舔食对齐时,胆碱能活性在舔食之前达到峰值,其时间过程与线索相关舔食活动相似(图S9). 这些发现排除了潜在的“舔舐驱动”胆碱能活性可能混淆结果的可能性,而是表明胆碱能活性有可能影响执行任务的小鼠的行为反应。事实上,我们发现胆碱能线索反应越大,反应越快(“可能的奖励”和“不可能的奖励“线索分别为p=0.00073和p=0.05108;Wilcoxon符号秩检验;C) ●●●●。相应地,当小鼠在提示后舔食时,胆碱能提示反应更大(“可能的奖励”和“不太可能的奖励”提示分别为p=0.048和p=0.023;Wilcoxon符号秩检验;D) ●●●●。由于舔舐反应可以被视为小鼠期望奖赏的一种迹象,这些结果与胆碱能奖赏期望编码一致。接下来,我们根据线索出现后小鼠的反应时间将试验分为四个四分位。与上述结果一致,我们发现更快的舔反应之前有更强的胆碱能放电(E、 p=0.0314,单向方差分析)。这也反映在BFCNs在奖惩提示后的放电率与动物反应时间之间存在显著的负逐次试验相关性(R=-0.45,p=0.034;皮尔逊相关系数、线性回归和单侧F检验)。总之,这些结果表明BFCNs的线索反应可以预测反应时间,表明胆碱能结果预测编码影响行为反应。
胆碱能反应预测反应时间
(A) (上)动物胆碱能放电(上)和舔反应(下)的尖峰光栅与示例会话中可能的奖励线索一致。(下)胆碱能反应的相应PETH(上)和舔食活动(下)。
(B) 奖惩提示后胆碱能放电(顶部)和舔反应(底部)的平均PETH(n=25个BFCNs)。
(C) 大小线索对可能的奖励(左)和不可能的奖励线索(右)作出反应后的反应时间。线索反应被中位数分割p<0.001,p=0.00073和n.s.,p>0.05,p=0.05108,Wilcoxon符号秩检验,n=25。条形图表示中值±SE。
(D) 根据动物预期舔反应的存在与否,区分可能奖赏和不可能奖赏线索的胆碱能反应的平均PETH。
(E) 对奖惩提示更强的胆碱能反应预示着更快的反应时间。(左)对可能的奖励线索的反应平均PETH,划分为反应时间四分位数(第一个四分位数对应最短反应时间,深绿色)。(右)作为反应时间四分位数函数的可能奖励线索的峰值反应条形图(平均值±SE)。*p<0.05,p=0.0314,单因素方差分析。另请参阅图S9.
讨论
基底前脑的胆碱能神经元对行为显著事件作出反应。8,9,10,11,22,34,40,41为了更好地理解这些反应的本质,我们研究了由结果预测刺激和行为反馈引发的活动模式是否符合预测误差假设。通过使用体钙成像研究BFCN群体的反应,以及在概率巴甫洛夫线索结果任务中通过光遗传标记研究单个BFCN的反应,我们发现BFCN在奖励-给予刺激后表现出强烈的激活,并且对惊喜的反应大于预期的奖励。这些结果与刺激驱动、价加权、无符号奖励预测误差的简单RL模型一致。该模型还表明,虽然BFCN对正负效价事件的反应是发射率增加,但它们也反映了对正负期望的不同行为敏感性。最后,发现BFCN反应可能会影响行为表现,因为小鼠在更强的胆碱能激活后表现出更快的反应。
时间差异强化学习(TDRL)模型成功地解释了多巴胺能系统所代表的奖赏预测错误。35,36,42存在由期望和对奖赏性感官刺激的反应调节的奖赏反应表明胆碱能信号也可能与预测误差有关;然而,对惩罚的一贯积极反应表明,这个预测误差信号可能是无符号的。一个模型将相同的正权重放在厌恶和欲望结果上,它跟踪强化的期望,而不管其价如何;因此,如果遗漏率不变,它可以预测奖惩线索的相同反应。然而,BFCN显然更倾向于奖励性刺激,这表明奖惩表现存在差异。因此,我们实现了一个RL模型,并拟合了基于价的捕获差异加权的参数。我们发现,该模型可靠地预测了BFCN对线索、奖励和惩罚的平均反应。与预期回报相比,它还再现了BFCN对预示高概率回报以及惊喜的线索的更大反应。最佳拟合模型表明奖惩期望的权重均为非零,表明两种结果的行为预期,但奖惩预期的权重明显较大,表明所代表的结果预测误差胆碱能神经元的权重确实不相等。
这个快速预测误差信号的函数可能是什么?长期以来,胆碱能系统强烈影响皮质可塑性。三,43,44,45,46,47一系列研究表明,将听觉刺激与胆碱能刺激配对可以重组皮层的感觉表征,即所谓的“感受野可塑性”23,24此外,最近的研究表明,胆碱能输入甚至可能赋予初级感觉皮层非感觉表征,这是以前没有预料到的。48,49特别是,Liu等人。研究表明,视皮层胆碱能纤维的光遗传激活引发了模仿行为条件奖赏计时活动的神经反应。50研究还表明,胆碱能系统在毫秒尺度上对可塑性进行快速、精细的平衡控制,强调了时间的重要性,甚至对神经调节系统也是如此。51,52,53这种对可塑性的影响可能对行为层面的联想学习产生根本性影响,54恐惧学习领域的最新进展也表明了这一点。11,22,55,56
事实上,我们发现最适合的模型参数与动物的预期舔食率差异相关,这表明它们的学习表现。此外,对奖赏线索的胆碱能反应预测了行为反应和反应时间,符合更一般的基础前脑对动机显著刺激反应速度的控制方案。21,37,45因此,我们提出,快速乙酰胆碱介导的皮层激活,以无符号结果预测误差为尺度,调节为行为学习服务的突触可塑性。这一观点得到了强有力的理论支持,这些理论将预测错误和胆碱能活动与学习和记忆联系起来。57,58,59然而,胆碱能效应的功能可能超越学习,BFCN可能控制行为的许多方面,包括唤醒或警觉,21,31,40,45,60,61,62,63,64注意,三,54,65,66,67并保持警惕。68,69,70
胆碱能神经元的活动与多巴胺能神经元在对奖赏和奖赏线索的反应中有很大的相似性。35,71,72,73奖励-奖赏线索会引起射击频率的增加,这对于更可能的奖励来说更为强烈。奖励本身也会引发胆碱能放电,但如果奖励更为预期,则情况就不那么严重了。然而,胆碱能神经元与多巴胺能神经元对惩罚的反应不同。多巴胺能神经元对厌恶性刺激的反应可以增加或减少放电,74,75,76而胆碱能神经元对气流的反应持续快速、精确。因此,BFCN的正向反应与效价无关,对线索和奖赏的结果概率敏感,表明与多巴胺能神经元编码的奖赏预测错误信号相比,BFCNs代表一个无符号的结果预测错误。重要的是,在灵长类动物中发现了具有类似编码特性的基底前脑神经元,39这表明这些神经元中至少有一部分可能具有胆碱能。
胆碱能神经元似乎比多巴胺能神经元反应更快;然而,反应时间可能取决于行为范式看似微妙的细节。总的来说,BFCNs似乎对显著刺激提供了更快但不太特异的反应,这可能传播到由胆碱能纤维支配的大皮层区域。77,78相比之下,与多巴胺能系统中所表示的值相关的计算可能需要更多的处理时间,并导致一些延迟,尽管更具体的表示。然而,为了揭示这些主要神经调节系统的不同功能,有必要在同一实验中直接比较胆碱能和多巴胺能神经元。
研究的局限性
价加权无符号预测误差假说预测对意外惩罚的反应强于预期惩罚;惩罚的权重越大,差异越大。我们没有发现显著差异,这可能是因为惩罚的权重较低,降低了统计能力,或者理论上偏离了全面的结果预测错误。
此外,无符号预测错误信号预测忽略奖励后的发射率增加。注意,无符号预测误差变量只采用非负值,因此,状态值的所有意外更改都会导致绝对值运算符导致值增加;然而,预测遗漏后射击速度下降的不同模型也是可以想象的。我们测试了一个包含遗漏相关活动的替代模型(请参见STAR方法),但我们发现该模型与基于数据集的原始模型在统计上无法区分,这表明需要大量数据才能解决这个问题。此外,考虑到胆碱能增强反应的阶段性,通常包含很少(有时只有一个)但精确计时的动作电位,10预计在单个神经元中很难检测到没有感觉刺激的遗漏反应。事实上,最近的一项研究使用纤维光度法证明了HDB胆碱能神经元中的正向遗漏反应。41或者,胆碱能系统可能对外部感觉刺激敏感,但对缺乏预期刺激不敏感,这与其传递感觉信号的强自下而上的解剖输入一致,79可能通过可能传递期望信息的局部抑制神经元进行门控。80最近的一项研究表明,胆碱能对显著事件的反应存在地形变化,41这也可能导致这些歧义。