The Remarkable Robustness of Surrogate Gradient Learning for Instilling Complex Function in Spiking Neural Networks

Zenke, Friedemann; Vogels, Tim P.

doi:10.1162/neco_a_01367

大脑在脉冲神经网络中处理信息。它们错综复杂的连接形成了这些网络所执行的各种功能。然而，人们对网络连接与功能之间的关系知之甚少，尖峰网络模型的功能能力仍处于初级阶段。缺乏理论洞察力和实用算法来寻找必要的连通性，这对研究大脑中的信息处理和构建高效的神经形态硬件系统构成了主要障碍。为人工神经网络解决此问题的训练算法通常依赖于梯度下降。但由于尖峰的不可微非线性，在尖峰网络中这样做仍然具有挑战性。为了避免这个问题，可以使用代理梯度来发现所需的连接性。然而，替代方法的选择并不是唯一的，这引发了一个问题，即其实施如何影响该方法的有效性。在这里，我们使用数值模拟系统地研究了替代梯度的基本设计参数如何影响一系列分类问题的学习性能。我们表明，代理梯度学习对不同形状的潜在代理导数具有鲁棒性，但导数尺度的选择会显著影响学习性能。当我们将代理梯度与适当的活动正则化技术相结合时，尖峰网络在稀疏活动极限下执行稳健的信息处理。我们的研究系统地描述了代理梯度学习的显著鲁棒性，并为函数尖峰神经网络建模提供了实用指南。

1 介绍

深层神经网络的计算能力（LeCun、Bengio和Hinton，2015；施密杜贝尔，2015)重新激发了人们对使用电子系统研究大脑信息处理的兴趣（Barrett、Morcos和Macke，2019；Richards等人。，2019). 例如，性能优化的人工神经网络与视觉系统具有惊人的代表性相似性（Maheswaranathan et al。，2018；McClure&Kriegeskorte，2016；McIntosh、Maheswaranathan、Nayebi、Ganguli和Baccus，2016；Pospisil、Pasupathy和Bair，2018；田中等人。，2019；Yamins和DiCarlo，2016；Yamins等人。，2014)并有助于形成关于其机械基础的假设。同样，为解决认知任务而优化的人工递归神经网络的活动类似于前额叶的皮层活动（Cueva等人。，2019；Mante、Sussillo、Shenoy和Newsome，2013)、内侧额叶（王、纳雷恩、侯赛尼和贾扎耶里，2018)和运动区（Michaels、Schaffelhofer、Agudelo-Toro和Scherberger，2019；Stroud、Porter、Hennequin和Vogels，2018)从而为我们理解递归神经网络中计算的动态特性提供了新的前景（Barrett等人。，2019；苏西洛和巴拉克，2012；Williamson、Doiron、Smith和Yu，2019).

所有这些研究都依赖于机器学习中常用的具有分级激活函数的传统人工神经网络。构建深度神经网络的方法很简单。在网络输出端定义的标量损失函数的值通过梯度下降降低。深度神经网络在重要方面不同于生物神经网络。例如，他们缺乏细胞类型多样性，不遵守戴尔定律，而忽视了大脑使用尖峰神经元的事实。我们通常接受这些缺陷，因为我们不知道如何构建更复杂的网络。例如，梯度下降仅在涉及的系统可微时有效。峰值神经网络（SNN）并非如此。

替代梯度已经成为构建能够解决复杂信息处理问题的功能SNN的解决方案（Bellec、Salaj、Subramoney、Legenstein和Maass，2018；Cramer、Stradmann等。，2020；Esser等人。，2016；Hunsberger&Eliasmith，2015；Lee、Delbruck和Pfeiffer，2016；Neftci、Mostafa和Zenke，2019；Pfeiffer和Pfeil，2018；Shrestha&Orchard，2018). 为此，出现在梯度解析表达式中的尖峰的实际导数被任何性能良好的函数所取代。这种替代导数有很多可能的选择，因此，与系统的真实梯度不同，生成的替代梯度并不是唯一的。许多研究已经成功地将替代导数的不同实例应用于各种问题集（Bellec等人。，2018；Esser等人。，2016；Huh&Sejnowski，2018；Shrestha&Orchard，2018；沃罗兹尼亚克、潘塔齐、博恩斯廷格和埃莱夫塞里奥，2020；Zenke和Ganguli，2018). 虽然这表明该方法并不严重依赖于替代导数的具体选择，但我们对替代梯度的选择如何影响有效性以及某些选择是否优于其他选择知之甚少。以前的研究没有解决这个问题，因为它们解决了不同的计算问题，从而排除了直接的比较。在这封信中，我们通过提供基准来解决这个问题，以比较SNN在一系列监督学习任务中的可训练性，并系统地改变用于同一任务中训练网络的替代导数的形状和规模。

2 结果

为了系统地评估代理梯度的性能，我们试图在改变代理梯度的同时，针对同一问题重复训练相同的网络。为此，我们需要一个要求很高的基于峰值的分类问题，并且计算量很小，以此作为基准。SNN的基准很少。一种方法是直接使用模拟值机器学习数据集作为输入电流（Hunsberger&Eliasmith，2015)或首先将其转换为泊松输入尖峰序列（Lee等人。，2016；Pfeiffer和Pfeil，2018). 然而，这些输入范式并没有充分利用尖峰计时（尖峰处理的一个重要方面）中编码信息的能力。古提格(2016)用Tempotron解决了这一点，它对随机产生的每一个输入神经元触发一个单脉冲的脉冲计时模式进行了分类。然而，完全随机计时排除了评估泛化性能的可能性，即泛化到以前看不到的输入的能力。

2.1 随机流形作为柔性基准的基础

为了评估SNN是否能够学习对棘波模式进行分类并将其推广到未发现的模式，我们创建了一些带有附加时间结构的合成分类数据集。具体来说，我们为一组给定的输入传入创建了棘波光栅。每个传入只发射一个尖峰，并且所有传入的尖峰时间被限制在所有可能的尖峰时间的空间中的低维光滑、随机的流形上。来自同一流形的所有数据点都被定义为同一输入类的一部分，而不同流形对应不同的类。

尖峰-计时流形方法有几个优点：首先，数据中的时间结构允许研究泛化，这比使用纯随机尖峰模式具有决定性优势。其次，通过调整传入数量（流形的平滑度参数）可以无缝地调整任务复杂性

α

（见图1a），固有流形维数

D类

⁠，以及类的数量

n个

（见图1b） ●●●●。第三，我们确保每个输入神经元只出现一次峰值（见图1c），确保生成的数据集完全依赖于峰值定时，因此无法从发射率信息进行分类。最后，从每个类中抽取任意数量的数据点在计算上很便宜，并且生成任意数量的具有可比较属性的不同数据集也同样容易。

图1：

平滑随机流形提供了生成合成峰值定时数据集的灵活方法。（a）三维嵌入空间中不同光滑参数α的四个一维示例流形。从每个流形中，我们绘制了1000个随机数据点。（b）与面板a中相同，但在改变流形尺寸D和随机流形的数量（不同颜色）的同时保持α=3固定。通过采样不同的随机流形，可以直接构建合成的多路分类任务。（c）沿着一维光滑随机流形（α=3）的固有流形坐标x对应12个样本的峰值光栅图，我们将嵌入空间坐标解释为单个神经元的放电时间。

查看大型下载幻灯片

平滑随机流形提供了生成合成峰值定时数据集的灵活方法。（a）四个不同平滑参数的一维示例流形 $α$ 在三维嵌入空间中。从每个流形中，我们绘制了1000个随机数据点。（b）与面板a中相同，但保持 $α = 3$ 更改歧管尺寸时固定 $D类$ 以及随机流形（不同颜色）的数量。通过采样不同的随机流形，可以直接构建合成的多路分类任务。（c）沿固有流形坐标对应12个样本的峰值光栅图 $x个$ 一维光滑随机流形(⁠ $α = 3$ ⁠)据此，我们将嵌入空间坐标解释为单个神经元的放电时间。

为了证明我们的方法的有效性，我们在一个SNN上对其进行了测试，在一个简单的双向分类问题上使用了一个单独的隐藏层（见图2a和截面4). 我们将隐藏层的单元建模为基于电流的泄漏积分和核神经元。在各层之间，连接是严格前馈和全方位的。输出层由两个没有峰值的泄漏积分器组成，允许我们计算膜电位的最大值（Gütig&Sompolinsky，2006)并将这些值解释为监督学习的标准分类损失函数的输入（参见第节4). 在这种设置中，具有最高活动水平的读出单元表示每个输入的假定类别成员（Cramer、Stradmann、Schemmel和Zenke，2020).

图2：

代孕梯度下降允许构建功能性SNN。（a）顶部有两个读出装置的网络模型草图。监测损失函数Lsup的定义是，首先获取读出单元Uout（橙色和蓝色）随时间的最大激活值，然后应用Softmax和交叉熵损失LCE（详细信息见第4节）。（b）当使用实际梯度（“真”，灰色）或代理梯度（红色）训练二元随机流形分类问题的SNN时，网络的学习曲线。（c）培训前网络活动的快照。底部：输入层活动的峰值光栅。对应于两个不同类别的四个不同输入按时间绘制（橙色/蓝色）。中间：隐藏层活动的尖峰光栅。顶部：读取单元膜电位。网络错误地将两个“橙色”输入分类为属于“蓝色”类，这可以从其读出单元的最大活动中读出。（d）与面板c中相同，但使用代理梯度下降对网络进行训练。（e）在一次试验中，七个随机选择的隐藏层神经元的膜电位轨迹示例。

查看大型下载幻灯片

替代梯度下降允许构建功能SNN。（a）顶部有两个读出装置的网络模型草图。监督损失函数 ${L（左）}_{啜饮}$ 通过首先获取读数装置随时间变化的最大激活值来定义 ${U型}_{我}^{外面的}$ （橙色和蓝色），然后应用Softmax和交叉熵损失 ${L（左）}_{总工程师}$ （参见第节4详细信息）。（b）当使用实际梯度（“真”，灰色）或代理梯度（红色）训练二元随机流形分类问题的SNN时，网络的学习曲线。（c）培训前网络活动的快照。底部：输入层活动的峰值光栅。对应于两个不同类别的四个不同输入按时间绘制（橙色/蓝色）。中间：隐藏层活动的尖峰光栅。顶部：读取单元膜电位。该网络错误地将两个“橙色”输入归类为“蓝色”类，因为可以从其读出单元的最大活动中读出。（d）与面板c中相同，但使用代理梯度下降对网络进行训练。（e）在一次试验中，来自七个随机选择的隐层神经元的示例膜电位轨迹。

我们首先确认，当我们使用实际梯度时，学习效果很差。为此，我们使用尖峰硬阈值非线性的导数来计算它。正如预期的那样，硬阈值非线性阻止梯度流进入隐藏层（Neftci等人。，2019)从而导致性能不佳（见图2b和2c）。相反，当我们使用替代梯度来训练同一个网络时，问题就消失了。学习发生在隐藏层和输出层，导致损失函数大大减少（见图2b至2e）。

2.2 替代梯度学习对替代导数的形状具有鲁棒性

替代梯度学习的一个必要组成部分是合适的替代导数。为了比较研究代理导数的影响，我们生成了一个具有10类的随机流形数据集。我们选择了剩下的参数，即输入单元数、流形维数和平滑度

α

使没有隐藏层的网络无法解决该问题，同时保持最小的计算负担。我们使用单个隐藏层训练同一网络的多个实例(⁠

{n个}_{小时} = 1

⁠)使用快速sigmoid的导数作为替代导数（见图3“超级尖峰”；Zenke和Ganguli，2018)在此数据集上。在每次运行中，我们都保持模型的数据集和初始参数不变，但改变了斜率参数

β

⁠代理对象的。对于的每个值

β

⁠，我们对学习率进行了参数扫描

η

⁠在训练之后，我们测量了保留数据的分类准确性。这项研究揭示了一个广泛的参数范围

β

和

η

其中系统能够以高精度解决问题（见图3b） ●●●●。添加第二个隐藏层仅略微改善了这一结果，正如预期的那样，没有隐藏层的网络表现不佳（见图3c） ●●●●。产生高性能的参数范围表明，代理梯度学习对代理导数陡度的变化具有显著的鲁棒性。虽然阈值的陡峭接近可以被视为尖峰实际导数的更接近（因此更好）近似值，但只要函数不是常数，替代梯度在很大程度上仍然不受函数与精确导数的相似程度的影响。

图3：

代理梯度学习对代理导数的形状具有鲁棒性。（a）三种不同的替代导数形状已用于合成平滑随机流形峰值数据集的训练。从左至右：SuperSpike（Zenke&Ganguli，2018），快速乙状函数的导数Sigma'，标准乙状函数导数，以及“Esser等人”，分段线性函数（Bellec等人，2018；Esser等，2016）。颜色对应于斜率参数β的不同值。（b）对于具有一个隐藏层（nh=1）的网络，面板a中对应替代项的保持数据的精度是学习率η和斜率β的函数。（c）测试从网格搜索中获得的五个最佳参数组合的准确性，如面板b所示，用于不同的替代项和隐藏层nh的数量。虽然没有隐藏层的网络无法解决分类问题（黑色），但使用各种不同替代项和斜率参数（β>0）训练的网络在高精度（蓝色阴影）下解决任务时没有问题。然而，该问题并没有通过具有隐藏层的网络得到高精度的解决，其中代理导数在训练期间是常数（β=0；灰色）。误差条对应于标准偏差（n=5）。（d）具有一个隐藏层的网络在五种不同实现的随机流形数据集（“数据集”）上的分类精度的Whisker图，以及相同的数据集，但在具有一个（nh=1）或两个（nh=2）隐藏层的网中使用不同的权重初始化（“初始值”）。

查看大型下载幻灯片

代理梯度学习对代理导数的形状具有鲁棒性。（a）三种不同的替代导数形状已用于合成平滑随机流形峰值数据集的训练。从左到右：SuperSpike（Zenke和Ganguli，2018)，快速sigmoid函数的导数，Sigma $^{'}$ ⁠标准S形函数的导数，以及“Esser等人”，分段线性函数（Bellec等人。，2018；Esser等人。，2016). 颜色对应于斜率参数的不同值 $β$ ⁠（b）作为学习率函数的搁置数据的准确性 $η$ 和斜坡 $β$ 对于面板a中具有一个隐藏层的网络的对应代理(⁠ ${n个}_{小时} = 1$ ⁠). （c）测试从网格搜索中获得的五个最佳参数组合的准确性，如图b所示，用于不同的代理和隐藏层的数量 ${n个}_{小时}$ ⁠虽然没有隐藏层的网络无法解决分类问题（黑色），但使用各种不同的代理和斜率参数训练的网络(⁠ $β > 0$ ⁠)准确无误地完成任务（蓝色阴影）。然而，具有隐含层的网络在训练期间代理导数为常数，并没有高精度地解决该问题(⁠ $β = 0$ ⁠；灰色）。误差条对应于标准偏差(⁠ $n个 = 5$ ⁠). （d）随机流形数据集（“数据集”）的五种不同实现形式上具有一个隐藏层的网络和相同数据集的分类精度的Whisker图，但在具有任意一个数据集的网络中使用不同的权重初始化（“初始值”）(⁠ ${n个}_{小时} = 1$ ⁠)或两个(⁠ ${n个}_{小时} = 2$ ⁠)隐藏层。

接下来，我们测试了不同的替代导数形状，即标准sigmoid（sigmoid $^{'}$ ⁠)和分段线性函数（Esser等人，2016；见图3a；Bellec等人。，2018). 这种操作导致了参数范围的缩小 $β$ 其中网络能够执行任务，这可能是由于梯度消失（Hochreiter，1998). 然而，最大性能没有显著降低（见图3b和3c） ●●●●。使用分段线性替代导数（Esser等人）导致可行参数的进一步减少 $β$ （见图3b），但不影响最大性能，无论我们使用的是一个还是两个隐藏层（参见图3c） ●●●●。为了检查解决随机流形问题是否需要代理导数，我们分析了 $β = 0$ ⁠，对应于将函数设置为1。与没有隐藏单元的网络相比，此更改导致性能显著下降（见图3c）提出非线性电压依赖性对于学习有用的隐藏层表示法至关重要。最后，我们确认这些发现对不同的初始网络参数和数据集是可靠的（见图3d）除了在两层隐藏的情况下只有少数性能低下的异常值(⁠ ${n个}_{小时} = 2$ ⁠). 这些异常值指向正确初始化的关键作用（He，Zhang，Ren，&Sun，2015；米什金和马塔斯，2016).

2.3 替代梯度学习对替代导数的规模敏感

在大多数依赖替代梯度的研究中，替代导数被标准化为1（Bellec等人。，2018；Esser等人。，2016；Neftci等人。，2019；Shrestha&Orchard，2018；Zenke和Ganguli，2018)（见图3a），与峰值阈值的实际导数明显不同，峰值阈值是无限的（见图5a）。由于SNN中递归的显式和隐式形式，替代导数的规模对替代梯度有很大影响（见图4；Neftci等人。，2019). 最值得注意的是，刻度可以确定梯度是消失还是爆炸（Hochreiter，1998). 然而，尚不清楚这种差异在多大程度上转化为训练网络的性能变化。

图4：

SNN可以有隐式和显式递归。单个SNN层的计算图示意图，该层由泄漏的积分并射（LIF）神经元组成（见第4节）。输入尖峰序列S（0）从底部进入，通过前馈权重W（1）影响突触电流变量I（1）。时间从左向右流动。连接图中时间上相邻节点的任何链接都构成了计算中的一种递归形式，其中突触连接V（1）为图提供了显式递归。例如，突触电流变量和膜电位U（1）的衰减会导致隐性复发。此外，尖峰复位通过将未来状态耦合到输出尖峰序列S（1），提供了另一种形式的隐式递归。涉及代理导数（例如重置）的循环取决于所选代理的形状和比例，并且可以显著改变代理梯度。

查看大型下载幻灯片

SNN可以有隐式和显式递归。单个SNN层的计算图示意图，该层由泄漏的积分和纤芯（LIF）神经元组成（参见第节4). 输入尖峰列车 ${S公司}^{(0)}$ 从底部进入并影响突触电流变量 $我^{(1)}$ 通过前馈权重 ${W公司}^{(1)}$ ⁠时间从左向右流动。图中连接时间上相邻节点的任何链接都构成了计算中的一种递归形式，通过这种递归形式，突触连接 ${V（V）}^{(1)}$ 为图形提供显式递归。例如，突触电流变量和膜电位的衰减会导致隐性复发 ${U型}^{(1)}$ ⁠此外，尖峰重置通过将未来状态耦合到输出尖峰序列，提供了另一种形式的隐式递归 ${S公司}^{(1)}$ ⁠.涉及替代导数（例如重置）的循环取决于所选替代项的形状和规模，并且可以显著改变替代项梯度。

图5：

替代梯度学习对替代导数的规模很敏感。（a）收敛于硬尖峰阈值β的实际导数的伪导数σ'的图解→∞. 注意，与图3a相反，它们的最大值随着β的增加而增加。（b）在综合分类任务训练期间，几个峰值网络（nh=1）的训练精度。灰色曲线包括控制网络，其中替代导数被归一化为一，或者我们使用了渐近替代导数，但阻止替代梯度通过峰值重置。橙色曲线对应于具有可微分尖峰复位（aDR）的渐近伪导数的网络。在所有情况下，我们绘制了从β和学习率η的广泛网格搜索中获得的五条最佳学习曲线（参见图3）。（c）量化面板b中显示的不同学习曲线的测试精度。我们使用SuperSpike非线性训练所有网络。重置项被忽略（sCtl）或使用了可微分重置（aDR）。类似地，我们考虑了SuperSpike的一个渐近变量，它确实收敛于β阶跃函数的精确导数→∞, 没有（aCtl）或具有可微重置项（aDR）。显示的结果对应于网格搜索的10个最佳结果。误差条表示标准偏差。（d）对忽略重置项（灰色）或可能导致不同数量隐藏层的代理梯度（橙色）的控制案例进行了类似的比较。（e）测试面板c中的准确性，但比较SuperSpike s和渐近情况，在这种情况下，梯度可以通过递归连接（Prop）与分离情况（Ctl）流动。（f）测试渐进SuperSpike的准确性，作为梯度通过递归连接（橙色）与分离情况（灰色）的网络的隐藏层数量的函数。

查看大型下载幻灯片

替代梯度学习对替代导数的规模很敏感。（a）伪导数图解 $σ^{'}$ 收敛到硬尖峰阈值的实际导数 $β \to \infty$ ⁠请注意，与图3a、它们的最大值随着 $β$ 增加。（b）几种扣球网络的训练精度(⁠ ${n个}_{小时} = 1$ ⁠)在综合分类任务培训期间。灰色曲线包括控制网络，其中替代导数被归一化为一，或者我们使用了渐近替代导数，但阻止替代梯度通过峰值重置。橙色曲线对应于具有可微分尖峰复位（aDR）的渐近伪导数的网络。在所有情况下，我们都绘制了五条性能最佳的学习曲线，这些曲线是通过广泛的网格搜索获得的 $β$ 和学习率 $η$ （参见图3). （c）对不同学习曲线的测试精度进行量化，如图b所示。我们使用SuperSpike非线性训练了所有网络。重置项被忽略（sCtl）或使用可差分重置（aDR）。类似地，我们考虑了SuperSpike的一个渐近变量，它确实收敛于阶跃函数的精确导数 $β \to \infty$ ⁠，没有（aCtl）或具有可微重置项（aDR）。显示的结果对应于网格搜索的10个最佳结果。误差条表示标准偏差。（d）对忽略重置项（灰色）或可能导致不同数量隐藏层的代理梯度（橙色）的控制案例进行了类似的比较。（e）测试面板c中的准确性，但比较SuperSpike s和渐近情况，在这种情况下，梯度可以通过递归连接（Prop）与分离情况（Ctl）流动。（f）测试渐进SuperSpike的准确性，作为梯度通过递归连接（橙色）与分离情况（灰色）的网络的隐藏层数量的函数。

为了更好地理解大于1的导数尺度如何影响代理梯度学习，我们在固定的随机流形任务上训练网络（参见图3a到3c），使用SuperSpike替代项（aCtl；见图3)和我们经过良好测试的标准SuperSpike函数（sCtl；见图3)作为控件（sCtl）。正如我们预期的那样，规模上的差异主要表现在复发的情况下，我们比较了将峰值重置视为可微（DR）的网络与通过将其从计算图中分离出来而忽略其贡献的网络。从技术上讲，我们阻止了PyTorch的自动微分程序（Paszke等人。，2019)通过考虑计算图中与尖峰重置相对应的连接，当通过时间反向传播（BPTT）计算梯度时（见方程4.1). 当分离重置时，归一化（sCtl）和渐近代理（aCtl5b和5c）。这种对学习的不利影响在深层网络中被放大了（见图5d） ●●●●。因此，如果网络中存在尖峰重置所导致的内隐复发，那么替代导数的规模在学习成功中起着重要作用。

由于峰值重置构成了一种特定形式的隐式复发（参见图4)，我们想知道是否会通过反复的突触连接观察到类似的显性复发现象。为此，我们在具有循环连接的网络中重复了性能测量，但保持峰值重置项分离以防止梯度流。我们观察到性能最好的网络在精确度方面出现了微小但可测量的降低（参见图5c和5e）。然而，重要的是，当允许梯度通过递归连接并且使用渐进SuperSpike变量时，分类性能显著下降（见图5e） ●●●●。与可差分重置（DR）情况不同，这种影响严重到足以将网络性能降低到机会级别，即使是对于只有一个隐藏层的网络（见图5f） ●●●●。总之，替代梯度对替代导数的尺度是敏感的。更具体地说，当代理导数的规模过大，并且网络中存在隐式或显式递归时，对学习的影响可能是有害的。

2.4 替代梯度学习对损失函数、输入范式和数据集的变化具有鲁棒性

到目前为止，我们已经研究了用损失函数训练的严格前馈网络中的合成随机流形数据集，损失函数定义在读出单元的最大随时间变化（Max）上。接下来，我们进行了额外的模拟，其中损失是通过一段时间内的总和来计算的（“总和”；参见第节4). 基于上述发现，我们将分析局限于SuperSpike替代品

β = 10

和分离重置条款。与之前一样，我们对学习率进行了网格搜索

η

并使用held-out验证数据选择了10个性能最佳的模型。然后，我们在单独的测试集上计算了它们的分类性能。我们对上述随机流形任务重复了模拟实验，没有发现Max和Sum型读出头的精度有任何实质性差异（见图6a） ●●●●。

图6：

查看大型下载幻灯片

替代梯度学习对不同的损失函数、输入范式和数据集有效。条形图显示了不同数据集（a–e）的测试分类精度。该图通过其读出配置（总和与最大值）以及它们是否使用纯前馈（FF）或显式递归（RC）突触连接来进一步区分模型。每个条形图对应于搁置验证数据的10个最佳模型的平均值，误差条形图表示标准偏差。

为了在不同的数据集上检查这些发现的有效性，我们通过将像素值转换为峰值延迟（参见图7a、7b和截面4). 在这个范例中，每个输入神经元为每个输入触发一个或无一个峰值。网络测试精度达到

(98.3 \pm 0.9) %

⁠与具有相同数量神经元和隐藏层的传统人工神经网络以及之前使用时间编码的SNN研究（Mostafa，2018). 我们没有观察到我们测试的两种读出类型之间有任何明显的性能差异（见图6b） ●●●●。

图7：

不同输入范例的示例。（a）来自MNIST手写数字数据集的一个示例图像。（b） 28×28=784个输入神经元的相应尖峰潜伏期编码的尖峰光栅图。（c）语音数字“三”和“七”的两个示例输入的尖峰光栅取自SHD数据集（Cramer，Stradmann等人，2020）。（d）使用原始音频输入进行模拟时使用的数字“七”的梅尔标度语谱图。

查看大型下载幻灯片

不同输入范例的示例。（a）来自MNIST手写数字数据集的一个示例图像。（b）对应峰值延迟编码的峰值光栅图 $28 \times 28 = 784$ 输入神经元。（c）来自SHD数据集的语音数字“三”和“七”的两个示例输入的尖峰光栅（Cramer、Stradmann等人。，2020). （d）使用原始音频输入进行模拟时使用的数字“七”的梅尔标度语谱图。

此外，为了研究显式递归的影响，我们对递归连接网络（RC）进行了单独的实验。重要的是，我们也没有观察到严格前馈网络和循环连接网络之间的任何实质性性能差异（见图6a和6b）。

我们推测，没有影响可能是因为迄今为止所考虑的输入尖峰序列持续时间短（约50 ms）。递归连接通常被认为为神经网络提供了更长的时间尺度动态，有效地为网络提供了工作记忆。因此，只有当使用持续时间更长的刺激时，重复连接的有益效果才会出现，任何给定的输入神经元都可能出现多个尖峰。

为了验证这一假设，我们对网络进行了海德堡数字峰值（SHD）数据集训练（Cramer，Stradmann et al。，2020)它由持续时间在0.6到1.4秒之间的听觉通路的模拟输入尖峰组成（见图7c） ●●●●。事实上，我们发现在这种情况下表现最好的模型是重复出现的，并且达到了最先进的分类精度 $(0.82 \pm 0.02) %$ （见图6c） ●●●●。这些数据与工作记忆在分类较长的输入模式中起着至关重要的作用的概念是一致的。

2.5 基于电流输入的网络中的替代梯度学习

到目前为止，我们一直在考虑基于峰值的数据集。虽然尖峰输入可以说是SNN最自然的输入，但也有一个重要的警告。所有峰值数据集都采用特定的编码模型，用于将模拟输入数据转换为峰值表示。然而，所选模型可能不是最优的，因此会对分类性能产生不利影响。为了避免这个问题，我们试图通过将基于电流的输入直接输入到一组峰值单元（Zimmer、Pellegrini、Singh和Masquelier，2019). 为了测试这个想法，我们转换了海德堡数字的原始音频数据（Cramer，Stradmann等人。，2020)至熔化间隔光谱图（见图7d和第4节）。为了减少过拟合，我们将通道数和时间步长减少到人工语音识别系统中常用的值。具体来说，我们使用了40个通道和80个时间帧，对应于大约5倍的时间压缩（参见第4). 在该RawHD数据集上训练的网络显示，与严格的前馈网络相比，过度拟合减少了，但仍受益于循环连接（见图6d） ●●●●。具体而言，达到了循环网络 $(94 \pm 2) %$ 测试精度，而前馈网络仅达到 $(85 \pm 3) %$ ⁠与Randman和MNIST的结果一致，Sum和Max读出配置之间没有显著差异（见图6).

我们想知道对于更具挑战性的数据集，前馈网络和递归网络之间的差异是否会增加。这是通过将输入维度减少到40个通道的性能增益而实现的，这使我们能够在更大的语音命令数据集上训练SNN（Warden，2018；参见第节4). 该数据集包含来自35个类别的100000多个单词，包括“是”、“否”和“左”。与最初用于关键字识别的目的相反，我们在这里分析了所有类别的前1分类准确性，这是一个比仅准确检测单词子集更具挑战性的问题。实现的最佳SNN $(85.3 \pm 0.3) %$ 在这个具有挑战性的基准上（见图6e） ●●●●。在相同的任务中，峰值前馈网络在 $(70 \pm 2) %$ ⁠。通过向网络添加经常性连接，Max的性能明显受益(⁠ $(85.3 \pm 0.3) %$ ⁠)略优于总和(⁠ $(80.7 \pm 0.4) %$ ⁠)读出配置。

这些发现表明，替代梯度学习对输入范式的变化具有鲁棒性，包括峰值和非峰值数据集。对于更复杂的数据集，递归连接网络的性能优于严格的前馈网络。最后，在大多数情况下，代理梯度学习对如何定义输出损失的细节是稳健的。

2.6 SNN中的最优稀疏峰值活动水平

到目前为止，我们的重点是最大限度地提高分类精度，而忽略了结果SNN中出现的活动级别。然而，我们发现，对于某些解决方案，这些网络中的神经元显示出难以置信的高放电率（见图8a）。实验结果表明，大多数生物网络都表现出稀疏的峰值活动，这一特征被认为是其卓越能效的基础（Boahen，2017；Cramer、Billaudelle等人。，2020；奈夫奇，2018；罗伊、贾斯瓦尔和熊猫，2019；Schemmel等人。，2010；斯特林和劳克林，2017).

图8：

查看大型下载幻灯片

活动正则化使隐藏层活动稀疏，同时保持功能。（a）训练网络中来自shd的一个示例输入的活动快照。输入和隐藏层单元的尖峰光栅图显示在底部和中间。20个读出单元的活动在顶部绘制，棕色线对应于本例的正确输出。如果没有任何特定的调节，隐藏层中的峰值活动在病理上是很高的。（b）如面板（a）所示，但对于接受过高峰值活动惩罚的网络。这种形式的活动正则化大大改变了相同输入的隐藏层活动，同时保持网络的获胜输出不变（棕色线）。（c）在测试数据集的所有试验中，非规则网络中单个隐藏神经元发出的尖峰数的分布。该模拟中的最大发射速率为500hz。（d）与面板c中相同，但适用于正则化网络。

我们研究了替代梯度是否可以在这种生物学上似乎合理的稀疏活性机制中实例化SNN。为此，我们用附加的活性正则化训练SNN，以惩罚高峰值活性（见图8b和截面4)并记录它们的隐藏层活动。虽然非规则网络中的神经元经常发出最大可能数量的500个峰值（见图8c），正则化大大降低了每个事件的最大峰值计数和高峰值计数事件的总体概率（见图8d） ●●●●。

尽管峰值计数大幅减少，但许多网络仍保持了较高的分类准确性。在大多数情况下，在性能显著下降之前，峰值的数量可以减少大约两个数量级，我们发现网络性能较差的隐藏层峰值的平均数量发生了关键转变（见图9). 例如，在随机流形任务中，在单个隐藏层中，每个输入大约有36个隐藏层尖峰，在两个隐藏层前馈网络中，大约有76个尖峰。在递归网络中，这个数字减少到26(⁠

{n个}_{小时} = 1

⁠).

图9：

分类精度降低到低于临界数量的隐藏层峰值。图中显示了分类精度与每个输入的平均隐藏层峰值数的函数关系。不同的列对应不同的数据集（见图6和图7）。顶行：具有前馈连接的网络。最下面一行：具有反复突触的网络。蓝色数据点对应于有一个隐藏层的网络，而橙色数据点来自有两个隐藏层网络。实线对应于拟合的S形函数。

查看大型下载幻灯片

分类精度下降到隐藏层尖峰的临界数量以下。图中显示了分类精度与每个输入的平均隐藏层峰值数的函数关系。不同的列对应不同的数据集（参见图6和7). 顶行：具有前馈连接的网络。最下面一行：具有反复突触的网络。蓝色数据点对应于有一个隐藏层的网络，而橙色数据点来自有两个隐藏层网络。实线对应于拟合的S形函数。

在MNIST的情况下，平均只有不到10个峰值就足以达到收益递减点，超过这一点，额外的峰值活动并不能提高分类性能。

这一趋势可以在所有其他数据集中复制，峰值降低程度不同。添加隐藏层通常需要更多峰值才能获得相同的性能。重复性通常对最小峰值数没有太大影响，并且除了RawSC外，没有提高性能。在RawSC上，只有少数平均峰值超过2000个的前馈网络才能实现80%的分类精度。在循环网络中，大约150个峰值已经达到这个水平（见图9).

在所有情况下，从机会水平到最大准确度的转变发生在平均峰值数量不到一个数量级的变化中。在我们测试的所有数据集上，第二个隐藏层的添加导致平均尖峰活性的总体增加，这在Randman和MNIST上没有产生显著的性能变化，但在RawHD和RawSC上有了小的改进。

这些结果表明，活动正则化SNN可以在一些关键活动阈值下以高精度执行，在这些阈值下，其性能会迅速下降。重要的是，我们发现一些网络配置显示出竞争性能，平均峰值数量大大低于隐藏单元的数量。例如，要对MNIST进行高精度分类，平均10到20个动作电位就足够了。这种低活性水平与生物神经回路中观察到的稀疏神经元活性更为一致，并说明替代梯度非常适合构建使用这种看似合理的稀疏活性水平进行信息处理的SNN。

3 讨论

替代梯度为在尖峰网络的人工模型中注入复杂函数提供了一种很有希望的方法。这一步对于开发大脑启发的神经形态硬件和使用SNN作为电子模型来研究大脑中的信息处理至关重要。在这封信中，我们重点讨论了SNN中代理梯度学习的两个方面。我们使用一系列监督分类问题表明，SNN中的代理梯度学习对不同形状的代理导数具有鲁棒性。相比之下，不恰当的量表选择对学习成绩产生了不利影响。我们的结果表明，对于实际应用，代理导数应该适当规范化。其次，通过正则化约束它们的活动，我们表明替代梯度可以产生具有稀疏峰值活动的高效信息处理能力的SNN。

许多研究使用替代梯度来训练SNN（Neftci等人。，2019)，用分数预测神经元解决小规模玩具问题（Bohte，2011)，针对具有挑战性的神经形态训练卷积SNN（Amir等人。，2017；Orchard、Jayawant、Cohen和Thakor，2015)和愿景基准（Esser等人。，2016)或针对需要工作记忆的时间问题训练复发SNN（Bellec等人。，2018；Shrestha&Orchard，2018). 这些研究使用了从指数（Shrestha&Orchard，2018)，分段线性（Bellec等人。，2018)或tanh（Woźniak等人。，2020)有时使用带有常数泄漏项的非标准神经元模型（Esser等人。，2016)，但由于不同的功能选择和数据集，它们不容易进行比较。这里我们提供了这样一个全面的比较。

为此，我们必须做出一些妥协。与之前的研究一样，我们的研究仅限于监督分类问题，因为监督学习提供了计算性能的明确和直观的量化。为了保持模型参数的数量可控，我们重点研究了基于电流的LIF神经元。此外，我们完全摒弃了戴尔定律，完全依赖于全方位的连接。然而，我们相信，我们的大多数发现将延续到更真实的神经元、突触和连接性模型。因此，我们的研究提供了一套蓝图和基准，以加快未来研究的设计。

Huh和Sejnowski介绍了一种训练SNN的替代方法，它不依赖替代梯度(2018)他提出了神经元尖峰动力学的可微公式，从而允许具有精确梯度的梯度下降。然而，到目前为止，该方法仅在θ神经元、非弱积分和fire神经元以及具有不可微重置动力学的神经元模型（如我们在这里使用的LIF神经元）的扩展方面得到了验证，目前仍在等待。

尽管被认为在生物学上不可信（克里克，1989)，我们的研究仅限于使用反向传播训练SNN，反向传播是在涉及递归和隐藏神经元的系统中计算梯度的事实标准。尽管存在更合理的前向时间算法，如实时递归学习（RTRL）（Williams&Zipser，1989)它们昂贵得令人望而却步，或者需要额外的近似值，从而影响学习性能（Bellec等人。，2019；默里，2019；Neftci等人。，2019；Zenke和Ganguli，2018). 相反，使用BPTT可以通过网络的不同元素对梯度流进行有针对性的操作，这使我们能够消除替代梯度学习的一些复杂性。最后，我们的研究纯粹是数值研究，还有几个重要问题尚未解决。例如，如何以最佳方式初始化隐藏层权重？这些发现如何转化为卷积神经网络？为什么替代梯度工作得这么好，尽管在评估中忽略了峰值重置？回答这些问题需要额外的数值实验和对SNN中替代梯度学习的严格理论理解，这两方面都有待于未来的工作。

总之，代理梯度可以通过端到端优化，优化连接以实现功能复杂性，从而将深度学习的成功转化为生物启发的SNN。对替代梯度和由此产生的功能SNN的深入研究将在未来几年占据科学家的位置，并可能对神经回路建模产生变革。

4 方法

4.1 监督学习任务

在这项研究中，我们使用了一些合成的和真实世界的学习任务，其首要目标是平衡计算可行性和实际相关性。为此，我们重点研究了由随机流形和真实世界听觉数据集生成的合成数据集。

4.1.1 平滑随机流形数据集

我们基于光滑随机流形生成了一系列合成分类数据集。假设我们想生成一个光滑的随机维数流形

D类

在维的嵌入空间中

M（M）

⁠。我们正在寻找一个平滑的随机函数

（f） : 对^{D类} \to 对^{M（M）}

在有限区间上定义

0 \leq x个 < 1

在每个固有流形坐标轴上。此外，我们希望将其值限制在类似的

{(0 \leq x个 < τ_{兰德曼})}^{M（M）}

嵌入空间中的框。为了实现这一点，我们首先生成

M（M）

光滑随机函数

{（f）}_{我} : 对^{D类} \to 对

然后将它们组合到

（f） : 对^{D类} \to 对^{M（M）}

⁠。具体而言，我们生成

{（f）}_{我}

基于傅里叶基，如下所示：

{（f）}_{我} (\vec{x个}) = \prod_{j个 \in D类} [\sum_{k个 = 1}^{{n个}_{截止}} \frac{1}{{k个}^{α}} θ_{我 j个 k个}^{A类} 罪 (2 π (k个 {x个}_{j个} θ_{我 j个 k个}^{B} + θ_{我 j个 k个}^{C类}))],

其中参数

θ_{我 j个 k个}^{L（左）}

对于

L（左） \in {A类, B, C类}

从均匀分布中独立地、同分布地绘制

U型 (0, 1)

⁠.我们设置

{n个}_{截止} = 1000

⁠，它离开

α

作为控制歧管平滑度的参数。的较大值

α

导致更缓慢变化的流形，而较小的值会增加高频含量（见图1a）。除了

α

⁠，可以通过增加内在维度无缝调整学习问题的复杂性

D类

每个随机流形对应于分类问题的一个单独类别（见图1b） ●●●●。

具体来说，我们通过随机均匀采样点从 $D类$ -边长为1的维超立方体。然后我们将这些点解释为内在流形坐标，并将它们转换为相应的嵌入空间坐标。接下来，我们将这些值沿所有嵌入维度进行标准化，使其介于0和 $τ_{兰德曼}$ 并解释了这些 $M（M）$ -作为点火时间的尺寸坐标 $M（M）$ 属于同一分类问题类别的不同输入神经元（见图1c） ●●●●。按照此程序生成平滑随机流形的示例代码可在https://github.com/fzenke/randman.

我们为大多数实验选择了一个默认参数集，该参数集在最小化嵌入维数和解决问题所需的样本数之间取得了很好的平衡，同时不可由没有隐藏单元的双层网络解决。具体来说，我们选择了一个10路问题 $D类 = α = 1$ ⁠, $M（M） = 20$ ⁠、和 $τ_{兰德曼} = 50 毫秒$ 并修复了重复使用相同数据集的情况下的随机种子。实际上，峰值时间 ${t吨}_{我}^{c（c）}$ 输入神经元的 $我$ 在给定的课堂测试中 $c（c）$ 是 ${t吨}_{我}^{c（c）} = {（f）}_{我}^{c（c）} (X（X）)$ ⁠，其中 ${（f）}_{我}^{c（c）}$ 是固定随机函数 $X（X）$ 是零到一之间均匀分布的随机数。对于所有模拟实验，我们为每个类生成1000个数据点，其中800个用于训练，两组100个用于验证和测试。

4.1.2 峰值延迟MNIST数据集

为了转换模拟值MNIST数据集（LeCun、Cortes和Burges，1998)根据射击次数，我们进行了如下操作。我们首先标准化了所有像素值

{x个}_{我}^{μ}

在区间内

0 \leq x个 < τ_{效率}

⁠。然后我们计算了第一次峰值延迟的时间

T型

作为泄漏积分器达到触发阈值的时间，

T型 (x个) = \{\begin{matrix} τ_{效率} 日志 (\frac{x个}{x个 - ϑ}) & x个 > ϑ \\ \infty & 否则 \end{matrix}

在我们的模拟中，我们使用了

ϑ = 0.2

和

τ_{效率} = 50 毫秒

（见图7a和7b）。

4.1.3 听觉数据集

我们使用了数字和单词发音的尖峰和非尖峰听觉数据集。具体来说，我们使用SHD时没有进行任何进一步的预处理（Cramer、Stradmann等人。，2020). 出于性能方面的原因，为了避免尖峰转换过程，我们使用非尖峰听觉输入进行了额外的模拟。具体来说，我们使用了原始海德堡数字（RawHD）和皮特·沃登的语音命令数据集（RawSC）（沃登，2018)其预处理如下。我们首先对原始音频信号应用了预加重滤波器 $x个 (t吨)$ 通过计算 $年 (t吨) = x个 (t吨) - 0.95 x个 (t吨 - 1)$ ⁠然后，我们从产生的信号中以10 ms的步幅计算25 ms帧，并对每个帧应用汉明窗口。对于每一帧，我们计算512点快速傅立叶变换以获得其功率谱。根据功率谱，我们在Mel-scale（Huang、Acero、Hon和Reddy，2001). 通过重复最后一帧裁剪或填充到80（RawHD）或100（RawSC）步后，将模拟值滤波器组直接馈送到SNN。

4.2 网络模型

为了用代理梯度训练SNN模型，我们在PyTorch中实现了它们（Paszke等人。，2019). 为此，所有模型都以离散时间和时间步长明确表示 $Δ t吨$ ⁠.

4.2.1 神经元模型

我们使用了具有基于电流的指数突触的漏能神经元（Gerstner、Kistler、Naud和Paninski，2014；Vogels&Abbott，2005). 神经元的膜动力学

我

在层中

我

由以下更新方程表征，

{U型}_{我}^{(我)} [n个 + 1] = (β_{微机} {U型}_{我}^{(我)} [n个] + (1 - β_{微机}) 我_{我}^{(我)} [n个]) (1 - {S公司}_{我}^{(我)} [n个]),

(4.1)

哪里

{U型}_{我}^{(我)} [n个]

对应于神经元的膜电位

我

在层中

我

在时间步长

n个

并且是它的

{S公司}_{我}^{(我)} [n个]

⁠，通过Heaviside阶跃函数定义的相关输出尖峰序列

Θ

作为

{S公司}_{我}^{(我)} [n个] \equiv Θ ({U型}_{我}^{(我)} [n个] - 1)

⁠注意，在这个公式中，膜动力学有效地重新标度，使得静息电位对应于零，而激发阈值对应于一。这种选择通过右侧的因素简化了神经元重置动力学的实现。在使用BPTT进行梯度计算的反向过程中，使用代理函数逼近阶跃函数的导数，如下文所述。在我们忽略重置项的情况下，通过将输出尖峰序列与重置项下的尖峰序列从计算图形中分离出来，对输出尖峰列和重置项下面的尖峰列进行了不同的处理。膜衰变变量

β_{微机}

与膜时间常数有关

τ_{微机}

通过

β_{微机} \equiv 经验 (- \frac{Δ t吨}{τ_{微机}})

⁠最后，变量

我_{我}^{(我)} [n个]

突触电流定义为

\begin{matrix} 我_{我}^{(我)} [n个 + 1] = β_{同步器} 我_{我}^{(我)} [n个] + \sum_{j个} {W公司}_{我 j个}^{(我)} {S公司}_{j个}^{(我 - 1)} [n个] + \sum_{j个} {V（V）}_{我 j个}^{(我)} {S公司}_{j个}^{(我)} [n个], \end{matrix}

带有前馈传入权重

{W公司}_{我 j个}

和可选的循环权重

{V（V）}_{我 j个}

⁠.与膜衰减常数类似，

β_{同步器}

定义为

β_{同步器} \equiv 经验 (- \frac{Δ t吨}{τ_{同步器}})

⁠.我们设置

τ_{微机} = 10 毫秒

和

τ_{同步器} = 5 毫秒

⁠。每个时间步长中涉及的计算可以总结在模型的计算图中（见图4).

4.2.2 读出层

我们模型中的读出单元与上述神经元模型相同，但没有峰值和相关重置。此外，我们考虑了单独的膜时间常数

τ_{读出} = 20 毫秒

具有

β_{外面的} \equiv 经验 (- \frac{Δ t吨}{τ_{读出}})

⁠总的来说，它们的动力学描述为

{U型}_{我}^{(外面的)} [n个 + 1] = β_{外面的} {U型}_{我}^{(外面的)} [n个] + (1 - β_{外面的}) 我_{我}^{(外面的)} [n个] .

4.2.3 连接和初始化

除非明确提及，否则我们在所有模拟中都使用了全对全连接，没有偏差项。权重由均匀分布初始化 $U型 (- \sqrt{k个}, \sqrt{k个})$ 具有 $k个 = \frac{1}{{n个}_{输入}}$ 哪里 ${n个}_{输入}$ 是传入连接的数量。

4.2.4 读数头和监督损失函数

我们通过最小化标准交叉熵损失来训练所有网络

{L（左）}_{啜饮}

定义为

{L（左）}_{啜饮} = - \frac{1}{N个} \sum_{μ = 1}^{N个} \sum_{我 = 1}^{C类} 年_{我}^{μ} 日志 ({第页}_{我}^{μ}),

哪里

年_{我}^{μ}

是输入的单热点编码目标

μ

⁠,

N个

是输入样本数，以及

C类

是类的数量。输出概率

{第页}_{我}^{μ}

由Softmax函数给出

{第页}_{我}^{μ} = \frac{{e（电子）}^{一_{我}^{μ}}}{\sum_{k个 = 1}^{C类} {e（电子）}^{一_{k个}^{μ}}},

其中logits

一_{我}^{μ}

对于每个输入

μ

取决于所有时间步长总和给出的读出配置

一_{我}^{μ} = \sum_{n个} ({U型}_{我}^{(外面的)} [n个])

或定义为最大值

一_{我}^{μ} = {最大值}_{n个} ({U型}_{我}^{(外面的)} [n个])

⁠灵感来自Tempotron（Gütig&Sompolinsky，2006). 值得注意的是，在Tempotron的情况下，随时间变化的最大值与铰链损失函数相结合，仅允许进行二进制分类。相反，我们在这封信中使用的Softmax公式使我们的框架能够执行多路分类。

4.2.5 活动规范化

为了控制隐藏层中的峰值活动水平，我们采用了两种形式的活动正则化。首先，为了防止隐藏层中的静态单元，我们引入了一个较低的活动阈值

ν_{降低}

在神经元水平上定义为¹

克_{降低}^{μ} = \frac{λ_{降低}}{M（M）} \sum_{我}^{M（M）} {({[ν_{降低} - ζ_{我}^{(我), μ}]}_{+})}^{2},

用神经元峰计数

ζ_{我}^{(我)} \equiv (\sum_{n个} {S公司}_{我}^{(我)} [n个])

和神经元的数量

M（M）

隐藏层中

我

⁠类似地，我们将人口水平的上限定义为

克_{上面的}^{μ} = - λ_{上面的} {({[\frac{1}{M（M）} \sum_{我}^{M（M）} ζ_{我}^{(我), μ} - ν_{上面的}]}_{+})}^{L（左）},

为此，我们探讨了

L（左） \in {1, 2}

⁠。通过求和和平均值来计算整体正则化损失

{L（左）}_{规则} = \frac{1}{N个} \sum_{μ} (克_{降低}^{μ} + 克_{上面的}^{μ})

⁠最后，我们优化了总损失

{L（左）}_{总数} = {L（左）}_{啜饮} + {L（左）}_{规则}

借助替代梯度下降。

4.2.6 替代梯度下降

我们尽量减少了损失 ${L（左）}_{总数}$ 通过调整参数 $W公司$ 和 $V（V）$ 在负替代梯度的方向上使用具有默认参数的Adam（Kingma&Ba，2014). 使用PyTorch的自动微分功能，通过时间反向传播计算替代梯度。为了处理隐藏层神经元的非微分尖峰非线性，我们近似了它们的导数 ${S公司}^{'} ({U型}_{我}^{μ} [n个]) = Θ^{'} ({U型}_{我}^{μ} [n个] - 1)$ 有合适的代理 $σ^{'} ({U型}_{我}^{μ} [n个]) = 小时 ({U型}_{我}^{μ} [n个] - 1)$ ⁠。在整个过程中，我们使用了以下功能 $小时 (x个)$ ⁠:

超级尖峰： $小时 (x个) = \frac{1}{{(β |x个| + 1)}^{2}}$
乙状结肠 $^{'}$ ⁠: $小时 (x个) = 秒 (x个) (1 - 秒 (x个))$ 用sigmoid函数 $秒 (x个) = \frac{1}{1 + 经验 (- β x个)}$
Esser等人： $小时 (x个) = 最大值 (0, 1.0 - β |x个|)$

哪里

β

是控制代理导数斜率的参数。在图中5，我们还考虑了SuperSpike的一个渐近变量，定义为

小时 (x个) = \frac{β}{{(β |x个| + 1)}^{2}}

⁠。除非另有说明，否则我们设置

β = 10

⁠.表1指定不同模拟中使用的相关超参数。有关如何使用PyTorch轻松实现这些操作的示例，请访问https://github.com/fzenke/spytorch网站（曾克，2019). 所有模拟和参数扫描均在配备Nvidia Quadro RTX 5000和V100 GPU的计算节点上进行。

表1：

网络仿真的参数值。

参数	兰德曼	MNIST公司	安全壳	原始HD	原始SC
输入单元数量	20	784	700	40	40
隐藏单元数	100	100	256	256	256
读出装置数量	10	10	20个	20	35
$Δ t吨$ /步骤数	1毫秒/100	1毫秒/100	2毫秒/500	2毫秒/80	2毫秒/100
最小批量大小	128, 250	256	256	128	512
纪元数	50–100	100	200	50	50
数据集（列车/有效/测试）	8公里/2公里/2公里	45公里/5公里/10公里	7498/833/2088	7498/833/2088	84849/9981/11005
隐藏层数 ${n个}_{小时}$	$\leq 2$	$\leq 3$	$\leq 2$	1	1
学习率扫描	$10^{- 3} \leq η \leq 0.1$	$2 \times 10^{- 4} \leq η \leq 1^{- 1}$	$2 \times 10^{- 4} \leq η \leq 1^{- 1}$	$1 \times 10^{- 3}$	$1 \times 10^{- 3}$ ⁠, $5 \times 10^{- 3}$ ⁠, 0.01
最佳 $η$	0.05	0.01	$1 \times 10^{- 3}$	$1 \times 10^{- 3}$	$1 \times 10^{- 3}$
下L2： $λ_{降低}$ / $ν_{降低}$	100.0/ $10^{- 3}$	—	100.0/ $10^{- 3}$	100.0/ $10^{- 3}$	100.0/(0.01, $10^{- 3}$ ⁠)
上部L1强度 $λ_{上面的, 1}$	1,100	0–100	0.06	0, 10, 20, 100	0.06, 1, 10
L1阈值上限 $ν_{上面的, 1}$	0–1000	0–1000	0–1000	0, 0.1, 0.2, 0.5, 1, 100	0–1000
L2强度上限 $λ_{上面的, 2}$	0,1,100	0, 0.001, 0.1, 1	—	—	0,1
L2阈值上限 $ν_{上面的, 2}$	0–100	0.1, 100	—	—	10,100

参数	兰德曼	MNIST公司	安全壳	原始HD	原始SC
输入单元数量	20	784个	700	40	40
隐藏单元数	100	100	256	256	256
读出装置数量	10	10个	20	20	35
$Δ t吨$ /步骤数	1毫秒/100	1毫秒/100	2毫秒/500	2毫秒/80	2毫秒/100
小批量大小	128, 250	256	256	128	512
纪元数	50–100	100	200	50	50
数据集（列车/有效/测试）	8公里/2公里/2公里	45公里/5公里/10公里	7498/833/2088	7498/833/2088年	84849/9981/11005
隐藏层数 ${n个}_{小时}$	$\leq 2$	$\leq 3$	$\leq 2$	1	1
学习率扫描	$10^{- 3} \leq η \leq 0.1$	$2 \times 10^{- 4} \leq η \leq 1^{- 1}$	$2 \times 10^{- 4} \leq η \leq 1^{- 1}$	$1 \times 10^{- 3}$	$1 \times 10^{- 3}$ ⁠, $5 \times 10^{- 3}$ ⁠, 0.01
最佳 $η$	0.05	0.01	$1 \times 10^{- 3}$	$1 \times 10^{- 3}$	$1 \times 10^{- 3}$
下L2： $λ_{降低}$ / $ν_{降低}$	100.0/ $10^{- 3}$	—	100.0/ $10^{- 3}$	100.0/ $10^{- 3}$	100.0/（0.01， $10^{- 3}$ ⁠)
上部L1强度 $λ_{上面的, 1}$	1,100	0–100	0.06	0, 10, 20, 100	0.06, 1, 10
L1阈值上限 $ν_{上面的, 1}$	0–1000	0–1000	0–1000	0, 0.1, 0.2, 0.5, 1, 100	0–1000
L2强度上限 $λ_{上面的, 2}$	0,1,100	0, 0.001, 0.1, 1	—	—	0,1
L2阈值上限 $ν_{上面的, 2}$	0–100	0.1, 100	—	—	10,100

鸣谢

F.Z.得到了Wellcome Trust（110124/Z/15/Z）和诺华研究基金会的支持。T.P.V.得到了Wellcome Trust Sir Henry Dale Research奖学金（WT100000）、WellcomeTrust Senior Research fellowship（214316/Z/18/Z）和ERC合并人Grant SYNAPSEEK的支持。

工具书类

阿米尔

,

答：。

,

塔巴

,

B。

,

伯格

,

D。

,

梅拉诺

,

T。

,

麦金斯特里

,

J。

,

迪诺福

,

C、。

, …

库斯尼茨

,

J。

(

2017

).

低功耗、完全基于事件的手势识别系统

.英寸

IEEE计算机视觉和模式识别会议记录

（pp。

7243

–

7252

).

新泽西州皮斯卡塔韦

:

电气与电子工程师协会

.

谷歌学者

巴雷特

,

D.G.公司。

,

马尔科斯

,

A.S.公司。

, &

Macke公司

,

J.H。

(

2019

).

分析生物和人工神经网络：协同机遇的挑战？

神经生物学的当前观点

,

55

,

55

–

64

,

2019

.doi文件：2016年10月10日/j.conb.2019.01.007.

谷歌学者

交叉参考

公共医学

贝莱克

,

G.公司。

,

萨拉伊

,

D。

,

亚支货币

,

答：。

,

勒根斯坦

,

R。

, &

马斯

,

西。

(

2018

). 在尖峰神经元网络中的长-短期记忆和学习-学习。在

美国。

本吉奥

,

H。

瓦拉赫

,

H。

拉罗谢勒

,

英国。

格劳曼

,

N。

塞萨·比安奇

, &

R。

加内特

（编辑），

神经信息处理系统研究进展

,

31

（pp。

795

–

805

).

纽约州Red Hook

:

库伦

.

谷歌学者

贝莱克

,

G.公司。

,

谢尔

,

F、。

,

哈耶克

,

E.公司。

,

萨拉伊

,

D。

,

勒根斯坦

,

R。

, &

马斯

,

西。

(

2019

).递归神经网络中学习时间反向传播的生物启发替代方案.arXiv:1901.09049。

博阿亨

,

英国。

(

2017

).

一位神经形态学家的招股说明书

.

计算。科学。工程师。

,

19

(

2

),

14

–

28

.doi文件：2017.33年10月10日/MCSE.

谷歌学者

交叉参考

博特

,

S.M.公司。

(

2011

).

分数预测尖峰神经元网络中的误差反向传播

.英寸

人工神经网络和机器学习-2011年

，计算机科学课堂讲稿，页

60

–

68

.

柏林

:

施普林格

.doi文件：10.1007/978-3-642-21735-78.

谷歌学者

克拉默

,

B。

,

比约代勒

,

美国。

,

卡尼亚

,

美国。

,

莱布弗里德

,

答：。

,

格鲁布尔

,

答：。

,

卡拉森科

,

五、。

, …

Zenke公司

,

F、。

(

2020

).

在模拟神经形态基底上用代理梯度训练峰值多层网络。

arXiv:2006.07239。

谷歌学者

克拉默

,

B。

,

施特拉德曼

,

年。

,

舍梅尔

,

J。

, &

曾克

,

F、。

(

2020

).

用于尖峰神经网络系统评估的海德堡尖峰数据集

.

IEEE神经网络和学习系统汇刊

,

1

–

14

.doi：10.1109/TNNLS.2020.3044364.

谷歌学者

克里克

,

F、。

(

1989

).

最近关于神经网络的兴奋

.

自然

,

337

(

6203

),

129

–

132

.doi文件：1038/337129a0年10月10日.

谷歌学者

交叉参考

公共医学

库瓦

,

C.J.公司。

,

马科斯

,

E.公司。

,

赛斯

,

答：。

,

吉诺维西奥

,

答：。

,

贾萨耶里

,

M。

,

罗莫

,

R。

, …

福斯

,

美国。

(

2019

).

工作记忆和时间编码的低维动态。

生物Rxiv:504936。数字对象标识：10.1101/504936.

谷歌学者

埃塞尔

,

韩国。

,

梅罗拉

,

私人助理。

,

亚瑟

,

J.V.公司。

,

卡西迪

,

A.S.公司。

,

阿普斯瓦米

,

R。

,

安德烈奥普洛斯

,

答：。

, …

摩达

,

D.S.公司。

(

2016

). 卷积网络用于快速、节能的神经形态计算。在

程序。国家。阿卡德。科学。美国。

,

113

(

41

),

11441

–

11446

.doi文件：10.1073/pnas.1604850113.

谷歌学者

交叉参考

公共医学

郭士纳

,

西。

,

基斯特勒

,

W.M.公司。

,

瑙德

,

R。

, &

帕宁斯基

,

L。

(

2014

).

神经动力学：从单个神经元到网络和认知模型

.

剑桥

:

剑桥大学出版社

.

谷歌学者

古提格

,

R。

(

2016

).

尖峰神经元可以通过聚合标记学习发现预测特征

.

科学类

,

351

(

6277

)，aab4113。数字对象标识：10.1126/科学.aab4113.

谷歌学者

古提格

,

R。

, &

桑普林斯基

,

H。

(

2006

).

时间神经元：一种学习基于尖峰时间的决策的神经元

.

自然神经科学。

,

9

(

3

),

420

–

428

.doi文件：10.1038/nn1643年.

谷歌学者

交叉参考

公共医学

他

,

英国。

,

张

,

十、。

,

任

,

美国。

, &

太阳

,

J。

(2015).

深入研究整流器：在图像网络分类方面超越人类水平的性能

.英寸

IEEE国际计算机视觉会议论文集

（pp。

1026

–

1034

).

新泽西州皮斯卡塔韦

:

电气与电子工程师协会

.

霍克莱特

,

美国。

(

1998

).

递归神经网络学习中的消失梯度问题及解决方法

.

国际期刊杂志。模糊。知识。基于系统。

,

6

(

2

),

107

–

116

.doi文件：10.1142/S021848859800094.

谷歌学者

交叉参考

黄

,

十、。

,

亚塞罗

,

答：。

,

荣誉

,

高-宽。

, &

雷迪

,

R。

(

2001

).

口语处理：理论、算法和系统开发指南

.

新泽西州上鞍河

:

普伦蒂斯·霍尔

.

谷歌学者

嗯？

,

D。

, &

塞伊诺夫斯基

,

T·J。

(

2018

). 尖峰神经网络的梯度下降。在

美国。

本吉奥

,

H。

瓦拉赫

,

H。

拉罗谢勒

,

英国。

格劳曼

,

N。

塞萨·比安奇

, &

R。

加内特

（编辑），

神经信息处理系统研究进展

,

31

（pp。

1440

–

1450

).

纽约州Red Hook

:

库伦

.

谷歌学者

亨斯伯格

,

E.公司。

, &

埃利亚史密斯

,

C、。

(

2015

).

具有LIF神经元的Spiking深层网络

.arXiv:15100.08829。

谷歌学者

金马牌手表

,

D。

, &

文学士

,

J。

(

2014

).

Adam：一种随机优化方法

.arXiv:1412.6980。

谷歌学者

乐村

,

年。

,

本吉奥

,

年。

, &

辛顿

,

G.公司。

(

2015

).

深度学习

.

自然

,

521

(

7553

),

436

–

444

.doi文件：10.1038/自然14539.

谷歌学者

交叉参考

公共医学

乐村

,

年。

,

科尔特斯

,

C、。

, &

伯格

,

C.J.公司。

(

1998

).

手写数字的MNIST数据库

.

1998

.

谷歌学者

李

,

J.H。

,

德尔布鲁克

,

T。

, &

普菲弗

,

M。

(

2016

).

利用反向传播训练深度尖峰神经网络

.

前面。神经科学。

,

10

.doi文件：10.3389/fnins.2016.00508年.

谷歌学者

马赫斯瓦拉纳桑

,

N。

,

麦金托什

,

L.T.公司。

,

卡斯特纳

,

D.B.博士。

,

梅兰德

,

J。

,

布雷佐维奇

,

L。

,

纳耶比

,

答：。

, …

Baccus公司

,

美国。

(

2018

).

深度学习模型揭示了自然场景下视网膜的内部结构和各种计算

.生物Rxiv。数字对象标识：10.1101年3月40943日.

谷歌学者

曼特

,

五、。

,

苏西洛

,

D。

,

谢诺伊

,

K.V.公司。

, &

新闻社

,

W.T.公司。

(

2013

).

前额叶皮层循环动力学的上下文相关计算

.

自然

,

503

(

7474

),

78

–

84

.doi文件：10.1038/自然12742.

谷歌学者

交叉参考

公共医学

麦克卢尔

,

第页。

, &

克里格斯波特

,

N。

(

2016

).

深度神经网络的表示式远程学习

.

前面。计算。神经科学。

,

10

.doi文件：0.3389/fncom.2016.00131.

谷歌学者

麦金托什

,

L。

,

马赫斯瓦拉纳桑

,

N。

,

纳耶比

,

答：。

,

神经节

,

美国。

, &

Baccus公司

,

美国。

(

2016

). 视网膜对自然场景反应的深度学习模型。在

D。

李

,

M。

杉山

,

美国。

卢克斯堡

,

一、。

盖恩

, &

R。

加内特

（编辑），

神经信息处理系统研究进展

,

29

（pp。

1369

–

1377

).

纽约州Red Hook

:

库伦

.

谷歌学者

迈克尔斯

,

J.A.公司。

,

沙菲尔霍夫

,

美国。

,

阿古德洛·托罗

,

答：。

, &

谢尔伯格

,

H。

(

2019

).

柔性抓取运动生成的神经网络模型。

生物Rxiv。数字对象标识：10.1101/742189.

谷歌学者

米什金

,

D。

, &

马塔斯

,

J。

(

2016

).

你所需要的只是一个好的初始值。

arXiv:151106422。

谷歌学者

莫斯塔法

,

H。

(

2018

).

脉冲神经网络中基于时间编码的监督学习

.

事务处理。神经网络。学习。系统。

,

29

(

7

),

3227

–

3235

.doi文件：10.1109/TNNLS.2017.2726060.

谷歌学者

默里

,

J·M·。

(2019).

随机反馈递归网络中的局部在线学习

.

电子生活

,

8

，第42399页。数字对象标识：10.7554/eLife.43299.

Neftci公司

,

首席执行官。

(

2018

).

使用神经形态学习机的数据和节能智能

.

i科学

,

5

,

52

–

68

.doi文件：2016年10月10日/j.isci.2018年6月10日.

谷歌学者

交叉参考

公共医学

Neftci公司

,

首席执行官。

,

莫斯塔法

,

H。

, &

曾克

,

F、。

(

2019

).

峰值神经网络中的替代梯度学习：将基于梯度的优化能力引入峰值神经网络

.

IEEE信号处理。美格。

,

36

(

6

),

51

–

63

.doi文件：10.1109每平方米.2019.2931595.

谷歌学者

交叉参考

果园

,

G.公司。

,

贾亚旺特

,

答：。

,

科恩

,

G.K.公司。

, &

塔科尔语

,

N。

(

2015

).

使用眼跳将静态图像数据集转换为峰值神经形态数据集

.

前沿神经科学。

,

9

.doi文件：10.3389/分钟.2015.00437.

谷歌学者

帕斯克

,

答：。

,

总额

,

美国。

,

马萨

,

F、。

,

莱雷尔

,

答：。

,

布拉德伯里

,

J。

,

查南，……钦塔拉

,

美国。

(

2019

).

PyTorch：一个命令式、高性能的深度学习库

.英寸

H。

瓦拉赫

,

H。

拉罗谢勒

,

答：。

贝格尔齐默

,

F、。

d'Alché-Buc

,

E.公司。

福克斯

, &

R。

加内特

（编辑），

神经信息处理系统研究进展

,

32

（pp。

8026

–

8037

).

纽约州Red Hook

:

库伦

.

谷歌学者

普菲弗

,

M。

, &

普菲尔

,

T。

(

2018

).

神经元放电的深度学习：机遇与挑战

.

前面。神经科学。

,

12

.doi文件：10.3389/fnins.2018.00774.

谷歌学者

Pospisil公司

,

D.A.博士。

,

帕苏帕蒂

,

答：。

, &

拜尔

,

西。

(

2018

).

“Artifysicalogy”揭示了在经过图像分类训练的深层网络中类似V4的形状调整

.

电子生活

,

7

:

电子38242

.doi文件：10.7554/eLife.38242.

谷歌学者

理查兹

,

学士。

,

百合花

,

T.P.公司。

,

博多因

,

第页。

,

Bengio公司

,

年。

,

博加奇

,

R。

,

克里斯滕森

,

答：。

, …

Kording公司

,

K.P.公司。

(

2019

). 神经科学的深度学习框架。

自然神经科学。

,

22

(

11

),

1761

–

1770

.doi文件：10.1038/s41593-019-0520-2.

谷歌学者

交叉参考

公共医学

罗伊

,

英国。

,

贾斯瓦尔

,

答：。

, &

熊猫

,

第页。

(

2019

).

利用神经形态计算实现基于峰值的机器智能

.

自然

,

575

(

7784

),

607

–

617

.doi文件：10.1038/s41586-019-1677-2.

谷歌学者

交叉参考

公共医学

舍梅尔

,

J。

,

布里德勒

,

D。

,

格里布尔

,

答：。

,

典当

,

M。

,

迈尔

,

英国。

, &

米尔纳

,

美国。

(

2010

).

用于大规模神经建模的晶圆级神经形态硬件系统

.英寸

2010年IEEE电路与系统国际研讨会论文集

（pp。

1947

–

1950

).

新泽西州皮斯卡塔韦

:

电气与电子工程师协会

.

谷歌学者

施米德胡贝

,

J。

(

2015

).

神经网络中的深度学习：综述

.

神经网络。

,

61

,

85

–

117

.doi文件：2016年10月10日/j.neunet.2014.09.003.

谷歌学者

交叉参考

公共医学

什雷斯塔

,

S.B.公司。

, &

果园

,

G.公司。

(

2018

). SLAYER：尖峰层错误及时重新分配。在

美国。

本吉奥

,

H。

瓦拉赫

,

H。

拉罗谢勒

,

英国。

格劳曼

,

N。

塞萨·比安奇

, &

R。

加内特

（编辑），

神经信息处理系统研究进展

,

31

（pp。

1419

–

1428

).

纽约州Red Hook

:

库伦

.

谷歌学者

标准纯度的

,

第页。

, &

劳克林

,

美国。

(

2017

).

神经设计原理

.

马萨诸塞州剑桥

:

麻省理工学院出版社

.

谷歌学者

斯特劳德

,

J.P.公司。

,

搬运工

,

文学硕士。

,

Hennequin公司

,

G.公司。

, &

缶革耳斯

,

T.P.公司。

(

2018

).

通过皮层网络中的目标增益调制实现时空运动原语

.

自然神经科学

,

21

(

12

),

1774

.doi文件：10.1038/s41593-018-0276-0.

谷歌学者

交叉参考

公共医学

苏西洛

,

D。

, &

巴拉克

,

O。

(

2012

).

打开黑箱：高维递归神经网络中的低维动力学

.

神经计算。

,

25

(

3

),

626

–

649

.doi文件：10.1162/NECO_a_00409.

谷歌学者

交叉参考

公共医学

田中

,

H。

,

纳耶比

,

答：。

,

马赫斯瓦拉纳桑

,

N。

,

麦金托什

,

L。

,

Baccus公司

,

美国。

, &

神经节

,

美国。

(

2019

). 从神经科学的深度学习到机械理解：视网膜预测的结构。在

H。

瓦拉赫

,

H。

拉罗谢勒

,

答：。

贝格尔齐默

,

F、。

d'Alché-Buc

,

E.公司。

福克斯

, &

R。

加内特

（编辑），

神经信息处理系统研究进展

,

32

（pp。

8535

–

8545

).

红钩，纽约

:

库伦

.

谷歌学者

缶革耳斯

,

T.P.公司。

, &

雅培

,

L.F.有限责任公司。

(

2005

).

集成核神经元网络中的信号传播和逻辑门

.

《神经科学杂志》。

,

25

(

46

),

10786

.doi文件：10.1523/JNEUROSCI.3508-05.2005.

谷歌学者

交叉参考

公共医学

王

,

J。

,

纳兰

,

D。

,

侯赛尼

,

欧洲航空公司。

, &

贾萨耶里

,

M。

(

2018

). 通过皮层反应的时间尺度灵活计时。

自然神经科学。

,

21

(

1

),

102

–

110

.doi文件：10.1038/s41593-017-0028-6.

谷歌学者

交叉参考

公共医学

监狱长

,

第页。

(

2018

).

语音命令：有限视觉语音识别的数据集

.arXiv:1804.03209。

谷歌学者

威廉姆斯

,

R·J。

, &

拉链

,

D。

(

1989

).

连续运行全递归神经网络的学习算法

.

神经计算

,

1

(

2

),

270

–

280

.

谷歌学者

交叉参考

威廉姆森

,

钢筋混凝土。

,

多伊隆

,

B。

,

史密斯

,

文学硕士。

, &

于

,

B.M.公司。

(

2019

).

使用降维技术桥接大规模神经元记录和大规模网络模型

.

神经生物学的当前观点

,

55

,

40

–

47

.doi：2016年10月10日/j.conb.2018.12.009.

谷歌学者

沃ź

尼亚克

,

美国。

,

潘塔济

,

答：。

,

博恩斯汀尔

,

T。

, &

埃莱夫特里乌

,

E.公司。

(

2020

).

深度学习结合生物启发的神经动力学和内存计算

.

自然机器智能

,

2

(

6

),

325

–

336

.doi文件：10.1038/s42256-020-0187-0.

谷歌学者

雅明斯

,

D.L.公司。

英国&

迪卡洛

,

J·J。

(

2016

).

使用目标驱动的深度学习模型来理解感觉皮层

.

自然神经科学。

,

19

(

3

),

356

–

365

.doi文件：10.1038/nn.4244.

谷歌学者

交叉参考

公共医学

雅明斯

,

D、L、K。

,

商行

,

H。

,

卡迪厄

,

成本加运费。

,

所罗门

,

欧洲航空公司。

,

塞伯特

,

D。

, &

迪卡洛

,

J·J。

(

2014

).

性能优化层次模型预测高级视觉皮层的神经反应

.英寸

程序。国家。阿卡德。科学。美国。

,

111

(

23

),

8619

–

8624

.doi文件：10.1073/pnas.140311211.

谷歌学者

交叉参考

公共医学

曾克

,

F、。

(

2019

).

间谍火炬

.

谷歌学者

曾克

,

F、。

, &

甘古利

,

美国。

(

2018

),

SuperSpike：多层尖峰神经网络中的监督学习

.

神经计算。

,

30

(

6

),

1514

–

1541

.

谷歌学者

交叉参考

公共医学

齐默尔

,

R。

,

佩莱格里尼

,

T。

,

辛格

,

标准F。

, &

马斯魁勒

,

T。

(

2019

).

技术报告：用PyTorch监督卷积峰值神经网络的训练

.arXiv:1911.10124。

谷歌学者

2021

麻省理工学院

这是一篇根据Creative Commons Attribution 4.0国际许可，允许在任何媒体上不受限制地使用、分发和复制，前提是正确引用了原作。有关许可证的完整描述，请访问https://creativecommons.org/licenses/by/4.0/legalcode.

Spiking神经网络中灌输复杂函数的代理梯度学习的显著鲁棒性

1 介绍

2 结果

2.1 随机流形作为柔性基准的基础

2.2 替代梯度学习对替代导数的形状具有鲁棒性

2.3 替代梯度学习对替代导数的规模敏感

2.4 替代梯度学习对损失函数、输入范式和数据集的变化具有鲁棒性

2.5 基于电流输入的网络中的替代梯度学习

2.6 SNN中的最优稀疏峰值活动水平

3 讨论

4 方法

4.1 监督学习任务

4.1.1 平滑随机流形数据集

4.1.2 峰值延迟MNIST数据集

4.1.3 听觉数据集

4.2 网络模型

4.2.1 神经元模型

4.2.2 读出层

4.2.3 连接和初始化

4.2.4 读数头和监督损失函数

4.2.5 活动规范化

4.2.6 替代梯度下降

鸣谢

工具书类

电子邮件警报

引用人

产品麻省理工学院出版社

麻省理工学院直接出版社

问询处

麻省理工学院出版社

联系我们

Spiking神经网络中灌输复杂函数的代理梯度学习的显著鲁棒性

1 介绍

2 结果

2.1 随机流形作为柔性基准的基础

2.2 替代梯度学习对替代导数的形状具有鲁棒性

2.3 替代梯度学习对替代导数的规模敏感

2.4 替代梯度学习对损失函数、输入范式和数据集的变化具有鲁棒性

2.5 基于电流输入的网络中的替代梯度学习

2.6 SNN中的最优稀疏峰值活动水平

3 讨论

4 方法

4.1 监督学习任务

4.1.1 平滑随机流形数据集

4.1.2 峰值延迟MNIST数据集

4.1.3 听觉数据集

4.2 网络模型

4.2.1 神经元模型

4.2.2 读出层

4.2.3 连接和初始化

4.2.4 读数头和监督损失函数

4.2.5 活动规范化

4.2.6 替代梯度下降

鸣谢

工具书类

电子邮件警报

引用人

相关文章

相关书籍章节

产品麻省理工学院出版社

麻省理工学院直接出版社

问询处

麻省理工学院出版社

联系我们

此功能仅对订阅服务器可用