# A Low Power and Low Latency FPGA-Based Spiking Neural Network Accelerator

# 摘要

翻译自 ChatGPT：

脉冲神经网络（SNNs），被称为神经网络的第三代，因其生物合理性和类似大脑的特征而著名。最近的努力进一步展示了 SNN 在高速推断方面的潜力，通过设计具有时间或空间维度并行性的加速器。然而，由于硬件资源的限制，加速器设计必须利用片外内存来存储许多中间数据，这导致了高功耗和长延迟。本文侧重于层间数据流以提高算术效率。基于脉冲的离散特性，我们设计了一个卷积池化（CONVP）单元，将卷积层和池化层的处理合并，以减少延迟和资源利用率。此外，对于全连接层，我们应用了内部输出并行性和跨输出并行性来加速网络推理。我们通过在 Zynq XA7Z020 FPGA 上实现不同的 SNN 模型，并使用不同的数据集来展示我们提出的硬件架构的有效性。实验结果显示，我们的加速器在 MNIST 数据集上与 FPGA 实现相比，可以实现约 28 倍的推断速度提升，并在 DVSGesture 数据集上与 ASIC 设计相比，可以实现约 15 倍的推断速度提升，功耗较低。

# 相关工作

使用 rate coding，IF 神经元模型，没给出具体的时间步是多少。

# 设计方法

PC 端负责脉冲编码，通过 UART 协议输出给 PL 端；PL 端负责网络推理，对输入脉冲做 Line Buffer 做卷积（Adder Tree），输出结果再传回 PC 端进行验证，系统框图如图：
所谓的 CONVP 就是把 Conv 和 MaxPooling 融合（呃呃不就是很常见的多加个 buffer 吗，而且作者所做的似乎是 Valid Conv ），然后做了 Intra-Row Pooling 和 Inter-Row Pooling，说白了就是比如做 MP2 的时候，第一行先做 Intra-Row Pooling，每两个做一次 OR 操作再写入 Buffer，在第二行的时候则作 Inter-Row Pooling，本来是应该读出第一行的 pooling 结果然后接着做 OR 操作的，但作者似乎是偷懒多开了一行 Buffer 再一一做 OR 操作，如图：
卷积过程也有 Inter-Output Parallelism 和 Intra-Output Parallelism，其中 Intra-Output Parallelism 是把对某个神经元有贡献的权重（n bits）分成 k 个作为一组，即并行度为 k，经过 Ci /k 个 Clock 后就可以算完一个输出神经元的膜电势；Intra-Output Parallelism 没怎么理解，我估计是对上个 FC 层计算完的结果直接拿来做运算，而不需要存起来再被这层 FC 取出来作为 Input，如图：

# 实验与评估

在 Xilinx Zynq XA7Z020 FPGA 上进行了部署，Verilog 设计，8 bits 定点量化，100 MHz 时钟频率，性能对比如图：
其他也没啥好说的了，作者最后还对比了下 CONVP 和 CONV-POOLING 以及有无 Inter-Output Parallelism 和 Intra-Output Parallelism 的推理速率、资源使用率的差别，只能说增加了下工作量吧。

# A Low Power and Low Latency FPGA-Based Spiking Neural Network Accelerator

# 摘要

# 相关工作

# 设计方法

# 实验与评估

Efficient Hardware Acceleration of Sparsely Active Convolutional Spiking Neural Networks

table