计算机科学>计算机视觉和模式识别
标题: 微控制器上基于补丁推理的值驱动混合精度量化
摘要: 在微控制器单元(MCU)上部署神经网络因其计算和内存资源受限而面临巨大挑战。 以前的研究已经探索了基于补丁的推理作为一种策略来保存记忆,而不牺牲模型的准确性。 然而,该技术存在严重的冗余计算开销,导致执行延迟大幅增加。 解决这个问题的一个可行的解决方案是混合精度量化,但它面临精度下降和耗时搜索的挑战。 在本文中,我们提出了QuantMCU,这是一种新的基于补丁的推理方法,它利用值驱动的混合精度量化来减少冗余计算。 我们首先使用值驱动的补丁分类(VDPC)来保持模型的准确性。 VDPC根据补丁是否包含异常值将其分为两类。 对于包含离群值的补丁,我们将8位量化应用于后续数据流分支上的特征映射。 此外,对于没有异常值的补丁,我们在其后续数据流分支的特征映射上使用值驱动量化搜索(VDQS)来减少搜索时间。 具体来说,VDQS引入了一种新的量化搜索度量,它同时考虑了计算和准确性,并使用熵作为准确性表示,以避免额外的训练。 VDQS还采用迭代方法确定每个特征图的比特宽度,以进一步加快搜索过程。 在实际MCU设备上的实验结果表明,与最先进的基于补丁的推理方法相比,QuantMCU可以平均减少2.2倍的计算量,同时保持相当的模型精度。