一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢？

2023-05-23

关注

1、简介

量化是优化神经网络以实现高效推理和设备执行同时保持高精度的最成功方法之一。通过将常规32位浮点格式的权重和激活压缩为更高效的低位定点表示，如INT8，这样可以在边缘设备上部署神经网络时降低功耗并加速推理。

尽管量化具有明显的功率和延迟优势，但由于精度降低，量化是以增加噪声为代价的。然而，近年来的研究人员已经表明，神经网络对这种噪声是鲁棒的，并且可以使用训练后量化技术（PTQ）以最小的精度下降量化到8比特。

PTQ可能非常有效，通常只需要访问一个小的校准数据集，但当应用于神经网络的低位量化（≤4位）时会受到影响。同时，量化感知训练（QAT）已成为事实上的标准方法，用于实现低比特量化，同时保持接近全精度的精度。通过模拟训练或微调期间的量化操作，网络可以适应量化噪声，并达到比PTQ更好的解决方案。

本文重点关注量化权重在量化感知训练过程中发生的振荡。在量化神经网络的优化中，这是一个鲜为人知且研究不足的现象，在训练期间和训练后对网络产生了重大影响。当使用流行的直通估计器（STE）进行QAT时，权重似乎在相邻量化级别之间随机振荡，从而在优化过程中导致有害噪声。有了这一见解，作者调研了QAT的最新进展，这些进展声称性能得到了改善，并评估了它们在解决这种振荡行为方面的有效性。

权重振荡的一个不利症状是，它们会破坏在训练期间收集的批量归一化层的估计推断统计数据，导致验证准确性差。作者发现这种效应在具有深度可分离层的高效网络（如MobileNets或EfficientNets）的低位量化中尤为明显，但可以通过在训练后重新估计批量归一化统计数据来有效解决。

虽然批量归一化重新估计克服了振荡的一个显著症状，但它并没有解决其根本原因。为此，我们提出了两种有效减少振荡的新算法：振荡抑制和迭代权重冻结。通过在振荡源处处理振荡，本文的方法提高了精度，超出了批量归一化重新估计的水平。本文表明，这两种方法在高效网络的4-bit和3-bit量化方面都取得了最先进的结果，如MobileNetV2、MobileNetV3和ImageNet上的EfficientNet lite。

2、QAT中的振荡

首先研究了为什么权值在量化感知训练中会振荡，以及这种现象如何在实践中影响神经网络训练。

2.1、量化感知训练

2.2、振荡问题

在附录A.3中表明降低学习率会降低振荡的振幅，但不会影响其频率。

值得注意的是，这种行为与随机舍入有相似之处，其中潜在权重与量化水平的接近程度与舍入到该水平的概率有关。然而，在STE中，随机性的来源于梯度的离散性质，而不是采样。可以注意到，振荡并不是标准STE独有的，而是存在于文献中提出的STE的几种变体中，在图1中给出了其中的一小部分。

2.3、实践中的振荡

这些振荡不仅仅是这个toy例子的副作用。它们确实存在于更大的神经网络中，对它们的优化具有重要意义。图2显示了使用ImageNet上的LSQ训练的MobileNetV2的深度可分离层中接近收敛的3位量化权重的进展。可以观察到，许多权重似乎在2个相邻的量化级别之间随机振荡。

在图3中还可以看到，在假定的网络收敛之后，很大一部分潜在权重正好位于网格点之间的决策边界。这进一步强化了一个观察结果，即很大一部分权重会振荡而不收敛。

作者确定了与神经网络训练中的振荡相关的2个主要问题：

批量归一化推理统计的错误估计

对网络优化的不利影响

1、批量标准化的影响

在训练批量归一化过程中，层跟踪每层输出的平均值和方差的指数移动平均值（EMA），以便在推理过程中用作真实样本统计的近似值。当训练全精度神经网络时，可以预期权重在接近收敛时会非常缓慢地变化。因此，预计每一层的输出统计数据在迭代过程中都相当稳定，因此EMA是统计数据的一个很好的估计。

然而，QAT中的振荡会导致整数权重的快速变化（见图2），从而导致迭代之间的显著分布偏移，甚至接近收敛。振荡引起的输出分布的突然而大的变化可能会破坏EMA统计数据，导致准确性的显著下降。

事实上，有两个因素放大了这种影响：

权重位宽

每个输出通道的权重数量

比特宽度越低，量化级别之间的距离就越大，因为它与成比例。当振荡权重从一个量化级别移动到另一个量化级时，它们在输出分布中造成成比例的较大偏移。第二个重要因素是每个输出通道的权重数量。权重的数量越小，单个权重对最终累积的贡献就越大。当累积数量增加时，由于大数定律，振荡的影响趋于平均。

在表1中，使用KL散度来量化population和 estimated statistics之间的差异，确实观察到，与MobileNetV2中的逐点卷积和ResNet18中的全卷积相比，深度可分离层的KL发散要大得多。

这个问题的一个简单直接的解决方案是在训练后用一小部分数据重新估计批量归一化统计。这种方法作者称之为批处理归一化（BN）重新估计，有时用于随机量化公式。然而，作者认为由于振荡权重，它在确定性QAT公式中也是必不可少的。

在表2中可以看到BN重新估计不仅提高了MobileNetV2的最终量化精度，而且降低了不同种子之间的方差。作者进一步观察到，对于MobileNetV2，随着比特宽度的减小，精度上的差距变大，而对于ResNet18，情况并非如此。

2、对训练的影响

除了损害BN统计之外，振荡还可能对训练过程本身产生负面影响。为了说明这一点，首先表明，如果在两种振荡状态之间随机采样振荡权重，则具有3位权重的收敛MobileNetV2可以实现较低的训练损失（和较高的验证精度）。

在表3中给出了这个实验的结果。可以观察到，采样网络上的平均训练损失与最终收敛模型的平均训练损失相似。然而，许多样本实现了较低的训练损失，并且最佳随机采样网络显示出显著较低的训练损失。

作者还使用AdaRound的自适应来执行振荡权重的二进制优化。在最终任务丢失时同时优化所有层的舍入，类似于文献中使用模拟退火来解决二进制优化问题。可以看到，这种二进制优化在最佳随机样本和原始收敛网络的基础上显著改进。这表明，权重振荡会阻止网络在训练过程中收敛到最佳局部最小值，并可能对优化过程不利。

最后，在训练的早期使用振荡冻结技术防止振荡会导致比振荡权重的二元优化更高的验证精度。这表明，振荡不仅会阻止QAT在训练结束时收敛到最佳局部最小值，而且还会导致优化器在训练早期朝着次优方向发展。

3、克服QAT的振荡问题

既然已经确定了振荡在优化过程中可能会产生负面影响，特别是对于低位量化，所以就把重点放在如何克服它们上。首先，引入了一种用于量化振荡的度量，然后提出了两种新的技术，旨在防止在量化感知训练过程中出现振荡。

3.1、量化振荡

在解决振荡之前，需要一种在训练中检测和测量振荡的方法。建议使用指数移动平均（EMA）来计算随时间变化的振荡频率。然后，可以将最小频率定义为振荡权重的阈值。对于在迭代t中发生的振荡，需要满足两个条件：

然后，使用指数移动平均（EMA）来跟踪随时间变化的振荡频率：

3.2、振荡阻尼

当权重振荡时，它们总是在两个量化区间之间的决策阈值附近移动。这意味着振荡权重总是接近量化bin的边缘。为了抑制振荡行为，使用了一个正则化项，该项鼓励潜在权重靠近bin的中心而不是边缘。将类似于权重衰减的阻尼损失定义为：

独立于标度s，因此间接独立于位宽。进一步将潜在权重剪裁到量化网格的范围，使得只有在量化期间没有被剪裁的权重才会获得正则化效果。这对于避免在基于LSQ的范围学习中与量化尺度梯度的任何有害相互作用很重要。这种正则化的缺点是，它不仅影响振荡的权重，而且还会阻碍不处于振荡状态的权重的移动。

3.3、振荡权值的迭代冻结

作者提出了另一种更有针对性的方法，通过在训练中冻结权重来防止权重振荡。在这种方法中，跟踪训练期间每个权重的振荡频率，如方程（4）所述。如果任何权重的振荡频率超过阈值，该权重将被冻结，直到训练结束。在整数域中应用冻结，以便在优化过程中scale 的潜在变化不会导致不同的舍入。

当一个权重振荡时，它不一定在两种振荡状态下花费相等的时间。正如在第2.2节的示例中所示，权重处于每个状态的可能性线性地取决于该量化状态与最优值的距离。结果，随着时间的推移，所有量化值的期望将对应于最优值。一旦权重的频率超过阈值，它就可能处于两种量化状态中的任何一种。为了将权重冻结到更频繁的状态，使用指数移动平均值（EMA）记录以前的整数值。然后，通过四舍五入EMA将最频繁的整数状态分配给冻结权重。