DoReFa¶
DoReFa-Net: Training low bitwidth convolutional neural networks with low bitwidth gradients.
参数空间 $$ w \in \mathbb{R} $$
待量化参数空间 $$ \hat{w} = \frac{\tanh(w)}{\max(|\tanh(w)|)} \in [-1, 1] $$
量化后参数空间 $$ \hat{w}_q = \lfloor \frac{(\hat{w} + \beta)}{\alpha} \rceil \alpha - \beta $$
$$ \alpha = \frac{2}{2^k-1};\beta=1 $$
$$ q_{\hat{w}} \in [0,\cdots, 2^k - 1] $$
量化器的参数是固定的,实验结果发现可以很好,也证明了通过只训练权重来弥补量化带来的损失是可行的。