ICLR 2022｜唯快不破！面向极限压缩的全二值化BiBERT( 二 )

最终二值注意力机制可以被表示为：

文章图片
其中， BV是通过sign函数二值化得到的value值， BA是二值化注意力权重，是一个精心设计的Bitwise-Affine矩阵乘法（BAMM）运算器，由和位移组成，用于对齐训练和推理表征并进行有效的位计算。
DMD:方向匹配蒸馏
作者发现，由于注意力权重是两个二值化的激活直接相乘而得。
因此，处于决策边缘的值很容易被二值化到相反一侧，从而直接优化注意力权重常常在训练过程中发生优化方向失配问题。（见图3）

文章图片
△图3优化方向失配
因此，作者设计了新的蒸馏方案，即针对上游的Query、Key和Value矩阵，构建相似性矩阵进行对激活的蒸馏：

文章图片
其中， ||·||表示L2正则化。之前的研究工作表明，以这种方式构建的矩阵被认为能够反映网络对于特定模式的语义理解，并无视尺度和数值大小影响，能够更加稳定地表示特征之间的内生相关性，更适合二值和全精度网络之间的知识传递。
因此，蒸馏损失可以表示为对隐藏层、预测结果和上述激活相似性矩阵的损失之和：

文章图片
其中L表示transformer的层数，

文章图片
。
实验
作者的实验证明了所提出的BiBERT能够出色地解决二值化BERT模型在GLUE基准数据集的部分任务上精度崩溃的问题，使模型能够稳定优化。
【ICLR 2022｜唯快不破！面向极限压缩的全二值化BiBERT】表1表明所提出的Bi-Attention和DMD均可以显著提升模型在二值化后的表现。

文章图片
△表1消融实验
表2和表3中，作者展示了BiBERT优于其他BERT二值化方法，甚至优于更高比特的量化方案：

文章图片
△表2基于BERT的二值化方法对比（无数据增强）

文章图片
△表3基于BERT的二值化方法对比（有数据增强）
其中， 50%表示要求二值化后有一半的注意力权重为0 ，且表中无特殊说明均采用12层的BERT模型进行量化。
此外，作者测量了在训练过程中的信息熵（见图4），作者提出的方法有效地恢复了注意力机制中完全损失的信息熵。

文章图片
△图4训练过程中的信息熵
同时，作者绘制了训练时的loss下降曲线和准确率， BiBERT相比于基线明显更快收敛、准确性更高。

文章图片
△图5训练时的Loss和准确率曲线
总结
作者提出的BiBERT作为第一个BERT模型的全二值化方法，为之后研究BERT二值化建立了理论基础，并分析了其性能下降的原因，针对性地提出了Bi-Attention和DMD方法，有效提高模型的性能表现。
BiBERT超过了现有的BERT模型二值化方法，甚至优于采用更多比特的量化方案，理论上BiBERT能够带来56.3倍的FLOPs减少和31.2倍的模型存储节省。