如何信任你的“谣言粉碎机”？可解释事实检验算法研究｜AAAI 2022( 二 )

，并事实上将其转化为最终标签与短语级别标签之间的一种逻辑约束。
可以观察到以下逻辑规则：
如果一个陈述是不符合事实的（REF），那么其中至少存在一个短语不符合事实；
如果一个陈述是符合事实的（SUP），那么其中所有短语都应该符合事实；
如果一个陈述是无法验证的（NEI），那么应该不存在不符合事实的短语，并且其中至少一个短语是无法验证的。
这种逻辑规则可以被形式化地表示为：
其中
分别对应于
，
表示验证结果。
用概率软化上述逻辑规则：
其中
且
。
这样通过概率聚合得到的结果
就包含了上述的逻辑知识。作者将其作为老师模型(teachermodel)去指导
，即进行逻辑知识蒸馏：。
最终，模型的优化目标包含两部分：。
构造局部前提
为了实现上述短语级别的验证，需要解决两个问题：
找到陈述中需要被验证的短语；
在知识库中找到足以检验这些短语的信息。这些都可以在训练上述验证模型之前离线完成。
针对第一个问题，作者利用现有的NLP解析工具去识别给定陈述中的命名实体，名词短语，动词短语以及形容词短语。例如给定陈述「KungFuPandawasreleasedin2016.」，我们可以将其拆分为「KungFuPanda」（命名实体），「released」（动词短语）以及「2016」（名词短语）。
针对第二个问题，作者将其建模为一种阅读理解(MRC)任务。给定陈述和短语，首先对给定的短语构造引导问题，如「KungFuPandawasreleasedin[MASK].」和「WhenwasKungFuPandareleased?」，并利用MRC模型从证据集中获取到对应的事实部分，如证据集中存在描述「KungFuPandapremieredintheUnitedStatesonJune6,2008.」，那么我们希望模型能够回答出「2008」。
将这个事实回填到陈述的对应位置后，就可以得到一个短语对应的局部前提（localpremise）
，如「JoeBidenwonthe2020election.」。具体地，利用
的数据去自监督地构造数据并训练这个生成式MRC模型。
事实验证
得到了陈述的局部前提，就可以利用神经网络参数化
和
这两个分布以用于最终的事实验证。
利用预训练语言模型来编码局部信息（陈述与局部前提拼接为
）和全局信息陈述与证据集拼接
），并得到了
与
。
得到全局与局部的信息表示后，分别利用全连接网络来构建最终的
和
：
接收标签
的向量表示和全局信息
与局部信息
作为输入，输出
的预测概率分布。
接收隐变量
与全局与局部信息作为输入，输出
的预测概率分布。在预测阶段，通过随机初始化变量
并迭代地解码
和
直至收敛，至此，就能够在预测最终标签的同时，针对给定陈述中不同的短语进行细粒度的验证。
主要实验结果
作者在事实验证数据集FEVER上开展了实验，并采用官方的LabelAccuracy以及Feverscore作为评估指标，整体结果如表1所示。对比LOREN与KGAT[2] ，可以发现在相同量级的模型下， LOREN取得了显著的效果提升。
虽然DREAM[3]与LOREN在检索阶段采用了不同的策略，但是LOREN在最终指标上的提升也表明了该框架的优势。然而LisT5[4]因为其强大的预训练模型（T5-3B ，十倍于RoBERTa-large），在测试集上的效果要明显优于其他模型。

文章图片
表1：在FEVER数据及上的整体表现