如何信任你的“谣言粉碎机”?可解释事实检验算法研究|AAAI 2022( 二 )
, 并事实上将其转化为最终标签与短语级别标签之间的一种逻辑约束 。
可以观察到以下逻辑规则:
如果一个陈述是不符合事实的(REF) , 那么其中至少存在一个短语不符合事实;
如果一个陈述是符合事实的(SUP) , 那么其中所有短语都应该符合事实;
如果一个陈述是无法验证的(NEI) , 那么应该不存在不符合事实的短语 , 并且其中至少一个短语是无法验证的 。
这种逻辑规则可以被形式化地表示为:
其中
分别对应于
,
表示验证结果 。
用概率软化上述逻辑规则:
其中
且
。
这样通过概率聚合得到的结果
就包含了上述的逻辑知识 。 作者将其作为老师模型(teachermodel)去指导
, 即进行逻辑知识蒸馏: 。
最终 , 模型的优化目标包含两部分: 。
构造局部前提
为了实现上述短语级别的验证 , 需要解决两个问题:
找到陈述中需要被验证的短语;
在知识库中找到足以检验这些短语的信息 。 这些都可以在训练上述验证模型之前离线完成 。
针对第一个问题 , 作者利用现有的NLP解析工具去识别给定陈述中的命名实体 , 名词短语 , 动词短语以及形容词短语 。 例如给定陈述「KungFuPandawasreleasedin2016.」 , 我们可以将其拆分为「KungFuPanda」(命名实体) , 「released」(动词短语)以及「2016」(名词短语) 。
针对第二个问题 , 作者将其建模为一种阅读理解(MRC)任务 。 给定陈述和短语 , 首先对给定的短语构造引导问题 , 如「KungFuPandawasreleasedin[MASK].」和「WhenwasKungFuPandareleased?」 , 并利用MRC模型从证据集中获取到对应的事实部分 , 如证据集中存在描述「KungFuPandapremieredintheUnitedStatesonJune6,2008.」 , 那么我们希望模型能够回答出「2008」 。
将这个事实回填到陈述的对应位置后 , 就可以得到一个短语对应的局部前提(localpremise)
, 如「JoeBidenwonthe2020election.」 。 具体地 , 利用
的数据去自监督地构造数据并训练这个生成式MRC模型 。
事实验证
得到了陈述的局部前提 , 就可以利用神经网络参数化
和
这两个分布以用于最终的事实验证 。
利用预训练语言模型来编码局部信息(陈述与局部前提拼接为
)和全局信息陈述与证据集拼接
) , 并得到了
与
。
得到全局与局部的信息表示后 , 分别利用全连接网络来构建最终的
和
:
接收标签
的向量表示和全局信息
与局部信息
作为输入 , 输出
的预测概率分布 。
接收隐变量
与全局与局部信息作为输入 , 输出
的预测概率分布 。 在预测阶段 , 通过随机初始化变量
并迭代地解码
和
直至收敛 , 至此 , 就能够在预测最终标签的同时 , 针对给定陈述中不同的短语进行细粒度的验证 。
主要实验结果
作者在事实验证数据集FEVER上开展了实验 , 并采用官方的LabelAccuracy以及Feverscore作为评估指标 , 整体结果如表1所示 。 对比LOREN与KGAT[2] , 可以发现在相同量级的模型下 , LOREN取得了显著的效果提升 。
虽然DREAM[3]与LOREN在检索阶段采用了不同的策略 , 但是LOREN在最终指标上的提升也表明了该框架的优势 。 然而LisT5[4]因为其强大的预训练模型(T5-3B , 十倍于RoBERTa-large) , 在测试集上的效果要明显优于其他模型 。

文章图片
表1:在FEVER数据及上的整体表现
- 创投圈|抖音小店无货源适合新手小白么?如何精细化运营?新手小白看来
- 松下|淘宝店铺信誉分等级如何提升?
- PHP|如何降低用户关注的非必要页面的权重传递?
- 量子纠缠存在于任何维度空间?人类如何逃出三维空间变成“神”?
- 显卡|如何组装旗舰游戏电脑?这里有你想要的答案
- 火星和地球交换位置会如何?火星会出现生命吗?答案没你想得简单
- 快手视频|视频号和抖音快手的差异化在哪里呢?你应该如何选择适合你的平台
- 关于时间的12件事,比如为什么从三月份起要把你的钟表拨快些?
- AirPods|如何进行微信活动运营才有效?
- 高考分数陆续出炉!3台学生换机必看机型推荐,哪款是你的菜?
