不拆分单词也可以做NLP,哈工大最新模型在多项任务中打败BERT
丰色发自凹非寺量子位|公众号QbitAI
【不拆分单词也可以做NLP,哈工大最新模型在多项任务中打败BERT】众所周知 , BERT在预训练时会对某些单词进行拆分(术语叫做“WordPiece”) 。
比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es” 。
目的是缩减词表、加快训练速度 , 但这样一来 , 在某些时候反而会阻碍模型的理解能力 。
比如把”lossless”分成”loss”和”less”的时候 。
现在 , 来自哈工大和腾讯AILab的研究人员 , 尝试利用不做单词拆分的词汇表开发了一个BERT风格的预训练模型——WordBERT 。
结果 , 这个WordBERT在完形填空测试和机器阅读理解方面的成绩相比BERT有了很大提高 。
在其他NLP任务 , 比如词性标注(POS-Tagging)、组块分析(Chunking)和命名实体识别(NER)中 , WordBERT的表现也都优于BERT 。
由于不用分词 , 这个WordBERT还可以直接进行中文训练 。
更值得一提的是 , 它在性能提升的同时 , 推理速度并没有变慢 。

文章图片
可谓一举多得 。
NOWordPieces
与BERT类似 , WordBERT包含两个组件:词向量(wordembedding)和Transformer层 。
和以前的模型一样 , WordBERT采用多层双向Transformer来学习语境表示(contextualizedrepresentation) 。
wordembedding则是用来获得单词向量表示的参数矩阵 , 与把单词分成WordPiece的BERT相比 , WordBERT的词汇由完整的单词组成 。
他们用自然语言处理软件包Spacy处理数据 , 生成了两个词汇表 , 一个规模为500K , 一个为1M 。
词汇表中还被单独添加了5个特殊单词:[PAD]、[UNK]、[CLS]、[SEP]和[MASK] 。
通过不同的词汇表规模、初始化配置和不同语言 , 最后研究人员一共训练出四个版本的WordBERT:
WordBERT-500K、WordBERT-1M、WordBERT-Glove和WordBERT-ZH 。

文章图片
它们的配置如上 , 嵌入参数都是随机初始化的 , 嵌入维数和基准BERT保持一致 。
其中WordBERT-Glove用的词汇表是现成的Glovevocabulary , 里面包含约190万个未编码的单词 , 该模型由相应的单词向量(wordvectors)在WordBERT之上初始化而来 。
WordBERT-ZH则是用中文词汇训练出来的WordBERT , 它也保持了768的词嵌入维数 。
性能与速度兼具
在测试环节中 , 完形填空的测试数据集来自CLOTH , 它由中学教师设计 , 通常用来对中国初高中学生进行入学考试 。
其中既有只需在当前句子中进行推理的简单题 , 也有需要在全文范围内进行推理的难题 。
结果如下:

文章图片
△M代表初中 , H代表高中
WordBERT-1M获得了最佳成绩 , 并接近人类水平 。
它在高中题比BERT高了3.18分 , 初中题高了2.59分 , 这说明WordBERT在复杂任务中具有更高的理解和推理能力 。
在词性标注、组块分析和命名实体识别(NER)等分类任务中 , WordBERT的成绩如下:

文章图片
相比来看 , 它在NER任务上的优势更明显一些(后两列) 。
研究人员推测 , 这可能是WordBERT在学习低频词的表征方面有优势 , 因为命名实体(namedentities)往往就是一些不常见的稀有词 。
对于“中文版”WordBERT-ZH , 研究人员在CLUEbenchmark上的各种任务中测试其性能 。
除了BERT , 对比模型还包括WoBERT和MarkBERT , 这也是两个基于BERT预训练的中文模型 。
- 京东|裁员不忘膈应人,这家互联网大厂送的离职礼物恶心到我了!
- 踩线|主播不“踩线” 直播才有未来
- 厨房|刀可切菜灶可加热 儿童厨房玩具安全不能忽视
- 华为|意识到离不开中国了?外媒称华为、中兴或将重新打入美国市场
- 章子怡扎减龄丸子头,短裙露美腿不像生过娃,从影20年笑容依旧甜
- 恒大|中国恒大回应被清盘呈请:极力反对 预期不影响重组计划
- ios16|一步到位能用5年,目前这3款手机能闭眼入,买手机不要太小气
- 月球也在太阳系的宜居带中,为何不能产生生命?原来个头太小了
- 太空中的真菌毒素是否危害宇航员健康?科学家:尚不明确
- 显卡|3个不买RTX 3080的理由:没钱只能排最后
