阿里巴巴|北大95后“AI萝莉”回来了:现在达摩院开源7大NLP模型( 二 )


如果是两年前还在学校的我,会觉得这好简单,我可以加上很多的花式技巧 。但是到了工业界要考虑到架构在不同业务场景下的通用性,只好牺牲一些复杂有趣的模型设计 。
AliceMind中的生成式语言模型PALM,则是将预训练目标从重构输入文本,改成了预测后续文本 。
这样一个改动就促使模型对输入文本进行更深入地理解,在问答生成、文本复述、回复生成、文本摘要等任务上都取得了更好的效果 。
还有结构化语言模型StructuralLM、机器阅读理解模型UED和知识驱动的语言模型LatticeBERT,都在各自的领域取得了明显地优势 。
除了此次开源的7个模型,AliceMind中还包括了超大规模中文理解和生成统一模型PLUG 。
AliceMind中的模型,看起来有一个共同特点,就是擅长”跨界“ 。
从跨语言、跨模态到语言理解和生成的统一,都是基于Transformer架构将不同的输入在一个更大的编码空间上统一建模 。
罗福莉补充道:
AliceMind的这种将Transformer作为统一模型架构的解决方案已经比较成熟,但要做到更好“跨界”,接下来努力的方向是解决不同类型或粒度输入的深度融合和匹配问题 。
从基础模型扩展出能力多样的模型,再把它们在实际业务中结合使用,让AliceMind成了业界能力最全面的深度语言模型体系 。
那么AliceMind都用到了哪些地方?
落地是个系统化的工程
AliceMind已经上线到阿里内部的NLP平台,可以提供给不同部门的业务使用 。
在官方网站上也提供了Demo,比如这个基于PLUG模型的语言生成模块 。
输入红楼梦选段:
阿里巴巴|北大95后“AI萝莉”回来了:现在达摩院开源7大NLP模型
文章图片

就能生成一段续写:
阿里巴巴|北大95后“AI萝莉”回来了:现在达摩院开源7大NLP模型
文章图片

而像这样可供大家试玩的Demo还有几十个 。
不过这些官网上的服务并非都是由AliceMind提供技术支持,很多都只是这一体系启发下的小模型 。
那么这次开源的几大核心目前都在哪里打工呢?
应用最广泛的,就是电商 。
尤其是阿里巴巴国际事业部(ICBU)或像速卖通(AliExpress)这样拥有跨境电商业务的部门,就是多语言模型VECO的直接受益者 。
VECO是AliceMind体系中的8大模型之一,用于多语言理解和跨语种的文本嵌入、分类,掌握了100多种语言 。
阿里内部基于AliceMind的翻译平台日调用量约10亿次,创造了数亿美元的国际跨境贸易和其他国际业务商业价值 。
就像达摩院深度语言模型团队负责人黄松芳所说“语言模型落地是个系统化的工程”:
语言模型从训练、微调到蒸馏、压缩,到整个部署上线都在平台上面完成,上线之后跟业务方的系统连在一起,能够直接嵌到他们的业务逻辑、业务系统里面去 。
我们更熟悉的淘宝拍照识图、天猫精灵智能音箱中也有AliceMind的贡献 。
目前,AliceMind已经在阿里内部数十个核心业务落地,日均调用50亿次,活跃场景超过200个 。
在阿里之外,医疗领域尤其是癌症治疗上,AliceMind同样出力不少 。
作为一个具有自主学习能力的深度学习语言模型体系,AliceMind应用在搜索引擎上时会有一个重排机制 。
以具体某一类医学文献为目标,AliceMind在粗排先捞了一批相关文本后,还会再次结合文章类型、引用图谱等信息,进行不断地重排 。
同时将抽取获得的信息与已知的结构化知识做融合,构建知识体系,最终得到最高质量的临床文献 。