开箱即用的产业级NLP工具库,性能加速最高可达28倍

机器之心发布
机器之心编辑部
PaddleNLPv2.1正式发布啦!
PaddleNLP是兼具科研学习和产业实践能力的PythonNLP工具包 , 提供中文领域丰富的预训练模型和部署工具 , 被高校、企业开发者广泛应用 。 近日 , PaddleNLPv2.1正式发布 , 为开发者带来三项重要更新:
开箱即用的产业级NLP预置任务能力Taskflow:八大经典场景一键预测 。 预训练时代的微调新范式应用:三行代码显著提升小样本学习效果 。 高性能预测加速:文本生成任务高达28倍加速效果 。传送门:https://github.com/PaddlePaddle/PaddleNLP
开箱即用的产业级NLP工具库,性能加速最高可达28倍】PaddleNLP整体开源能力速览
PaddleNLP是飞桨生态的自然语言处理开发库 , 旨在提升文本领域的开发效率 , 为开发者带来模型构建、训练及预测部署的全流程优质体验 。
开箱即用的产业级NLP工具库,性能加速最高可达28倍
文章图片
PaddleNLP功能全景图
PaddleNLP项目自发布以来 , 就受到广大NLPer的关注 。 在2021年6月PaddleNLP官方直播打卡课中 , 有7000+用户参加PaddleNLP的项目学习和实践 , 加速了自身科研和业务实践进程 , 同时也带动PaddleNLP多次登上GitHubTrending榜单 。
开箱即用的产业级NLP工具库,性能加速最高可达28倍
文章图片
那么最近的2021年10月份更新 , PaddleNLP又给大家带来哪些惊喜呢?下文将为您逐一细细解读 。
PaddleNLP全新升级深入解读
开箱即用的工业级NLP预置任务能力——Taskflow
依托于百度在多年语言与知识领域的业务积淀 , PaddleNLP面向NLP八种任务场景 , 聚合了众多百度自研的算法以及社区开源模型 , 并凭借飞桨核心框架的能力升级提供开箱即用、极致优化的高性能一键预测能力——Taskflow 。
本次Taskflow升级覆盖自然语言理解(NLU)和生成(NLG)两大场景共八大任务 , 包括中文分词、词性标注、命名实体识别、句法分析、文本纠错、情感分析、生成式问答和智能写诗 。
这些高质量模型的背后 , 一方面聚合了百度在语言与知识领域多年的业务积淀和领先的开源成果:如词法分析工具LAC、句法分析工具DDParser、情感分析系统Senta、文心ERNIE系列家族模型、开放域对话预训练模型PLATO、文本知识关联框架解语等;另一方面也涵盖了开源社区优秀的中文预训练模型如CPM等 。
未来Taskflow会随着PaddleNLP的版本迭代不断扩充技能 , 如开放域对话、文本翻译、信息抽取等能力 , 以满足更多NLP开发者的需求 。
如下图所示 , 通过PaddleNLPTaskflow , 只需要一行代码 , 传入任务名称即可自动选择最优的预置模型 , 并且以极致优化的方式完成推理 , 开发者可以方便地集成到下游的应用中 。
开箱即用的产业级NLP工具库,性能加速最高可达28倍
文章图片
Taskflow使用示意图
项目地址:https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md
预训练时代的微调新范式应用:三行代码提升小样本学习效果
Few-ShotLearning(以下简称FSL)是机器学习的一个子领域 。 在仅有少数监督样本的情况下 , 训练得到强泛化能力的模型 , 实现对新数据的分类 。
结合最新的PromptTuning的思想 , PaddleNLP中集成了三大前沿FSL算法:
EFL(EntailmentasFew-ShotLearner)[1] , 将NLPFine-tune任务统一转换为二分类的文本蕴含任务;PET(Pattern-ExploitingTraining)[2] , 通过人工构建模板 , 将分类任务转成完形填空任务;P-Tuning[3]:自动构建模板 , 将模版的构建转化为连续参数优化问题 。使用小样本学习策略 , 仅仅32条样本即可在电商评论分类任务上取得87%的分类精度[4] 。 此外 , PaddleNLP集成R-Drop策略作为API , 只需要增加三行代码即可在原任务上快速涨点 , 如图所示: