模态|中科院自动化所研发跨模态通用人工智能平台“紫东太初”
日前 , 中国科学院自动化研究所所长徐波研究员在2021世界人工智能大会(WAIC2021)上就人工智能的最新进展进行报告 , 发布了自动化所研发的跨模态通用人工智能平台—“紫东太初” 。
据介绍 , “紫东太初” 跨模态通用人工智能平台以多模态大模型为核心 , 基于全栈国产化基础软硬件平台 , 可支撑全场景AI应用 。
多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索 , “紫东太初”正是一款通用人工智能平台 。 徐波介绍 , 依托面向超大规模的高效分布式训练框架 , 自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型 , 并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示 , 构建了三模态预训练大模型 , 赋予跨模态通用人工智能平台多种核心能力 。
【模态|中科院自动化所研发跨模态通用人工智能平台“紫东太初”】“紫东太初”兼具跨模态理解和生成能力 。 与单模态和图文两模态相比 , 其采用一个大模型就可以灵活支撑图-文-音全场景AI应用 , 具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力 。 引入语音模态后的多模态预训练模型 , 可实现共性图文音语义空间表征和利用 , 并突破性地直接实现三模态的统一表示 , 使“以图生音”和“以音生图”成为现实 , 对更广泛、更多样的下游任务提供模型基础支撑 , 达成AI在如视频配音、语音播报、标题摘要、海报创作等更多元场景的应用 。
此外 , 自动化所研发团队还提出了弱关联三模态数据的语义统一表达 , 可同时支持三种或任两种模态弱关联数据进行预训练 , 有效降低了多模态数据收集与清洗成本 。
文章插图
徐波表示 , 总结来说 , 此跨模态通用人工智能平台包括三大关键技术和六大核心能力 。 三大关键技术为多模态理解与生成多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化 。 六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构合计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速 。
此外 , 徐波还展示了自动化所打造的虚拟人“小初” , 通用多模态大模型的人机对话演示 , 展示了不同模态间的互相转换和生成实例 , 涵盖视频描述、智能问答、图像检索、吟诗作赋、中文续写、双语翻译、语音识别等多个功能 。 徐波表示 , “大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式 , 多模态大模型将成为不同领域的共性平台技术 , 是迈向通用人工智能路径的探索 , 具有广阔的应用前景 。 同时 , 全栈国产化通用人工智能平台的实践将使人工智能研发的规则发生重大变革并逐渐形成壁垒 , 对我国实现AI领域科技创新、占领核心技术高地具有重要的战略意义 。
(光明日报全媒体采访人员 齐芳 通讯员 鲁宁)
- iPhone14|中科院:招博士后,研发7nm芯片技术
- 便利店|超高弹性和温度敏感的3D 打印多模态MXenes水凝胶智能设备
- 中科院南海所林间特聘研究员当选欧洲科学院院士
- 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
- 光刻机|中科院EUV光刻机新消息,结局基本清晰了
- 零样本学习超越CLIP!谷歌提出首个多模态稀疏化模型LIMoE
- Python|中科院用27小时讲完的python!整整600集,拿走不谢
- Java|美媒:阿里、华为、中科院已经“突围”,芯片市场风向变了
- 中科院|502胶水为何叫502!原因解密:跟中科院的一房间号有关
- 50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA
