让他们听见世界：用多模态预训练模型，铺设数字化“盲道”( 二 )

这一过程的难点主要在于如何精准描述图片信息并防止核心信息的丢失，所以语音播报的内容会依据图像所包含的具体事物、状态等信息来综合描述，描述的方式不但要求简洁，还要做到精准。如自行车的图片，通过“无障碍图像功能”可以获得类似这样的语音反馈：马路上停了一排自行车，这句简单的语音信息不但向视障用户反馈了自行车这一物体，还描述了自行车的数量和所处的位置这些更细节的特性。如此一来，视障用户可以很快掌握图像的关键信息，并通过联系前后信息或者上下文内容，形成一个较为完整的信息表达，技术的努力终不负他们的期待。

文章图片
（功能演示：智能识别、语音播报环境中物体）
在精准且“细节”的信息反馈背后，是小布助手的无障碍图像功能攻克的不少业界技术难点。特别是在大规模多模态预训练模型方面，针对“炼大模型”仍不足以解决通用人工智能（AGI）的常识问题，背后团队通过一系列实验和探索，得出“在开放获取（例如互联网上的公开数据）的图文数据集上，简单的双塔结构要优于单塔结构”的结论，从而采用了“基于视觉-语言弱相关的假设”的双塔结构作为多模态预训练模型基本架构。

文章图片
与此同时，多模态技术还进一步与对比学习算法相结合，不但弥补了神经网络在表达能力上的损失，还通过与向量检索引擎的结合来极大提高图文检索效率。最终以灵活的网络结构、方便实际部署的特点，形成了当前业界最大的中文多模态通用预训练模型。
3致善式创新的微光
打字、发消息、扫二维码付款、将喜欢的东西放进购物车，这是我们大多数人习以为常的移动互联网生活，有时甚至我们还会因为过于繁冗的信息而不堪其扰。然而就是这么简单到枯燥的日常动作，对于视障者、听障者、老人等特殊人群来说，他们需要从生理到心理花费无数的精力和成本才能完成一次操作。与我们生活在同一个数字化时代的他们，是一群无法被科技之光照到的人。
但是，就像东京的地铁站会为盲人出站设置鸟叫声，让他们能判断地铁的出口方向一样，为人所用的科技也在不断通过“无障碍化”来关注到这些少数群体。在政策方面，国家《残疾人保障法》已经将信息无障碍纳入法律条款，同时在今年10月颁布的《无障碍环境建设“十四五”实施方案》中，信息无障碍建设工作也被列为未来重点方向。
而在去年的OPPO未来科技大会上， OPPO首次提出“科技为人，以善天下”的理念。 OPPO创始人兼首席执行官陈明永表示，科技创新如果没有自我约束机制，没有更高的理念做支撑，很可能成为一种负担。基于此， OPPO定调“致善式创新”的核心是以科技为手段，实现每一个人对美、想象力、人性的追求。

文章图片
这也成了小布助手的科技创新信条，这种信条让小布助手得以长期关注到障碍人群的真实需求，并形成了一系列“有AI无障碍”的能力建设，最终为障碍人群带来了一个多模态、多终端的对话式智能助手。这个助手不但能让视障用户“看见”一个有图像的世界，还能通过语音转文字等功能，帮助听障用户“听”到语音，通过语音操控等、电视、空调等IoT设备，让肢体障碍用户轻松操控各类家电。尤为值得一提的是，在今年针对老年群推出的小布助手关怀版上，则支持“打开小布关怀版”语音指令，帮助老年人快速得到功能卡片、大字体大图标等适老化的手机操作体验，用AI点亮老年人的数字生活。