让他们听见世界:用多模态预训练模型,铺设数字化“盲道”

文章图片
在普通人直观想象中 , 以视觉信息和触控交互为核心的智能手机与视障人群之间 , 必然有着巨大的鸿沟 。
但现实并非如此 , 假如你真的接触过视障群体、去尝试过盲人按摩 , 你会发现他们同样依赖智能手机:从接听电话到发送消息 , 从拍照到导航 , 在手机厂商和软件公司的努力下 , 这些文字性的内容基本都能够顺利地被读出来 , 传递给视障用户 。
真正的难点是文字之外的图像 , 手机本身的界面、各种APP中的图像内容很多都没有文字备注、更不具备视障功能 。 如果在微信跟别人聊天的时候不小心收到一张图 , 视障群体只能回到求助他人的老解决路线之上 。
如果能让这些图像信息跟文字一样能够被直接“读”出来 , 那该多好 。
1未解决的“盲点”
据中国残疾人联合会最新数据统计 , 我国视觉障碍人群已超1800万 , 其中65岁及以上人群中约有1.5亿人存在不同程度的视觉障碍 。 这意味着 , 我国超1/10人口的日常生活深受视力问题困扰 , 尤其在数字互联时代的当下 , 更是面临“寸步难行”的困境 。
随着全球人口老龄化形势的加剧 , 老年人口规模逐渐扩大 , 相关数据显示 , “十四五”期间我国人口将进入中度老龄化阶段 , 2035年前后进入重度老龄化阶段 。 也就是说 , 越来越多的人将会面临视觉出现障碍的情况 。
在视觉障碍人群越来越庞大的同时 , 科技创新也顺应发挥着强大的作用 。 不但出现了助视器、老人机等硬件设备 , 而且随着大数据处理、人工智能、深度学习等技术的日益成熟 , 智能手机上也出现了安卓系统TalkBack和iOS系统旁白功能等交互功能 , 这些功能着眼于视障人士的需求 , 将文字信息通过自然语言处理等技术转换成语音信息传递给视障人士 , 可以满足他们获取资讯、社交等大部分日常生活需求 。
然而 , 目前手机上的这些交互技术方案并不完美 , 文字信息可以很轻易地实现语音播报 , 但对于图片信息却没有精准抓取处理的转换模型 , 再智能的手机交互工具面对图片等内容时也只能处于“失声”状态 , 这个技术“盲点”直接导致视障用户的世界没有图像 。
2科技不负期待
解决这一“盲点”的还是科技创新 。
12月14日 , 一场以“致善?前行”为主题的OPPO未来科技大会在深圳举行 , 现场公布了多个前沿创新技术 , 而小布助手发布的“无障碍图像功能”格外引人瞩目 , 因为这个功能不仅是首个在智能手机落地的无障碍图像信息获取AI工具 , 还顺利攻克读屏“盲点” , 让视障人群从此能够“看见”图像 。

文章图片
这套技术方案的实现并不“复杂” 。 据悉 , 这项功能的研发主要来源于小布团队对障碍人群的长期关注 , 在对视障群体进行深入调查后 , 小布团队综合运用目前的深度学习、大数据+大模型等AI技术 , 对图像信息进行识别与分析 , 形成从“视觉”到“听觉”的多模态交互方式 , 最终为视障人群在手机上搭建起一个无障碍图像信息获取AI工具 , 以语音的形式实现了精准传达图像信息的模型处理方案 。
也就是说 , 在安卓手机打开TalkBack的前提下 , 若是遇到系统提示为图像信息时 , 视障用户只需通过语音唤醒小布助手 , 然后发出类似“这是什么图片?”的询问 , 小布助手就会调出无障碍图像工具 , 对当前图像进行解析 , 然后再以语音方式播报给用户 。
- 炸锅|酷暑之下,莫让这些谣言再增“热”度
- 科学家为何要在太空放火?会有什么后果?答案让人意外
- 黄渤让四位导师演戏演到崩溃,王一博撒娇,钟汉良一秒入戏
- 让骁龙8+“凉”了 ROG游戏手机6预热:散热升级
- 虽然正式版还尚早|iOS 16第二个测试版更新细节揭晓:苹果让锁屏更个性化
- 腾讯|8个免费的神级APP,让你的ipad不再吃灰
- OPPO|iPhone14ProMax渲染图:两个王炸让我破防,苹果将再次成功
- 空调|空调移机“坑”巨多,这些套路一定要牢记,别让自己再花冤枉钱了
- iPhone 13深度使用半年,体验虽然流畅,但两个缺点却让人无奈!
- Apple Watch|热搜第一!饿了么的免单活动,为什么如此让人上头?
