程序员至死是少年!在公司竟公然变身圣斗士( 二 )
但手机端动作捕捉技术 , 并不好做 。
自研移动端算法 , 筛选7k+顶点
只用一部普通的手机 , 意味着两个难点:计算量受限、坐标深度只能靠预测 。
相机生成的照片 , 通常只有2D信息 。 要想从2D中还原出3D信息 , 需要找到一个能够预测坐标深度的函数 , 使之预测的3D信息尽可能逼近真实值 。
对于真实度要求很高的动作捕捉技术而言 , 这意味着精度和实时性都要受到挑战 。
目前已有的移动端AI技术 , 只能实现实时动作捕捉的一部分功能 , 包括人体/人脸检测、和基于2D/3D骨骼关键点的姿态估计技术 , 也就是我们常见的“火柴人”算法 。 
文章图片
但“火柴人”算法显然没有3DMesh贴合度高 , 因此团队决定 , 将3DMesh搬到移动端上 , 自研一套基于3DMesh的移动端姿态估计算法 。 
文章图片
这套算法相当于重建人体表面的7000多个特征点 , 以及15000多个三角面片 , 不仅能够还原人体的基本动作 , 还能预测出人体的高矮胖瘦 。 
文章图片
除此之外 , 团队还从3个方面 , 对模型进行了整体优化 。
其一 , 从动作捕捉精度和模型大小两方面 , 对自研模型进行调试 。
据微视团队表示 , 移动端已有的基于3D骨骼关键点的驱动阀 , 虽然可以驱动虚拟人体 , 在同一场景下做各种动作 , 但这套算法存在一些不足 , 需要自行调整 。
例如 , 算法偶尔会出现不正常的抖动 , 包括虚拟人物突然“形变”的情况 , 如下图脚掌翻转 。 为此 , 团队还给算法加上了平滑滤波 , 使得人物动作看起来更真实 , 进一步提升模型精度 , 避免像下面这种抖动 。 
文章图片
△脚掌不正常的翻转抖动
同时 , 在精度以外 , 团队还要保证在移动端实现3DMesh 。 为了做到这一点 , 除了在其他模型方面尽可能整合压缩以外 , 团队也对模型本身进行了一个简化 。
其二 , 从数据采集来看 , 团队也下了不少功夫 。
由于移动端3DMesh数据需针对性采集 , 微视团队搭建了自动化的数据采集系统 , 帮助快速采集到高质量动捕数据 。 
文章图片
虽然Kinect的实时动作捕捉效果一般 , 但用于数据采集还是非常不错的 , 三台结合起来就能获得完整的深度信息 。 
文章图片
为了确保模型的泛化性 , 除了尽可能多找18~60岁的不同人物数据进行采集以外 , 程序员们还采用了数据增强和半监督学习来增强模型的泛化能力 。
在数据增强这块 , 为了加强模型辨认人体与周围环境的能力 , 程序员们将获取到人体的mask信息进行提取 , 随机贴到其他背景的图片上 , 创造出更多不同背景信息的图片;同时 , 团队也采用了神经渲染、GAN等技术 , 来生成更多的训练数据 。
在半监督学习上 , 程序员们结合辅助任务 , 对2D关键点模型进行训练、提升模型的泛化能力 。
其三 , 就是团队对实时性和特效渲染做的兼顾 。
模型结构的整体设计和优化都只是“基本操作” , 例如将串联运行的模型改成并联运行等;在推理上 , 团队还基于优图的TNN移动端深度推理框架 , 实现了模型的高效推理 , 最终将模型的推理时间从15ms降低到了11ms 。
- ios16|未受到电商冲击,理发店为啥还是纷纷倒闭?过来人说出真相
- 有人觉得中暑就是热出来的,吃一些退烧药就好了,这种做法 蚂蚁庄园今日答案6月28日
- 浮甘瓜于清泉,沉朱李于寒水”描述的是什么场面 蚂蚁庄园今日答案6月28日
- 为验证人类和黑猩猩,是否会产生新的后代,科学家找来5位姑娘!
- 喜马拉雅山出现的“雪人”是何生物?目击者:智商高、攻击性强
- 显卡|这就是RTX 4090 Ti显卡?又厚又重,超过三槽要1200W电源
- 土耳其发现四肢爬行人群,这是咋回事?科学家警告:人类要留心了
- 图像传感器|到手1849元重量189g这才是高性价比的骁龙870直屏手机
- “大家好,我是渣渣辉!”,最近刷爆朋友圈的港普大家来了解一下
- 在南极3500米的深海,科学家发现新物种,这是个透明的肉球?
