
文章插图
【 标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型】数据迭代之后,要做模型训练,在这个平台上用一键化的方式去做,这就是我们花几百万招过来的博士应该干的事情,他们不应该天天调参数、挖数据,这些事情应该让平台去干。
这一步,只要你点训练,它可以自动训练,背后怎么训练?是由开发者去开发的。但是在整个平台上去进行操作的人,不需要知道大规模模型训练,这降低了训练模型人员的从业要求,只要他知道这是怎么回事,把数据拿进去就可以训练,无代码一键完成模型开发。
做这种平台研发环境的好处是什么?数据沉淀在平台上,动作可复用,流程可追溯。这里面有几个界面:数据集管理、模型管理、任务管理。
数据集管理,就是一些标注好的数据集,以及挖掘、生成的数据集;模型管理,就是训练好的模型;任务管理,可以是标注任务,也可以是挖掘任务,也可以是训练任务,所有研发的轨迹全部停留在这里面。
为什么要做这个事?很简单,因为人力成本太高,企业无法招聘太多人从事每一个算法的研发。有了这套平台之后,我们可以实现非算法人员开发模型的方式,让算法工程师做更高级别的技术,这些平台话、流程化的事情,可交给一般的技术人员或者学生来做。
整个过程中,我们认为沉淀更多的是数据价值,这比模型的价值更大。
为什么数据的价值比模型的价值更大?
数据没有了,模型是训练不出来的,你不会再得到提高,即使得不到模型,数据在这儿,所以很容易再训练一个模型出来。
数据的重要性远远高于模型的重要性,所谓持续性的研发,沉淀出来的是有价值的数据,而不是其他。
因为模型很容易重新训练,或者用不同的数据迭代。但数据日积月累需要很长的时间。在整个平台上,通过数据不停的挖掘、训练、标注、迭代,会一轮一轮增加新的数据,为每个任务沉淀出非常优质的数据集。
也就是说,在这个平台上,数据变成了最重要的资产。
另外,所有的开发技巧也沉淀到平台上了。
如果大家搞研发管理,就会发现一个现象:部分人能做得特别好,部分人怎么都做不好。这是因为,任务、指令都是一样的,但不同的人研发经验是不一样的。
人才的素质属于不可控因素,如果把这套技术能力进行沉淀,每个模型研发过程都能实现可追踪,这样就能让做不好的人,通过学习,把事做好。
这样做的另一个好处是,不会因为人才流失导致既有的模型失效。
所有公司都会面临人员流动这个问题,一位优秀员工离职之后,其模型很难复现,因为别人不知道这个模型怎样迭代才达到现有的精度,上下衔接很困难,费时费力。
但是在这个平台上,就不会出现问题。模型训练过程中所做的所有数据的标注、操作,全部都在这个平台上,主要进行相关操作,全部流程都可以重复,不需要重新做。
在座如果有做研发管理的,肯定会感觉这个东西用起来非常不错。
现在,云天励飞内部的研发,除了一些非常高难度的,或者非要人工介入的算法研发(如人脸),其他的算法研发全部依赖于大规模算法开发平台。也就是说基本全部不需要算法工程师去做,都是标注人员在做。
以大堂搬运货物检测案例为例,每个工程师大概开发成本50万,一个月的时间差不多5万块钱的投入,但现在只需要1个标注人员,5-7天就可以做完从0到实用部署。
- 机器人|炒菜机器人“精确”破题中餐标准化
- 成都市SLCZ系列标准化工泵橡胶扰性接头
- 2022年5月15日乘着暖阳和花香|肥多多走访云南云天化花匠铺,“互联网+花”开启花卉产业新未来
- 首个“鲜花盒马村”扎根菏泽:种花标准化 直供20城
- 从0到100,云天励飞AI助力青岛崂山建设智慧健康驿站
- 抢占自动驾驶量产标准化先机!智加科技连获权威机构“首家”认证
- 打造连锁精英团队|标准化落地:第一章《打造连锁精英团队》
- 智联招聘CEO 郭盛:远程办公是企业管理“标准化”发展的试验场
- 天猫|中国预制菜产业联盟成立,天猫助推预制菜行业走向标准化
- 互联网人如何抗疫?淘宝小二把志愿服务做成一套标准化流程 |
