标准化|云天励飞王孝宇：AI 研发和应用，数据的重要性远高于模型( 三 )

所以云天励飞在内部打造了一套标准化、流程化、平台化的研发方式。
什么叫流程化？
流程化的英文叫Streamline。不需要切换上下文就可以把所有的事情做完，现在美国的创业非常流行这样做，RPA也是同样的思路，做机器人流程自动化，把业务的流程放在无缝衔接的框架下完成。
只有在这种情况下，效率才是最高的，不需要一会儿做这个事，一会儿做那个事，频繁切换会影响工作效率。
标准化（standardization），把里面跟模型相关的非标准化的部分全部呈现在技术上，整个平台上只剩下标准化的东西。
这样做的好处是什么？容易学习，所以不需要博士做这个事情，可能本科生甚至是高中生就可以干这个事，从而把博士资源放在更紧要的地方。
平台化（platform），这也是整个软件行业的趋势。

文章插图

这张图是我们大规模算法研发的流程：
第一步，搜集数据，这时候数据是没有标注的。
第二步，做数据标注；
第三步，模型训练；
第四步，data mining，有了初始模型后，在海量没有标注的数据里找到可以提高性能的数据；
第五步，再进行标注。
如果把这个平台分成三步，前两步就是做初始模型的建立，后面就是做完整闭环，像飞轮一样，它在不停地转，每转一次都可以得到更好的精度。这个转法是在我们平台上实现的，不需要专家级别的人专门来做。
第一步，获取初始模型。
首先我们有分布式标注平台，开发人员可以定义一个任务。比如做街道下水道井盖有没有被人拿走的检测，也许我们会标注10-20个数据。
标注之后怎么办？这是学术界和工业界很火的大模型和无监督学习。
为什么我们在这里面放了大模型和无监督学习？刚才我们讲到，一开始我们想做井盖被人拿走的事实检测，我们一开始可能没有这么多标注好的数据，可能只有100个，但数据标注的效率可能是万分之一。
如果你想标1万个这样的数据，需要标1亿个data，这个量非常大。怎么办？
先标100个，为什么要用大模型和无监督学习配合这个数据去跑模型？就是为了让你初始模型的精度达到最高。
无监督和大模型最好的方式，本来100个数据训练出来的精度只有30%，用大模型和无监督学习的方法训练之后，精度可以达到80%，那挖掘数据的效率可以提高10倍，也就是说我少标了10倍的数据，一切都是为了后面数据迭代的效率来做的。
为什么大模型和无监督学习可以提高这个性能？虽然它自己没有标注数据，但它是被千亿、百亿级的数据训练出来的，知道井盖是什么样的，这种特征的编辑其实已经实现了，再配合少量数据的标注，就可以得到一个还不错的初始模型。
为什么要得到还不错的初始模型？因为数据迭代的效率会更高，首先是为了第一步方便。
第二步，我们不说模型迭代，而是数据迭代，因为我们认为模型的训练已经被标准化了，在平台上，点个按钮它就训练好了，不需要有模型训练的知识，我们专家的系统已经把它做好了。
所谓的数据迭代，就是在海量还没有标注好的数据中，找到能够提高模型性能的数据，进行主动学习。
传统模型研发的范式是缺数据再去标，但发现标过来的数据跟以前的分布是一样的，对模型的分布没有太大用处。所以需要用技术、算法找到对自己真正有用的数据，右边我们从海量数据中找出了9张有用的数据。
模型挖掘怎么做？在左边平台界面，点一个按钮，选一个数据集，可以自动在这里面挖掘，从几亿的数据里找到几张跟井盖相关的数据做训练，我们是用主动学习算法做数据择优的。