数据|为算法把好最后一关,谈谈数据审核那些事儿
2020年全球需要被标注的数据量达433EB(前瞻经济学人)
随着人工智能的发展,人工智能多模态、非结构化数据量愈发庞大,数据种类逐步复杂化,多模数据组合标注等需求进一步显现出来
作为人工智能的基础层,机器学习算法的训练效果很大程度需要依赖高质量的数据集,如果训练中所使用的标注数据集存在大量噪声,将会导致机器学习训练不充分,无法获得规律,这样在训练效果验证时会出现目标偏离,无法识别的情况。因此我们把数据审核称之为把好算法最后一关不可或缺的存在。
机器学习必需数据审核
当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大。“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”
但同时,对于质量不高的数据,在进行机器学习前需要经过加工处理,让数据集的整体质量得到提升,以此提高算法的训练效果。因此审核是一个必须的工作,机器学习的训练效果与数据集质量的关系如图所示
文章插图
当数据集的整体的整体标注质量只有80%的时候,机器学习的训练效果可能只有30%~40%。随着数据标注质量逐步提高,机器学习的效果也会突飞猛进。这也是为什么在数据交付前科研公司需要对数据进行层层的审核质检。
数据审核的服务类型语音数据中文、方言、外语以及特定指令及场景语音的审核
图像数据人像、场景、OCR等(人脸关键点、室内外监控、驾驶行为、道路场景、指定物、问答类、试卷类等)
文本数据韵律、分词、词性、实体、多次交互、多音字、数字读法、字符读法、TTS-中英文拼音等
数据质量的审核方式
全样数据审核
文章插图
全样数据审核即全检,要求审核师做到对数据集无遗漏的审核,且对标注的数据进行准确率的评估,这样在后期的审核中审核员会有针对性的选择审核方式。
抽样数据审核
文章插图
不同于全检,多样抽检则是在抽检的基础上,根据首次抽检的准确率,决定第二次抽检的数量及方式,这样既能够合理的调配审核员的工作重心,又能够提高标注数据质量审核的准确性,但在实际的审核过程中,减半抽样检查独立实施,会出现疏漏。
实时数据审核
文章插图
实时数据审核对于人员配置与管理要求整体较高,要求能够及时发现并解决问题,有效的减少标注过程中重复出现的错误,并且保证整体标注任务的流畅性,从而更好地掌握任务进度。
【 数据|为算法把好最后一关,谈谈数据审核那些事儿】以上,就是本次的分享内容啦~~希望可以帮助到大家更清晰的了解到数据审核这个创业项目,关于项目您如果还有什么疑问,可以私信小编,帮您对接我司专业的招商经理,进行一对一的解答服务~~
- ios16|未受到电商冲击,理发店为啥还是纷纷倒闭?过来人说出真相
- 苹果|华为新一代“小方表”来了:Watch FIT 2正式官宣
- iPhone|Plus时隔5年回归!曝苹果全新6.7寸手机名为iPhone 14 Plus
- 早报:华为P50 Pocket新色预售 百度世界大会定档
- ZOL科技早餐:华为千元手表官宣,腾讯QQ回应大规模盗号
- 在昨日推文中,王者荣耀将以“____文化”为主题推出限定皮肤,为乡村振兴加油? 王者荣耀6月28日每日一题答案
- 为验证人类和黑猩猩,是否会产生新的后代,科学家找来5位姑娘!
- 为什么科学家表示人类“灭绝”的可能性极低?这些理由你赞同吗?
- 芯片|外媒:老美“加码”相关限制后,更为“棘手”的后果已经出现!
- 华为|意识到离不开中国了?外媒称华为、中兴或将重新打入美国市场
