19303851233

数据标注有哪些途径?

发表时间:2019-04-24 13:43

数据标注是开发高性能机器学习模型的关键步骤。尽管标签看起来很简单,但实施起来并不总是那么容易。因此,公司必须考虑多种因素和方法来确定最佳贴标方法。由于每种数据标注方法都有其优缺点,因此建议对任务复杂性以及项目的规模、范围和持续时间进行详细评估。


以下是标注数据的一些途径:


内部标注- 使用内部数据科学专家简化跟踪,提供更高的准确性并提高质量。但是,这种方法通常需要更多时间,并且有利于拥有大量资源的大公司。


合成标签- 这种方法从预先存在的数据集生成新的项目数据,从而提高数据质量和时间效率。然而,合成标签需要大量的计算能力,这会增加定价。


程序化标注- 这种自动数据标注过程使用脚本来减少时间消耗和人工注释的需要。但是,技术问题的可能性要求 HITL 保留为质量保证 (QA) 流程的一部分。


外包- 这可能是高级临时项目的最佳选择,但开发和管理面向自由职业的工作流程也可能很耗时。虽然自由职业平台提供全面的候选人信息以简化审查过程,但雇用托管数据标注团队提供预先审查的员工和预先构建的数据标注工具。


众包- 由于其微任务处理能力和基于网络的分发,这种方法更快且更具成本效益。然而,员工质量、质量保证和项目管理因众包平台而异。众包数据标注最著名的例子之一是 Recaptcha。这个项目有两个方面,它控制机器人,同时改进图像的数据注释。例如,Recaptcha 提示会要求用户识别包含汽车的所有照片以证明它们是人类,然后该程序可以根据其他用户的结果进行自我检查。这些用户的输入为一系列图像提供了一个标签数据库。