19303851233

数据标注最佳实践

发表时间:2019-04-24 12:04

无论采用哪种方法,以下最佳实践都可以优化数据标注的准确性和效率:


直观和简化的任务界面最大限度地减少了人工标注者的认知负荷和上下文切换。


共识:衡量多个贴标机(人或机器)之间的一致率。共识分数是通过将一致标签的总和除以每个资产的标签总数来计算的。


标签审核:验证标签的准确性并根据需要进行更新。


迁移学习:从一个数据集中获取一个或多个预训练模型并将其应用于另一个。这可以包括多任务学习,其中多个任务是串联学习的。


主动学习:一类 ML 算法和半监督学习的子集,可帮助人类识别最合适的数据集。主动学习方法包括:

成员查询合成- 生成合成实例并为其请求标签。


基于池的采样- 根据信息量测量对所有未标注的实例进行排名,并选择最佳查询进行注释。

基于流的选择性采样- 一一选择未标注的实例,并根据其信息量或不确定性标注或忽略它们。