数据收集的人群工作者

数据收集的众包工人——道德人工智能不可或缺的一部分

在我们努力构建稳健且无偏见的 AI 解决方案的过程中,我们应该专注于在无偏见、动态且具有代表性的数据分类上训练模型。 我们的数据收集过程对于开发可靠的 AI 解决方案极为重要。 对此,集 通过人群工作者的 AI 训练数据 成为数据收集策略的一个关键方面。

在本文中,让我们探讨众包工作者的作用及其对开发 AI 的影响 学习算法 和 ML 模型,以及它对整个过程的需求和好处。 

为什么需要人群工作者来构建 AI 模型?

作为人类,我们会生成大量数据,但这些生成和收集的数据中只有一小部分是有价值的。 由于缺乏数据基准标准,所收集的大部分数据要么存在偏差、存在质量问题,要么不能代表环境。 因为越来越多 机器学习 随着深度学习模型的开发在海量数据的基础上蓬勃发展,人们越来越需要更好、更新和多样化的数据集。

这是人群工作者发挥作用的地方。

众包数据正在构建一个由大量人群参与的数据集。 众包工作者将人类智能注入人工智能。

众包平台 为大量多样化的人群提供数据收集和注释微任务。 众包使公司能够获得大量、动态、具有成本效益且可扩展的劳动力。

最受欢迎的众包平台——Amazon Mechanical Turk,能够在 11 小时内获得 15 条人与人之间的对话,并向工人支付报酬 $0.35 对于每一次成功的对话。 人群工作者的参与度如此之低,这说明了建立道德数据采购标准的重要性。

从理论上讲,这听起来像是一个聪明的计划,但执行起来并不容易。 众包工人的匿名性导致了低工资、无视工人权利以及影响 AI 模型性能的低质量工作等问题。 

让众包工作者获取数据的好处

通过吸引不同群体的人群工作者,基于 AI 的解决方案开发人员可以以相对较低的成本快速分配微任务并收集各种广泛的观察结果。

为 AI 项目雇用众包工作者的一些显着好处是

通过众包工作者收集数据的好处

更快的上市时间: 根据 Cognilytica 的研究,近 80% 的 人工智能 项目时间花在数据收集活动上,例如数据清理、标记和聚合。 只有 20% 的时间用于开发和培训。 由于可以在短时间内招募大量贡献者,因此消除了生成数据的传统障碍。 

具有成本效益的解决方案: 众包数据收集 减少在培训、招聘和让他们入职方面花费的时间和精力。 这消除了所需的成本、时间和资源,因为劳动力是按任务付费的方法。 

提高数据集的多样性: 数据多样性对整个 AI 解决方案训练至关重要。 为了使模型产生无偏见的结果,它必须在不同的数据集上进行训练。 通过数据众包,可以毫不费力地生成多样化(地理、语言、方言)数据集。

增强可扩展性: 当您招募可靠的人群工作者时,您可以确保 高品质 可以根据您的项目需求进行扩展的数据收集。

内部与众包——谁是赢家?

内部数据众包数据
可以保证数据的准确性和一致性。如果使用具有标准 QA 措施的可靠众包平台,则可以保持数据质量、准确性和一致性
内部数据采购并不总是一个实际的决定,因为您的内部团队可能无法满足项目需求。可以确保数据多样性,因为可以根据项目需要招募异质人群。
为项目需要招聘和培训工人的费用昂贵。具有成本效益的解决方案 数据采集 因为可以用较少的投资招聘、培训和入职工人。
上市时间很长,因为内部数据收集需要相当长的时间。由于许多贡献来得很快,因此上市时间明显缩短。
一小群内部贡献者和贴标者一大群不同的贡献者和 数据标签
内部团队的数据保密性非常高。在与全球范围内的大量人群工作时,数据机密性很难维护。
更容易跟踪、培训和评估数据收集者跟踪和培训数据收集员具有挑战性。

弥合众包工作者和请求者之间的差距。

弥合众包工作者和请求者之间的差距 迫切需要弥合人群工作者和请求者之间的差距,而不仅仅是在薪酬领域。

请求者端明显缺乏信息,因为只向工作人员提供有关特定任务的信息。 例如,尽管员工被分配了一些微任务,比如用他们的母语录制对话,但他们很少被提供背景信息。 他们没有必要的信息来说明他们为什么要做他们正在做的事情以及如何最好地做到这一点。 缺乏信息会影响 众包工作的质量.

对于一个人来说,拥有完整的上下文可以为他们的工作提供清晰度和目的。

添加到此组合的另一个方面的 NDA – 限制提供众包工作者信息量的保密协议。 从人群工作者的角度来看,这种信息的撤回表明缺乏信任并且对他们的工作的重要性降低。

当从另一端看同样的情况时,工人端缺乏透明度。 请求者不完全了解受委托从事这项工作的工人。 有些项目可能需要特定类型的工人; 然而,在大多数项目中,都存在歧义。 这 基本事实 这是否会使评估、反馈和培训复杂化。

为了克服这些困难,与数据收集专家合作非常重要,这些专家在提供来自广泛选择的贡献者的多样化、精选和代表性数据方面有着良好的记录。

选择 Shaip 作为您的数据合作伙伴可以带来多种好处。 我们关注数据的多样性和代表性分布。 我们经验丰富且敬业的员工了解每个项目的强制性,并开发可以立即训练强大的基于 AI 的解决方案的数据集。

[另请阅读: AI 训练数据入门指南:定义、示例、数据集]

社交分享