语音数据收集

6 种经过验证的自定义语音数据收集方法

有几种不同类型的客户端——有些清楚地知道应该如何构建他们的语音数据,而有些则更灵活地使用他们的方法。

作为服务提供商,我们必须确保满足客户的两个要求。 但是,对于要求灵活的客户,他们可能没有完全给予 语音数据采集 一个完整的想法。

这就是语音数据集提供者的贡献发挥作用的地方。

我们有责任在开始音频之前展示要记住的要点 数据采集 项目,以便让人工智能组织确定可行、高效和具有成本效益的解决方案。

预计全球语音识别市场将增长至 $ 27.16十亿的2026 从 10.7 年的 2020 亿美元开始,复合年增长率为 16.8%。

让我们看看在定制之前要记住的所有有效方法或要点 语音数据采集 项目。

Points to keep in mind while customizing speech data collection

  • 语言和人口统计
  • 集合大小
  • 脚本的结构
  • 音频要求和格式
  • 交付和处理要求
  • 其他需要注意的关键点

语言和人口统计

该项目应首先指定目标语言和目标人群。

  • 语言和方言

    首先牢记项目要求——收集和定制语音数据集的语言。 此外,了解具体的熟练程度要求。 例如,参与者应该是母语人士还是非母语人士?

    举个例子 – 以英语为母语的人

    紧跟语言的是方言。 为确保数据集不受偏见影响,建议有意引入方言以适应参与者的多样性。

    举个例子 – 澳大利亚英语口音的演讲者

  • 国家

    在进行定制之前,重要的是要了解参与者是否应来自特定国家/地区的特定要求。 并且,参与者目前是否应该居住在特定国家。

    举个例子 – 印度和巴基斯坦的旁遮普语使用不同。

  • 人口统计

    除了语言和地理,还可以根据人口统计数据进行定制。 还可以根据参与者的年龄、性别、学历等进行目标分配。

    举个例子 – 成人与儿童或受过教育与未受过教育

集合大小

您的数据集将影响数据项目的性能。 但是,您需要的收集数据大小也将决定所需的参与者。

  • 受访者总数

    确定项目所需的参与者总数。 如果项目需要语言 音频数据采集,您应该分析每种目标语言所需的参与者总数。

    举个例子 – 50% 的美国英语和 50% 的澳大利亚英语使用者

  • 话语总数

    要构建语音数据集合,请确定每个参与者的话语总数或重复次数或所需的总重复次数。

    举个例子 – 50 名参与者,每位参与者 25 次话语 = 1250 次重复

脚本结构

脚本也可以根据项目需要进行定制,建议寻求帮助 言语治疗师 设计文本流。 如果 ML 模型必须在结构良好的数据上进行训练,则必须考虑脚本和工作流程。

  • 脚本与非脚本

    您可以选择使用脚本文本或自然或非脚本文本以供参与者阅读。

    在脚本文本演讲中,参与者阅读屏幕上显示的内容。 这种方法主要用于记录命令或指令。

    举个例子 - “关闭音乐”,“按 1 录制。”

    在即兴演讲中,参与者被赋予场景,并要求他们构建句子并尽可能自然地说话。

    举个例子 - “你能告诉我下一个加油站在哪里吗?”

  • 话语收集/唤醒词

    如果使用脚本文本,您必须决定将使用的脚本数量,以及每个参与者将阅读一个独特的脚本还是一组脚本。 此外,确定脚本是否包含唤醒词和命令的集合。

    举个例子

    指令1:

    “Alexa,巧克力纸杯蛋糕的配方是什么?”

    “Ok Google,巧克力纸杯蛋糕的配方是什么?”

    “Siri,巧克力纸杯蛋糕的配方是什么?”

    指令2:

    “Alexa,飞往纽约的航班是什么时候?”

    “谷歌,去纽约的航班什么时候?”

    “Siri,什么时候飞纽约?”

音频要求和格式

音频要求 音频质量在语音识别中起着至关重要的作用 数据采集 过程。 分散背景噪音会对收集的语音笔记的质量产生负面影响。 这也可能降低语音识别算法的有效性。

  • 音频质量

    录音的质量和背景噪音的存在会影响项目的结果。 但是一些语音数据集合接受噪声的存在。 但是,建议更好地了解比特率、信噪比、幅度等方面的要求。

  • 格式

    文件格式, 数据点、内容结构、压缩和后处理要求也决定了语音记录的质量。

    文件格式之所以如此重要,是因为模型必须识别文件输出并接受训练以识别特定的声音质量。

  • 定义自定义音频要求

    在开始收集过程之前,应提及自定义音频要求。 客户可以选择将特定文件组合在一起的自定义音频文件。

交付和处理要求

收集语音数据后,客户可以根据自己的要求选择交付。

  • 转录和注释要求

    一些客户在交付之前需要数据转录和标记。 此外,它们可能还需要特定形式的标签和分割。

    有时最好寻求 言语病理学家 和专家帮助转录各种语言的语音,以保持目标语言的真实性。

  • 文件命名约定

    数据收集表格 应指定要​​遵循的任何文件命名约定。 如果命名约定很复杂或超出流程的标准范围,则可能会吸引额外的开发成本。

  • 交付指南

    应按照项目要求中的规定遵循安全和交付指南。 此外,如果数据要以小里程碑形式交付或作为一个完整的包立即交付,则应指定。 客户也更喜欢及时 进度监控 更新,以便他们可以跟踪项目状态。

其他需要注意的关键点

定制将影响如何,

  • 资料收集方法 用过的
  • 招募参与者
  • 交货时间表
  • 项目的暂定成本

在选择合适的供应商时,您必须确保与既具有提供定制选择的经验又具有轻松扩展项目的灵活性的人合作。 语音数据收集的本质是随着时间的推移而发展和复杂性变化,正确的提供者应该能够跟上步伐。

当您只需要灵活性和可扩展性时,Shaip 是正确的选择。 我们根据您的具体项目要求提供可定制的服务。 我们提供可扩展且灵活的 数据采集​​解决方案 以有竞争力的价格进行多语言项目。 与我们的专家交谈,了解我们的语音数据收集和定制技术如何在开发对话式 AI 中发挥作用。

[另请阅读: 语音识别训练数据——类型、数据收集和应用]

社交分享