案例研究:话语收集
交付超过 7 万条语音,以构建 13 种语言的多语言数字助理
真实世界的解决方案
推动全球对话的数据
之所以需要进行话语培训,是因为并非所有客户在以脚本格式与其语音助手交互或提问时都使用准确的单词或短语。 这就是为什么特定的语音应用程序必须在自发语音数据上进行训练的原因。 例如,“最近的医院在哪里?” “找我附近的医院”或“附近有医院吗?” 都表示相同的搜索意图,但措辞不同。
市场问题
为了执行客户数字助理的全球语言语音路线图,团队需要为语音识别 AI 模型获取大量训练数据。 客户的关键要求是:
- 为全球 3 种语言的语音识别服务获取大量训练数据(单人语音提示时长不超过 30-13 秒)
- 对于每种语言,供应商都会生成文本提示供演讲者录制(除非
客户提供)并转录生成的音频。 - 使用相应的 JSON 文件提供音频数据和录制话语的转录
包含所有记录的元数据。 - 确保不同年龄、性别、教育程度和方言的演讲者组合
- 确保符合规格的多种录制环境组合。
- 每段录音应至少为 16kHz,但最好为 44kHz
“在评估了许多供应商之后,客户选择了 Shaip,因为他们在对话式 AI 项目方面拥有专长。 我们对 Shaip 的项目执行能力印象深刻,他们以 13 种语言在严格的时间表内以所需的质量从专家语言学家那里获取、转录和交付所需话语的专业知识”
解决方案
凭借对对话式 AI 的深入了解,我们帮助客户收集、转录和注释数据,并与专家语言学家和注释员团队一起训练他们的 AI 驱动的语音处理多语言语音套件。
Shaip 的工作范围包括但不限于获取大量用于语音识别的音频训练数据,为我们的第 1 层和第 2 层语言路线图上的所有语言转录多种语言的录音,并提供相应的 JSON 包含元数据的文件。 Shaip 收集了 3-30 秒的大规模话语,同时保持了为复杂项目训练 ML 模型所需的质量水平。
- 音频收集、转录和注释: 22,250小时
- 语言支持: 13(丹麦语、韩语、沙特阿拉伯语阿拉伯语、荷兰语、中国大陆和台湾中文、加拿大法语、墨西哥西班牙语、土耳其语、印地语、波兰语、日语、俄语)
- 话语数: 7M +
- 时间表: 7-8个月
在收集 16 kHz 的音频话语时,我们确保了不同录音环境中不同年龄、性别、教育和方言的说话者的健康组合。
我们的专长
收集的演讲时间
0
+
语音数据收集器团队
0
符合 PII 标准
0
%
酷号码
0
+
数据接受和准确性
>
0
财富 500 强客户
0
+
创建临床 NLP 是一项关键任务,需要大量的领域专业知识来解决。 我可以清楚地看到你在这方面领先谷歌几年。 我想和你一起工作并扩大你的规模。
Google,Inc. 副总经理
在开发医疗保健语音 API 期间,我的工程团队与 Shaip 的团队合作了 2 年以上。 他们在特定于医疗保健的 NLP 方面所做的工作以及他们能够使用复杂数据集实现的目标给我们留下了深刻的印象。
Google,Inc. 工程主管 告诉我们我们如何为您的下一个 AI 计划提供帮助。