最值得信赖的 AI 语音数据收集服务

使用我们的音频和语音数据收集服务,使用高质量的对话数据训练您的 NLP 模型、VA、TTS 原型等

音频数据收集

发现无瓶颈的音频数据管道

特色客户

专业音频/语音数据采集服务

任何科目。 任何场景。

在 Shaip,我们的专长在于创建专为各种 AI/ML 要求而设计的高质量语音数据集。我们提供广泛的语言和不同环境下的记录,使我们的数据集全面且适应性强。氧我们的重点是在尽可能短的时间内为模型提供最大量的自定义语音数据。 与我们一起,您可以期待: 

语音集锦
  • 策划高质量的多语言音频/语音数据以提高准确性
  • 最高可能水平的领域特异性目标多样化场景 格局
  •  扩展您的 ML 模型以适应不同的人口统计和垂直行业
  • 录音环境: 工作室品质, 具有水晶般清晰的音频和最小的背景噪音,以及 自然环境,其中录音结合了环境声音来模仿现实世界的情况。

100+

国家

55K +

演讲时间数据

250+

项目

60+

语言(100多种方言)

8 / 16 / 44 / 48 kHz

采样率

我们的专长

对齐音频数据以获得更智能的 NLP 模型

Shaip 提供 100 多种语言的端到端语音/音频数据收集服务,使支持语音的技术能够迎合全球不同的受众群体。 我们可以从事任何范围和规模的项目; 从许可现有的现成音频数据集到管理自定义音频数据收集,再到音频转录和注释。 无论您的语音数据采集项目有多大,我们都可以根据您的需求定制音频采集服务,以构建针对方言、音调和语言的高质量 NLP 数据集。 从我们广泛的语音数据集和音频数据收集资源中进行选择,以实现支持语音的智能设置。

独白演讲

独白演讲集

它专注于处理来自单个说话者的语音。利用脚本提示输入单通道音频文件,确保捕获特定于该人的独特语音模式、语气和细微差别。

对话演讲

对话演讲
购物

两人互动,通过双通道文件和转录资源复制现实世界的对话和多语言接触的对话。

多方对话

团体/多方
对话

多人讨论,捕捉群体动态、重叠、语气变化,准确训练语音模型。

自然语言表达

自然语言话语集

训练人工智能使用多样化、丰富且真实的话语来识别具有相似含义的短语或唤醒词,以实现高级自然语言处理和理解。

声学演讲

声学数据
购物

我们可以专业录制工作室品质的音频数据,无论是在餐厅、办公室还是家庭,或者来自各种环境和语言,同时覆盖更广泛的声学范围(综合声音数据集)。

自动语音识别

自动语音识别 (ASR)

通过访问来自广泛人口统计数据的最先进的多样化语音/音频数据集,提高自动语音识别 (ASR) 系统的准确性。

自然语言表达

多语言语音/音频训练数据

我们遍布全球的熟练语言专业人员提供各种语言和方言的多语言音频/语音数据。这项努力促进了全球沟通并消除了语言障碍,有助于打造更具包容性和更有效的人工智能解决方案。

数字虚拟助理

文字转语音
(语音合成)

在我们全球员工的帮助下构建文本转语音 (TTS) 多语言模型,他们帮助您收集 150 多种语言和方言的语音数据,以增强您的 AI 模型,从车载控制到聊天机器人和学习解决方案,高质量的音频数据。

呼叫中心录音

呼叫中心
录音

代理商与客户之间的真实交流,支持西班牙语、德语、美式英语、孟加拉语、日语、中文、印地语等多种语言。

成功案例

对话式 AI 数据集,包含 3 种语言的超过 8 小时的数据

为了建立一个印度语言的多语言平台,该客户与 Shaip 合作,收集、分割和转录多种印度语言的大型数据集。这将有助于开发有效的语音模型,为客户的创新新平台提供动力。

问题: 以 3,000 种印度语言收集超过 8 小时的音频数据,进行分段和转录以开发自动语音识别。

解决方案: 我们提供数据收集、分段、转录,并提供带有元数据的 JSON 文件。我们为客户的语音技术项目大规模收集了 3000 种印度语言的 8 小时的音频数据。

语音数据收集案例研究

选择 Shaip 作为您值得信赖的语音数据收集合作伙伴的原因

同事与员工

同事与员工

专门和训练有素的团队:

  • 30,000 多名数据创建、标签和 QA 协作者
  • 有资质的项目管理团队
  • 经验丰富的产品开发团队
  • 人才库采购和入职团队
工艺

工艺

通过以下方式确保最高的流程效率:

  • 稳健的 6 Sigma Stage-Gate 工艺
  • 一个由 6 Sigma 黑带组成的专门团队——关键流程负责人和质量合规
  • 持续改进和反馈循环
应用平台

应用平台

获得专利的平台具有以下优势:

  • 基于网络的端到端平台
  • 无可挑剔的品质
  • 更快的 TAT
  • 无缝交付

现成的语音/音频数据集

更多信息语言数据集采样率数据集类型总音频时数简要说明数据集描述音频频道录音平台WER(%)音频格式转录格式用例使用者数量CTA
发言en_US_CC_8非裔美国人白话非裔美国人白话EN_US8kHz呼叫中心211非裔美国人方言呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:612,男性:1242,未知:12
发言en_US_MA_16非裔美国人白话非裔美国人白话EN_US16kHz媒体音频154非裔美国人民间媒体数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:151,男性:150,未知:10
发言南非荷兰语_GC_8南非荷兰语南非荷兰语AF_ZA8kHz一般对话368南非荷兰语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟,在非洲说南非荷兰语双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:502,男性:390,未知:2
发言南非荷兰语_MA_16南非荷兰语南非荷兰语AF_ZA16kHz媒体音频658南非荷兰语媒体文件可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:750,男性:1278,未知:52
发言阿拉伯语_GC_8阿拉伯语阿拉伯语ar_AE8kHz一般对话292阿拉伯语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟,来自海湾国家的阿拉伯语双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:171,男性:534,未知:1
发言阿拉伯语_SM_48阿拉伯语阿拉伯语AR-SA48kHz脚本独白1,947阿拉伯语脚本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 838 男 1209 未知 78
发言阿萨姆语_CC_8阿萨姆阿萨姆语(筹备中) 作为_IN呼叫中心60阿萨姆语(正在筹备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言阿萨姆语_GC阿萨姆阿萨姆语(筹备中) 作为_IN一般对话100阿萨姆语(管道中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言阿萨姆语_MA阿萨姆阿萨姆语(筹备中) 作为_IN媒体音频40阿萨姆语(管道中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言孟加拉语_CC_8孟加拉语孟加拉语(筹备中) bn_IN呼叫中心60孟加拉语(准备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言孟加拉语_GC孟加拉语孟加拉语(筹备中) bn_IN一般对话100孟加拉语(正在筹备中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言孟加拉语_MA孟加拉语孟加拉语(筹备中) bn_IN媒体音频40孟加拉语(管道中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言波士顿_CC_8波士顿英语波士顿英语EN_US8kHz呼叫中心177波士顿呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:605,男性:711,未知:0
发言波士顿_GC_8波士顿英语波士顿英语EN_US8kHz一般对话32Boston General Conversation 数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:53,男性:83,未知:0
发言波士顿_MA_16波士顿英语波士顿英语EN_US16kHz媒体音频93波士顿媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:43,男性:181,未知:2
发言加拿大人_SM_48加拿大法语加拿大法语FR-CA48kHz脚本独白1,222加拿大法语单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 974 男 631 未知 1
发言中文_CC_8中文英文中文英文EN_US8kHz呼叫中心169中国呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:1790 人,男性:523 人,未知:13 人
发言中文_MA_16中文英文中文英文EN_US16kHz媒体音频249中文媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:126 人,男性:346 人,未知:6 人
发言简体中文_SM_48中文(简体)中文(简体)ZH-CN48kHz脚本独白2,762中文(简体)单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1920 男 1535 未知 270
发言繁体中文_SM_48中国传统文化中国传统文化zh-TW48kHz脚本独白1,028中国传统文化单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1069 男 262 未知 3
发言丹麦文_GC_8丹麦语丹麦语达_DK8kHz一般对话372丹麦语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:311,男性:417,未知:0
发言丹麦语_MA_16丹麦语丹麦语达_DK16kHz媒体音频664丹麦媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性:369,男性:864,未知:27
发言丹麦语_SM_48丹麦语丹麦语DA-DK48kHz脚本独白2,579丹麦语剧本独白单句录音,通常在 5 到 30 秒范围内,来自丹麦的丹麦语Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1551 男 1233 未知 42
发言英语深南_CC_8英语深南英语深南EN_US8kHz呼叫中心151英文深南呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女221,男1004,未知7
发言英语深南_GC_8英语深南英语深南EN_US8kHz一般对话56英语 Deep South General Conversation 数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 99,男 31,未知 0
发言英语 Deep South_MA_16英语深南英语深南EN_US16kHz媒体音频266英文深南传媒音频资料可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 204,男 356,未知 21
发言德国_CC_8德语德语德德8kHz呼叫中心64德国呼叫中心数据 “代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,Mono桌面版WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性 478 男性 1440 未知 0
发言德国_IVR_8德语德语德德8kHz IVR200德国 IVR 数据人对机器。 一种 IVR 类型的流程,其中有 TTS 提示(例如“我可以为您提供什么帮助”),然后是自发的人工响应Mono桌面版WAV。 .jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 女 10115 男 8750 未知 0
发言古吉拉特语_CC_8古吉拉特语古吉拉特语(筹备中) gu_IN呼叫中心60古吉拉特语(准备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言古吉拉特语_GC古吉拉特语古吉拉特语(筹备中) gu_IN一般对话100古吉拉特语(正在筹备中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言古吉拉特语_MA古吉拉特语古吉拉特语(筹备中) gu_IN媒体音频40古吉拉特语(筹备中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言希伯来语_一般对话_8希伯来语希伯来语他_IL8kHz一般对话399希伯来语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟,以色列希伯来语双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女414,男399,未知1
发言希伯来语_MA_16希伯来语希伯来语他_IL16kHz媒体音频427希伯来媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女361,男513,未知13
发言印地语_MA_16印地语印地语输入16kHz媒体音频219印地语媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女83,男309,未知0
发言印地语_SM_48印地语印地语HI-IN48kHz脚本独白2,867印地语脚本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1977 男 1864 未知 147
发言HINGLISH_CC_8印度英语印度英语汞输入8kHz呼叫中心208英语呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女822,男1262,未知0
发言HINGLISH_MA_16印度英语印度英语汞输入16kHz媒体音频216HINGLISH 媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女性 75 人,男性 380 人,未知 0 人
发言西班牙裔_CC_8西班牙裔英语西班牙裔英语EN_US8kHz呼叫中心212西班牙呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女822,男1262,未知0
发言西班牙裔_MA_16西班牙裔英语西班牙裔英语EN_US16kHz媒体音频155西班牙呼叫媒体音频可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女140,男219,未知5
发言印度尼西亚语_GC_8印尼语印尼语id_ID8kHz一般对话496印度尼西亚语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟,印尼语双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女524,男454,未知2
发言印度尼西亚语_MA_16印尼语印尼语id_ID16kHz媒体音频643印尼媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女746,男1507,未知129
发言爱尔兰人_GC_8爱尔兰语爱尔兰语en_IE8kHz一般对话192爱尔兰语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 213 男 153 未知 0
发言日本人_SM_48日文日文JA-JP48kHz脚本独白2,335日本脚本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1460 男 1221 未知 194
发言卡纳达语_CC_8卡纳达语卡纳达语(筹备中) kn_IN呼叫中心60卡纳达语(筹备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言卡纳达语_GC卡纳达语卡纳达语(筹备中) kn_IN一般对话100卡纳达语(正在筹备中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言卡纳达语_MA卡纳达语卡纳达语(筹备中) kn_IN媒体音频40卡纳达语(筹备中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言韩文_CC_8韩语韩语ko_KR8kHz呼叫中心107韩国呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女1086,男210,未知4
发言韩语_MA_16韩语韩语ko_KR16kHz媒体音频204韩国媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 70 男 303,未知 25
发言韩国人_SM_48韩语韩语KO-KR48kHz脚本独白1,955韩国脚本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1195 男 1134 未知 122
发言马来语_GC_8马来语马来语ms_我的8kHz一般对话266马来语通用对话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟,马来西亚马来语双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女316,男176,未知0
发言马来语_MA_16马来语马来语ms_我的16kHz媒体音频344马来媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 236,男 626,未知 47
发言马拉雅拉姆语_CC_8马拉雅拉姆语马拉雅拉姆语(筹备中) 毫升_IN呼叫中心60马拉雅拉姆语(正在筹备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言马拉雅拉姆语_GC马拉雅拉姆语马拉雅拉姆语(筹备中) 毫升_IN一般对话100马拉雅拉姆语(正在筹备中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言马拉雅拉姆语_MA马拉雅拉姆语马拉雅拉姆语(筹备中) 毫升_IN媒体音频40Malayalam (In Pipeline) 媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言马拉地语_CC_8马拉马拉地语(筹备中) 先生_IN呼叫中心60马拉地语(准备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言马拉地语_GC马拉马拉地语(筹备中) 先生_IN一般对话100马拉地语(正在筹备中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言马拉地语_MA马拉马拉地语(筹备中) 先生_IN媒体音频40马拉地语(筹备中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言墨西哥人_SM_48西班牙语西班牙语ES-MX48kHz脚本独白1,492墨西哥西班牙语脚本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1016 男 1069 未知 95
发言荷兰_SM_48荷兰人荷兰人EN-GB48kHz脚本独白1,205荷兰脚本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1285 男 531 未知 3
发言纽约英语_CC_8纽约英语纽约英语EN_US8kHz呼叫中心103纽约英语呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女610,男532,未知0
发言纽约英语_GC_8纽约英语纽约英语EN_US8kHz一般对话107纽约英语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女118,男114,未知0
发言纽约英语_MA_16纽约英语纽约英语EN_US16kHz媒体音频140纽约英语媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女66,男230,未知11
发言新西兰_GC_8新西兰英语 新西兰英语 zh_NZ8kHz一般对话148新西兰英语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女167,男121,未知4
发言新西兰_MA_16新西兰英语 新西兰英语 zh_NZ16kHz媒体音频400新西兰英语媒体音频可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女367,男678,未知26
发言奥里亚语_CC_8奥里亚语奥里亚语(筹备中) 或_IN呼叫中心60Oriya(筹备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言奥里亚语_GC奥里亚语奥里亚语(筹备中) 或_IN一般对话100Oriya(管道中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言奥里亚语_MA奥里亚语奥里亚语(筹备中) 或_IN媒体音频40Oriya(管道中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言波兰语_MA_16波兰语波兰语pl_PL16kHz媒体音频269波兰媒体音频可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 173 男 354 未知 6
发言波兰语Poland_SM_48波兰文(波兰)波兰文(波兰)PL-PL48kHz脚本独白1,482Polish Poland - 剧本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1324 男 701 未知 24
发言旁遮普_CC_8旁遮普旁遮普语(筹备中) 旁遮普呼叫中心60旁遮普语(准备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言旁遮普文_GC旁遮普旁遮普语(筹备中) 旁遮普一般对话100旁遮普语(管道中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言旁遮普语_MA旁遮普旁遮普语(筹备中) 旁遮普 媒体音频40旁遮普语(管道中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言俄罗斯人_SM_48俄语俄语RU-RU48kHz脚本独白2,398俄罗斯脚本独白单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1689 男 1937 未知 214
发言苏格兰_GC_8苏格兰语(英语口音)苏格兰语(英语口音)zh_AB8kHz一般对话292苏格兰通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女285,男260,未知3
发言新加坡_CC_8新加坡英语新加坡英语zh_SG8kHz呼叫中心218新加坡呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女2139,男884,未知21
发言新加坡_MA_16新加坡英语新加坡英语zh_SG16kHz媒体音频247新加坡媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女160,男455,未知37
发言南非英语_CC_8南非英语南非英语zh_ZA8kHz呼叫中心261南非英语呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1274 男 935 未知 1
发言南非英语_MA_16南非英语南非英语zh_ZA16kHz媒体音频251南非英语媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女235,男432,未知36
发言斯瓦希里语_CC_8斯瓦希里斯瓦希里sw_KE8kHz呼叫中心230斯瓦希里语呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女611,男833,未知0
发言斯瓦希里语_MA_16斯瓦希里斯瓦希里sw_KE16kHz媒体音频265斯瓦希里语媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女118,男493,未知25
发言瑞典语_CC_8瑞典语瑞典语sv_SE8kHz呼叫中心250瑞典呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女1581,男727,未知2
发言瑞典语_MA_16瑞典语瑞典语sv_SE16kHz媒体音频278瑞典媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女195,男500,未知21
发言泰米尔语_CC_8淡米尔文泰米尔语(筹备中) 塔_IN呼叫中心60泰米尔语(准备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言泰米尔语_GC淡米尔文泰米尔语(筹备中) 塔_IN一般对话100泰米尔语(筹备中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言泰米尔语_MA淡米尔文 泰米尔语(筹备中) 塔_IN媒体音频40泰米尔语(筹备中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言泰卢固语_GC_8泰卢固语泰卢固语TE_IN8kHz一般对话553泰卢固语通用会话数据两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟, 双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女574,男564,未知0
发言泰卢固语_MA_16泰卢固语泰卢固语TE_IN16kHz媒体音频648泰卢固媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女207,男963,未知2
发言泰卢固语_CC_8泰卢固语泰卢固语(筹备中) TE_IN呼叫中心30泰卢固语(准备中)呼叫中心数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言泰卢固语_GC泰卢固语泰卢固语(筹备中) TE_IN一般对话50泰卢固语(正在筹备中)一般对话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言泰卢固语_MA泰卢固语泰卢固语(筹备中) TE_IN媒体音频20泰卢固语(管道中)媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模
发言泰文_GC_8泰国人泰国人th_TH8kHz一般对话183泰语一般会话两个人之间的即兴电话交谈。 大约。 音频时长(范围) - 15-60 分钟,朋友之间使用的非正式记录双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女338,男96,未知8
发言泰语_MA_8泰国人泰国人th_TH16kHz媒体音频173泰媒音频可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女143,男502,未知26
发言土耳其语 Turkey_SM_48土耳其土耳其土耳其土耳其TR-TR48kHz脚本独白2,027土耳其土耳其单句录音,通常在 5 到 30 秒范围内Mono移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女 1561 男 1241 未知 31
发言越南语_GC_8越南语越南语vi_VN8kHz一般对话295越南语通用会话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,北部(例如,河内)、中部和南部(例如,胡志明市)。双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女400,男380,未知数2
发言越南语_MA_16越南语越南语vi_VN16kHz媒体音频257越南媒体音频数据可授权的公共领域音频/视频文件,例如采访、播客等 - 1 到 5 人。 大约。 音频时长(范围)15-60 分钟Mono网络采购5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女249,男200,未知数45
发言威尔士_GC_8威尔士语(英语口音)威尔士语(英语口音)en_WL8kHz一般对话278威尔士通用会话数据“代理”和“客户”之间的无脚本合成电话对话,大约。 音频时长(范围)5-15 分钟,双重桌面版5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模女270,男324,未知0
发言英国英语_WW_16英国英语英国英语zh_cn16kHz醒来的话200音箱唤醒词英国英语关键词收集数据
  • 200音箱
  • 每个演讲者 4 个独特的关键短语
  • 每个独特的关键短语 25-30 个重复的关键短语记录
  • 每个独特的关键词 25-30 个音频文件
  • 每个说话者总共记录了 120 条话语
1通道移动应用5.0WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模性别:50% 男性,50% 女性,+/- 10%。

提供的服务

专家音频数据收集并不是全面的 AI 设置的全员操作。 在 Shaip,您甚至可以考虑以下服务,使模型比平时更广泛:

文本数据收集

文本数据收集
服务

Shaip 认知数据收集服务的真正价值在于,它为组织提供了解锁在非结构化数据中发现的关键信息的钥匙

图像数据收集

影像数据收集服务

确保您的计算机视觉模型准确识别每张图像,以无缝训练未来的下一代 AI 模型

视频数据采集

视频数据收集服务

现在专注于计算机视觉和 NLP,以训练您的模型以完美识别对象、个人、威慑和其他视觉元素

联系我们

想要构建自己的音频数据集?

与我们的内部语音数据收集专家联系,建立最适合您要求的音频存储库

  • 通过注册,我同意 Shaip 隐私政策服务条款 并同意接受来自 Shaip 的 B2B 营销传播。

ML 模型的语音数据收集是指收集口语录音的过程。 该集合有助于训练和完善机器学习算法,特别是那些以理解和处理人类声音为中心的算法。

当旨在收集自动语音识别 (ASR) 的音频数据时,您应该首先定义项目的特定需求,包括所需的语言、口音和语音类型。 设置这些参数后,请确保您获得尊重用户隐私的所有必要权限。 然后,使用适当的录音设备或软件捕获清晰的音频样本。 每个录音都应仔细注释其转录或其他相关元数据,并系统存储以便轻松访问。

机器学习中的语音数据集对于训练、测试和验证专门用于识别、转录或解释口语的模型至关重要。 此类数据集为从语音助手和转录服务到语音生物识别技术的无数应用程序铺平了道路。

为了从不同的语言和口音中收集精确的数据,与所需语言背景的母语人士的合作至关重要。 旨在获得多样化且具有代表性的样本,以涵盖广泛的人口统计差异。 在统一环境下使用标准化录音设备,确保音频一致性。 重要的是,用详细的转录和元数据注释每个数据片段,表示特定的语言和口音。