现在得到 50折优惠* 关于对话式 AI 现成数据集
用于聊天机器人、语音助手、支持语音的设备的语音和音频数据集。
*限时优惠
受到行业领袖的信任
更多信息 | 关键字 | 现成的语言数据集 | 呼叫中心对话 8khz* | 通用对话 8khz* | 媒体和播客 16khz* | 话语/脚本独白 16khz* | 以小时为单位的总交易量 | 涵盖的方言 | 音频格式 | 文本转录格式 | 用例 | 来源 | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
南非荷兰语 | 南非荷兰语音频数据集 | 600 | 900 | 1500 | 在非洲说的南非语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
阿拉伯语 | 阿拉伯语音频数据集 | 800 | 1500 | 2300 | 来自海湾国家的阿拉伯语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
中文 | 中文音频数据集 | 2000 | 2000 | 来自中国的中国人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
丹麦语 | 丹麦音频数据集 | 400 | 600 | 2000 | 3000 | 来自丹麦的丹麦人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
荷兰人 | 荷兰语音频数据集 | 2000 | 2000 | 来自荷兰的荷兰人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
英语 - AAVE 口音 | 英语 - AAVE(非裔美国人白话英语)音频数据集 | 500 | 500 | 1000 | 白话变体(有时被称为 AAVE,通常由绝大多数工薪阶层和中产阶级非裔美国人使用)和更标准的变体(通常由中产阶级非裔美国人在正式和公共场合使用),但更加强调在白话上。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
英语 - 波士顿/纽约口音 | 英语 - 波士顿/纽约音频数据集 | 225 | 225 | 350 | 800 | 这是波士顿、纽约和费城等城市及其周边地区使用的几种地区口音的集合。 这些口音可能听起来与非本地人相似,但与其他美国口音不同。 尽管有一些当地词汇与英语世界其他地区不同,但这些口音与其他地方的英语是可以相互理解的。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
英语 - 中国口音 | 英汉重音音频数据集 | 150 | 300 | 450 | 以中文为第一语言,在青少年/成人时移居/移民到美国并以英语为第二语言的演讲者。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
英语 - 深南口音 | 英语 - 深南音频数据集 | 275 | 275 | 450 | 1000 | (i) 德克萨斯州的发言人; (ii) 北卡罗来纳州、南卡罗来纳州、乔治亚州; ㈢ 新奥尔良; (iv) 佛罗里达狭长地带; (v) 田纳西州、阿肯色州、密歇根州。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
英语 - 西班牙口音 | 英语 - 西班牙口音音频数据集 | 400 | 400 | 800 | 西班牙裔英语是指具有不同民族传统的西班牙裔美国人所讲的各种美国英语。 主要关注墨西哥裔美国人、来自不同国家(例如墨西哥、波多黎各、多米尼加共和国、厄瓜多尔、古巴等)以及来自不同地区(例如加利福尼亚、纽约、佛罗里达)的演讲者。 演讲者包括以西班牙语为第一语言的演讲者以及讲西班牙语的西班牙裔演讲者具有传统语言。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
英语 - 新西兰口音 | 英语 - 新西兰音频数据集 | 250 | 750 | 1000 | 两个岛上的演讲者,包括同等比例的年轻演讲者(<40 岁)和老年演讲者(> 40 岁)。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
英语 - 新加坡口音 | 英语 - 新加坡音频数据集 | 400 | 600 | 1000 | 标准新加坡英语和新加坡口语英语。 不同种族背景(如华人、马来人、印度人等)和不同教育水平的新加坡人。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
英语 - 南非口音 | 英语 - 南非音频数据集 | 400 | 600 | 1000 | 来自不同社会经济阶层和民族背景的代表(例如欧洲、非洲、印度或混合背景的南非人)。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
英语 - 爱尔兰口音 | 英语 - 爱尔兰语音频数据集 | 500 | 500 | 在爱尔兰说英语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
英语 - 苏格兰口音 | 英语 - 苏格兰音频数据集 | 800 | 800 | 苏格兰人说的英语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
英语 - 威尔士口音 | 英语 - 威尔士语音频数据集 | 800 | 800 | 威尔士英语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
法语加拿大人 | 法语加拿大音频数据集 | 1000 | 1000 | 加拿大法语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
希伯来语 | 希伯来语音频数据集 | 750 | 750 | 1500 | 希伯来语在以色列 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
印尼语 | 印尼语音频数据集 | 1000 | 1000 | 2000 | 印尼语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
日文 | 日语音频数据集 | 2000 | 2000 | 来自日本的日本人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
韩语 | 韩语音频数据集 | 100 | 200 | 1500 | 1800 | 演讲者遍布韩国各地。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
马来语 | 马来语音频数据集 | 500 | 500 | 1000 | 马来西亚马来人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
墨西哥西班牙语 | 墨西哥西班牙语音频数据集 | 1250 | 1250 | 来自墨西哥的墨西哥人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
波兰语 | 波兰语音频数据集 | 250 | 2000 | 2250 | 来自波兰的波兰语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
俄语 | 俄罗斯音频数据集 | 2000 | 2000 | 来自俄罗斯的俄语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
斯瓦希里 | 斯瓦希里语音频数据集 | 350 | 650 | 1000 | 南非和肯尼亚斯瓦希里语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
瑞典语 | 瑞典语音频数据集 | 350 | 650 | 1000 | 在瑞典的瑞典语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
台湾华人 | 台湾中文音频数据集 | 1000 | 1000 | 台湾华人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
泰国人 | 泰语音频数据集 | 350 | 450 | 800 | 朋友之间使用的非正式登记簿, | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
土耳其语 | 土耳其语音频数据集 | 2000 | 2000 | 来自土耳其的土耳其语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||||
越南语 | 越南语音频数据集 | 600 | 400 | 1000 | 北部(例如,河内)、中部和南部(例如,胡志明市)。 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
印地语 | 印地语音频数据集 | 800 | 2000 | 2800 | 印度印地语,特别是北部、东部和西部地区 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
印度英语 | 印度英语音频数据集 | 300 | 500 | 800 | 由于经济机会不断增长,这些城市是该国的金融中心。 这样的地方可以是诺伊达、德里、德拉敦、昌迪加尔、孟买、加尔各答、班加罗尔、浦那、钦奈、海得拉巴等 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||
英语 | 英语音频数据集 | 700 | 700 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | |||||
卡纳达语 | 卡纳达语音频数据集 | 60 | 100 | 40 | 200 | 来自印度卡纳塔克邦的卡纳达语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
马拉雅拉姆语 | 马拉雅拉姆语音频数据集 | 60 | 100 | 40 | 200 | 来自喀拉拉邦、拉克沙威普和本地治里的马拉雅拉姆语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
奥里亚语 | 奥里亚语音频数据集 | 60 | 100 | 40 | 200 | 奥里雅语来自奥里萨邦、西孟加拉邦、贾坎德邦和恰蒂斯加尔邦的部分地区 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
旁遮普 | 旁遮普语音频数据集 | 60 | 100 | 40 | 200 | 来自印度旁遮普的旁遮普语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
淡米尔文 | 泰米尔语音频数据集 | 60 | 100 | 240 | 400 | 来自印度泰米尔纳德邦的泰米尔语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
泰卢固语 | 泰卢固语音频数据集 | 100 | 950 | 950 | 2000 | 来自印度安得拉邦的泰卢固语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
孟加拉语 | 孟加拉语音频数据集 | 60 | 100 | 40 | 200 | 来自印度西孟加拉邦的孟加拉语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
古吉拉特语 | 古吉拉特语音频数据集 | 60 | 100 | 40 | 200 | 来自印度古吉拉特邦的古吉拉特语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
马拉 | 马拉地语音频数据集 | 60 | 100 | 40 | 200 | 来自印度马哈拉施特拉邦的马拉地语 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 | ||
阿萨姆 | 阿萨姆语音频数据集 | 60 | 100 | 40 | 200 | 来自印度阿萨姆邦的阿萨姆人 | WAV。 | .json | ASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模 | 夏普 | 联系我们 联系我们 |
对话式人工智能的深厚专业知识
对话式人工智能、聊天机器人或虚拟/数字助理的智能程度取决于它们背后的技术和数据。 在 Shaip,我们为您提供了广泛的用于自然语言处理 (NLP) 的多样化音频数据集,这些数据集模仿与真人的对话,让您的 AI 栩栩如生。 凭借我们的深刻理解,我们可以帮助您构建和本地化支持 AI 的语音模型,并使用来自全球各地的多种语言的丰富和结构化数据集以极高的精度进行。 我们根据您的要求提供多语言音频收集、音频转录和音频注释服务,同时完全定制所需的意图、话语和人口分布。
脚本语音集合
自发语音采集
音频数据转录
数据标记和注释
Shaip 可让您准确地训练您的对话式 AI 平台,使其能够:
- 跨多个渠道无缝交谈、发短信和聊天。
- 从聊天、语音记录、交易等形式的现有交互中学习,并根据这些学习提出建议和交谈。
- 理解人类语言背后的意图,消除理解人类语言的歧义。
- 与您进行一对一的互动,并且可以接受培训以识别用户并记住过去的对话。
对话式 AI 训练数据的世界领导者
100 多种语言的数小时音频数据 – 来源、转录和注释
语音数据许可
超过 20 小时的语音数据,涵盖 40 多种语言和方言,涵盖来自不同领域的 55 多个主题,即呼叫中心、辩论、一般对话、演讲、播客等。
语音数据收集
收集来自世界各地 2 多种语言的音频和语音数据(独白、100 人对话、人机聊天),根据您的 AI 要求进行定制。
语音数据转录
由 30,000 名协作者组成的强大员工队伍提供经济高效的音频转录或音频注释,保证 TAT、准确性和节省
夏普优势
规模
我们可以根据您的要求以多种语言和方言从世界各地获取、扩展和交付音频数据。
经验/专业技能
我们在准确和无偏见的数据收集、转录和黄金标准注释方面拥有正确的专业知识。
商业网络
由 30,000 多名合格贡献者组成的网络,可以快速分配数据收集任务以构建 AI 训练模型和扩展服务。
专业技术
我们拥有一个完全基于 AI 的平台,其中包含专有工具和流程,可全天候 24*7 地利用工作流管理。
敏捷性
我们非常快速地适应客户需求的变化,并以比竞争对手快 5-10 倍的高质量语音数据帮助加速 AI 开发。
安保行业
我们非常重视数据安全和隐私,并且还获得了处理高度监管敏感数据的认证。
想建立自己的数据集?
立即联系我们,了解我们如何为您的独特 AI 解决方案收集自定义数据集。