现在得到 50折优惠* 关于对话式 AI 现成数据集

用于聊天机器人、语音助手、支持语音的设备的语音和音频数据集。

*限时优惠

  • 通过注册,我同意 Shaip 隐私政策服务条款 并同意接受来自 Shaip 的 B2B 营销传播。

受到行业领袖的信任

更多信息现成的语言数据集呼叫中心对话 8khz*通用对话 8khz*媒体和播客 16khz*话语/脚本独白 16khz*以小时为单位的总交易量涵盖的方言音频格式文本转录格式用例来源CTA
发言南非荷兰语南非荷兰语音频数据集6009001500在非洲说的南非语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言阿拉伯语阿拉伯语音频数据集80015002300来自海湾国家的阿拉伯语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言中文中文音频数据集20002000来自中国的中国人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言丹麦语丹麦音频数据集40060020003000来自丹麦的丹麦人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言荷兰人荷兰语音频数据集20002000来自荷兰的荷兰人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - AAVE 口音英语 - AAVE(非裔美国人白话英语)音频数据集5005001000白话变体(有时被称为 AAVE,通常由绝大多数工薪阶层和中产阶级非裔美国人使用)和更标准的变体(通常由中产阶级非裔美国人在正式和公共场合使用),但更加强调在白话上。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 波士顿/纽约口音英语 - 波士顿/纽约音频数据集225225350800这是波士顿、纽约和费城等城市及其周边地区使用的几种地区口音的集合。 这些口音可能听起来与非本地人相似,但与其他美国口音不同。 尽管有一些当地词汇与英语世界其他地区不同,但这些口音与其他地方的英语是可以相互理解的。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 中国口音英汉重音音频数据集150300450以中文为第一语言,在青少年/成人时移居/移民到美国并以英语为第二语言的演讲者。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 深南口音英语 - 深南音频数据集2752754501000(i) 德克萨斯州的发言人; (ii) 北卡罗来纳州、南卡罗来纳州、乔治亚州; ㈢ 新奥尔良; (iv) 佛罗里达狭长地带; (v) 田纳西州、阿肯色州、密歇根州。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 西班牙口音英语 - 西班牙口音音频数据集400400800西班牙裔英语是指具有不同民族传统的西班牙裔美国人所讲的各种美国英语。 主要关注墨西哥裔美国人、来自不同国家(例如墨西哥、波多黎各、多米尼加共和国、厄瓜多尔、古巴等)以及来自不同地区(例如加利福尼亚、纽约、佛罗里达)的演讲者。 演讲者包括以西班牙语为第一语言的演讲者以及讲西班牙语的西班牙裔演讲者具有传统语言。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 新西兰口音英语 - 新西兰音频数据集2507501000两个岛上的演讲者,包括同等比例的年轻演讲者(<40 岁)和老年演讲者(> 40 岁)。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 新加坡口音英语 - 新加坡音频数据集4006001000标准新加坡英语和新加坡口语英语。 不同种族背景(如华人、马来人、印度人等)和不同教育水平的新加坡人。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 南非口音英语 - 南非音频数据集4006001000来自不同社会经济阶层和民族背景的代表(例如欧洲、非洲、印度或混合背景的南非人)。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 爱尔兰口音英语 - 爱尔兰语音频数据集500500在爱尔兰说英语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 苏格兰口音英语 - 苏格兰音频数据集800800苏格兰人说的英语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语 - 威尔士口音英语 - 威尔士语音频数据集800800威尔士英语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言法语加拿大人法语加拿大音频数据集10001000加拿大法语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言希伯来语希伯来语音频数据集7507501500希伯来语在以色列WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言印尼语印尼语音频数据集100010002000印尼语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言日文日语音频数据集20002000来自日本的日本人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言韩语韩语音频数据集10020015001800演讲者遍布韩国各地。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言马来语马来语音频数据集5005001000马来西亚马来人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言墨西哥西班牙语墨西哥西班牙语音频数据集12501250来自墨西哥的墨西哥人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言波兰语波兰语音频数据集25020002250来自波兰的波兰语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言俄语俄罗斯音频数据集20002000来自俄罗斯的俄语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言斯瓦希里斯瓦希里语音频数据集3506501000南非和肯尼亚斯瓦希里语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言瑞典语瑞典语音频数据集3506501000在瑞典的瑞典语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言台湾华人台湾中文音频数据集10001000台湾华人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言泰国人泰语音频数据集350450800朋友之间使用的非正式登记簿,WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言土耳其语土耳其语音频数据集20002000来自土耳其的土耳其语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言越南语越南语音频数据集6004001000北部(例如,河内)、中部和南部(例如,胡志明市)。WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言印地语印地语音频数据集80020002800印度印地语,特别是北部、东部和西部地区WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言印度英语印度英语音频数据集300500800由于经济机会不断增长,这些城市是该国的金融中心。 这样的地方可以是诺伊达、德里、德拉敦、昌迪加尔、孟买、加尔各答、班加罗尔、浦那、钦奈、海得拉巴等WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言英语英语音频数据集700700WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言卡纳达语卡纳达语音频数据集6010040200来自印度卡纳塔克邦的卡纳达语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言马拉雅拉姆语马拉雅拉姆语音频数据集6010040200来自喀拉拉邦、拉克沙威普和本地治里的马拉雅拉姆语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言奥里亚语奥里亚语音频数据集6010040200奥里雅语来自奥里萨邦、西孟加拉邦、贾坎德邦和恰蒂斯加尔邦的部分地区WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言旁遮普旁遮普语音频数据集6010040200来自印度旁遮普的旁遮普语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言淡米尔文泰米尔语音频数据集60100240400来自印度泰米尔纳德邦的泰米尔语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言泰卢固语泰卢固语音频数据集1009509502000来自印度安得拉邦的泰卢固语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言孟加拉语孟加拉语音频数据集6010040200来自印度西孟加拉邦的孟加拉语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言古吉拉特语古吉拉特语音频数据集6010040200来自印度古吉拉特邦的古吉拉特语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言马拉马拉地语音频数据集6010040200来自印度马哈拉施特拉邦的马拉地语WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普
发言阿萨姆阿萨姆语音频数据集6010040200来自印度阿萨姆邦的阿萨姆人WAV。.jsonASR、虚拟助手、聊天机器人、对话式人工智能、语音分析、TTS、语言建模夏普

对话式人工智能的深厚专业知识

对话式人工智能、聊天机器人或虚拟/数字助理的智能程度取决于它们背后的技术和数据。 在 Shaip,我们为您提供了广泛的用于自然语言处理 (NLP) 的多样化音频数据集,这些数据集模仿与真人的对话,让您的 AI 栩栩如生。 凭借我们的深刻理解,我们可以帮助您构建和本地化支持 AI 的语音模型,并使用来自全球各地的多种语言的丰富和结构化数据集以极高的精度进行。 我们根据您的要求提供多语言音频收集、音频转录和音频注释服务,同时完全定制所需的意图、话语和人口分布。

脚本语音集合

自发语音采集

音频数据转录

数据标记和注释

Shaip 可让您准确地训练您的对话式 AI 平台,使其能够:

  • 跨多个渠道无缝交谈、发短信和聊天。
  • 从聊天、语音记录、交易等形式的现有交互中学习,并根据这些学习提出建议和交谈。
  • 理解人类语言背后的意图,消除理解人类语言的歧义。
  • 与您进行一对一的互动,并且可以接受培训以识别用户并记住过去的对话。

对话式 AI 训练数据的世界领导者

100 多种语言的数小时音频数据 – 来源、转录和注释

语音数据许可

超过 20 小时的语音数据,涵盖 40 多种语言和方言,涵盖来自不同领域的 55 多个主题,即呼叫中心、辩论、一般对话、演讲、播客等。

语音数据收集

收集来自世界各地 2 多种语言的音频和语音数据(独白、100 人对话、人机聊天),根据您的 AI 要求进行定制。

语音数据转录

由 30,000 名协作者组成的强大员工队伍提供经济高效的音频转录或音频注释,保证 TAT、准确性和节省

使用音频采集和音频注释服务加速您的对话式 AI 应用程序开发

夏普优势

规模

我们可以根据您的要求以多种语言和方言从世界各地获取、扩展和交付音频数据。

经验/专业技能

我们在准确和无偏见的数据收集、转录和黄金标准注释方面拥有正确的专业知识。

商业网络

由 30,000 多名合格贡献者组成的网络,可以快速分配数据收集任务以构建 AI 训练模型和扩展服务。

专业技术

我们拥有一个完全基于 AI 的平台,其中包含专有工具和流程,可全天候 24*7 地利用工作流管理。

敏捷性

我们非常快速地适应客户需求的变化,并以比竞争对手快 5-10 倍的高质量语音数据帮助加速 AI 开发。

安保行业

我们非常重视数据安全和隐私,并且还获得了处理高度监管敏感数据的认证。

我们最擅长的

训练数据

在很短的时间内获得最高质量的标记数据。 它是黄金标准、可靠且可随时训练您的 AI 和 ML 模型以获得最高水平的性能。

了解更多

数据收集、标记和注释

使用 Shaip,您将获得 15 年以上在收集、转录和注释质量数据方面经过验证的专业知识。 凭借我们的全球劳动力,我们可以从全球范围内收集数据,然后以您的数据所需的完美技能水平和专业知识提供标签和注释服务。

了解更多

数据目录和许可

凭借我们庞大的数百万数据集库存,您可以根据需要收集和组织。 然后,我们可以根据您的特定 AI 和 ML 使用要求许可该质量数据。 此外,如果您要自己创建这些数据,其成本只是其中的一小部分。

了解更多

想建立自己的数据集?

立即联系我们,了解我们如何为您的独特 AI 解决方案收集自定义数据集。