Vaani 项目

为印度构建包容性人工智能:Shaip 在 Vaani 项目中扮演的角色

在印度这样一个文化多元、语言丰富的国家,构建包容性人工智能的第一步是收集具有代表性的高质量数据集。这正是我们背后的愿景 Vaani 项目—由以下机构领导的大规模开源计划 艺术公园, 印度理工学院班加罗尔Google,旨在让每一种印度语言和方言发出声音。

雄心勃勃的目标?收集 超过 150,000 小时的演讲超过 15,000 小时的转录1万人 横过 773个地区 的印度。

作为此次国家使命的关键供应商之一, 夏普 在策划自发语音数据、转录和元数据收集方面发挥了关键作用,为真正代表真实印度的公平语音技术奠定了基础。

Vaani 项目背后的愿景

Vaani 项目旨在通过创建 最大的多模式、多语言开源数据集 在印度。这些数据对于开发使用印度本土语言的精准语音识别、翻译和生成式人工智能系统至关重要——其中许多语言在全球科技生态系统中尚未得到充分体现。

长期愿景是为以下领域有影响力的应用程序提供支持:

Shaip 在 Vaani 项目中的角色

Shaip 受委托收集 8,000小时的自发演讲800 小时的手动验证转录。我们的职责包括演讲者入职、音频捕捉、元数据标记、转录协调和质量控制。

8,000小时 自发音频数据

800小时 高质量的手动转录

录音来自 每个地区有 400 多名母语人士, 代表不同的年龄群体、性别和方言

80个区, 覆盖

基于图像的提示,以确保 自然、情境化的语音

以下是我们的方法的独特之处:

地区层面的多样性

地区级多样性

我们从比哈尔邦、北方邦、卡纳塔克邦、西孟加拉邦和马哈拉施特拉邦等邦的 80 个地区收集了录音。每个地区贡献了 100 小时的音频数据,以确保地区均衡。我们聘请了母语人士,确保主流 AI 数据集中经常被忽视的地区口音和方言得以呈现。

语言和人口统计代表性

语言和人口统计代表性

我们从比哈尔邦、北方邦、卡纳塔克邦、西孟加拉邦和马哈拉施特拉邦等邦的 80 个地区收集了录音。每个地区贡献了 100 小时的音频数据,以确保地区均衡。我们聘请了母语人士,确保主流 AI 数据集中经常被忽视的地区口音和方言得以呈现。

图像提示语音

为了激发参与者自发自然的词汇量,我们每次会向参与者展示 45 至 90 张图片,并要求他们描述这些图片。参与者被要求使用各种各样的图片——从文化符号到日常物品——来引发他们用母语自然自发的回应。这确保了录音能够反映真实世界的语境——这对于训练高级 NLP 系统至关重要。

高质量转录标准

高质量转录标准

仅转录了10%的语音数据,总计800小时。转录工作由演讲者方圆20至50公里范围内的当地语言学家完成,以确保他们熟悉当地方言和细微差别。第二层检查确保词错率(WER)低于5%。

严格的质量保证

音频数据必须达到高标准:无背景噪音、回声、手机振动或失真。音频在安静、无回声的环境中录制。文件经过严格审查,以符合语音清晰度、噪音水平、元数据准确性和说话人验证方面的准则。所有文件的元数据标记必须准确无误,并且所有录音都经过说话人和位置对齐检查。

我们解决的挑战

我们的成功归功于精心的规划、技术驱动的验证以及与了解每个地区文化差异的当地团队的合作。

影响和应用

Shaip 的贡献不仅加速了 Vaani 项目的进展,也为印度的包容性人工智能奠定了基础。精心挑选的语音数据集已用于构建和微调以下领域的人工智能模型:

  • 白话语音助手
  • 区域翻译引擎
  • 为视障人士提供无障碍沟通工具
  • 面向农村学生的人工智能教育科技平台
  • 农村远程医疗
  • 基于语音的公民服务
  • 实时翻译和转录

结语

Vaani 项目是迈向包容性、可访问性 AI 的大胆一步,而 Shaip 很荣幸能够发挥基础性作用。 Shaip 在 Vaani 项目上的工作重申了我们致力于构建以多样性和代表性为基础的道德、包容性的人工智能系统的承诺。 我们收集了超过 8,000 小时的语音并转录了 800 小时的语音,我们很自豪能够参与印度最具远见的数字包容项目之一。

随着 Vaani 项目继续向着超过 150,000 小时数据的更大目标迈进,我们已准备好支持面向每一位印度人的下一个人工智能创新前沿。

想与我们合作构建了解现实世界的人工智能吗? www.shaip.com

社交分享