在印度这样一个文化多元、语言丰富的国家,构建包容性人工智能的第一步是收集具有代表性的高质量数据集。这正是我们背后的愿景 Vaani 项目—由以下机构领导的大规模开源计划 艺术公园, 印度理工学院班加罗尔及 Google,旨在让每一种印度语言和方言发出声音。
雄心勃勃的目标?收集 超过 150,000 小时的演讲 和 超过 15,000 小时的转录 在 1万人 横过 773个地区 的印度。
作为此次国家使命的关键供应商之一, 夏普 在策划自发语音数据、转录和元数据收集方面发挥了关键作用,为真正代表真实印度的公平语音技术奠定了基础。
Vaani 项目背后的愿景
Vaani 项目旨在通过创建 最大的多模式、多语言开源数据集 在印度。这些数据对于开发使用印度本土语言的精准语音识别、翻译和生成式人工智能系统至关重要——其中许多语言在全球科技生态系统中尚未得到充分体现。
长期愿景是为以下领域有影响力的应用程序提供支持:
- 医疗保健 – 基于语音的远程医疗
- 教育背景 – 白话学习平台
- 治理 – 公民服务的对话界面
- 无障碍服务 – 为不同能力的用户提供语音工具
- 灾难响应 – 使用当地方言进行实时交流
Shaip 在 Vaani 项目中的角色
Shaip 受委托收集 8,000小时的自发演讲 和 800 小时的手动验证转录。我们的职责包括演讲者入职、音频捕捉、元数据标记、转录协调和质量控制。
8,000小时 自发音频数据
录音来自 每个地区有 400 多名母语人士, 代表不同的年龄群体、性别和方言
80个区, 覆盖
基于图像的提示,以确保 自然、情境化的语音
以下是我们的方法的独特之处:
地区级多样性
我们从比哈尔邦、北方邦、卡纳塔克邦、西孟加拉邦和马哈拉施特拉邦等邦的 80 个地区收集了录音。每个地区贡献了 100 小时的音频数据,以确保地区均衡。我们聘请了母语人士,确保主流 AI 数据集中经常被忽视的地区口音和方言得以呈现。
语言和人口统计代表性
我们从比哈尔邦、北方邦、卡纳塔克邦、西孟加拉邦和马哈拉施特拉邦等邦的 80 个地区收集了录音。每个地区贡献了 100 小时的音频数据,以确保地区均衡。我们聘请了母语人士,确保主流 AI 数据集中经常被忽视的地区口音和方言得以呈现。
图像提示语音
为了激发参与者自发自然的词汇量,我们每次会向参与者展示 45 至 90 张图片,并要求他们描述这些图片。参与者被要求使用各种各样的图片——从文化符号到日常物品——来引发他们用母语自然自发的回应。这确保了录音能够反映真实世界的语境——这对于训练高级 NLP 系统至关重要。
高质量转录标准
仅转录了10%的语音数据,总计800小时。转录工作由演讲者方圆20至50公里范围内的当地语言学家完成,以确保他们熟悉当地方言和细微差别。第二层检查确保词错率(WER)低于5%。
严格的质量保证
音频数据必须达到高标准:无背景噪音、回声、手机振动或失真。音频在安静、无回声的环境中录制。文件经过严格审查,以符合语音清晰度、噪音水平、元数据准确性和说话人验证方面的准则。所有文件的元数据标记必须准确无误,并且所有录音都经过说话人和位置对齐检查。
我们解决的挑战
- 远程物流 – 管理 80 个地区的团队
- 说话者多样性 – 在偏远地区招募 32,000 多名经过验证的演讲者
- 文化敏感性 – 尊重当地风俗和方言
- 数据的完整性 – 满足质量和合规标准
- 质量控制 – 跨越多种语言和文化背景
我们的成功归功于精心的规划、技术驱动的验证以及与了解每个地区文化差异的当地团队的合作。
影响和应用
Shaip 的贡献不仅加速了 Vaani 项目的进展,也为印度的包容性人工智能奠定了基础。精心挑选的语音数据集已用于构建和微调以下领域的人工智能模型:
- 白话语音助手
- 区域翻译引擎
- 为视障人士提供无障碍沟通工具
- 面向农村学生的人工智能教育科技平台
- 农村远程医疗
- 基于语音的公民服务
- 实时翻译和转录
结语
Vaani 项目是迈向包容性、可访问性 AI 的大胆一步,而 Shaip 很荣幸能够发挥基础性作用。 Shaip 在 Vaani 项目上的工作重申了我们致力于构建以多样性和代表性为基础的道德、包容性的人工智能系统的承诺。 我们收集了超过 8,000 小时的语音并转录了 800 小时的语音,我们很自豪能够参与印度最具远见的数字包容项目之一。
随着 Vaani 项目继续向着超过 150,000 小时数据的更大目标迈进,我们已准备好支持面向每一位印度人的下一个人工智能创新前沿。
想与我们合作构建了解现实世界的人工智能吗? www.shaip.com