案例研究:对话式人工智能

收集、分割和转录超过 3 小时的数据,以构建 8 种印度语言的 ASR

对话式人工智能

政府的目标是通过 Bhashini 项目,让公民能够以自己的母语轻松访问互联网和数字服务。

BHASHINI 是印度人工智能驱动的语言翻译平台,是数字印度计划的重要组成部分。

Bhashini 平台旨在为中小微企业、初创公司和独立创新者提供人工智能 (AI) 和自然语言处理 (NLP) 工具,作为公共资源。 其目标是通过使印度公民能够以其母语与该国的数字计划互动来促进数字包容性。

此外,它的目标是显着扩大印度语言互联网内容的可用性。 这尤其针对治理​​和政策、科学技术等公共利益领域。因此,这将激励公民以自己的语言使用互联网,促进他们的积极参与。

真实世界的解决方案

用数据释放本地化的力量

印度需要一个平台,专注于创建多语言数据集和基于人工智能的语言技术解决方案,以便提供印度本土语言的数字服务。为了启动这项计划,印度理工学院马德拉斯分校(IIT Madras)与Shaip公司合作,收集、分割和转录印度语言数据集,以构建多语言语音模型。

挑战

为了协助客户制定印度语言的语音技术语音路线图,团队需要获取、分段和转录大量训练数据以构建 AI 模型。 客户的关键要求是:

数据收集

  • 获取 3000 种印度语言(每种语言 8 种方言)的 4 小时训练数据。
  • 对于每种语言,供应商将收集即兴演讲和
    18-60岁年龄段的会话演讲
  • 确保演讲者的年龄、性别、教育程度和方言多样化
  • 确保按照规格提供多样化的录音环境组合。
  • 每段录音应至少为 16kHz,但最好为 44kHz

资料分割

  • 创建 15 秒的语音片段,并为每个给定说话者、声音类型(语音、胡言乱语、音乐、噪音)、对话中的回合、话语和短语对音频添加时间戳(精确到毫秒)
  • 为其目标声音信号创建每个片段,并在开始和结束处填充 200-400 毫秒。
  • 对于所有分段,必须填写以下对象,即开始时间、结束时间、分段 ID、响度级别、声音类型、语言代码、说话者 ID 等。

数据转录

  • 遵循有关字符和特殊符号、拼写和语法、大写、缩写、缩写、单个口语字母、数字、标点符号、首字母缩略词、不流利、语音、难以理解的语音、非目标语言、非语音等的详细转录指南。

质量检查和反馈

  • 所有录音都经过质量评估和验证,仅发表经过验证的演讲

解决方案

凭借我们对对话式人工智能的深刻理解,我们帮助客户与一支由专家收集员、语言学家和标注员组成的团队一起收集、分割和转录数据,构建了 8 种印度语言的大型音频数据集语料库。

Shaip 的工作范围包括但不限于获取大量音频训练数据,将音频录音分割成多个部分,转录数据并提供相应的 JSON 文件,其中包含元数据 [说话人 ID、年龄、性别、语言、方言、母语、资格、职业、领域、文件格式、频率、通道、音频类型、说话人数量、外语数量、使用的设置、窄带或宽带音频等]。

Shaip 大规模收集了 3000 小时的音频数据,同时保持了为复杂项目训练语音技术所需的所需质量水平。 每个参与者都获得了明确的同意书。

1。 数据采集

2. 数据分割

  • 收集到的音频数据进一步分成 15 秒的语音片段,并根据对话中每个说话人、声音类型、轮次、话语和短语,精确到毫秒地添加时间戳。
  • 为其目标声音信号创建每个片段,并在声音信号的开头和结尾处填充 200-400 毫秒。
  • 对于所有片段,存在并填充以下对象,即开始时间、结束时间、片段 ID、响度级别(响亮、正常、安静)、主要声音类型(语音、胡言乱语、音乐、噪音、重叠)、语言代码说话者 ID、转录等。

3. 质量检查和反馈

  • 所有录音均经过质量评估,并且仅交付 WER 为 90%、TER 为 90% 且经过验证的语音录音
  • 质量检查表如下:
    » 片段长度最长 15 秒
    » 来自特定领域的转录,即:天气、不同类型的新闻、健康、农业、教育、就业或金融
    » 低背景噪声
    » 没有音频剪辑关闭 – 无失真
    » 正确的转录音频分段

4. 数据转录

所有口语单词,包括犹豫、填充词、错误的开头和其他言语抽动,都在转录中被准确捕捉。 我们还遵循有关大写和小写字母、拼写、大写、缩写、缩写、数字的详细转录指南,
标点符号、首字母缩略词、不流利的语音、非语音噪音等。此外,收集和转录遵循的工作流程如下:

成果

来自语言学家的高质量音频数据将使印度理工学院马德拉斯分校能够在规定的时间内准确训练和构建8种不同方言的印度语言的多语言语音识别模型。 语音识别模型可用于:

  • 通过将公民与自己母语的举措联系起来,克服数字包容性的语言障碍。
  • 推动数字化治理
  • 形成印度语言服务和产品生态系统的催化剂
  • 公共利益领域,特别是治理和政策领域的更多本地化数字内容
金色五星级

Shaip 在对话式人工智能领域的专业知识给我们留下了深刻的印象。 他们的整体项目执行能力,包括在严格的时间表和指导方针内以 8 种语言从专家语言学家那里获取、分割、转录和提供所需的培训数据; 同时仍保持可接受的质量标准。”

告诉我们我们如何为您的下一个 AI 计划提供帮助。