案例研究:对话式人工智能
花费超过 3 小时收集、分段和转录数据,以 8 种印度语言构建 ASR
BHASHINI 是印度人工智能驱动的语言翻译平台,是数字印度计划的重要组成部分。
Bhashini 平台旨在为中小微企业、初创公司和独立创新者提供人工智能 (AI) 和自然语言处理 (NLP) 工具,作为公共资源。 其目标是通过使印度公民能够以其母语与该国的数字计划互动来促进数字包容性。
此外,它的目标是显着扩大印度语言互联网内容的可用性。 这尤其针对治理和政策、科学技术等公共利益领域。因此,这将激励公民以自己的语言使用互联网,促进他们的积极参与。
利用 NLP 打造由贡献者、合作实体和公民组成的多元化生态系统,以超越语言障碍,从而确保数字包容性和赋权
真实世界的解决方案
用数据释放本地化的力量
印度需要一个专注于创建多语言数据集和基于人工智能的语言技术解决方案的平台,以便以印度语言提供数字服务。 为了启动这一举措,印度理工学院马德拉斯分校 (IIT Madras) 与 Shaip 合作,收集、分割和转录印度语言数据集,以构建多语言语音模型。
挑战
为了协助客户制定印度语言的语音技术语音路线图,团队需要获取、分段和转录大量训练数据以构建 AI 模型。 客户的关键要求是:
数据收集
- 获取 3000 种印度语言(每种语言 8 种方言)的 4 小时训练数据。
- 对于每种语言,供应商将收集即兴演讲和
18-60岁年龄段的会话演讲 - 确保演讲者的年龄、性别、教育程度和方言多样化
- 确保按照规格提供多样化的录音环境组合。
- 每段录音应至少为 16kHz,但最好为 44kHz
资料分割
- 创建 15 秒的语音片段,并为每个给定说话者、声音类型(语音、胡言乱语、音乐、噪音)、对话中的回合、话语和短语对音频添加时间戳(精确到毫秒)
- 为其目标声音信号创建每个片段,并在开始和结束处填充 200-400 毫秒。
- 对于所有分段,必须填写以下对象,即开始时间、结束时间、分段 ID、响度级别、声音类型、语言代码、说话者 ID 等。
数据转录
- 遵循有关字符和特殊符号、拼写和语法、大写、缩写、缩写、单个口语字母、数字、标点符号、首字母缩略词、不流利、语音、难以理解的语音、非目标语言、非语音等的详细转录指南。
质量检查和反馈
- 所有录音都经过质量评估和验证,仅发表经过验证的演讲
解决方案
凭借对对话式人工智能的深刻理解,我们与专家收集者、语言学家和注释者团队一起帮助客户收集、分割和转录数据,以建立 8 种印度语言的大型音频数据集语料库
Shaip 的工作范围包括但不限于获取大量音频训练数据、将录音分割为多个、转录数据并提供包含元数据 [SpeakerID、年龄、性别、语言、方言、
母语、资格、职业、领域、文件格式、频率、频道、音频类型、发言者数量、外语数量、使用的设置、窄带或宽带音频等]。
Shaip 大规模收集了 3000 小时的音频数据,同时保持了为复杂项目训练语音技术所需的所需质量水平。 每个参与者都获得了明确的同意书。
1。 数据采集