对话式人工智能:自动语音识别
收集超过 8 小时音频,为多语言语音技术转录 800 小时
介绍
印度需要一个专注于创建多语言数据集和基于人工智能的语言技术解决方案的平台,以便以印度语言提供数字服务。 为了启动这一计划,客户与 Shaip 合作收集和转录印度语言以构建多语言语音模型。
音量
挑战
为了协助客户制定印度语言的语音技术语音路线图,团队需要获取、分段和转录大量训练数据以构建 AI 模型。 客户的关键要求是:
数据收集
- 从印度偏远地区获取 8000 小时的训练数据
- 收集20-70岁年龄段自发言语的供应商
- 确保讲话者的年龄、性别、教育程度和方言多样化
- 每个录音应至少为 16kHz,16 位/样本。
数据转录
遵循有关字符和特殊符号、拼写和语法、大写、缩写、缩写、单个口语字母、数字、标点符号、首字母缩略词和首字母缩略词、流利语音、难以理解的语音、非目标语言、非语音的详细转录指南
质量检查和反馈
所有录音都经过质量评估和验证,仅交付经过验证的语音录音
解决方案
凭借我们对对话式人工智能的深刻理解,我们帮助客户与专家收集者、语言学家和注释者团队一起收集、转录音频数据,以建立来自印度偏远地区的大型音频数据语料库。
Shaip 的工作范围包括但不限于获取大量音频训练数据、转录数据并为演讲者和转录者提供包含元数据的相应 JSON 文件。 对于每个发言者,元数据包括匿名的发言者 ID、设备详细信息、性别、年龄和教育等人口统计信息,以及他们的密码、社会经济地位、使用的语言以及他们的生活停留时间记录。 对于每个转录员,数据都包含匿名转录员 ID、与说话者类似的人口统计详细信息、他们的转录体验持续时间以及他们可以读、写和说的语言的彻底细分。
夏普收集 8000 大规模转录 800 小时的音频数据/自发语音,同时保持为复杂项目训练语音技术所需的质量水平。 每个参与者都获得了明确的同意书。 收集的/自发演讲是基于大学提供的图像。 的 3500 图像, 1000 是通用的并且 2500 与特定地区的文化、节日等相关。图像描绘了火车站、市场、天气等各个领域。
数据收集
州/领地 | 区 | 音频时间 | 转录 (小时) |
比哈尔邦 | 萨兰、东查帕兰、戈帕尔甘杰、西塔马尔希、萨马斯蒂普尔、达尔班加、马德普拉、巴加尔普尔、加雅、基尚甘杰、瓦伊夏利、拉基萨莱、萨哈尔萨、苏保尔、阿拉里亚、贝古萨莱、贾哈纳巴德、普尔尼亚、穆扎法尔普尔、贾穆伊 | 2000 | 200 |
北方邦 | 迪奥里亚、瓦拉纳西、戈勒克布尔、加齐布尔、穆扎法尔纳加尔、埃塔、哈米尔布尔、乔蒂巴普勒纳加尔、布道恩、贾劳恩 | 1000 | 100 |
拉贾斯坦邦 | 纳高尔·丘鲁 | 200 | 20 |
北阿坎德邦 | 特里·加瓦尔 (Tehri Garhwal),乌塔卡什 | 200 | 20 |
恰蒂斯加尔邦 | 比拉斯普尔、莱加尔、卡伯德汉姆、萨尔古贾、科尔巴、贾什普尔、拉杰南德冈、巴尔拉姆普尔、巴斯塔、苏克马 | 1000 | 100 |
西孟加拉邦 | Paschim Medinipur、马尔达、Jalpaiguri、Purulia、加尔各答、Jhargram、North 24 Parganas、Dakshin Dinajpur | 800 | 80 |
恰尔肯德邦 | Sahebganj, 贾姆塔拉 | 200 | 20 |
AP | 贡土尔、奇托尔、维沙卡帕特南、克里希纳、阿纳恩塔普尔、斯里卡库拉姆 | 600 | 60 |
特兰伽纳 | 卡里姆讷格尔, 纳尔贡达 | 200 | 20 |
果阿 | 北果阿+南果阿 | 100 | 10 |
卡纳塔克邦 | 达克辛卡纳达语、古尔伯加、达尔瓦德、贝拉里、迈索尔、希莫加、比贾普尔、贝尔高姆、赖丘尔、查姆拉吉纳加尔 | 1000 | 100 |
马哈拉施特拉邦 | Sindhudurg、Dhule、那格浦尔、浦那、奥兰加巴德、钱德尔普尔、索拉普尔 | 700 | 70 |
合计 | 8000 | 800 |
一般准则
格式
- 音频频率为 16 kHz,16 位/样本。
- 单通道。
- 未经转码的原始音频。
样式
- 自发演讲。
- 基于大学提供的图像的句子。 在 3500 张图像中,1000 张是通用图像,2500 张与特定地区的文化、节日等相关。图像描绘了火车站、市场、天气等各个领域。
录音背景
- 在安静、无回声的环境中录制。
- 录制期间不会受到智能手机干扰(振动或通知)。
- 没有诸如削波或远场效应之类的失真。
- 电话振动是不可接受的; 如果音频清晰,外部振动是可以忍受的。
扬声器规格
- 年龄范围为 20 至 70 岁,每个地区的性别分布均衡。
- 每个地区至少有 400 名母语人士。
- 说话者应使用他们的母语/方言。
- 所有参与者都必须签署同意书。
质量检查和关键质量保证
QA 流程优先考虑录音和转录的质量保证。 音频标准侧重于精确的静音、片段持续时间、单个说话者的清晰度以及包括年龄和社会经济地位在内的详细元数据。 转录标准强调标签准确性、单词准确性和正确的片段细节。 验收基准规定,如果超过 20% 的音频批次不符合这些标准,则会被拒绝。 对于小于 20% 的差异,需要使用具有相似配置文件的替换录音。
数据转录
仅当文字清晰易懂时,转录指南才强调准确性和逐字转录; 根据问题,不清楚的单词被标记为[无法理解]或[听不清]。 长音频中的句子边界标记为,并且不允许释义或纠正语法错误。 逐字转录涵盖了错误、俚语和重复,但省略了错误的开头、填充声音和口吃。 背景和前景噪音用描述性标签转录,而专有名称、标题和数字遵循特定的转录规则。 每个句子都使用说话人标签,不完整的句子用 表示。
项目工作流程
该工作流程描述了音频转录过程。 它从入职和培训参与者开始。 他们使用应用程序录制音频,并将其上传到 QA 平台。 该音频经过质量检查和自动分段。 然后,技术团队准备转录片段。 手动转录后,还有一个质量保证步骤。 转录内容将交付给客户,如果接受,则视为交付完成。 如果没有,将根据客户反馈进行修改。
成果
来自语言专家的高质量音频数据将使我们的客户能够在规定的时间内准确地训练和构建各种印度语言和不同方言的多语言语音识别模型。 语音识别模型可用于:
- 通过将公民与自己母语的举措联系起来,克服数字包容性的语言障碍。
- 推动数字化治理
- 形成印度语言服务和产品生态系统的催化剂
- 公共利益领域,特别是治理和政策领域的更多本地化数字内容
我们对 Shaip 在对话式人工智能领域的专业知识感到敬畏。 至少可以说,处理 8000 小时的音频数据以及跨 800 个不同地区的 80 小时的转录的任务是艰巨的。 正是 Shaip 对这一领域错综复杂的细节和细微差别的深刻理解,使得这一具有挑战性的项目得以成功执行。 他们无缝管理和浏览如此大量数据的复杂性,同时确保一流质量的能力确实值得称赞。