自动语音识别

什么是语音转文本技术及其在自动语音识别中的工作原理

自动语音识别 (ASR) 已经走过了漫长的道路。 虽然它是很久以前发明的,但几乎没有人使用过。 然而,时间和技术现在发生了巨大的变化。 音频转录已经有了很大的发展。

AI(人工智能)等技术推动了音频到文本的翻译过程,以获得快速准确的结果。 因此,它在现实世界中的应用也有所增加,一些流行的应用程序,如 Tik Tok、Spotify 和 Zoom,将这个过程嵌入到他们的移动应用程序中。

因此,让我们探索 ASR 并发现为什么它是 2022 年最流行的技术之一。

什么是语音转文本?

语音转文本 (STT),也称为自动语音识别 (ASR),将语音转换为书面文本。现代系统是一种软件服务,可以分析音频信号并输出​​带有时间戳和置信度分数的单词。

对于构建联络中心、医疗保健和语音 UX 的团队来说,STT 是可搜索、可分析对话、辅助字幕以及摘要或 QA 等下游 AI 的门户。

语音转文本的常用名称

这种先进的语音识别技术也很受欢迎,并被称为:

  • 自动语音识别 (ASR)
  • 语音识别
  • 计算机语音识别
  • 音频转录
  • 屏幕阅读

语音转文本技术的应用

联络中心

实时记录为现场代理提供协助;批量记录推动质量保证、合规性审计和可搜索的呼叫档案。

例如::使用流式 ASR 在计费争议期间显示实时提示,然后在通话后运行批量转录以对 QA 进行评分并自动生成摘要。

医疗保健

临床医生口述笔记并获取访问摘要;记录支持编码(CPT/ICD)和临床文档——始终具有 PHI 保护措施。

例如::提供商记录咨询,运行 ASR 起草 SOAP 注释,并自动突出显示药品名称和生命体征以供编码器审查,并应用 PHI 编辑。

媒体与教育

为讲座、网络研讨会和广播生成字幕/副标题;当您需要近乎完美的准确度时,添加简单的人工编辑。

例如::一所大学批量转录讲座视频,然后由审阅人员修改名称和术语,然后发布可访问的字幕。

语音产品和IVR

唤醒词和命令识别可在应用程序、信息亭、车辆和智能设备中实现免提用户体验;IVR 使用记录进行路由和解析。

例如::银行 IVR 识别“冻结我的卡”,确认详细信息并触发工作流程 - 无需键盘导航。

运营与知识

会议和现场电话会议变成可搜索的文本,其中包含时间戳、发言人和用于指导和分析的行动项目。

例如::销售电话被转录,按主题(定价、异议)标记并总结;管理人员按“续约风险”进行筛选以计划后续行动。

为什么要使用语音转文本?

  • 让对话可被发现. 将数小时的音频转换为可搜索的文本,用于审计、培训和客户洞察。 
  • 自动化手动转录. 与纯人工工作流程相比,减少周转时间和成本,同时在质量必须完美的情况下保持人工审核。 
  • 为下游人工智能提供动力. 成绩单提供摘要、意图/主题提取、合规标志和指导。 
  • 提高可访问性。字幕和文字记录可以帮助听力受损的用户,并改善嘈杂环境中的用户体验。 
  • 支持实时决策. 流式 ASR 支持随叫随到指导、实时表格和实时监控。 

语音转文本技术的优势

速度和模式灵活性

流媒体为现场使用提供了亚秒级的部分;批量处理积压工作,并提供更丰富的后期处理。

例如::流式转录以供代理协助;稍后批量重新转录以获得 QA 质量档案。

内置优质功能

获取分词、标点/大小写、时间戳和短语提示/自定义词汇来处理行话。

例如::标记医生/患者的转诊并增强药物名称,以便他们正确转录。

部署选择

使用云 API 进行扩展/更新或使用本地/边缘容器进行数据驻留和低延迟。

例如::一家医院在其数据中心运行 ASR 以将 PHI 保存在本地。

定制和多语言

通过短语列表和领域适应来缩小准确性差距;支持多种语言和代码转换。

例如::一款金融科技应用程序可以提升英语/印式英语的品牌名称和股票代码,然后针对小众术语进行微调。

理解自动语音识别的工作原理

语音识别工作流程

音频到文本翻译软件的工作很复杂,涉及多个步骤的实施。 众所周知,speech-to-text 是一款专门用于将音频文件转换为可编辑文本格式的软件; 它通过利用语音识别来做到这一点。

流程

  • 最初,使用模数转换器,计算机程序将语言算法应用于提供的数据,以区分振动和听觉信号。
  • 接下来,通过测量声波来过滤相关声音。
  • 此外,声音被分配/分割成百分之一或千分之一秒,并与音素(用于区分一个单词和另一个单词的可测量的声音单位)匹配。
  • 音素进一步通过数学模型运行,以将现有数据与众所周知的单词、句子和短语进行比较。
  • 输出是文本或基于计算机的音频文件。

[另请阅读: 自动语音识别的全面概述]

语音转文本的用途是什么?

有多种自动语音识别软件使用,如

  • 内容搜索: 我们大多数人已经从在手机上输入字母转变为按下按钮让软件识别我们的声音并提供所需的结果。
  • 客户服务: 可以引导客户完成流程的几个初始步骤的聊天机器人和人工智能助手已经变得很普遍。
  • 实时隐藏式字幕:随着全球内容访问量的增加,实时隐藏式字幕已成为一个突出且重要的市场,推动了 ASR 的使用。
  • 电子文件: 一些行政部门已开始使用 ASR 来完成文档编制目的,以提高速度和效率。

语音识别的主要挑战是什么?

口音和方言同一个词在不同地区发音可能大相径庭,这会让基于“标准”语音训练的模型感到困惑。解决方法很简单:收集并测试带有丰富口音的音频,并为品牌、地名和人名添加短语/发音提示。

上下文和同音词。 选择正确的词语(“to/too/two”)需要上下文和领域知识。使用更强大的语言模型,根据您自己的领域文本进行调整,并验证药品名称或 SKU 等关键实体。

噪音和糟糕的音频通道交通、串扰、通话编解码器和远场麦克风会掩盖重要的声音。请对音频进行降噪和标准化,使用语音活动检测,在训练中模拟真实的噪声/编解码器,并尽可能选择质量更好的麦克风。

代码转换和多语言演讲人们经常混合使用多种语言或在句子中间切换,这会破坏单语言模型。选择多语言或支持代码切换的模型,评估混合语言音频,并维护特定语言环境的短语列表。

多个发言者和重叠。当声音重叠时,文字记录会模糊“谁说了什么”。启用说话人二值化来标记发言轮次,并在有多麦克风音频可用的情况下使用分离/波束成形。

录音中的视频提示在视频中,唇部动作和屏幕文字能够传达音频无法传达的含义。在质量至关重要的情况下,可以使用视听模型,并将 ASR 与 OCR 结合使用,以捕捉幻灯片标题、名称和术语。

注释和标签质量不一致的转录本、错误的说话人标签或混乱的标点符号都会损害训练和评估。应制定清晰的风格指南,定期审核样本,并保留一套小型黄金标准来衡量注释者的一致性。

隐私和合规性通话和临床记录可能包含 PII/PHI,因此必须严格控制存储和访问。请对输出进行编辑或去身份识别处理,限制访问权限,并选择云端部署而非本地/边缘部署,以满足您的策略。

如何选择最佳的语音转文本供应商

选择供应商时,请先测试您的音频(口音、设备、噪音),并权衡准确性、隐私性、延迟和成本。从小处着手,先测量,再逐步扩展。

首先明确需求

  • 用例:流式传输、批处理或两者兼有
  • 语言/口音(包括代码转换)
  • 音频通道:电话(8 kHz)、应用程序/桌面、远场
  • 隐私/居住地:PII/PHI、区域、保留、审计
  • 约束:延迟目标、SLA、预算、云与本地/边缘

评估你的音频

  • 准确率:WER + 实体准确率(术语、名称、代码)
  • 多说话者:区分质量(谁在何时说话)
  • 格式:标点符号、大小写、数字/日期
  • 流媒体:TTFT/TTF延迟+稳定性
  • 功能:短语列表、自定义模型、编辑、时间戳

在 RFP 中询问

  • 在我们的测试集上显示原始结果(按重音/噪音)
  • 为我们的剪辑提供 p50/p95 流媒体延迟
  • 2-3 个说话者重叠时的二值化准确率
  • 数据处理:区域内处理、保留、访问日志
  • 短语列表的路径→自定义模型(数据、时间、成本)

留意危险信号

  • 演示很棒,但音频效果不佳
  • “我们将进行微调”但没有计划/数据
  • 日记/编辑/存储的隐藏费用

[另请阅读: 了解用于自动语音识别的音频数据的收集过程]

语音转文本技术的未来

更大的多语言“基础”模型。 通过大量的预训练和轻度微调,单个模型有望覆盖 100 多种语言,并具有更好的低资源准确度。

语音 + 翻译在一个堆栈中。 统一模型将处理 ASR、语音到文本翻译,甚至语音到语音——减少延迟和粘合代码。

默认情况下,格式和分词更加智能。 自动标点符号、大小写、数字和可靠的“谁在何时发言”标签将越来越多地内置于批量和流式传输中。

适用于恶劣环境的视听识别。 当音频嘈杂时,唇语提示和屏幕文本(OCR)将会提高转录质量——这已经是一个快速发展的研究领域和早期产品原型。

隐私优先训练和设备/边缘。 联合学习和容器化部署将保持数据本地化,同时仍改进模型——这对于受监管的行业来说很重要。

监管感知人工智能。 欧盟人工智能法案的时间表意味着 STT 产品和采购将更加透明、风险控制和文档化。

超越 WER 的更丰富的评估。 团队将对实体准确性、分类质量、延迟(TTFT/TTF)以及跨口音/设备的公平性进行标准化,而不仅仅是标题 WER。

Shaip 如何帮助您实现目标

随着这些趋势的到来,成功仍然取决于 你的数据。Shaip 提供口音丰富的多语言数据集、PHI 安全去识别和黄金测试集(WER、实体、二值化、延迟),以公平地比较供应商和调整模型 - 因此您可以满怀信心地采用 STT 的未来。 与 Shaip 的 ASR 数据专家交谈 计划快速试点。

社交分享