自动语音识别技术已经存在了很长时间,但最近在 Siri 和 Alexa 等各种智能手机应用程序中普遍使用后变得更加突出。 这些基于 AI 的智能手机应用程序展示了 ASR 在简化我们所有人的日常任务方面的强大功能。
此外,随着不同的垂直行业进一步走向自动化,对 ASR 的潜在需求正在激增。 因此,让我们了解这个了不起的 语音识别技术 深入以及为什么它被认为是未来最关键的技术之一。
ASR 技术简史
在继续探索自动语音识别的潜力之前,让我们先来看看它的演变。
十 | ASR 的演变 |
---|---|
1950s | 语音识别技术最早由贝尔实验室于 1950 世纪 1 年代推出。贝尔实验室创建了一个名为“Audrey”的虚拟语音识别器,可以识别单个声音说出的 9 到 XNUMX 之间的数字。 |
1960s | 1952 年,IBM 推出了第一个语音识别系统“Shoebox”。 Shoebox 可以理解并区分 XNUMX 个英语口语单词。 |
1970s | 卡内基梅隆大学在 1976 年开发了一个可以识别 1000 多个单词的“Harpy”系统。 |
1990s | 经过近 40 年的漫长等待,贝尔技术公司再次突破行业,推出了可以听写人类语音的拨入式交互式语音识别系统。 |
2000s | 这是 ASR 技术的变革时期,科技巨头谷歌开始致力于语音识别技术。他们创建了准确率约为 80% 的先进语音软件,使其在全球范围内流行。 |
2010s | 过去十年成为 ASR 的黄金时期,亚马逊和苹果推出了他们首款基于人工智能的语音软件 Alexa 和 Siri。 |
在 2010 年之前,ASR 正在发生巨大的变化,并且变得越来越普遍和准确。 如今,亚马逊、谷歌和苹果是 ASR 技术领域最著名的领导者。
[另请阅读: 对话式 AI 完整指南 ]
语音识别如何工作?
自动语音识别是一项相当先进的技术,但其设计和开发难度极大。 全世界有数千种语言,方言和口音各不相同,因此很难开发出能够理解所有语言的软件。
ASR 使用自然语言处理和机器学习的概念进行开发。 通过在软件中加入众多的语言学习机制,开发人员确保了语音识别软件的准确性和效率。
自动语音识别 (ASR) 是一项复杂的技术,依赖于多个关键流程将口语转换为文本。从高层次来看,涉及的主要步骤是:
- 音频捕获: 麦克风捕获用户的语音并将声波转换为电信号。
- 音频预处理: 然后,电信号被数字化并经过各种预处理步骤(例如降噪),以提高音频输入的质量。
- 特征提取: 对数字音频进行分析以提取声学特征,例如音调、能量和频谱系数,这些特征是不同语音的特征。
- 声学建模: 将提取的特征与预先训练的声学模型进行比较,该模型将音频特征映射到单个语音或音素。
- 语言建模: 然后使用统计语言模型将识别出的音素组装成单词和短语,该模型根据上下文预测最可能的单词序列。
- 解码: 最后一步涉及解码与输入音频匹配的最可能的单词序列,同时考虑声学模型和语言模型。
这些核心组件无缝协作,即使存在背景噪音、口音和不同词汇,也能实现高度准确的语音到文本转换。
[另请阅读: 什么是语音转文本技术及其工作原理]
ASR 的真实示例
自动语音识别是一项出色的技术,如今已变得广泛流行且有价值。它之所以如此引人注目,是因为它使用户能够使用免提控制快速完成多项任务。
虚拟助理和智能设备: ASR 是 Siri、Alexa 和 Google Assistant 等虚拟助理的核心组件,可实现与各种智能家居设备和在线服务的免提控制和交互。使用语音识别技术的最受欢迎的产品有:
- Google助理: Google Assistant 于 2016 年开发,是当今最好的聊天软件,美式英语准确率最高可达 95% 以上。 粗略地说,全世界有数亿人使用它。
- 苹果 Siri: Siri 是 ASR 在全球 30 多个国家和 21 种语言中可用的经典示例。 Siri 是第一个彻底改变语音转文本技术使用的基于聊天的系统。
- 亚马逊Alexa: Alexa 如今已成为家喻户晓的名字和设备,全球用户估计超过 100 亿。
语音识别技术的用例
除了在基于聊天的软件中使用 ASR 技术外,这种特殊技术还有其他用例。 这里有几个:
汽车和运输
ASR 集成到车载信息娱乐系统中,允许驾驶员使用语音命令控制各种功能,例如音乐播放、导航和气候控制,提高安全性和便利性。
医疗保健和医疗转录
ASR 使医生能够更有效地听写笔记和记录、简化文档流程并减少管理开销,从而改变医疗保健行业。
呼叫中心和客户支持
ASR 广泛应用于呼叫中心,以自动转录客户交互、提高座席工作效率并增强整体客户体验。
Language Learning
ASR 技术通过提供有关发音和口语技能的实时反馈,彻底改变了语言学习。 这使学习者能够改进他们的语音模式,立即得到纠正,并以更有效的方式提高他们的流利程度。
听障人士的无障碍设施
ASR 技术在让残障人士更容易访问数字内容和体验方面发挥着至关重要的作用,例如为听力提供实时字幕或为行动不便的人提供语音控制。
语音生物识别和安全
个人声音的独特特征可以用作生物识别认证的一种形式。 ASR 技术在语音生物识别系统中发挥着至关重要的作用,为个人识别和访问控制提供了额外的安全层。
媒体和广播
ASR 用于为直播和预先录制的内容生成隐藏式字幕和字幕,使观众更容易理解并实现新形式的交互式媒体体验。
ASR 技术的未来是什么?
随着人工智能和机器学习的进步,自动语音识别技术有望变得更准确、更快速、听起来更自然。 此外,ASR 技术可能会在客户服务、教育、医疗保健等领域得到普及。 对于组织而言,开发定制的基于 ASR 的业务解决方案必须是下一个目标。