今天,我们在家里、汽车系统、便携式设备、家庭自动化解决方案等中有一些会说话的机器人,如聊天机器人、虚拟助手等等。这些设备精确地听我们说的话和我们说的方式并检索结果或执行特定任务.
如果你一直在使用这样的助手 Siri 或 Alexa,您还会意识到它们一天比一天变得古怪。 他们的回答很诙谐,他们顶嘴,不屑一顾,回馈赞美,而且举止比你可能认识的一些同事更像人。 我们不是在开玩笑。 根据普华永道, 27% 与他们最近的客户服务助理互动的用户不知道他们是在与人交谈还是与聊天机器人交谈。
开发如此复杂的对话系统和设备是非常复杂和艰巨的。 这是一种完全不同的球类运动,具有不同的开发方法。 这就是为什么我们认为我们应该将其分解以便您更容易理解。 因此,如果您希望开发对话式 AI 引擎或虚拟助手,本指南将帮助您理清思路。
对话式人工智能的意义
随着技术以更新的设备和系统的形式成为我们生活中不可或缺的一部分,出现了推动障碍、打破常规并想出与它们互动的新方式的需求。 从简单地使用鼠标和键盘等连接的外围设备,我们切换到提供更多便利的鼠标垫。 然后我们迁移到触摸屏,在提供输入和执行任务方面提供了进一步的便利。
随着设备成为我们自己的延伸,我们现在正在开启一种通过语音进行指挥的新媒体。 我们甚至不需要靠近设备就可以操作它。 我们所要做的就是使用我们的声音来解锁它并命令我们的输入。 在附近的房间里,在驾驶时,同时使用另一个设备,对话式人工智能无缝地执行我们的预期任务。 那么我们从哪里开始——一切都始于高质量的语音数据来训练 ML 模型。
收集语音训练数据的基础知识
为对话式 AI 收集和注释 AI 训练数据是非常不同的. 人类命令涉及大量错综复杂的问题,必须采取多种措施以确保每个方面都能得到满足,以获得有影响力的结果。 让我们看看语音数据的一些基础知识是什么。
自然语言理解(NLU)
为了让聊天机器人和虚拟助手理解并响应我们的文本或命令,这个过程称为 全国土地联盟 被执行。 它代表 自然语言理解 并涉及三个技术概念来解释和处理不同的输入类型。
意图
这一切都始于意图。 特定用户试图通过命令传达、交流或实现什么? 用户是否在寻找信息? 他们是否在等待更新以采取行动? 他们是否在命令系统执行指令? 他们是怎么指挥的? 是通过问题还是请求? 所有这些方面都可以帮助机器理解和分类意图和目的,以分别提出无懈可击的响应。
话语集
“最近的自动取款机在哪里?”命令之间存在差异。 和命令,“给我找一个附近的 ATM。” 现在人类会承认两者的意思相同,但必须用这种差异来解释机器。 它们在意图方面是相同的,但意图的形成方式完全不同。
话语收集是关于将不同的话语和短语定义和映射到特定目标,以精确执行任务和响应。 从技术上讲,数据注释专家处理语音数据或文本数据,以帮助机器区分这一点。
实体抽取
每个句子都有带有强调权重的特定单词或短语,正是这种强调导致了对上下文和目的的解释。 机器,就像它们的刚性系统一样,需要用勺子喂食这样的实体。 例如,“我在哪里可以找到第六大道附近的吉他弦?”
如果你优化句子,find 是实体一,弦是二,吉他是三,第六大道是 6。这些实体被机器组合在一起以检索适当的结果,为此,专家在后端工作。
为会话式人工智能设计对话
人工智能的目标主要是通过手势、动作和反应来复制人类行为。 有意识的人类思维具有理解上下文、意图、语气、情绪和其他因素并做出相应反应的先天能力。 但是机器如何区分这些方面呢?
设计对话 会话AI 非常复杂,更重要的是,推出一个通用模型是不可能的。 每个人都有不同的思考、谈话和反应方式。 即使在回应中,我们也都以独特的方式表达了我们的想法。 因此,机器必须倾听并做出相应的响应。
然而,这也并不顺利。 当人类说话时,口音、发音、种族、语言等因素都会进来,机器不容易误解和曲解单词并做出回应. 当印度人、英国人、美国人和墨西哥人口述时,机器可以以多种方式理解一个特定的词。 有大量的语言障碍在起作用,提出响应系统的最实用方法是通过基于流程图的可视化编程。
通过专用块 手势、反应和触发器,作者和专家可以帮助机器发展角色. 这更像是一种算法机器可以用来提出正确的响应。 当输入输入时,信息会流经相应的因素,从而为机器提供正确的响应。
拨 D 表示多样性
就像我们提到的,人际互动是非常独特的。 世界各地的人们来自不同的阶层、背景、国籍、人口统计、种族、口音、用词、发音等。
为了使对话机器人或系统能够普遍运行,必须使用尽可能多样化的训练数据对其进行训练。 例如,如果模型仅使用一种特定语言或种族的语音数据进行训练,则新的口音会混淆系统并迫使它提供错误的结果。 这不仅让企业主感到尴尬,而且对用户也是一种侮辱。
这就是为什么开发阶段应该涉及来自各种不同数据集的丰富池的 AI 训练数据,这些数据集由来自所有可能背景的人组成。 你的系统理解的口音和种族越多,它就越普遍。 此外,更让用户烦恼的不是信息检索不正确,而是首先无法理解他们的输入。
消除偏见应该是一个关键的优先事项,公司可以做到这一点的一种方法是选择众包数据。 当您众包您的语音数据或文本数据时,您允许来自世界各地的人们为您的需求做出贡献,从而使您的数据池更加有益(阅读我们的 新闻 了解将数据外包给众包工作者的好处和缺陷)。 现在,您的模型将理解不同的口音和发音并做出相应的响应。
前进的道路
开发对话式人工智能就像抚养婴儿一样困难。 唯一的区别是婴儿最终会成长为理解事物并在自主交流方面变得更好。 这是需要持续推动的机器。 目前这个领域存在一些挑战,我们应该承认这样一个事实,即尽管存在这些挑战,我们还是产生了一些最具革命性的对话式人工智能系统。 让我们拭目以待,看看我们友好的邻里聊天机器人和虚拟助手的未来会怎样。 同时,如果您打算为您的企业开发像 Google Home 这样的对话式 AI, 联系我们了解您的 AI 训练数据和注释需求.