话语数据收集

人工智能中的“话语”是什么?:示例、数据集和最佳实践

你有没有想过当你说“嘿 Siri”或“Alexa”时,聊天机器人和虚拟助手是如何醒来的? 这是因为软件中嵌入的文本话语收集或触发词,一旦听到编程的唤醒词就会激活系统。

然而,创建声音和话语数据的整个过程并不是那么简单。 这是一个必须使用正确的技术来获得预期结果的过程。 因此,本博客将分享创建与对话 AI 无缝协作的良好话语/触发词的途径。

人工智能中的“话语”是什么?

在对话式 AI(聊天机器人、语音助手)中,话语是一小段用户输入——即用户说出或输入的确切词语。模型使用话语来推断用户的意图(目标)和任何实体(例如日期、产品名称、金额等详细信息)。

简单的例子

电子商务机器人

话语:“追踪我的订单 123-456设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“

  • 意图:TrackOrder
  • 实体:order_id = 123-456

电信机器人

话语:“升级我的数据计划设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“

  • 意图:变更计划
  • 实体:plan_type = data

银行语音助手

话语(口语):“W我今天的支票余额是多少?=

  • 意图:检查余额
  • 实体:account_type = 支票,日期 = 今天

为什么你的对话式人工智能需要良好的话语数据

如果您希望聊天机器人或语音助手能够提供帮助,而不是显得脆弱,那就从更优质的话语数据入手。话语是人们为了完成任务而说出或输入的原始短语(“帮我预订明天的房间”、“更改我的计划”、“状态如何?”)。它们能够支持意图分类、实体提取,并最终提升客户体验。当话语多样化、具有代表性且标注清晰时,您的模型就能学习到意图之间的正确界限,并从容应对纷繁复杂的现实世界输入。

构建你的话语存储库:一个简单的工作流程

构建话语库

1. 从真实用户语言开始

矿山 聊天记录、搜索查询、IVR 记录、代理笔记以及客户电子邮件。根据用户目标对它们进行聚类,从而挖掘出意图。(你将捕捉到一些在普通房间里想不到的口语和思维模型。)

2. 有目的地创造变化

对于每个意图,创作不同的示例:

  • 改写动词和名词(“取消”、“停止”、“结束”;“计划”、“订阅”)。
  • 混合句子长度和结构(疑问句、指示句、片段)。
  • 包括拼写错误、缩写、表情符号(用于聊天)、相关代码转换。
  • 添加看起来相似但应该 不会 映射到这个意图。

3. 平衡你的课程

训练极度不平衡(例如,一个意图使用 500 个示例,而其他意图使用 10 个示例)会损害预测质量。保持 意图大小相对均匀 并按照交通的教导一起发展它们。

4. 训练前验证质量

阻止低信号数据 验证者 在创作/收集期间:

  • 语言检测: 确保示例符合目标语言。
  • 乱码检测器: 捕获无意义的字符串。
  • 重复/近似重复检查: 保持高度多样化。
  • 正则表达式/拼写和语法: 在需要的地方强制执行样式规则。
    智能验证器(Appen 所使用的)可以自动执行大部分把关工作。

5. 一致地标记实体

定义槽类型(日期、产品、地址)并显示注释器 如何划定界限。图案如 图案任意 LUIS 中的可以消除混淆模型的长而可变的跨度(例如文档名称)。

6. 像生产环境一样进行测试

看不见 将真实话语发送到预测端点或暂存机器人,检查错误分类,以及 促进 将模糊示例纳入训练。形成一个循环:收集 → 训练 → 复习 → 扩展。

“混乱的现实”到底意味着什么(以及如何处理它)

真实用户很少能说出完美的句子。预期:

  • 片段: “退还运费”
  • 复合目标: “蓝色表示取消订单并重新下单”
  • 隐式实体: “运送到我的办公室”(你必须知道哪个办公室)
  • 歧义: “更改我的计划”(哪个计划?何时生效?)

实用修复

  • 提供 澄清提示 仅在需要时才询问;避免询问过多。
  • 捕获 上下文延续 (代词如“那个命令”、“最后一个”)。
  • 使用 VHDL 语言编写 后备意图 并有针对性地恢复:“我可以帮助您取消或更改计划——您想要什么?”
  • 显示器 意向健康 (混淆、冲突)并在薄弱之处添加数据

语音助手和唤醒词:不同的数据,相似的规则

语音助手和唤醒词 唤醒词(“嘿 Siri”、“Alexa”、自定义唤醒短语)是具有强大声学约束的特殊话语子集,但 覆盖思维 仍然适用:不同的说话者、设备和环境。唤醒后, 语言话语 接管实际任务(“开灯”、“演奏爵士乐”)。保持你的 唤醒任务 数据集不同,并分别评估它们。

何时(以及如何)使用现成数据与自定义数据

现成数据与自定义数据

  • 现成的:在新地区启动覆盖,然后测量仍然存在混乱的地方。
  • 定制:捕捉您的领域语言(政策条款、产品名称)和“品牌声音”。
  • 混合:从广泛的角度开始,然后针对最有偏差或收入影响的意图添加高精度数据。

如果您需要快速入口,Shaip 提供 话语收集 以及多种语言的现成语音/聊天数据集;请参阅多语言助手推出的案例研究。

实施清单

实施清单

  • 用示例定义意图和实体,
  • 作者 多样、平衡 针对每个意图的话语(从小处开始,每周增加)
  • 在训练之前添加验证器(语言、乱码、重复项、正则表达式)
  • 成立 审查循环 来自真实流量;将模糊项目推广到训练 
  • Track 意向健康 和碰撞;用新的话语修复
  • 按渠道/地区重新评估,尽早发现偏差

Shaip 如何提供帮助

  • 自定义话语收集和标签 (聊天+语音)与验证者一起保持高质量。
  • 即用型数据集 跨越 150 多种语言/变体,实现快速引导。
  • 正在进行的审查计划 将实时流量安全地转换为高信号训练数据(PII 控制)。

探索我们的多语言版本 话语收集案例研究样本数据集.

社交分享