数据注释 – NER
用于临床 NLP 的命名实体识别 (NER) 注释
注释完善的黄金标准临床文本数据,用于训练/开发临床 NLP 以构建下一版本的医疗保健 API
在过去的几年中,临床自然语言处理 (NLP) 的重要性得到了越来越多的认识,并带来了变革性的进步。 临床 NLP 使计算机能够理解医生对患者的书面分析背后的丰富含义。 临床 NLP 可以有多种用例,从人口健康分析到临床文档改进、语音识别到临床试验匹配等。
要开发和训练任何临床 NLP 模型,您需要大量准确、无偏见且注释良好的数据集。 黄金标准和多样化的数据有助于提高 NLP 引擎的精确度和召回率。
音量
挑战
客户期望使用新的实体类型来训练和开发其自然语言处理 (NLP) 平台,并识别各种类型之间的关系。 此外,他们正在评估提供高精度、遵守当地法律并拥有注释大量数据所需的医学知识的供应商。
任务是对多达 20,000 条标记记录进行标记和注释,其中包括来自住院和门诊电子健康记录 (EHR) 数据的多达 15,000 条标记记录以及来自转录医疗听写的多达 5,000 条标记记录,均匀分布在 (1) 地理来源和 ( 2)可用的医学专业。
因此,总结一下挑战:
- 整理异构临床数据来训练NLP平台
- 识别不同实体之间的关系以获取关键信息
- 具有标记/注释大量复杂临床文档的能力和专业知识
- 控制成本,在规定的时间内标记/注释大量数据以训练临床 NLP
- 对由 75% EHR 和 25% 听写记录组成的临床数据集中的实体进行注释。
- 交付时数据去识别化
自然语言理解的其他挑战
单词是唯一的,但根据上下文可能具有不同的含义,从而导致词汇、句法和语义层面上的歧义。
我们可以用不同的术语来表达相同的想法,这些术语也是同义词:在描述一个对象时,big 和large 的意思是相同的。
查找文本中引用同一实体的所有表达式的过程称为共指解析。
根据说话者的个性、意图和情感,同一想法可能会得到不同的表达。
解决方案
大量的医疗数据和知识以医疗文档的形式提供,但主要是非结构化格式。 借助医疗实体注释/命名实体识别 (NER) 注释,Shaip 能够通过注释不同类型的临床记录中的有用信息,将非结构化数据转换为结构化格式。 一旦识别了实体,它们之间的关系也被映射以识别关键信息。
工作范围:医疗保健实体提及注释
9 种实体类型
- 医疗条件
- 医疗程序
- 解剖结构
- 药物
- 医疗装置
- 身体测量
- 药物滥用
- 实验室数据
- 身体机能
17 修饰符
- 药物修饰符:强度、单位、剂量、起始时间、频率、途径、持续时间、状态
- 身体测量修饰符:值、单位、结果
- 过程修饰符:方法
• 实验室数据修改器:实验室值、实验室单位、实验室结果 - 严重性
- 程序结果
27 关系和患者状况
成果
带注释的数据将用于开发和训练客户的临床 NLP 平台,该平台将纳入下一版本的医疗保健 API 中。 客户获得的好处是:
- 标记/注释的数据符合客户的标准数据注释指南。
- 使用异构数据集来训练 NLP 平台以获得更高的准确性。
- 确定不同实体之间的关系,即解剖身体结构 <> 医疗设备、医疗状况 <> 医疗设备、医疗状况 <> 药物、医疗状况 <> 程序,以得出关键医疗信息。
- 带有标签/注释的大量数据在交付时也被去识别化。
我们与 Shaip 的合作极大地推进了我们在医疗保健领域的环境技术和对话式人工智能项目。 他们在创建和转录合成医疗保健对话方面的专业知识提供了坚实的基础,展示了合成数据在克服监管挑战方面的潜力。 与 Shaip 一起,我们克服了这些障碍,现在距离实现直观医疗保健解决方案的愿景又近了一步。