肿瘤学 NLP 研究的进步

肿瘤学数据精度:NLP 模型创新的许可、去标识化和注释

肿瘤学nlp

利用尖端 NLP 技术彻底改变癌症治疗

该客户是医疗保健行业的主要参与者,需要先进的 NLP 解决方案来处理大量的肿瘤病历。 作为完善肿瘤学研究的关键举措的一部分,平衡详细数据分析与严格的隐私标准的需求至关重要。 本案例研究概述了我们通过高保真数据注释、严格的去识别化实践以及自然语言处理 (NLP) 技术的应用,在 HIPAA 提供的监管框架内为增强客户的研究工作所做的贡献。

音量

数据授权+数据去ID
10 前往
肿瘤学关系
10 前往
非肿瘤领域
10 前往
在否定
10 前往
肿瘤学领域
10 前往
NER + 关系映射
10 前往

挑战

该项目需要对临床文档有细致入微的了解、精确识别医疗实体以及准确应用否定标签的能力,所有这些都在根据 HIPAA 法规保护患者隐私的安全框架内进行。 这项工作不仅需要处理大量复杂数据的技术专业知识,还需要一种在注释过程的所有阶段纳入反馈和保持质量的战略方法。

目标

服务详细说明

产品分类产品描述
全面的临床数据覆盖涵盖各种注释类型、护理环境和肿瘤亚专业,确保提供反映不同临床情况的可靠数据集。
严格去识别化确保所有带标签的记录均按照 HIPAA 的安全港方法进行去识别化,确保客户对数据隐私和安全的信心。
注释指南创建和实施标准数据注释指南,以根据 HIPAA 标准准备标签记录。
高级注释策略对 10,000 页肿瘤学相关记录进行了手动注释,重点是根据既定指南识别阴性状态和其他相关信息。
严格的品质保证达到指南中规定的质量标准

解决方案

我们的方法涉及以下关键策略:

定制肿瘤学数据集编译

从超过 5 MN EHR 的庞大档案中提取了精心挑选的数据子集,旨在满足客户对肿瘤学数据的特殊要求,重点关注基因组实体。 收集过程涉及创建肿瘤标志物、基因、变异和 TNM 阶段的详尽列表,并使用关键字搜索来查明这些数据中丰富的文档。 正则表达式用于识别一系列遗传变异和癌症阶段。 这种方法与涵盖各种文档类型、专业、护理环境和来自多个医生的数据的广泛数据覆盖相结合,确保了全面且相关的肿瘤学数据集。

肿瘤学数据集编译

严格去识别化

该流程严格遵循HIPAA的安全港去识别方法,保证了客户对数据隐私和安全的信心。 这涉及删除所有受保护的健康信息 (PHI) 并将其替换为带标签的占位符,从而保持数据的实用性,同时保护患者的机密性。

去识别化变量

产品分类子分类
名字患者姓名、医生姓名、执业护士姓名、家庭成员姓名、医疗中心名称、诊所名称、疗养院名称、公司名称、大学名称
年龄 
日期日期模式、月年模式、日月模式、日年模式、日、月、年、季节
地理位置国家、州、城市、街道、邮政编码、房间号、套房号、楼层号
ID社会安全号码、医疗记录号码、健康计划受益人号码、账号、证书/执照号码、生物识别 ID、记录 ID、登记号、车辆识别号、车牌号设备标识符和序列号
联系我们 电话号码、传真号码、电子邮件地址、网址、IP 地址

示例:

25 年 2106 月 11 日上午 00:90,202 岁的 Harry Pace 先生被送入 Forrest General Hospital 接受预定的髋关节手术,此前由他的初级保健医生 Jose Martin 医生进行咨询,并由 Kendra Reith 参与。医学博士。 在他逗留期间,他得到了玛丽·胡(Mary Hu)和苏珊·雷(Suzan Ray)的照顾,宾夕法尼亚州的查尔斯·梅兰肯(R. Charles Melancon)也接受了咨询。 他的手术在入院当天进行,非常成功,没有出现并发症。 手术后,佩斯先生被转移到二楼2室进行康复。 他的妻子艾玛·佩斯全程在场,并获得了所有必要的最新信息。 在他短暂停留期间,他的医疗记录(包括 MRN MR99062619 和账户 KV000014764)均按照他之前居住地 Gracewood Nursing Home 的标准协议进行处理。 当天晚些时候,他出院到奥克兰门诊诊所接受进一步康复治疗。 在整个过程中,所有程序均已记录并遵守保密标准。

示例:去识别化

On [日期模式],上午11:00,先生 [患者姓名],[年龄],被录取 [医疗中心名称] 进行预定的髋关节手术,此前曾咨询过他的初级保健医生 Dr. [医生姓名], 并参加了 [医生姓名] 医学博士。 在他逗留期间,他受到了 [护士执业], NP,并且 [护士执业], 注册护士,与 [医生姓名], PA,也在咨询中。 他的手术在入院当天进行,非常成功,没有出现并发症。 手术后,先生。 [患者姓名] 被转移到房间号。 [房间号], 楼层号 [楼层号], 为了恢复。 他的妻子,[家庭成员姓名]全程在场,并获得了所有必要的最新情况。 在他短暂停留期间,他的医疗记录,包括 MRN [病历号] 和账户 [帐号], 根据标准协议进行处理 [疗养院名称], 他以前的住所。 当天晚些时候,他出院并接受护理 [诊所名称] 以便进一步康复。 在整个过程中,所有程序均被记录并遵守保密标准。

注释指南和高级注释技术

Shaip 在标准数据注释指南的制定和实施方面发挥了重要作用,确保所有标记记录的准备一致并符合 HIPAA 标准。 此外,来自各种医疗记录的 10,000 页都经过精心注释,重点是阴性状态和其他临床相关实体(包括各种肿瘤学亚专业)的详细标签。 注释是由具有肿瘤学和数据隐私法规专业知识的专家注释者团队进行的。

复杂的注释标准

产品分类子分类
日期注释(肿瘤学)诊断日期、分期日期、发病日期、手术日期、医疗开始日期、医疗结束日期、放射开始日期、放射结束日期
疾病(肿瘤学)癌症问题、组织学、临床状态、身体部位、行为、等级、癌症分期、TNM 分期、肿瘤标志物测试、尺寸、代码
治疗(肿瘤学)癌症医学、药物剂量、频率、癌症手术、手术结果、放射方式、放射剂量
基因组学变异代码、研究的基因、方法、样本
在否定消极、可能消极、不确定、可能积极
临床NER癌症问题 - 身体部位、组织学 - 身体部位、行为 - 身体部位、癌症手术 - 关系身体部位、放射方式 - 身体部位、组织学 - 等级、癌症问题 - 维度

示例:

肿瘤学临床记录声明

肿瘤学临床记录声明

“患者 Jane Doe 于 03 年 05 月 2023 日被诊断患有 IIIB 期非小细胞肺癌 (NSCLC),特别是腺癌。 癌症位于肺右下叶。 根据TNM分期系统分类为T3N2M0,肿瘤大小为5 cm x 3 cm。 通过对肿瘤活检标本进行 PCR 分析,发现 EGFR 外显子 19 缺失。 卡铂 AUC 5 和培美曲塞 500 mg/m² 化疗于 03 年 20 月 2023 日开始,每 3 周进行一次。 体外放射治疗 (EBRT) 于 60 年 30 月 04 日开始,剂量为 01 Gy,分 2023 次。 患者的治疗正在进行中,最近的核磁共振检查没有发现脑转移的证据。 淋巴血管侵犯的可能性尚未确定,患者对完整化疗方案的耐受性仍不确定。

肿瘤学临床记录声明

肿瘤学临床记录声明

严格的品质保证

实施灵活的项目管理框架,促进有效整合客户反馈,同时坚持严格的质量标准。 执行了全面的质量保证协议,与指南保持一致,以达到必要的质量基准。 该协议以连续多轮的审查和验证为特色,确保了注释数据的准确性和可靠性。 这种细致的质量监督对于制定可靠的 NLP 解决方案至关重要,对于明智的临床决策和卓越的研究至关重要。

成果

成功交付10,000条高质量、去标识化的标签记录,为客户的NLP模型开发提供了安全且有价值的数据集。 NLP 的精心应用和对 HIPAA 去识别标准的遵守产生了高度精炼的数据集,该数据集将支持客户正在进行和未来的肿瘤学研究工作,最终旨在提高肿瘤学患者的治疗效果和护理服务效率。

该项目的成功表明我们有能力精确处理复杂的医疗数据,有助于客户实现改善患者护理结果并加快医疗创新步伐的目标。

我们与 Shaip 的合作对于提升我们在肿瘤学领域的 NLP 能力发挥了重要作用。 对 10,000 份病历的专业处理,并附有详细的否定和其他临床实体注释,表明了他们对卓越和合规性的承诺。 此外,他们对 HIPAA 等隐私标准的承诺为我们提供了宝贵的资源,以推动我们开发尖端肿瘤治疗和诊断的人工智能计划。

金色五星级

加速您的医疗保健人工智能
应用程序开发 100%