医疗数据科学家和分析师在工作中潜意识中的视觉效果包括整齐组织的电子表格、算法、处理数据的编程语言以及生成丰富多彩的图形和图表的可视化工具。等等。然而,这远非现实。
事实上,数据科学家每天都要处理一个问题——非结构化数据。大数据热潮极大地影响了医疗保健行业。报告显示,临床设备、可穿戴设备、 电子健康记录(EHR)等等,都导致了大量数据的产生。
事实上,统计数据显示,医疗保健行业几乎占 占整个数据量的 30% 生成的数据量巨大。此外,平均每家医院每年会产生超过 50 PB 的数据。然而,问题在于,生成的数据中 80% 以上都是非结构化的。
它是什么?它如何影响数据驱动的决策、突破性革命以及医疗保健研发和创新?我们将在本文中找到答案。
结构化数据和非结构化数据:同一胶囊的两半
要理解这两种不同类型的数据,我们必须认识到,每次采取医疗保健特定行动时都会生成医疗保健数据。这可以是医生开出纸质处方之类的模拟数据,也可以是可穿戴设备提供的血压报告之类的数字化和即时数据。
生成的每个数据都属于这两个类别之一。现在,让我们理解这两个类别的含义。
医疗保健中的结构化数据
任何简单、组织整齐、易于访问且格式标准化的数据都构成结构化数据。结构化数据的主要特征包括:
- 通用或统一格式 正确标注姓名、日期、医疗代码等
- 互操作性其标准化为整个医疗保健利益相关者使用这些数据满足其需求铺平了道路
- 可查找性和可处理性 促进临床决策、参考、报告等
结构化数据示例
临床和医学代码 | ICD 和 CPT 代码、实验室结果报告 |
人口统计信息 | 患者姓名、年龄、出生日期、性别、地区等 |
身体测量和生命体征 | 身高、体重、心率、体温等 |
药物 | 处方药、剂量、服用时间表、过敏等 |
医疗保健中的非结构化数据
任何非标准格式、位于可访问位置或无法处理的数据都属于非结构化数据类别。不幸的是,在医疗保健领域,产生的非结构化数据量超过了其同类数据。
如果结构化数据揭示了症状,那么非结构化数据则会揭示潜在的原因和其他细微差别。为了更好地理解非结构化数据,我们需要看看现实世界的例子。
非结构化数据示例
医学笔记 | 离线医疗记录,例如医疗保健专家记录的处方。 |
医学影像数据 | MRI、CT 或超声波扫描仪等临床设备生成的任何图像 |
视听数据 | 患者咨询、访谈或外科手术的音频、视频或记录数据部分 |
患者生成的数据 | 可从可穿戴数据集、口头传达的信息和类似数据中获得 |
社交媒体和通讯数据 | 如 患者反馈分析 患者咨询或医疗专家上传的信息、交换的电子邮件、发送和接收的消息等 |
遗传数据 | 了解个人 DNA 报告和分析,可以检测出遗传性疾病 |
从行动到洞察:如何转换和利用非结构化数据来辅助临床决策
作为无数种非结构化数据来源的技术本身也为我们提供了解读这些数据的解决方案和技术。通过利用人工智能 (AI)、机器学习 (ML) 和分析等新兴技术,我们不仅可以组织这种数据类型,还可以理解它以获得可付诸行动的见解。
让我们看看这是如何实现的。
在医疗保健领域利用自然语言处理 (NLP)
顾名思义,这项技术使计算机能够理解人类语言,包括我们通过语音、视听、文本等各种方式进行交流。借助机器学习模型,我们现在可以处理大量非结构化数据并提取关键见解,而这在其他情况下是不可能实现的。
简单来说,NLP 不仅可以读取和理解医生的笔迹,还可以对其进行处理以发现被忽视的方面。此外,它还可以解析数小时的视频或音频内容,并根据需要和规定组织数据以供外行使用。
医学中的预测分析
如果我们必须提炼实施数据科学技术的本质,那么可以归结为三个方面:
- 了解指示性结果的数据
- 了解具有指示性结果的数据并推荐解决方案
- 理解并推荐解决方案并预测未来可能发生的事件和结果
这三者构成 描述性、规定性和预测性 分析。
在医疗保健领域,预测分析可以改变生活,因为它可以指出未来极有可能出现的结果。 医疗保健中的机器学习 让这些概念成为现实。借助预测分析,医学影像数据可以在考虑生活方式、年龄、人口统计等因素后准确预测良性肿瘤是否会转变为恶性肿瘤。
同样,通过对基因组数据的准确分析,预测分析可以帮助判断一个人是否有可能患上糖尿病、心脏病或阿尔茨海默氏症。这是生死攸关的分析,因为医疗专家可以推荐药物、提高认识或建议改变生活方式以预防患病风险。
当我们汇编和整理时,诊断和治疗疾病的无数途径就会打开 非结构化数据 并为其设置上下文。通过正确使用理想的技术,处理它们也是无缝的。
但是,如果您希望跳过这些步骤并拥有可立即处理的数据来训练您的医疗保健算法和解决方案,您可以联系我们。我们为您提供定制的、符合道德标准的医疗保健数据,满足您所有医疗保健特定需求。立即联系我们。