许可用于 AI 和 ML 模型的高质量医疗保健/医疗数据
现成的医疗保健/医疗数据集可快速启动您的医疗保健 AI 项目
插入您今天缺少的数据源
用于机器学习的医疗和保健数据集
医师听写音频数据
我们的去识别化医疗保健数据集包括 31 个不同的专业音频文件,由医生口述,根据临床环境中医患接触描述患者的临床状况和护理计划。
现成的医师听写音频文件:
- 来自 257,977 个专业的 31 小时真实世界医师听写语音数据集,用于训练医疗保健语音模型
- 从电话听写 (54.3%)、数字录音机 (24.9%)、语音麦克风 (5.4%)、智能手机 (2.7%) 和未知 (12.7%) 等各种设备捕获的听写音频
- 遵循 HIPAA 的安全港指南的 PII 编辑音频和成绩单

转录病历
病历转录是指医患谈话的转录、医疗报告和医疗评估的转录。 它有助于绘制患者的病史以供将来就诊,也可以作为医生的参考点。 它有助于评估患者目前的状况并提出合适的治疗建议。
现成的转录医疗记录:
- 转录来自 257,977 个专业的 31 小时真实世界医师听写,以训练医疗保健语音模型
- 从各种工作类型转录的医疗记录,如手术报告、出院总结、会诊记录、入院记录、ED 记录、临床记录、放射学报告等。
- 遵循 HIPAA 的安全港指南的 PII 编辑音频和成绩单
电子健康记录(EHR)
电子健康记录或 EHR 是包含患者病史、诊断、处方、治疗计划、疫苗接种或免疫接种日期、过敏、放射学图像(CT 扫描、MRI、X 射线)和实验室测试等的医疗记录。
现成的电子健康记录 (EHR):
- 5.1 个专业的 31 万个以上记录和医生音频文件
- 用于训练临床 NLP 和其他 Document AI 模型的真实世界黄金标准病历
- 元数据信息,例如 MRN(匿名)、入院日期、出院日期、住院天数、性别、患者类别、付款人、财务类别、状态、出院处置、年龄、DRG、DRG 描述、$ 报销、AMLOS、GMLOS、风险死亡率、疾病严重程度、石斑鱼、医院邮政编码等。
- 来自美国各州和地区的医疗记录 - 东北 (46%)、南部 (9%)、中西部 (3%)、西部 (28%)、其他 (14%)
- 属于所有患者类别的医疗记录 - 住院、门诊(临床、康复、经常性、外科日间护理)、急诊。
- 属于所有患者年龄组的医疗记录 <10 岁 (7.9%)、11-20 岁 (5.7%)、21-30 岁 (10.9%)、31-40 岁 (11.7%)、41-50 岁 (10.4%) )、51-60 岁 (13.8%)、61-70 岁 (16.1%)、71-80 岁 (13.3%)、81-90 岁 (7.8%)、90 岁以上 (2.4%)
- 患者性别比例为 46%(男性)和 54%(女性)
- 遵守 HIPAA 的安全港指南的 PII 编辑文档
CT 扫描图像数据集
医生使用 CT 扫描图像来诊断和检测患者体内的异常或正常状况。 在计算机图像处理诊断中,CT扫描图像经历了复杂的阶段,即采集、图像增强、重要特征提取、感兴趣区域(ROI)识别、结果解释等。
Shaip 提供对研究和医学诊断至关重要的高质量 CT 扫描图像数据集。 我们的数据集包括从真实患者收集并使用最先进技术处理的数千张高分辨率图像。 这些数据集旨在帮助医疗专业人员和研究人员提高对各种医疗状况的知识和理解,包括癌症、神经系统疾病和心血管疾病。
MRI 图像数据集
计算机视觉模型旨在从数字图像和视频中获取有意义的信息。 它允许广泛使用医疗保健图像数据来提供更好的疾病诊断、治疗和预测。 它可以使用图像序列、纹理、形状和轮廓信息以及过去的知识中的上下文来生成有助于提高人类理解的 3D 和 4D 信息。 与 CT 扫描一样,MRI 也用于诊断和检测患者体内的异常或正常状况(即,识别身体各个部位的疾病或损伤)。
Shaip 提供来自真实患者的高质量 MRI 图像数据集,并采用最先进的技术进行处理。
X 射线图像数据集
X射线检测用于验证对象的内部结构和完整性。 可以在不同位置和不同能量级别生成测试对象的 X 射线图像,以诊断和检测患者身体的异常情况。
Shaip 提供对研究和医学诊断必不可少的高质量 X 射线图像数据集。 我们的数据集包括从真实患者那里收集并使用最先进技术处理的数千张高分辨率图像。 借助 Shaip,您可以获得可靠且准确的医疗数据,以加强您的研究并改善患者的治疗效果。
不能找到你想要的?
正在收集所有数据类型的新的现成医疗数据集
立即联系我们,免除您的医疗培训数据收集后顾之忧