医疗保健数据集

机器学习项目的最佳开源医疗数据集

  • 全球医疗保健系统每天都会产生大量医疗数据,这些数据有可能用于机器学习应用程序。在所有行业中,数据都被视为使公司获得竞争优势的宝贵资产,医疗保健行业也不例外。

本文将简明地解决处理医疗数据时遇到的障碍,并提供可公开访问的医疗数据集的摘要。

医疗保健数据集的重要性

医疗保健数据集的重要性

医疗数据集是患者信息的集合,例如医疗记录、诊断、治疗、遗传数据和生活方式详细信息。它们在人工智能应用越来越广泛的当今世界非常重要。原因如下:

了解患者健康状况:

医疗保健数据集使医生能够全面了解患者的健康状况。例如,有关患者病史、药物和生活方式的数据可以帮助预测他们是否可能患有慢性病。这可以让医生尽早介入并为该患者制定治疗计划。

帮助医学研究:

通过研究医疗保健数据集,医学研究人员可以了解癌症患者的治疗方式以及康复情况。他们可以找到在现实世界中最有效的治疗方法。例如,通过查看生物库中的肿瘤样本和患者治疗史,研究人员可以了解特定突变和癌症蛋白对不同治疗的反应。这种数据驱动的方法有助于发现趋势,从而改善患者的治疗结果。

更好的诊断和治疗:

医生使用人工智能工具查看医疗数据集并找到重要模式。这有助于他们更好地诊断和治疗疾病。在放射学领域,人工智能可以比人类更快、更准确地发现扫描问题。这意味着医生可以更快地发现疾病并更早地开始正确的治疗。医学图像注释可以带来更快、更好的诊断,从而改善患者的健康。

帮助公共卫生举措:

想象一下一个小镇,医疗保健专家使用数据集来跟踪流感爆发。他们研究了模式并找到了受影响的区域。有了这些数据,他们开始了有针对性的疫苗接种活动和健康教育活动。这种数据驱动的方法有助于遏制流感。它展示了医疗保健数据集如何积极指导和改善公共卫生举措。

增强医学洞察力:机器学习必须探索的 19 个医学数据集

开放数据集对于任何机器学习模型的良好运行都至关重要。机器学习已经应用于生命科学、医疗保健和医学领域,并显示出良好的效果。它有助于预测疾病并了解它们的传播方式。机器学习还为我们如何正确照顾社区中的病人、老人和身体不适的人提供了想法。如果没有良好的数据集,这些机器学习模型就不可能实现。

一般和公共卫生:

  • 数据网:专注于美国的医疗保健数据,可以使用多个参数轻松搜索。这些数据集旨在提高居住在美国的个人的福祉;然而,这些信息也可能对研究或其他公共卫生领域的其他培训集有益。
  • WHO:提供以全球卫生优先事项为中心的数据集。该平台包含用户友好的搜索功能,并提供有价值的见解以及数据集,以便全面了解当前的主题。
  • 重新3数据:提供涵盖 2,000 多个研究主题的数据,分为几个广泛的领域。虽然并非所有数据集都可以免费访问,但该平台清楚地表明了结构,并允许根据费用、会员要求和版权限制等因素轻松搜索。
  • 人类死亡率数据库 提供 35 个国家的死亡率、人口数据以及各种健康和人口统计数据。
  • 冠心病综合征:儿童健康与发展研究数据集旨在调查疾病和健康的代际传播。它包含的数据集不仅用于研究基因组表达,还用于研究社会、环境和文化因素对疾病和健康的影响。
  • 默克分子活动挑战赛:提供旨在通过模拟各种分子组合之间的潜在相互作用来促进机器学习在药物发现中的应用的数据集。
  • 1000基因组计划:包含来自 2,500 个不同人群的 26 名个体的测序数据,使其成为最大的可访问基因组存储库之一。可以通过 AWS 访问这种国际合作。 (请注意,基因组项目可获得资助。)

生命科学、医疗保健和医学图像数据集:

  • 开放神经:作为一个免费开放的平台,OpenNeuro 共享广泛的医学图像,包括 MRI、MEG、EEG、iEEG、ECoG、ASL 和 PET 数据。它拥有 563 个医疗数据集,涵盖 19,187 名参与者,为研究人员和医疗保健专业人员提供了宝贵的资源。
  • 绿洲:该数据集源自影像研究开放获取系列 (OASIS),致力于免费向公众提供神经影像数据,以造福科学界。它包含 1,098 个 MR 会话和 2,168 个 PET 会话中的 1,608 个主题,为研究人员提供了丰富的信息。
  • 阿尔茨海默病神经影像计划:阿尔茨海默病神经影像计划 (ADNI) 展示了世界各地致力于确定阿尔茨海默病进展的研究人员收集的数据。该数据集包括 MRI 和 PET 图像、遗传信息、认知测试以及脑脊液和血液生物标志物的全面收集,有助于采用多方面的方法来理解这种复杂的情况。

医院数据集:

  • 提供商数据目录:访问和下载透析设施、医生实践、家庭健康服务、临终关怀、医院、住院康复、长期护理医院、提供康复服务的疗养院、医生办公室就诊费用和供应商目录等领域的综合提供商数据集。
  • 医疗保健成本和利用项目 (HCUP):创建这个全面的全国性数据库是为了识别、跟踪和分析医疗保健利用、访问、收费、质量和结果方面的国家趋势。 HCUP 中的每个医疗数据集都包含有关美国医院所有患者住院、急诊科就诊和门诊手术的就诊级别信息,为研究人员和政策制定者提供了大量数据。
  • MIMIC重症监护数据库:这个公开的医疗数据集由麻省理工学院为计算生理学目的而开发,包含来自 40,000 多名重症监护患者的未识别身份的健康数据。 MIMIC 数据集是研究重症监护和开发新计算方法的研究人员的宝贵资源。

癌症数据集:

  • CT 医学图像:该数据集旨在促进检查 CT 图像数据趋势的替代方法,以癌症患者的 CT 扫描为特色,重点关注对比度、模态和患者年龄等因素。研究人员可以利用这些数据来开发新的成像技术并分析癌症诊断和治疗的模式。
  • 癌症报告国际合作组织 (ICCR):ICCR 内的医学数据集的开发和提供是为了促进全球癌症报告的循证方法。通过标准化癌症报告,ICCR 旨在提高跨机构和国家癌症数据的质量和可比性。
  • SEER 癌症发病率:这些癌症数据由美国政府提供,根据种族、性别和年龄等基本人口统计特征进行细分。 SEER 数据集使研究人员能够调查不同人群亚组的癌症发病率和生存率,为公共卫生举措和研究重点提供信息。
  • 肺癌数据集:这个免费数据集包含 1995 年以来的肺癌病例信息。研究人员可以使用这些数据来研究肺癌发病率、治疗和结果的长期趋势,以及开发新的诊断和预后工具。

医疗保健数据的其他资源:

  • Kaggle:多功能数据集存储库 – Kaggle 仍然是各种数据集的杰出平台,不仅限于医疗保健领域。对于那些涉足不同学科或需要不同数据集进行模型训练的人来说,Kaggle 是首选资源。
  • 版(Subreddit):社区驱动的宝库 – 正确的 Reddit 子版块讨论可以成为开放数据集的金矿。对于公共数据集未解决的利基或特定查询,Reddit 社区可能会提供答案。

利用 Shaip 的优质、即用型医疗数据集加速您的医疗保健人工智能项目

医患对话数据集

我们的数据集包含医生和患者之间有关其健康和治疗计划的对话的音频文件。这些文件涵盖 31 个不同的医学专业。

包括什么

  • 257,977 小时的真实医生听写音频用于训练医疗保健语音模型
  • 来自电话、数字录音机、语音麦克风和智能手机等各种设备的音频
  • 删除个人信息的音频和文字记录,以遵守隐私法

CT 扫描图像数据集

我们为研究和医疗诊断提供一流的 CT 扫描图像数据集。我们拥有数千张来自真实患者的高质量图像,并使用最新技术进行处理。我们的数据集帮助医生和研究人员更好地了解各种健康问题,例如癌症、脑部疾病和心脏病。

数据表明,最常见的 CT 扫描是胸部 (6000) 和头部 (4350),还有大量扫描针对腹部、骨盆和其他身体部位。该表还显示,某些专门扫描,例如 CT、Covid HRCT 和血管肺扫描,主要在印度、亚洲、欧洲和其他国家进行。

电子健康记录 (EHR) 数据集

电子健康记录 (EHR) 是患者病史的数字版本。其中包括诊断、药物、治疗计划、免疫日期、过敏、医学图像(如 CT 扫描、MRI 和 X 射线)、实验室测试等信息。

我们即用型 EHR 数据集具有以下特点:

  • 涵盖 5.1 个医学专业的超过 31 万条记录和医生音频文件
  • 真实的医疗记录非常适合训练临床 NLP 和其他文档 AI 模型
  • 元数据包括匿名 MRN、入院和出院日期、住院时间、性别、患者类别、付款人、财务类别、州、出院处置、年龄、DRG、DRG 描述、报销、AMLOS、GMLOS、死亡风险、疾病严重程度、石斑鱼和医院邮政编码
  • 涵盖所有患者类别的记录:住院患者、门诊患者(临床、康复、复发、外科日间护理)和急诊
  • 包含个人身份信息 (PII) 的文档经过编辑,符合 HIPAA 安全港准则

MRI 图像数据集

我们提供优质的 MRI 图像数据集来支持医学研究和诊断。我们广泛的收藏包括来自实际患者的数千张高分辨率图像,所有图像均使用尖端方法进行处理。通过利用我们的数据集,医疗保健专业人员和研究人员可以加深对各种医疗状况的了解,最终改善患者的治疗效果。

身体各个部位的 MRI 图像数据集,其中脊柱和大脑的计数最高,各 5000 个。数据分布在印度、中亚和欧洲以及中亚地区。

X 射线图像数据集

用于研究和医学诊断的最佳质量 X 射线图像数据集。我们拥有数千张来自真实患者的高分辨率图像,并使用最新技术进行处理。借助 Shaip,您可以访问可靠的医疗数据,以改善您的研究和患者治疗结果。

X 射线数据集分布在身体各个部位,其中胸部计数最高,在中亚地区达到 1000 个。下肢和上肢总数各850只,分布于中亚和中亚欧洲地区。

社交分享