高质量医疗音频数据集,助力打造更智能的 AI 模型
我们去识别化的医疗保健数据集包含来自 31 个不同专业的音频文件,由医生精心录制。这些录音详细描述了患者的临床状况和护理计划,这些内容源自医院和临床环境中真实的医患互动。该数据集完全符合隐私法规,是训练高级医疗保健 AI 模型的理想选择。
| 其他面条 | 患者音频文件(播放时间以小时为单位) | 音频文件总数 |
|---|---|---|
| 合计 | 257,977 | 5,172,766 |
| (男) | 58,850 | 2,444,910 |
| (女) | 113,406 | 1,290,900 |
| 未知 | 85,721 | 1,436,956 |
| 其他面条 | 患者音频文件(播放时间以小时为单位) | 音频文件总数 |
|---|---|---|
| 合计 | 257,977 | 5,172,766 |
| 事故和紧急情况 | 9 | 359 |
| 过敏和免疫学 | 1152 | 22202 |
| 麻醉学 | 677 | 22280 |
| 麻醉药 | 1 | 9 |
| 亚太广播电台 | 163 | 1693 |
| 心脏病 | 67504 | 1566721 |
| 心胸 | 17 | 122 |
| 心胸外科 | 1 | 10 |
| 临床血液学 | 0 | 2 |
| 结肠和直肠手术 | 7 | 162 |
| 结直肠外科医生 | 45 | 984 |
| 重症监护药 | 220 | 4328 |
| 牙医 | 1 | 65 |
| 皮肤科 | 771 | 23014 |
| 营养师 | 44 | 736 |
| 急救药物 | 4911 | 112518 |
| 内分泌 | 205 | 7052 |
| 耳鼻喉科 | 7010 | 175477 |
| 家庭医学 | 1767 | 106733 |
| 胃肠病学 | 1458 | 40365 |
| 一般用药 | 140 | 5757 |
| 一般做法 | 41 | 1318 |
| 普通外科 | 2038 | 71744 |
| 妇科 | 3269 | 103370 |
| 手外科 | 2 | 45 |
| 血液学 | 258 | 8125 |
| Hospitalist | 5931 | 142529 |
| 传染病 | 493 | 14001 |
| 内科 | 15410 | 445591 |
| 介入心脏病学 | 1511 | 43035 |
| 母胎医学 | 51 | 1355 |
| 新生儿 | 1045 | 24760 |
| 肾脏病学 | 735 | 20334 |
| 神经内科 | 2269 | 63774 |
| 神经外科 | 462 | 11990 |
| 核医学 | 2 | 23 |
| 妇产科 | 3562 | 122303 |
| 肿瘤科及癌症 | 2938 | 82996 |
| 眼科 | 1316 | 41047 |
| 验光 | 33 | 1066 |
| 骨科 | 5665 | 164483 |
| 耳鼻喉科 | 3433 | 100811 |
| 病理 | 166 | 4097 |
| 小儿肺病学 | 4 | 40 |
| 儿科专科 | 35 | 682 |
| 小儿外科 | 2 | 23 |
| 儿科 | 877 | 9271 |
| 物理医学与康复 | 1347 | 23523 |
| 物理治疗师 | 114 | 1713 |
| 医师助理。 | 6 | 38 |
| 足科手术 | 4 | 24 |
| 足疗 | 473 | 12296 |
| 基层医疗 | 651 | 20120 |
| 精神病 | 2120 | 60381 |
| 肺病 | 1290 | 35290 |
| 放射肿瘤学 | 239 | 6558 |
| 放射线学 | 3345 | 99641 |
| 风湿病 | 293 | 8729 |
| 重症监护病房 | 1 | 25 |
| 言语病理学 | 3 | 28 |
| 外科肿瘤科 | 217 | 5758 |
| 胸外科 | 107 | 3336 |
| 移植手术 | 61 | 1535 |
| 泌尿外科 | 3170 | 96934 |
| 上消化道手术 | 4 | 58 |
| 血管外科 | 19 | 156 |
| 血管/一般 | 9 | 268 |
| 伤口护理 | 15 | 211 |
| 其他面条 | 患者音频文件(播放时间以小时为单位) | 音频文件总数 |
|---|---|---|
| 合计 | 257,977 | 5,172,766 |
| 苹果手机 | 666 | 32,382 |
| 数字录音机 | 1,659 | 22,377 |
| 混合型 | 69,818 | 1,408,679 |
| 智能手机 | 51,533 | 1,306,405 |
| 语音麦克风 | 10,329 | 257,730 |
| 电话听写 | 120,867 | 2,071,557 |
| 未知 | 3,104 | 73,636 |
我们处理所有类型的数据许可,即文本、音频、视频或图像。 数据集由用于 ML 的医学数据集组成:医师听写数据集、医师临床笔记、医学对话数据集、医学转录数据集、医患对话、医学文本数据、医学图像 - CT 扫描、MRI、超声(收集的基础定制要求) .
不能找到你想要的?
正在收集所有数据类型的新的现成医疗数据集
立即联系我们,免除您的医疗培训数据收集后顾之忧
常见问题
1.什么是医生口述音频数据?
医生口述音频数据包括医生在会诊或医院就诊期间描述患者的临床状况、治疗计划或病史的音频文件。
2.为什么医生口述音频数据对 AI/ML 项目很重要?
这些数据对于训练语音识别、自然语言处理 (NLP) 和临床文档自动化领域的 AI 模型至关重要。它有助于构建用于转录、分析和改进医疗文档工作流程的系统。
3. 有哪些类型的医学音频数据集?
该数据集涵盖来自 257,977 个医学专科的 31 小时真实医生口述记录。音频使用各种设备录制,包括电话、数字录音机、智能手机和语音麦克风。
4. 医疗音频数据是否经过去识别化处理?
是的,所有音频文件都经过去识别处理,删除个人身份信息 (PII),确保患者的隐私。
5. 数据集是否符合 HIPAA 和其他法规?
是的,数据集遵守 HIPAA 和安全港指南以及其他全球隐私标准。
6. 数据集可以定制吗?
是的,可以根据项目要求针对特定专业、人口统计或记录设备类型定制数据集。
7.这些数据集是否适用于大型项目?
当然。这些数据集非常庞大,包含数百万个音频文件,因此适合小型和大型 AI/ML 项目。
8. 数据如何融入AI模型?
医疗音频数据和相应的记录以标准格式提供,可以无缝集成到语音识别和自然语言处理 (NLP) 模型中。
9.数据质量如何保证?
音频数据经过严格的质量检查,并由领域专家验证注释以确保准确性和可靠性。
10. 这些数据集是否适用于大型人工智能项目?
费用取决于数据量、定制化程度和项目范围等因素。请您填写“联系我们”表格,告知您的具体需求,以便我们为您提供最优报价。
11. 这些数据集的交付时间表是什么?
交付时间表根据项目的规模和复杂性而有所不同,但其结构是为了有效地满足最后期限。
12.医生口述音频数据集如何改善医疗保健AI?
这些数据集增强了人工智能在自动化临床文档、提高转录准确性以及帮助医疗保健提供者做出更好决策方面的能力。