用于医疗保健 AI 的医生听写音频数据集
访问 257,977 个专业的 31 小时医学音频数据
插入您今天缺少的数据源
用于机器学习的医生口述音频数据集
我们的医疗保健去识别数据集包括 31 个不同专业的音频文件,由医生口述,描述患者的临床状况以及基于医院/临床环境中医患接触的护理计划。
现成的医师听写音频文件:
- 来自 257,977 个专业的 31 小时真实世界医疗音频数据集,用于训练医疗保健 ASR 模型
- 从电话听写 (54.3%)、数字录音机 (24.9%)、语音麦克风 (5.4%)、智能手机 (2.7%) 和未知 (12.7%) 等各种设备捕获的听写音频
- 遵循 HIPAA 的安全港指南的 PII 编辑音频和成绩单
按性别划分的医疗音频数据
其他面条 | 患者音频文件(播放时间以小时为单位) | 音频文件总数 |
---|---|---|
合计 | 257,977 | 5,172,766 |
(男) | 58,850 | 2,444,910 |
(女) | 113,406 | 1,290,900 |
不明 | 85,721 | 1,436,956 |
按专业划分的医疗音频数据
其他面条 | 患者音频文件(播放时间以小时为单位) | 音频文件总数 |
---|---|---|
疼痛医学 | 1 | 11 |
足科手术 | 4 | 24 |
整形外科 – 专业 | 13 | 183 |
医师助理。 | 6 | 38 |
物理治疗师 | 114 | 1713 |
物理医学与康复 | 1347 | 23523 |
儿科 | 877 | 9271 |
小儿外科 | 2 | 23 |
儿科专科 | 35 | 682 |
小儿肺病学 | 4 | 40 |
小儿牙科 | 15 | 420 |
病理 | 1143 | 43462 |
聚苯胺 | 10760 | 145960 |
足疗 | 892 | 12056 |
疼痛治疗 | 2 | 30 |
耳鼻喉科 | 995 | 19548 |
骨科 | 310 | 5566 |
骨科 | 4849 | 145053 |
骨科与运动医学 | 149 | 3165 |
口腔外科 | 1 | 13 |
口腔颌面外科 | 1 | 8 |
眼科 | 609 | 19299 |
手术护理 | 0 | 5 |
肿瘤科及癌症 | 6816 | 82300 |
职业理疗师 | 8 | 68 |
手术 | 14431 | 236788 |
伤口护理 | 15 | 211 |
血管/一般 | 9 | 268 |
血管外科 | 19 | 156 |
泌尿外科 | 3170 | 96934 |
上消化道手术 | 4 | 58 |
不明 | 42269 | 748054 |
创伤和骨科 | 140 | 1308 |
移植 | 3 | 32 |
胸外科 | 4 | 37 |
胸科医学 | 5 | 27 |
外科专科 | 22 | 290 |
外科医师助理 | 0 | 3 |
职业医学 | 79 | 763 |
运动药物 | 3 | 49 |
言语治疗 | 29 | 327 |
风湿病 | 13 | 124 |
住院医师 | 46 | 641 |
康复训练 | 2515 | 30078 |
放射线学 | 10962 | 630983 |
与肺部有关的 | 3809 | 64368 |
心理治疗(专业) | 50 | 229 |
精神病 | 8871 | 70269 |
初级保健就读 | 1 | 7 |
预防医学 | 21 | 191 |
牙科 | 55 | 1233 |
一般用途总体评估 | 26 | 313 |
胃肠病学 | 3127 | 62158 |
家庭实践 | 262 | 2498 |
家庭护士执业者 | 424 | 9018 |
家庭医学科 | 13639 | 263480 |
内分泌 | 219 | 3212 |
急诊室专家 | 30 | 378 |
紧急灾难 | 3675 | 62256 |
ED医师助理 | 0 | 70 |
耳鼻喉 | 51 | 658 |
诊断放射学 | 255 | 7591 |
皮肤科 | 148 | 3474 |
一般牙科诊所 | 2 | 25 |
重症监护 | 707 | 9645 |
临床生理学 | 50 | 160 |
临床血液学 | 0 | 2 |
心胸外科 | 1 | 10 |
心胸 | 17 | 122 |
心脏病 | 67504 | 1566721 |
亚太广播电台 | 163 | 1693 |
麻醉药 | 1 | 9 |
麻醉学 | 677 | 22280 |
过敏和免疫学 | 1152 | 22202 |
事故和紧急情况 | 9 | 359 |
IH-工业健康 | 73 | 945 |
产科/妇科 | 2424 | 42739 |
执业护士 - 家庭 | 9 | 113 |
护士执业 | 81 | 432 |
神经外科 | 86 | 755 |
神经内科 | 1476 | 17786 |
神经/脑外伤 | 173 | 1157 |
肾脏病学 | 2431 | 39821 |
药物 | 5 | 122 |
医学肿瘤学 | 16 | 67 |
内科、肺科、重症医学、睡眠医学 | 5 | 102 |
内科和肾内科 | 15 | 111 |
内科 | 42604 | 623072 |
合计 | 257,977 | 5,172,766 |
Hospitalist | 99 | 1493 |
临终关怀和姑息医学 | 4 | 41 |
他 | 0 | 19 |
血液学 – 肿瘤学 | 22 | 394 |
妇科 | 4 | 25 |
GI | 55 | 550 |
老年医学 | 461 | 5323 |
普通外科 | 237 | 2220 |
普通外科医生 | 27 | 893 |
普通精神病学 | 3 | 36 |
一般用药 | 30 | 327 |
按设备分类的医疗音频数据
其他面条 | 患者音频文件(播放时间以小时为单位) | 音频文件总数 |
---|---|---|
合计 | 257,977 | 5,172,766 |
苹果手机 | 666 | 32,382 |
数字录音机 | 1,659 | 22,377 |
混合型 | 69,818 | 1,408,679 |
智能手机 | 51,533 | 1,306,405 |
语音麦克风 | 10,329 | 257,730 |
电话听写 | 120,867 | 2,071,557 |
不明 | 3,104 | 73,636 |
我们处理所有类型的数据许可,即文本、音频、视频或图像。 数据集由用于 ML 的医学数据集组成:医师听写数据集、医师临床笔记、医学对话数据集、医学转录数据集、医患对话、医学文本数据、医学图像 - CT 扫描、MRI、超声(收集的基础定制要求) .
不能找到你想要的?
正在收集所有数据类型的新的现成医疗数据集
立即联系我们,免除您的医疗培训数据收集后顾之忧
常见问题
1.什么是医生口述音频数据?
医生口述音频数据包括医生在会诊或医院就诊期间描述患者的临床状况、治疗计划或病史的音频文件。
2.为什么医生口述音频数据对 AI/ML 项目很重要?
这些数据对于训练语音识别、自然语言处理 (NLP) 和临床文档自动化领域的 AI 模型至关重要。它有助于构建用于转录、分析和改进医疗文档工作流程的系统。
3. 有哪些类型的医学音频数据集?
该数据集涵盖来自 257,977 个医学专科的 31 小时真实医生口述记录。音频使用各种设备录制,包括电话、数字录音机、智能手机和语音麦克风。
4. 医疗音频数据是否经过去识别化处理?
是的,所有音频文件都经过去识别处理,删除个人身份信息 (PII),确保患者的隐私。
5. 数据集是否符合 HIPAA 和其他法规?
是的,数据集遵守 HIPAA 和安全港指南以及其他全球隐私标准。
6. 数据集可以定制吗?
是的,可以根据项目要求针对特定专业、人口统计或记录设备类型定制数据集。
7.这些数据集是否适用于大型项目?
当然。这些数据集非常庞大,包含数百万个音频文件,因此适合小型和大型 AI/ML 项目。
8. 数据如何融入AI模型?
医疗音频数据和相应的记录以标准格式提供,可以无缝集成到语音识别和自然语言处理 (NLP) 模型中。
9.数据质量如何保证?
音频数据经过严格的质量检查,并由领域专家验证注释以确保准确性和可靠性。
10. 这些数据集是否适用于大型人工智能项目?
费用取决于数据量、定制化程度和项目范围等因素。请您填写“联系我们”表格,告知您的具体需求,以便我们为您提供最优报价。
11. 这些数据集的交付时间表是什么?
交付时间表根据项目的规模和复杂性而有所不同,但其结构是为了有效地满足最后期限。
12.医生口述音频数据集如何改善医疗保健AI?
这些数据集增强了人工智能在自动化临床文档、提高转录准确性以及帮助医疗保健提供者做出更好决策方面的能力。