开放数据集
发现可帮助您训练 ML 模型的开源数据集
帮助您开始使用 AI/ML 模型的开源数据集
您的 AI 和 ML 模型的输出与您用来训练它的数据一样好 - 因此您应用于数据聚合以及标记和识别该数据的精度非常重要!
因此,如果您想开始一项新的 AI/ML 计划,现在您很快就会意识到,寻找高质量的训练数据将是您项目中更具挑战性的方面之一,因为高质量的数据集是保持 AI/机器学习引擎正在运行。 我们积累了一份开放数据集列表,可以免费使用和训练您未来的 AI/ML 模型。
专业化 | 数据类型 | 数据集名称 | 行业/部门 | 注释/用例 | 描述 | 链接 |
---|---|---|---|---|---|---|
NLP | 文本 | 亚马逊评论 | 电子商务 | 情感分析 | 过去 35 年的 18 万条评论和评级,以纯文本形式包含用户和产品详细信息。 | 链接 |
NLP | 文本 | 维基百科链接数据 | 一般用途总体评估 | 超过 4 百万。 文章包含 1.9 亿。 由单词和短语以及段落组成的单词。 | 链接 | |
NLP | 文本 | 斯坦福情绪树库 | 娱乐 | 情感分析 | 来自烂番茄的超过 10,000 条评论的 HTML 文件格式的情感注释数据集 | 链接 |
NLP | 文本 | Twitter 美国航空公司情绪 | 航空公司 | 情感分析 | 2015 年美国航空公司的推文分为正面、负面和中性色调 | 链接 |
CV | 视频、图片 | UMDfaces 数据集 | 一般用途总体评估 | 人脸识别 | 包含来自 367,000 多个主题的超过 8,000 张人脸的带注释的数据集,包括静止图像和视频图像。 | 链接 |
CV | 图片 | 影像网 | 一般用途总体评估 | 超过 14 百万的数据集。 根据 WordNet 层次结构组织的各种文件格式的图像。 | 链接 | |
CV | 图片 | 谷歌的开放图片 | 一般用途总体评估 | 9 百万。 用于对来自 6,000 多个类别的公共图像进行分类的 URL。 | 链接 | |
NLP | 文本 | MIMIC重症监护数据库 | 医疗保健 | 具有来自 40,000 名重症监护患者的去识别化数据的计算生理学数据集。 数据集包含人口统计、生命体征、药物等信息。 | 链接 | |
CV | 图片 | 美国国家旅游局 | 旅游业 | 提供来自旅游业的广泛照片和值得信赖的数据库,涵盖出入境旅游和国际旅游信息等主题。 | 链接 | |
NLP | 文本 | 交通部 | 旅游业 | 旅游数据集,包括国家公园、司机登记、桥梁和铁路信息等。 | 链接 | |
NLP | 音频 | Flickr 音频字幕语料库 | 一般用途总体评估 | 来自 40 张照片的超过 8,000 条语音字幕,专为无监督语音模式而设计 | 链接 | |
NLP | 音频 | 语音命令数据集 | 一般用途总体评估 | 语音识别、音频注释 | 千人千言万语,构建基础语音界面。 | 链接 |
NLP | 音频 | 环境音频数据集 | 一般用途总体评估 | 包含事件声音表和声学场景表的环境音频数据集。 | 链接 | |
NLP | 文本 | COVID-19开放研究数据集 | 医疗保健 | 医疗人工智能 | 一个研究数据集,包含 45,000 篇关于 COVID-19 和冠状病毒家族的学术文章。 | 链接 |
CV | 图片 | Waymo打开数据集 | 汽车 | Waymo 发布的最多样化的自动驾驶数据集 | 链接 | |
CV | 图片 | 标签 | 公共政府 | 可通过 Labelme Matlab 访问的大量带注释的图像 | 链接 | |
CV | 图片 | 斯坦福狗数据集 | 一般用途总体评估 | 超过 20,500 多张图像分类为 120 种不同犬种的图像集 | 链接 | |
CV | 图片 | 室内场景识别 | 一般用途总体评估 | 场景识别 | 一个特定的数据集,由 15620 个室内类别的 67 张图像组成,用于构建场景识别模型 | 链接 |
CV | 图片 | 视觉质量保证 | 一般用途总体评估 | 一个数据集,其中包含与 265,016 张照片相关的开放式问题,这些问题需要理解视觉和语言理解才能做出回应。 | 链接 | |
NLP | 文本 | 多域情感分析数据集 | 电子商务 | 情感分析 | 包含来自亚马逊的产品评论的数据集 | 链接 |
NLP | 文本 | IMDB评论 | 娱乐 | 情感分析 | 包含用于情感分析的 25000 条影评的数据集 | 链接 |
NLP | 文本 | 博主语料库 | 一般用途总体评估 | 关键字分析 | 包含来自 blogger.com 的 681,288 篇博客文章的数据集,其中包含至少 200 次出现的广泛使用的英语单词。 | 链接 |
NLP | 文本 | 杰帕迪 | 一般用途总体评估 | 聊天机器人培训 | 包含超过 200,000 个问题的数据集,可用于训练机器学习模型以智能自动响应 | 链接 |
NLP | 文本 | 英语垃圾短信收集 | 电信 | 垃圾邮件识别 | 包含 5,574 条英文短信的垃圾邮件数据集 | 链接 |
NLP | 文本 | Yelp评论 | 一般用途总体评估 | 情感分析 | Yelp 发布的评论超过 5 万的数据集 | 链接 |
NLP | 文本 | UCI 的垃圾邮件库 | 企业 | 垃圾邮件识别 | 大型垃圾邮件数据集,可用于垃圾邮件过滤。 | 链接 |
CV | 视频、图片 | 伯克利 DeepDrive BDD100k | 汽车 | 自主车辆 | 最大的自动驾驶 AI 数据集之一,包含来自纽约和旧金山地区一天中不同时间的 1,100 多个视频中的 100,000 小时驾驶体验。 | 链接 |
CV | 视频 | 逗号 | 汽车 | 自主车辆 | 7 小时高速公路驾驶数据集,包含汽车速度、加速度、转向角和 GPS 坐标信息 | 链接 |
CV | 视频、图片 | 城市景观数据集 | 汽车 | 自动驾驶汽车语义标签 | 从 5,000 个不同城市记录的立体视频序列中包含 20,000 个像素级注释的数据集以及更大的 50 个弱注释帧 | 链接 |
CV | 图片 | KUL 比利时交通标志数据集 | 汽车 | 自主车辆 | 来自法兰德斯地区的 10000 多个交通标志注释基于来自比利时各地的物理上不同的交通标志。 | 链接 |
CV | 图片 | LISA:智能与安全汽车实验室,加州大学圣地亚哥分校数据集 | 汽车 | 自主车辆 | 包含交通标志、车辆检测、交通灯和轨迹模式的丰富数据集。 | 链接 |
CV | 图片 | CIFAR-10 | 一般用途总体评估 | 物体识别 | 用于对象识别的数据集由 50,000 张图像和 10,000 张测试图像(即 60,000 张 32×32 彩色图像,10 类)组成。 | 链接 |
CV | 图片 | 时尚MNIST | 时尚 | 一个图像数据集,包含 60,000 个示例和 10,000×28 灰度图像中的 28 个示例的测试集,与来自 10 个类别的标签相关联。 | 链接 | |
CV | 图片 | IMDB-Wiki 数据集 | 娱乐 | 人脸识别 | 带有性别和年龄等标签的大型面部图像数据集。 在总共 523,051 张人脸图像中,460,723 张图像来自 IMDB 的 20,284 位名人和维基百科的 62,328 位名人。 | 链接 |
CV | 视频 | 动力学-700 | 一般用途总体评估 | 对于每个动作类,高质量数据集由 650,000 个视频剪辑组成,包括 700 个人类动作类和至少 600 个视频剪辑。 在这里,每个剪辑持续 10 秒左右。 | 链接 | |
CV | 图片 | 可可女士 | 一般用途总体评估 | 对象检测、分割 | 该数据集包含 328k 个图像,总共有 2.5 万个实例和 91 个对象图像,用于训练大规模对象检测、分割和数据字幕相关的 ML 模型。 | 链接 |
CV | 图片 | MPII 人体姿势数据集 | 一般用途总体评估 | 数据集中包含大约 25 张照片,其中包含超过 40 个带有注释身体关节的个体,用于阐明人体姿势估计。 总的来说,数据集涵盖了 410 项人类活动,每个图像都提供了一个活动标签。 | 链接 | |
CV | 图片 | 打开图像 | 一般用途总体评估 | 对象位置注释 | 包含大约 9 百万张图像的图像数据集,带有图像级标签、对象边界框、对象分割等。该数据集也包含 16 百万张。 600 万幅图像上 1.9 个对象类的边界框。 | 链接 |
CV | 视频、图片 | Argo,美国 Argo | 汽车 | 边界框、光流、行为标签、语义标签、车道标记 | 自动驾驶数据集,包含具有几何和语义元数据的高清地图,即车道中心线、车道方向和可行驶区域。 该数据集用于训练 ML 模型,以制定更准确的感知算法,这将有助于自动驾驶车辆安全导航。 | 链接 |
CV | 视频 | 博世小型交通灯,博世北美研究部 | 汽车 | 边界框 | 由 13427 张分辨率为 1280*720 的摄像头图像组成的数据集,用于构建基于视觉的交通灯检测系统。 该数据集有超过 24000 个带注释的交通灯。 | 链接 |
CV | 视频 | Brain4Cars,美国康奈尔大学 | 汽车 | 行为标签 | 包含一系列机舱传感器(摄像头、触觉传感器、智能设备等)的数据集,以提取有关驾驶员警觉性的有用统计数据。 我们的算法可能会检测到昏昏欲睡或分心的驾驶员,并增强必要的警报以改善保护。 | 链接 |
CV | 图片 | CULane,由中国大学。 香港,北京,中国 | 汽车 | 车道标记 | 关于交通车道检测的计算机视觉数据集,由 55 小时的视频组成,其中提取了 133,235 个(88880 个训练集、9675 个验证集和 34680 个测试集)帧。 它由安装在北京不同司机驾驶的六辆不同车辆上的摄像头收集。 | 链接 |
CV | 视频 | 戴维斯,由大学。 苏黎世联邦理工学院 ¨ 苏黎世,德国,瑞士 | 汽车 | 使用 DAVIS 事件+帧相机的端到端车辆驾驶训练数据集。 转向、油门、GPS 等汽车数据用于评估汽车应用程序的帧和事件数据的融合。 | 链接 | |
CV | 视频 | DBNet,上海交通大学,厦门大学,中国 | 汽车 | 点云、激光雷达 | 真实世界的 1000 公里驾驶数据,包括对齐的视频、点云、GPS 和驾驶员行为,用于深入研究驾驶行为。 | 链接 |
CV | 视频 | Dr(eye)ve,由大学。 摩德纳和雷焦艾米利亚,摩德纳,意大利 | 汽车 | 行为标签 | 数据集包含 74 个视频序列,每个序列 5 分钟,注释超过 500,000 帧。 该数据集包括地理参考位置、行驶速度、路线,还标记驾驶员注视点及其时间整合,提供特定于任务的地图。 | 链接 |
CV | 视频 | ETH Pedestrian (2009),苏黎世联邦理工学院,瑞士苏黎世 | 一般用途总体评估 | 边界框 | 包含 74 个视频序列的数据集,每个序列 5 分钟,注释超过 500,000 帧。 该数据集提供地理参考位置、行驶速度、方向,还为驾驶员及其时间整合标记注视注视,包括特定任务的地图。 | 链接 |
CV | 视频 | 福特 (2009),由大学。 美国密歇根州密歇根州 | 汽车 | 边界框, , LiDAR | 由配备 Velodyne 3D 激光雷达扫描仪、两个推扫式前视 Rieg 激光雷达、技术和消费者惯性测量单元 (IMU) 以及 Point Grey Ladybug3 全向摄像头系统的自动陆地车辆编译的数据集。 | 链接 |
CV | 视频 | HCI 挑战立体声,博世公司研究部,德国希尔德斯海姆 | 一般用途总体评估 | 来自捕获的视频场景的数百万帧数据集,包括各种天气条件、多层运动和深度; 城市和农村等情况。 | 链接 | |
CV | 视频 | JAAD,约克大学,乌克兰,加拿大 | 汽车 | 边界框,行为标签 | “JAAD 是一个用于研究自动驾驶背景下联合注意力的数据集。重点是行人和司机在交叉路口的行为以及影响他们的因素。为此,JAAD 数据集提供了一个包含丰富注释的 346 个短视频集合从北美和东欧多个地点的超过 5 小时驾驶镜头中提取的剪辑(10-240 秒长)。带有遮挡标签的边界框用于所有行人,使该数据集适用于行人检测。行为注释指定行人的行为与驾驶员互动或需要驾驶员注意。对于每个视频,都有几个标签(天气、位置等)和带时间戳的行为标签(例如停止、行走、寻找等)。此外,人口统计属性列表是为每个行人提供(例如年龄、性别、运动方向等)以及每帧中可见交通场景元素(例如停车标志、交通信号等)的列表。” | 链接 |
CV | 图片 | LISA交通标志,由大学。 加利福尼亚州,圣地亚哥,美国 | 汽车 | 边界框 | 包含视频和带注释的帧的数据集集,其中包含美国交通标志。 它分两个阶段发布,一个只有图片,一个有图片和视频。 | 链接 |
CV | 图片 | Mapillary Vistas,由 Mapillary AB 提供,全球 | 汽车 | 语义标签 | 一个街道级摄影数据集,用于通过像素精确和特定于实例的人类注释来解释世界各地的街景。 | 链接 |
CV | 视频、图片 | Semantic KITTI,德国卡尔斯鲁厄波恩大学 | 汽车 | 边界框、语义标签、车道标记 | 包含所有 Odometry Benchmark 序列的语义注释的数据集。 该数据集注释了各种类型的移动和非移动交通:包括汽车、自行车、自行车、行人和骑自行车的人,允许研究场景中的对象。 | 链接 |
CV | 视频 | 斯坦福轨道,美国斯坦福大学 | 汽车 | 目标检测/分类 LiDAR、GPS、代码 | 一个包含 14,000 个标记对象轨迹的数据集,由 Velodyne HDL-64E S2 LIDAR 在自然街道场景中观察到,可用于训练机器学习模型以进行 3D 对象识别。 | 链接 |
CV | 视频、图片 | Boxy 数据集,由美国博世提供 | 汽车 | 边界框/车辆检测 | 包含 2 万辆带注释的车辆的车辆检测数据集,用于训练和分析高速公路上自动驾驶汽车的目标识别策略。 | 链接 |
CV | 视频 | TME 高速公路,由捷克技术大学设计,意大利北部 | 汽车 | 边界框 | 一个包含 28 个剪辑的数据集,总共 27 分钟,分为 30,000 多个车辆注释帧。 注释是使用来自激光扫描仪的数据半自动生成的。 该数据收集涉及可变交通场景、车道数量、道路曲率和照明,涵盖了完整采集的大部分条件。 | 链接 |
CV | 视频 | 无人监督的美洲驼,由美国博世 | 汽车 | 车道标线、激光雷达 | 无监督美洲驼数据集通过生成高清自动驾驶地图(包括基于激光雷达的车道标记)进行注释。 自动驾驶汽车可以与这些地图对齐,车道标记被投影到相机框架中。 通过最小化已经观察到的和预测的图像标记之间的差异来优化 3D 投影。 | 链接 |
NLP | 音频 | Facebook AI 多语言 LibriSpeech (MLS) | 一般用途总体评估 | 音频注释/语音识别 | Facebook AI 多语言 LibriSpeech (MLS) 是一个大规模开源数据集,旨在帮助推进自动语音识别 (ASR) 的研究。 MLS 提供超过 50,000 小时的 8 种语言音频:英语、德语、荷兰语、法语、西班牙语、意大利语、葡萄牙语和波兰语。 | 链接 |