开放数据集

发现可帮助您训练 ML 模型的开源数据集

帮助您开始使用 AI/ML 模型的开源数据集

您的 AI 和 ML 模型的输出与您用来训练它的数据一样好 - 因此您应用于数据聚合以及标记和识别该数据的精度非常重要！

因此，如果您想开始一项新的 AI/ML 计划，现在您很快就会意识到，寻找高质量的训练数据将是您项目中更具挑战性的方面之一，因为高质量的数据集是保持 AI/机器学习引擎正在运行。我们积累了一份开放数据集列表，可以免费使用和训练您未来的 AI/ML 模型。

专业化	数据类型	数据集名称	行业/部门	注释/用例	产品描述	链接
NLP	文本	亚马逊评论	电子商务许可证	情感分析	过去 35 年的 18 万条评论和评级，以纯文本形式包含用户和产品详细信息。	链接
NLP	文本	维基百科链接数据	总类		超过 4 百万。文章包含 1.9 亿。由单词和短语以及段落组成的单词。	链接
NLP	文本	斯坦福情绪树库	娱乐	情感分析	来自烂番茄的超过 10,000 条评论的 HTML 文件格式的情感注释数据集	链接
NLP	文本	Twitter 美国航空公司情绪	航空公司	情感分析	2015 年美国航空公司的推文分为正面、负面和中性色调	链接
CV	图片	野外带标签的面孔	总类	人脸识别	数据集包含超过 13,000 张裁剪过的人脸和两张不同的用于人脸识别训练的图片。	链接
CV	视频、图片	UMDfaces 数据集	总类	人脸识别	包含来自 367,000 多个主题的超过 8,000 张人脸的带注释的数据集，包括静止图像和视频图像。	链接
CV	图片	影像网	总类		超过 14 百万的数据集。根据 WordNet 层次结构组织的各种文件格式的图像。	链接
CV	图片	谷歌的开放图片	总类		9 百万。用于对来自 6,000 多个类别的公共图像进行分类的 URL。	链接
NLP	文本	MIMIC重症监护数据库	健康防护		具有来自 40,000 名重症监护患者的去识别化数据的计算生理学数据集。数据集包含人口统计、生命体征、药物等信息。	链接
CV	图片	美国国家旅游局	旅游业		提供来自旅游业的广泛照片和值得信赖的数据库，涵盖出入境旅游和国际旅游信息等主题。	链接
NLP	文本	交通部	旅游业		旅游数据集，包括国家公园、司机登记、桥梁和铁路信息等。	链接
NLP	Audio	Flickr 音频字幕语料库	总类		来自 40 张照片的超过 8,000 条语音字幕，专为无监督语音模式而设计	链接
NLP	Audio	语音命令数据集	总类	语音识别、音频注释	千人千言万语，构建基础语音界面。	链接
NLP	Audio	环境音频数据集	总类		包含事件声音表和声学场景表的环境音频数据集。	链接
NLP	文本	COVID-19开放研究数据集	健康防护	医疗人工智能	一个研究数据集，包含 45,000 篇关于 COVID-19 和冠状病毒家族的学术文章。	链接
CV	图片	Waymo打开数据集	汽车行业		Waymo 发布的最多样化的自动驾驶数据集	链接
CV	图片	视觉基因组	总类	图片说明	具有超过 100K 图像详细说明的视觉知识库	链接
CV	图片	标签	公共政府		可通过 Labelme Matlab 访问的大量带注释的图像	链接
CV	图片	线圈100	总类		从多个角度（即 100 度）拍摄的 360 多个不同物体	链接
CV	图片	斯坦福狗数据集	总类		超过 20,500 多张图像分类为 120 种不同犬种的图像集	链接
CV	图片	室内场景识别	总类	场景识别	一个特定的数据集，由 15620 个室内类别的 67 张图像组成，用于构建场景识别模型	链接
CV	图片	视觉质量保证	总类		一个数据集，其中包含与 265,016 张照片相关的开放式问题，这些问题需要理解视觉和语言理解才能做出回应。	链接
NLP	文本	多域情感分析数据集	电子商务许可证	情感分析	包含来自亚马逊的产品评论的数据集	链接
NLP	文本	IMDB评论	娱乐	情感分析	包含用于情感分析的 25000 条影评的数据集	链接
NLP	文本	情感140	总类	情感分析	数据集包含 160,000 条推文，并预先删除了表情符号以提高准确性	链接
NLP	文本	博主语料库	总类	关键字分析	包含来自 blogger.com 的 681,288 篇博客文章的数据集，其中包含至少 200 次出现的广泛使用的英语单词。	链接
NLP	文本	杰帕迪	总类	聊天机器人培训	包含超过 200,000 个问题的数据集，可用于训练机器学习模型以智能自动响应	链接
NLP	文本	英语垃圾短信收集	电信	垃圾邮件识别	包含 5,574 条英文短信的垃圾邮件数据集	链接
NLP	文本	Yelp评论	总类	情感分析	Yelp 发布的评论超过 5 万的数据集	链接
NLP	文本	UCI 的垃圾邮件库	企业	垃圾邮件识别	大型垃圾邮件数据集，可用于垃圾邮件过滤。	链接
CV	视频、图片	伯克利 DeepDrive BDD100k	汽车行业	自主车辆	最大的自动驾驶 AI 数据集之一，包含来自纽约和旧金山地区一天中不同时间的 1,100 多个视频中的 100,000 小时驾驶体验。	链接
CV	视频	逗号	汽车行业	自主车辆	7 小时高速公路驾驶数据集，包含汽车速度、加速度、转向角和 GPS 坐标信息	链接
CV	视频、图片	城市景观数据集	汽车行业	自动驾驶汽车语义标签	从 5,000 个不同城市记录的立体视频序列中包含 20,000 个像素级注释的数据集以及更大的 50 个弱注释帧	链接
CV	图片	KUL 比利时交通标志数据集	汽车行业	自主车辆	来自法兰德斯地区的 10000 多个交通标志注释基于来自比利时各地的物理上不同的交通标志。	链接
CV	图片	LISA：智能与安全汽车实验室，加州大学圣地亚哥分校数据集	汽车行业	自主车辆	包含交通标志、车辆检测、交通灯和轨迹模式的丰富数据集。	链接
CV	图片	CIFAR-10	总类	物体识别	用于对象识别的数据集由 50,000 张图像和 10,000 张测试图像（即 60,000 张 32×32 彩色图像，10 类）组成。	链接
CV	图片	时尚MNIST	时尚		一个图像数据集，包含 60,000 个示例和 10,000×28 灰度图像中的 28 个示例的测试集，与来自 10 个类别的标签相关联。	链接
CV	图片	IMDB-Wiki 数据集	娱乐	人脸识别	带有性别和年龄等标签的大型面部图像数据集。在总共 523,051 张人脸图像中，460,723 张图像来自 IMDB 的 20,284 位名人和维基百科的 62,328 位名人。	链接
CV	视频	动力学-700	总类		对于每个动作类，高质量数据集由 650,000 个视频剪辑组成，包括 700 个人类动作类和至少 600 个视频剪辑。在这里，每个剪辑持续 10 秒左右。	链接
CV	图片	可可女士	总类	对象检测、分割	该数据集包含 328k 个图像，总共有 2.5 万个实例和 91 个对象图像，用于训练大规模对象检测、分割和数据字幕相关的 ML 模型。	链接
CV	图片	MPII 人体姿势数据集	总类		数据集中包含大约 25 张照片，其中包含超过 40 个带有注释身体关节的个体，用于阐明人体姿势估计。总的来说，数据集涵盖了 410 项人类活动，每个图像都提供了一个活动标签。	链接
CV	图片	打开图像	总类	对象位置注释	包含大约 9 百万张图像的图像数据集，带有图像级标签、对象边界框、对象分割等。该数据集也包含 16 百万张。 600 万幅图像上 1.9 个对象类的边界框。	链接
CV	视频	Apollo 开放平台，由中国百度公司提供	汽车行业	边界框，激光雷达	丰富的自动驾驶数据集，为开发者提供自动驾驶所需的数据，加速创新迭代的效率。	链接
CV	视频、图片	Argo，美国 Argo	汽车行业	边界框、光流、行为标签、语义标签、车道标记	自动驾驶数据集，包含具有几何和语义元数据的高清地图，即车道中心线、车道方向和可行驶区域。该数据集用于训练 ML 模型，以制定更准确的感知算法，这将有助于自动驾驶车辆安全导航。	链接
CV	视频	博世小型交通灯，博世北美研究部	汽车行业	边界框	由 13427 张分辨率为 1280*720 的摄像头图像组成的数据集，用于构建基于视觉的交通灯检测系统。该数据集有超过 24000 个带注释的交通灯。	链接
CV	视频	Brain4Cars，美国康奈尔大学	汽车行业	行为标签	包含一系列机舱传感器（摄像头、触觉传感器、智能设备等）的数据集，以提取有关驾驶员警觉性的有用统计数据。我们的算法可能会检测到昏昏欲睡或分心的驾驶员，并增强必要的警报以改善保护。	链接
CV	图片	CULane，由中国大学。香港，北京，中国	汽车行业	车道标记	关于交通车道检测的计算机视觉数据集，由 55 小时的视频组成，其中提取了 133,235 个（88880 个训练集、9675 个验证集和 34680 个测试集）帧。它由安装在北京不同司机驾驶的六辆不同车辆上的摄像头收集。	链接
CV	视频	戴维斯，由大学。苏黎世联邦理工学院 ¨ 苏黎世，德国，瑞士	汽车行业		使用 DAVIS 事件+帧相机的端到端车辆驾驶训练数据集。转向、油门、GPS 等汽车数据用于评估汽车应用程序的帧和事件数据的融合。	链接
CV	视频	DBNet，上海交通大学，厦门大学，中国	汽车行业	点云、激光雷达	真实世界的 1000 公里驾驶数据，包括对齐的视频、点云、GPS 和驾驶员行为，用于深入研究驾驶行为。	链接
CV	视频	Dr（eye）ve，由大学。摩德纳和雷焦艾米利亚，摩德纳，意大利	汽车行业	行为标签	数据集包含 74 个视频序列，每个序列 5 分钟，注释超过 500,000 帧。该数据集包括地理参考位置、行驶速度、路线，还标记驾驶员注视点及其时间整合，提供特定于任务的地图。	链接
CV	视频	ETH Pedestrian (2009)，苏黎世联邦理工学院，瑞士苏黎世	总类	边界框	包含 74 个视频序列的数据集，每个序列 5 分钟，注释超过 500,000 帧。该数据集提供地理参考位置、行驶速度、方向，还为驾驶员及其时间整合标记注视注视，包括特定任务的地图。	链接
CV	视频	福特 (2009)，由大学。美国密歇根州密歇根州	汽车行业	边界框, , LiDAR	由配备 Velodyne 3D 激光雷达扫描仪、两个推扫式前视 Rieg 激光雷达、技术和消费者惯性测量单元 (IMU) 以及 Point Grey Ladybug3 全向摄像头系统的自动陆地车辆编译的数据集。	链接
CV	视频	HCI 挑战立体声，博世公司研究部，德国希尔德斯海姆	总类		来自捕获的视频场景的数百万帧数据集，包括各种天气条件、多层运动和深度；城市和农村等情况。	链接
CV	视频	JAAD，约克大学，乌克兰，加拿大	汽车行业	边界框，行为标签	“JAAD 是一个用于研究自动驾驶背景下联合注意力的数据集。重点是行人和司机在交叉路口的行为以及影响他们的因素。为此，JAAD 数据集提供了一个包含丰富注释的 346 个短视频集合从北美和东欧多个地点的超过 5 小时驾驶镜头中提取的剪辑（10-240 秒长）。带有遮挡标签的边界框用于所有行人，使该数据集适用于行人检测。行为注释指定行人的行为与驾驶员互动或需要驾驶员注意。对于每个视频，都有几个标签（天气、位置等）和带时间戳的行为标签（例如停止、行走、寻找等）。此外，人口统计属性列表是为每个行人提供（例如年龄、性别、运动方向等）以及每帧中可见交通场景元素（例如停车标志、交通信号等）的列表。”	链接
CV	视频	KAIST Urban，韩国 KAIST	总类	激光雷达	数据收集包括用于 LiDAR 数据和立体图像的众多位置传感器，以非常复杂的城市地区（例如大都市地区、复杂的建筑物和住宅区）为目标。	链接
CV	图片	LISA交通标志，由大学。加利福尼亚州，圣地亚哥，美国	汽车行业	边界框	包含视频和带注释的帧的数据集集，其中包含美国交通标志。它分两个阶段发布，一个只有图片，一个有图片和视频。	链接
CV	图片	Mapillary Vistas，由 Mapillary AB 提供，全球	汽车行业	语义标签	一个街道级摄影数据集，用于通过像素精确和特定于实例的人类注释来解释世界各地的街景。	链接
CV	视频、图片	Semantic KITTI，德国卡尔斯鲁厄波恩大学	汽车行业	边界框、语义标签、车道标记	包含所有 Odometry Benchmark 序列的语义注释的数据集。该数据集注释了各种类型的移动和非移动交通：包括汽车、自行车、自行车、行人和骑自行车的人，允许研究场景中的对象。	链接
CV	视频	斯坦福轨道，美国斯坦福大学	汽车行业	目标检测/分类 LiDAR、GPS、代码	一个包含 14,000 个标记对象轨迹的数据集，由 Velodyne HDL-64E S2 LIDAR 在自然街道场景中观察到，可用于训练机器学习模型以进行 3D 对象识别。	链接
CV	视频、图片	Boxy 数据集，由美国博世提供	汽车行业	边界框/车辆检测	包含 2 万辆带注释的车辆的车辆检测数据集，用于训练和分析高速公路上自动驾驶汽车的目标识别策略。	链接
CV	视频	TME 高速公路，由捷克技术大学设计，意大利北部	汽车行业	边界框	一个包含 28 个剪辑的数据集，总共 27 分钟，分为 30,000 多个车辆注释帧。注释是使用来自激光扫描仪的数据半自动生成的。该数据收集涉及可变交通场景、车道数量、道路曲率和照明，涵盖了完整采集的大部分条件。	链接
CV	视频	无人监督的美洲驼，由美国博世	汽车行业	车道标线、激光雷达	无监督美洲驼数据集通过生成高清自动驾驶地图（包括基于激光雷达的车道标记）进行注释。自动驾驶汽车可以与这些地图对齐，车道标记被投影到相机框架中。通过最小化已经观察到的和预测的图像标记之间的差异来优化 3D 投影。	链接
NLP	Audio	Facebook AI 多语言 LibriSpeech (MLS)	总类	音频注释/语音识别	Facebook AI 多语言 LibriSpeech (MLS) 是一个大规模开源数据集，旨在帮助推进自动语音识别 (ASR) 的研究。 MLS 提供超过 50,000 小时的 8 种语言音频：英语、德语、荷兰语、法语、西班牙语、意大利语、葡萄牙语和波兰语。	链接

开放数据集

帮助您开始使用 AI/ML 模型的开源数据集

人工智能数据服务

其他面条

行业应用

产品

公司

资源

联系我们