开放数据集

发现可帮助您训练 ML 模型的开源数据集

开放数据集

帮助您开始使用 AI/ML 模型的开源数据集

您的 AI 和 ML 模型的输出与您用来训练它的数据一样好 - 因此您应用于数据聚合以及标记和识别该数据的精度非常重要!

因此,如果您想开始一项新的 AI/ML 计划,现在您很快就会意识到,寻找高质量的训练数据将是您项目中更具挑战性的方面之一,因为高质量的数据集是保持 AI/机器学习引擎正在运行。 我们积累了一份开放数据集列表,可以免费使用和训练您未来的 AI/ML 模型。

专业化数据类型数据集名称行业/部门注释/用例产品描述链接
NLP文本亚马逊评论电子商务许可证情感分析过去 35 年的 18 万条评论和评级,以纯文本形式包含用户和产品详细信息。链接
NLP文本维基百科链接数据总类超过 4 百万。 文章包含 1.9 亿。 由单词和短语以及段落组成的单词。链接
NLP文本斯坦福情绪树库娱乐情感分析来自烂番茄的超过 10,000 条评论的 HTML 文件格式的情感注释数据集链接
NLP文本Twitter 美国航空公司情绪航空公司情感分析2015 年美国航空公司的推文分为正面、负面和中性色调链接
CV图片 野外带标签的面孔总类人脸识别数据集包含超过 13,000 张裁剪过的人脸和两张不同的用于人脸识别训练的图片。链接
CV视频、图片UMDfaces 数据集总类人脸识别包含来自 367,000 多个主题的超过 8,000 张人脸的带注释的数据集,包括静止图像和视频图像。链接
CV图片 影像网总类超过 14 百万的数据集。 根据 WordNet 层次结构组织的各种文件格式的图像。链接
CV图片 谷歌的开放图片总类9 百万。 用于对来自 6,000 多个类别的公共图像进行分类的 URL。链接
NLP文本MIMIC重症监护数据库健康防护具有来自 40,000 名重症监护患者的去识别化数据的计算生理学数据集。 数据集包含人口统计、生命体征、药物等信息。链接
CV图片美国国家旅游局旅游业提供来自旅游业的广泛照片和值得信赖的数据库,涵盖出入境旅游和国际旅游信息等主题。链接
NLP文本交通部旅游业旅游数据集,包括国家公园、司机登记、桥梁和铁路信息等。链接
NLPAudioFlickr 音频字幕语料库总类来自 40 张照片的超过 8,000 条语音字幕,专为无监督语音模式而设计链接
NLPAudio语音命令数据集总类语音识别、音频注释千人千言万语,构建基础语音界面。链接
NLPAudio环境音频数据集总类包含事件声音表和声学场景表的环境音频数据集。链接
NLP文本COVID-19开放研究数据集 健康防护医疗人工智能一个研究数据集,包含 45,000 篇关于 COVID-19 和冠状病毒家族的学术文章。链接
CV图片Waymo打开数据集 汽车行业Waymo 发布的最多样化的自动驾驶数据集链接
CV图片视觉基因组 总类图片说明具有超过 100K 图像详细说明的视觉知识库链接
CV图片标签 公共政府可通过 Labelme Matlab 访问的大量带注释的图像链接
CV图片线圈100总类从多个角度(即 100 度)拍摄的 360 多个不同物体链接
CV图片斯坦福狗数据集总类超过 20,500 多张图像分类为 120 种不同犬种的图像集链接
CV图片室内场景识别总类场景识别一个特定的数据集,由 15620 个室内类别的 67 张图像组成,用于构建场景识别模型链接
CV图片视觉质量保证总类一个数据集,其中包含与 265,016 张照片相关的开放式问题,这些问题需要理解视觉和语言理解才能做出回应。链接
NLP文本多域情感分析数据集电子商务许可证情感分析包含来自亚马逊的产品评论的数据集链接
NLP文本IMDB评论娱乐情感分析包含用于情感分析的 25000 条影评的数据集链接
NLP文本情感140总类情感分析数据集包含 160,000 条推文,并预先删除了表情符号以提高准确性链接
NLP文本博主语料库总类关键字分析包含来自 blogger.com 的 681,288 篇博客文章的数据集,其中包含至少 200 次出现的广泛使用的英语单词。链接
NLP文本杰帕迪总类聊天机器人培训包含超过 200,000 个问题的数据集,可用于训练机器学习模型以智能自动响应链接
NLP文本英语垃圾短信收集电信垃圾邮件识别包含 5,574 条英文短信的垃圾邮件数据集链接
NLP文本Yelp评论总类情感分析Yelp 发布的评论超过 5 万的数据集链接
NLP文本UCI 的垃圾邮件库企业垃圾邮件识别大型垃圾邮件数据集,可用于垃圾邮件过滤。链接
CV视频、图片伯克利 DeepDrive BDD100k汽车行业自主车辆最大的自动驾驶 AI 数据集之一,包含来自纽约和旧金山地区一天中不同时间的 1,100 多个视频中的 100,000 小时驾驶体验。链接
CV视频逗号汽车行业自主车辆 7 小时高速公路驾驶数据集,包含汽车速度、加速度、转向角和 GPS 坐标信息链接
CV视频、图片城市景观数据集汽车行业自动驾驶汽车语义标签从 5,000 个不同城市记录的立体视频序列中包含 20,000 个像素级注释的数据集以及更大的 50 个弱注释帧链接
CV图片KUL 比利时交通标志数据集汽车行业自主车辆来自法兰德斯地区的 10000 多个交通标志注释基于来自比利时各地的物理上不同的交通标志。链接
CV图片LISA:智能与安全汽车实验室,加州大学圣地亚哥分校数据集汽车行业自主车辆包含交通标志、车辆检测、交通灯和轨迹模式的丰富数据集。链接
CV图片CIFAR-10总类物体识别用于对象识别的数据集由 50,000 张图像和 10,000 张测试图像(即 60,000 张 32×32 彩色图像,10 类)组成。链接
CV图片时尚MNIST时尚一个图像数据集,包含 60,000 个示例和 10,000×28 灰度图像中的 28 个示例的测试集,与来自 10 个类别的标签相关联。链接
CV图片IMDB-Wiki 数据集娱乐人脸识别带有性别和年龄等标签的大型面部图像数据集。 在总共 523,051 张人脸图像中,460,723 张图像来自 IMDB 的 20,284 位名人和维基百科的 62,328 位名人。链接
CV视频动力学-700总类对于每个动作类,高质量数据集由 650,000 个视频剪辑组成,包括 700 个人类动作类和至少 600 个视频剪辑。 在这里,每个剪辑持续 10 秒左右。链接
CV图片可可女士总类对象检测、分割该数据集包含 328k 个图像,总共有 2.5 万个实例和 91 个对象图像,用于训练大规模对象检测、分割和数据字幕相关的 ML 模型。链接
CV图片MPII 人体姿势数据集总类数据集中包含大约 25 张照片,其中包含超过 40 个带有注释身体关节的个体,用于阐明人体姿势估计。 总的来说,数据集涵盖了 410 项人类活动,每个图像都提供了一个活动标签。链接
CV图片打开图像总类对象位置注释包含大约 9 百万张图像的图像数据集,带有图像级标签、对象边界框、对象分割等。该数据集也包含 16 百万张。 600 万幅图像上 1.9 个对象类的边界框。链接
CV视频Apollo 开放平台,由中国百度公司提供汽车行业边界框,激光雷达丰富的自动驾驶数据集,为开发者提供自动驾驶所需的数据,加速创新迭代的效率。链接
CV视频、图片Argo,美国 Argo汽车行业边界框、光流、行为标签、语义标签、车道标记自动驾驶数据集,包含具有几何和语义元数据的高清地图,即车道中心线、车道方向和可行驶区域。 该数据集用于训练 ML 模型,以制定更准确的感知算法,这将有助于自动驾驶车辆安全导航。链接
CV视频博世小型交通灯,博世北美研究部汽车行业边界框由 13427 张分辨率为 1280*720 的摄像头图像组成的数据集,用于构建基于视觉的交通灯检测系统。 该数据集有超过 24000 个带注释的交通灯。链接
CV视频Brain4Cars,美国康奈尔大学汽车行业行为标签包含一系列机舱传感器(摄像头、触觉传感器、智能设备等)的数据集,以提取有关驾驶员警觉性的有用统计数据。 我们的算法可能会检测到昏昏欲睡或分心的驾驶员,并增强必要的警报以改善保护。链接
CV图片CULane,由中国大学。 香港,北京,中国汽车行业车道标记关于交通车道检测的计算机视觉数据集,由 55 小时的视频组成,其中提取了 133,235 个(88880 个训练集、9675 个验证集和 34680 个测试集)帧。 它由安装在北京不同司机驾驶的六辆不同车辆上的摄像头收集。链接
CV视频戴维斯,由大学。 苏黎世联邦理工学院 ¨ 苏黎世,德国,瑞士汽车行业使用 DAVIS 事件+帧相机的端到端车辆驾驶训练数据集。 转向、油门、GPS 等汽车数据用于评估汽车应用程序的帧和事件数据的融合。链接
CV视频DBNet,上海交通大学,厦门大学,中国汽车行业点云、激光雷达真实世界的 1000 公里驾驶数据,包括对齐的视频、点云、GPS 和驾驶员行为,用于深入研究驾驶行为。链接
CV视频Dr(eye)ve,由大学。 摩德纳和雷焦艾米利亚,摩德纳,意大利汽车行业行为标签数据集包含 74 个视频序列,每个序列 5 分钟,注释超过 500,000 帧。 该数据集包括地理参考位置、行驶速度、路线,还标记驾驶员注视点及其时间整合,提供特定于任务的地图。链接
CV视频ETH Pedestrian (2009),苏黎世联邦理工学院,瑞士苏黎世总类边界框包含 74 个视频序列的数据集,每个序列 5 分钟,注释超过 500,000 帧。 该数据集提供地理参考位置、行驶速度、方向,还为驾驶员及其时间整合标记注视注视,包括特定任务的地图。链接
CV视频福特 (2009),由大学。 美国密歇根州密歇根州汽车行业边界框, , LiDAR由配备 Velodyne 3D 激光雷达扫描仪、两个推扫式前视 Rieg 激光雷达、技术和消费者惯性测量单元 (IMU) 以及 Point Grey Ladybug3 全向摄像头系统的自动陆地车辆编译的数据集。链接
CV视频HCI 挑战立体声,博世公司研究部,德国希尔德斯海姆总类来自捕获的视频场景的数百万帧数据集,包括各种天气条件、多层运动和深度; 城市和农村等情况。链接
CV视频JAAD,约克大学,乌克兰,加拿大汽车行业边界框,行为标签“JAAD 是一个用于研究自动驾驶背景下联合注意力的数据集。重点是行人和司机在交叉路口的行为以及影响他们的因素。为此,JAAD 数据集提供了一个包含丰富注释的 346 个短视频集合从北美和东欧多个地点的超过 5 小时驾驶镜头中提取的剪辑(10-240 秒长)。带有遮挡标签的边界框用于所有行人,使该数据集适用于行人检测。行为注释指定行人的行为与驾驶员互动或需要驾驶员注意。对于每个视频,都有几个标签(天气、位置等)和带时间戳的行为标签(例如停止、行走、寻找等)。此外,人口统计属性列表是为每个行人提供(例如年龄、性别、运动方向等)以及每帧中可见交通场景元素(例如停车标志、交通信号等)的列表。”链接
CV视频KAIST Urban,韩国 KAIST总类激光雷达数据收集包括用于 LiDAR 数据和立体图像的众多位置传感器,以非常复杂的城市地区(例如大都市地区、复杂的建筑物和住宅区)为目标。链接
CV图片LISA交通标志,由大学。 加利福尼亚州,圣地亚哥,美国汽车行业边界框包含视频和带注释的帧的数据集集,其中包含美国交通标志。 它分两个阶段发布,一个只有图片,一个有图片和视频。链接
CV图片Mapillary Vistas,由 Mapillary AB 提供,全球汽车行业语义标签一个街道级摄影数据集,用于通过像素精确和特定于实例的人类注释来解释世界各地的街景。链接
CV视频、图片Semantic KITTI,德国卡尔斯鲁厄波恩大学汽车行业边界框、语义标签、车道标记包含所有 Odometry Benchmark 序列的语义注释的数据集。 该数据集注释了各种类型的移动和非移动交通:包括汽车、自行车、自行车、行人和骑自行车的人,允许研究场景中的对象。链接
CV视频斯坦福轨道,美国斯坦福大学汽车行业目标检测/分类 LiDAR、GPS、代码一个包含 14,000 个标记对象轨迹的数据集,由 Velodyne HDL-64E S2 LIDAR 在自然街道场景中观察到,可用于训练机器学习模型以进行 3D 对象识别。链接
CV视频、图片Boxy 数据集,由美国博世提供汽车行业边界框/车辆检测包含 2 万辆带注释的车辆的车辆检测数据集,用于训练和分析高速公路上自动驾驶汽车的目标识别策略。链接
CV视频TME 高速公路,由捷克技术大学设计,意大利北部汽车行业边界框一个包含 28 个剪辑的数据集,总共 27 分钟,分为 30,000 多个车辆注释帧。 注释是使用来自激光扫描仪的数据半自动生成的。 该数据收集涉及可变交通场景、车道数量、道路曲率和照明,涵盖了完整采集的大部分条件。链接
CV视频无人监督的美洲驼,由美国博世汽车行业车道标线、激光雷达无监督美洲驼数据集通过生成高清自动驾驶地图(包括基于激光雷达的车道标记)进行注释。 自动驾驶汽车可以与这些地图对齐,车道标记被投影到相机框架中。 通过最小化已经观察到的和预测的图像标记之间的差异来优化 3D 投影。链接
NLPAudioFacebook AI 多语言 LibriSpeech (MLS)总类音频注释/语音识别Facebook AI 多语言 LibriSpeech (MLS) 是一个大规模开源数据集,旨在帮助推进自动语音识别 (ASR) 的研究。 MLS 提供超过 50,000 小时的 8 种语言音频:英语、德语、荷兰语、法语、西班牙语、意大利语、葡萄牙语和波兰语。 链接