2022 年 1 月 4 日

用于训练自然语言处理模型的 15 个最佳 NLP 数据集

自然语言处理是机器学习盔甲中的重要组成部分。但是，它需要大量数据和训练才能使模型正常运行。 NLP 的重要问题之一是缺乏可以涵盖该领域内广泛兴趣领域的训练数据集。

如果您刚开始涉足这个广阔的领域，您可能会发现创建数据集具有挑战性且实际上是多余的。尤其是有质量的时候 NLP 可用于根据目的训练机器学习模型的数据集。

NLP 市场预计在 11.7 年和 2018 年以 2026% 的复合年增长率增长，以达到到28.6年将达到2026亿美元. 由于对 NLP 和机器学习的需求不断增长，现在您可以接触到适合情感分析、评论、问答分析和语音分析数据集的高质量数据集。

您可以信赖的机器学习 NLP 数据集

由于几乎每天都在发布无数数据集——专注于各种需求——因此访问高质量、可靠和最佳的数据集可能具有挑战性。在这里，我们让您的工作更轻松，因为我们向您展示了根据它们所服务的类别分离的精选数据集。

总类

UCI 的垃圾邮件库（链接）

Spambase 是在惠普实验室创建的，它收集了用户的垃圾邮件，旨在开发个性化的垃圾邮件过滤器。它有超过 4600 条来自电子邮件的观察结果，其中近 1820 条是垃圾邮件。

安然数据集（链接）

安然数据集拥有大量匿名的“真实”电子邮件，可供公众用于训练他们的机器学习模型。它拥有来自 150 多个用户（主要是安然公司的高级管理层）的超过 XNUMX 万封电子邮件。此数据集可用于结构化和非结构化格式。要修饰非结构化数据，您必须应用数据处理技术。

推荐系统数据集（链接）

推荐系统数据集是包含不同特征的各种数据集的庞大集合，例如，

产品点评
星级
健身追踪
歌曲资料
社交网络
时间戳
用户/项目交互
GPS数据

情感分析

电影和金融词典（链接）

电影和金融词典数据集为金融填充和电影评论中的正极性或负极性提供了特定于领域的词典。这些词典来自 IMDb 和 US Form-8 填充。

情绪 140 （链接）

Sentiment 140 拥有超过 160,000 条带有各种表情符号的推文，分为 6 个不同的领域：推文日期、极性、文本、用户名、ID 和查询。该数据集使您可以根据 Twitter 活动发现品牌、产品甚至主题的情绪。由于该数据集是自动创建的，与其他人工标注的推文不同，它将具有积极情绪和消极情绪的推文归类为不利的。

多域情感数据集（链接）

这个多域情感数据集是亚马逊各种产品评论的存储库。某些产品类别（例如书籍）的评论数以千计，而其他产品类别只有几百条评论。此外，带有星级的评论可以转换为二进制标签。

让我们今天讨论一下您的 AI 训练数据需求。

文本

维基 QA 语料库（链接）

WiKi QA Corpus 旨在帮助开放域问答研究，是最广泛的公开可用数据集之一。从 Bing 搜索引擎查询日志编译而来，带有问答对。它有 3000 多个问题和 1500 个标记的答案句子。

法律案例报告数据集（链接）

Legal Case Reports 数据集包含 4000 个法律案例，可用于训练自动文本摘要和引文分析。使用每个文档、标语、引文类、引文标语等。

杰帕迪（链接）

Jeopardy 数据集是由 Reddit 用户汇集的热门问答电视节目中的 200,000 多个问题的集合。每个数据点都按其播出日期、剧集编号、值、轮次和问题/答案进行分类。

音频语音

口语维基百科语料库（链接）

该数据集非常适合希望超越英语的每个人。该数据集包含以荷兰语、德语和英语发言的文章集合。它有各种各样的主题和演讲者集，持续数百小时。

2000 HUB5 英语（链接）

2000 HUB5 英语数据集有 40 个英语电话交谈记录。该数据由美国国家标准与技术研究所提供，其主要重点是识别会话语音并将语音转换为文本。

图书馆演讲（链接）

LibriSpeech 数据集收集了近 1000 小时的英语演讲，并按主题正确分割成有声读物的章节，使其成为自然语言处理的完美工具。

Yelp评论（链接）

Yelp 数据集包含 8.5 多家企业的约 160,000 万条评论、他们的评论和用户数据。评论可用于训练您的情感分析模型。此外，该数据集还有超过 200,000 张图片，涵盖八个大都市。

IMDB评论（链接）

IMDB 评论是最受欢迎的数据集之一，其中包含超过 50 万部电影的演员信息、评级、描述和类型。此数据集可用于测试和训练您的机器学习模型。

亚马逊评论和评级数据集（链接）

亚马逊评论和评级数据集包含从 1996 年到 2014 年收集的亚马逊不同产品的有价值的元数据和评论——大约 142.8 亿条记录。元数据包括价格、产品描述、品牌、类别等，而评论具有文本质量、文本的有用性、评级等。

那么，您选择了哪个数据集来训练您的机器学习模型？

在我们走的时候，我们会给你留下一个 专家提示。

在为您的需要选择 NLP 数据集之前，请确保彻底阅读自述文件。数据集将包含您可能需要的所有必要信息，例如数据集的内容、对数据进行分类的各种参数以及数据集的可能用例。

无论您构建何种模型，将我们的机器与我们的生活更紧密、更本质地集成在一起的前景令人兴奋。使用 NLP，商业、电影、语音识别、金融等领域的可能性增加了多方面。如果您正在寻找更多此类数据集点击这里。

社交分享

与专家交谈

名*
姓*
电邮*
电话*
公司*
国家*
国家
评论*
通过注册，我同意 Shaip 隐私政策和服务条款并同意接受来自 Shaip 的 B2B 营销传播。
CAPTCHA

下载免费书籍

你也许也喜欢

用于训练自然语言处理模型的 15 个最佳 NLP 数据集

您可以信赖的机器学习 NLP 数据集

总类

UCI 的垃圾邮件库（链接）

安然数据集（链接）

推荐系统数据集（链接）

情感分析

电影和金融词典（链接）

情绪 140 （链接）

多域情感数据集（链接）

文本

维基 QA 语料库（链接）

法律案例报告数据集（链接）

杰帕迪（链接）

音频语音

口语维基百科语料库（链接）

2000 HUB5 英语（链接）

图书馆演讲（链接）

评论

Yelp评论（链接）

IMDB评论（链接）

亚马逊评论和评级数据集（链接）

社交分享

与专家交谈

人工智能数据服务

其他面条

行业应用

产品

公司

资源

联系我们

用于训练自然语言处理模型的 15 个最佳 NLP 数据集

您可以信赖的机器学习 NLP 数据集

总类

UCI 的垃圾邮件库 （链接）

安然数据集 （链接）

推荐系统数据集 （链接）

情感分析

电影和金融词典 （链接）

情绪 140 （链接）

多域情感数据集 （链接）

文本

维基 QA 语料库 （链接）

法律案例报告数据集 （链接）

杰帕迪 （链接）

音频语音

口语维基百科语料库 （链接）

2000 HUB5 英语 （链接）

图书馆演讲 （链接）

评论

Yelp评论 （链接）

IMDB评论 （链接）

亚马逊评论和评级数据集 （链接）

社交分享

与专家交谈

人工智能数据服务

其他面条

行业应用

产品

公司

资源

联系我们

UCI 的垃圾邮件库（链接）

安然数据集（链接）

推荐系统数据集（链接）

电影和金融词典（链接）

多域情感数据集（链接）

维基 QA 语料库（链接）

法律案例报告数据集（链接）

杰帕迪（链接）

口语维基百科语料库（链接）

2000 HUB5 英语（链接）

图书馆演讲（链接）

Yelp评论（链接）

IMDB评论（链接）

亚马逊评论和评级数据集（链接）