机器学习的 NLP 数据集

用于训练自然语言处理模型的 33 个最佳 NLP 数据集

自然语言处理是机器学习盔甲中的重要组成部分。 但是,它需要大量数据和训练才能使模型正常运行。 NLP 的重要问题之一是缺乏可以涵盖该领域内广泛兴趣领域的训练数据集。

如果您刚刚涉足这个广阔的领域,您可能会发现创建数据集是一项挑战,而且实际上是多余的。尤其是当有高质量的 NLP 数据集可用于根据其目的训练您的机器学习模型时。

NLP 市场预计在 11.7 年和 2018 年以 2026% 的复合年增长率增长,以达到 到28.6年将达到2026亿美元. 由于对 NLP 和机器学习的需求不断增长,现在您可以接触到适合情感分析、评论、问答分析和语音分析数据集的高质量数据集。

您可以信赖的机器学习 NLP 数据集

由于几乎每天都会发布无数的数据集(专注于各种需求),因此获取高质量、可靠且最佳的数据集可能具有挑战性。在这里,我们为您提供了根据所服务的类别分隔的精选数据集,使您的工作变得更加轻松。

通用

  • UCI 的垃圾邮件库 (链接)

    Spambase 是在惠普实验室创建的,它收集了用户的垃圾邮件,旨在开发个性化的垃圾邮件过滤器。 它有超过 4600 条来自电子邮件的观察结果,其中近 1820 条是垃圾邮件。

  • 安然数据集 (链接)

    安然数据集拥有大量匿名的“真实”电子邮件,可供公众用于训练他们的机器学习模型。 它拥有来自 150 多个用户(主要是安然公司的高级管理层)的超过 XNUMX 万封电子邮件。 此数据集可用于结构化和非结构化格式。 要修饰非结构化数据,您必须应用数据处理技术。

  • 推荐系统数据集 (链接)

    推荐系统数据集是包含不同特征的各种数据集的庞大集合,例如,

    • 产品点评
    • 星级
    • 健身追踪
    • 歌曲资料
    • 社交网络
    • 时间戳
    • 用户/项目交互
    • GPS数据
  • 宾夕法尼亚树库 (链接)

    该语料库来自《华尔街日报》,在测试序列标记模型方面很受欢迎。

  • NLTK (链接)

    该 Python 库提供对 100 多个 NLP 语料库和词汇资源的访问。它还包括 NLTK 书,这是一个使用图书馆的培训课程。

  • 通用依赖 (链接)

    UD 提供一致的语法注释方式,拥有 100 多种语言的资源、200 个树库以及 300 多名社区成员的支持。

情感分析

  • 电影和金融词典 (链接)

    情绪分析
    电影和金融词典数据集为金融填充和电影评论中的正极性或负极性提供了特定于领域的词典。 这些词典来自 IMDb 和 US Form-8 填充。

  • 情绪 140 (链接)

    Sentiment 140 拥有超过 160,000 条带有各种表情符号的推文,分为 6 个不同的领域:推文日期、极性、文本、用户名、ID 和查询。 该数据集使您可以根据 Twitter 活动发现品牌、产品甚至主题的情绪。 由于该数据集是自动创建的,与其他人工标注的推文不同,它将具有积极情绪和消极情绪的推文归类为不利的。

  • 多域情感数据集 (链接)

    这个多域情感数据集是亚马逊各种产品评论的存储库。 某些产品类别(例如书籍)的评论数以千计,而其他产品类别只有几百条评论。 此外,带有星级的评论可以转换为二进制标签。

  • 斯坦福情绪树库 (链接)

    这个来自烂番茄的 NLP 数据集包含更长的短语和更详细的文本示例。

  • 博客作者语料库 (链接)

    该集合包含近 1.4 万字的博客文章,每个博客都是一个单独的数据集。

  • OpinRank 数据集 (链接)

    来自 Edmunds 和 TripAdvisor 的 300,000 条评论,按车型或旅行目的地和酒店整理。

文本

  • 维基 QA 语料库 (链接)

    WiKi QA Corpus 旨在帮助开放域问答研究,是最广泛的公开可用数据集之一。 从 Bing 搜索引擎查询日志编译而来,带有问答对。 它有 3000 多个问题和 1500 个标记的答案句子。

  • 法律案例报告数据集 (链接)

    Legal Case Reports 数据集包含 4000 个法律案例,可用于训练自动文本摘要和引文分析。 使用每个文档、标语、引文类、引文标语等。

  • 杰帕迪 (链接)

    Jeopardy 数据集是由 Reddit 用户汇集的热门问答电视节目中的 200,000 多个问题的集合。 每个数据点都按其播出日期、剧集编号、值、轮次和问题/答案进行分类。

  • 20 个新闻组 (链接)

    20,000 份文档的集合涵盖 20 个新闻组和主题,详细介绍了从宗教到流行体育的主题。

  • 路透社新闻数据集 (链接)

    该数据集首次出现于 1987 年,已为机器学习目的进行了标记、索引和编译。

  • 的arXiv (链接)

    这个庞大的 270 GB 数据集包含所有 arXiv 研究论文的完整文本。

  • 欧洲议会会议记录平行语料库 (链接)

    议会程序中的句子对包括 21 种欧洲语言的条目,其中包括一些机器学习语料库中不太常见的语言。

  • 十亿字基准 (链接)

    该语言建模数据集源自 WMT 2011 新闻抓取,包含近 XNUMX 亿个单词,用于测试创新的语言建模技术。

音频语音

  • 口语维基百科语料库 (链接)

    音频语音 该数据集非常适合希望超越英语的每个人。 该数据集包含以荷兰语、德语和英语发言的文章集合。 它有各种各样的主题和演讲者集,持续数百小时。

  • 2000 HUB5 英语 (链接)

    2000 HUB5 英语数据集有 40 个英语电话交谈记录。 该数据由美国国家标准与技术研究所提供,其主要重点是识别会话语音并将语音转换为文本。

  • 图书馆演讲 (链接)

    LibriSpeech 数据集收集了近 1000 小时的英语演讲,并按主题正确分割成有声读物的章节,使其成为自然语言处理的完美工具。

  • 免费口语数字数据集 (链接)

    该 NLP 数据集包含 1,500 多个英语口语数字录音。

  • M-AI 实验室语音数据集 (链接)

    该数据集提供近 1,000 小时的音频转录,涵盖多种语言,并按男声、女声和混合声音进行分类。

  • 噪声语音数据库 (链接)

    该数据集具有并行的噪声和干净的语音录音,旨在用于语音增强软件开发,但也有利于在具有挑战性的条件下进行语音训练。

客户评论

  • Yelp评论 (链接)

    Yelp 数据集包含 8.5 多家企业的约 160,000 万条评论、他们的评论和用户数据。 评论可用于训练您的情感分析模型。 此外,该数据集还有超过 200,000 张图片,涵盖八个大都市。

  • IMDB评论 (链接)

    IMDB 评论是最受欢迎的数据集之一,其中包含超过 50 万部电影的演员信息、评级、描述和类型。 此数据集可用于测试和训练您的机器学习模型。

  • 亚马逊评论和评级数据集 (链接)

    亚马逊评论和评级数据集包含从 1996 年到 2014 年收集的亚马逊不同产品的有价值的元数据和评论——大约 142.8 亿条记录。 元数据包括价格、产品描述、品牌、类别等,而评论具有文本质量、文本的有用性、评级等。

常见问题与回答

  • 斯坦福问答数据集 (SQuAD) (链接)

    这个阅读理解数据集有 100,000 个可回答的问题和 50,000 个不可回答的问题,全部由维基百科众包工作者创建。

  • 自然问题 (链接)

    该训练集包含超过 300,000 个训练示例、7,800 个开发示例和 7,800 个测试示例,每个示例都有一个 Google 查询和一个匹配的维基百科页面。

  • 问答 (链接)

    这个具有挑战性的问题集有 950,000 个 QA 对,包括人工验证和机器生成的子集。

  • CLEVR(组合语言和基本视觉推理) (链接)

    该视觉问答数据集包含 3D 渲染对象和数千个包含视觉场景详细信息的问题。

那么,您选择了哪个数据集来训练您的机器学习模型?

在我们走的时候,我们会给你留下一个 专家提示。

在为您的需要选择 NLP 数据集之前,请确保彻底阅读自述文件。 数据集将包含您可能需要的所有必要信息,例如数据集的内容、对数据进行分类的各种参数以及数据集的可能用例。

无论您构建什么模型,将机器更紧密、更内在地融入我们的生活都是一个令人兴奋的前景。借助 NLP,商业、电影、语音识别、金融等的可能性将成倍增加。

社交分享