我们最擅长的
人工智能数据服务
数据收集 创建全球音频、图像、文本和视频。
数据注释和标签准确注释让 AI/ML 思考更快
数据去标识化保护敏感信息,保护隐私
其他面条
医疗保健AI 将复杂的数据转化为可行的见解。
对话式AI 使用多语言数据集本地化语音模型。
计算机视觉 一流的视觉训练数据
生成式人工智能使用我们的优质训练数据为您的 Gen AI 提供动力。
现成的数据目录和许可
医疗数据集黄金标准,去识别化数据
医生听写数据集
转录病历
电子健康记录(EHR)
CT 扫描图像数据集
X 射线图像数据集
查看相关房源
计算机视觉数据集用于 ML 开发的图像和视频数据
银行对账单数据集
损坏的汽车图像数据集
面部识别数据集
地标图像数据集
工资单数据集
语音/音频数据集以 50 多种语言转录和注释数据。
纽约英语
中国传统文化
西班牙语
加拿大法语
阿拉伯语
TTS
醒来的话
呼叫中心
脚本独白
一般对话
媒体音频
自发对话
自发 IVR
歌唱音频
解决方案
产业应用
电子商务网站 提高转化率、订单价值和收入
Retail / 零售 标记数据以增强店内产品搜索
使用案例
命名实体识别提取非结构化数据中的关键信息
人脸识别 通过面部标志自动检测面部
图像标注服务通过图像注释增强人工智能
文本转语音 (TTS) 增强与全球 TTS 数据集的交互
内容审核服务 提升人工智能信任度和品牌声誉
光学字符识别(OCR) 以数字方式优化数据
查看 Al
适用于高级 OCR 应用的多样化文本识别数据集:招牌、菜单等
边界框+文本
使用案例: OCR
格式: 图片
算: 150k
注解: Yes
描述: 阿拉伯语 & 泰语 & 越南语 & 印地语 & 英语 & 中文语言数据集
算: 1k
描述: 阿拉伯语文本数据集包含用阿拉伯语编写的文本样本集合。它包括各种形式的内容,例如新闻文章、社交媒体帖子、文学和对话,涵盖不同的主题和写作风格。此数据集用于阿拉伯语应用程序中的自然语言处理 (NLP)、文本分类、情感分析和机器翻译等任务。
算: 38k
描述: 汉语 & 英文 & 藏语 & 维吾尔语数据集
算: 60k
描述: 中英文菜单数据集包含中英文餐厅菜单的图片或文本样本。它包括各种字体、布局和菜单结构,显示双语菜名、描述和价格。此数据集可用于光学字符识别 (OCR)、机器翻译和多语言环境下的菜单数字化等任务。
算: 3k
描述: 中文手写作文数据集包含手写中文文本样本,包括作文、短文和其他长篇文本。它具有各种笔迹和复杂程度,可用于手写识别、文本分析和机器学习模型训练等任务。
描述: 中文 WIFI 提示数据集由 WIFI 提示和登录屏幕中的中文文本样本组成。它通常包括与连接或管理 WIFI 网络相关的各种提示、说明和错误消息。此数据集用于文本识别、自然语言处理和改进网络连接用户界面等任务。
算: 12k
描述: 英文和中文手写数据集包含英文和中文的手写样本,展示了各种书写风格和字符复杂性。它通常用于训练和评估手写识别模型、支持多语言文本分析和其他相关研究。该数据集包含两种语言的各种字符、数字、单词和句子。
算: 30k
描述: 英文和中文店标数据集包含带有英文和中文文本的店标图像。它捕获各种标牌元素,例如商店名称、广告、促销和路线,以不同的字体、样式和格式显示。此数据集用于文本检测和识别、多语言场景理解以及改进用于解释双语标牌的计算机视觉模型等任务。
算: 50k
描述: 英文和中文特殊角度文本数据集包含以各种角度和方向显示的英文和中文文本图像。它包括来自标志、广告和文档等非标准水平格式的文本。此数据集用于训练和评估文本检测和识别模型,特别是那些能够处理非传统方向和视角文本的模型。
算: 20k
描述: 英文菜单数据集包含用英文书写的餐厅菜单的图片或文本样本。它具有各种字体、布局和格式样式,内容包括菜品名称、描述和价格。此数据集通常用于食品相关应用中的光学字符识别 (OCR)、文本提取和菜单数字化等任务。
算: 33k
描述: 英语场景文本数据集由包含嵌入英语文本的自然场景的图像组成。文本以各种形式出现,例如标志、广告牌和海报,通常采用不同的字体、大小和方向。此数据集通常用于训练和测试文本检测、识别和场景理解任务中的模型。
使用案例: 文档 AI
格式: HEIC(图像)和 .mov(视频)
算: 94053
注解: 没有
描述: 日语、韩语和俄语的带有手写文本的实时照片
录音设备: iPhone 和 iPad 相机
录音条件: - 强光/眩光 - 相机闪光灯开启 - 彩色光 - 弱光,无相机闪光灯 - 正常
算: 40k
描述: 日语和韩语数据集包含日语和韩语的文本样本。它包含句子、短语和单词等一系列内容,涵盖各种上下文和风格。此数据集用于多语言应用程序中的自然语言处理 (NLP)、机器翻译和文本分析等任务。