英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集


英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集,以支持OCR、VQA和图像字幕生成等多种应用。

数据集构成

  • 67.0% 视觉问答(VQA)样本
  • 28.4% OCR 样本
  • 4.6% 图像描述(Captioning)样本

主要用途

  • 文档理解:支持复杂版面、表格、图文混排的 OCR 与内容提取。
  • 企业级 AI 开发:数据已清除版权限制,可直接商用
  • 模型训练支持:配套 NVIDIA NeMo Curator 工具,便于进一步清洗和定制。

数据来源与构建方式

  • 基于开源数据集重新标注,确保可商用;
  • 使用 NVIDIA 自研模型进行增强,如加入链式思考(Chain-of-Thought)解释、模板化问答生成、答案扩展等;
  • 提供中英双语的 OCR 数据,涵盖字符级、词级、页面级标注。

模型配套

该数据集是 Llama 3.1 Nemotron Nano VL 8B 模型的训练基础,该模型在 OCRBench V2、DocVQA、ChartQA 等基准测试中表现领先,已作为 NVIDIA NIM API 和 Hugging Face 模型库的一部分开放使用。

如需获取数据集,可直接访问 Hugging Face 页面:https://huggingface.co/datasets/nvidia/Llama-Nemotron-VLM-Dataset-v1


相關推薦

2025-06-11

都能被有效捕捉。 训练数据 我们相信通过使用多样且高质量的数据来训练我们的模型。这包括我们从出版商处获得许可的数据、从公开可用或开源数据集精心整理的数据,以及由我们的网络爬虫Applebot爬取的公开信息。我们在

2025-06-06

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。 据介绍,该模型的开发

2025-05-23

提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 - 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2025-08-13

据英伟达官方消息,英伟达在技术领域再推新进展。其推出的 NVIDIA Cosmos 平台,整合前沿生成式世界基础模型(WFM)、先进分词器、护栏以及高效数据处理和管理工作流,旨在加速物理 AI 开发。该平台的世界基础模型经 2000 万

2025-05-31

5 亿和 5000 万事件量级,满足多样化研发需求。 Yandex 发布了 Yambda(Yandex Music Billion-Interactions Dataset,即 Yandex Music 十亿级交互数据集),这是全球最大的推荐系统开放数据集,包含近 50 亿条来自其音乐流媒体平台 Yandex Music 的

2025-05-09

院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。 根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2025-05-22

英伟达发布了 Cosmos-Reason1 系列模型,这是一组专注于物理常识理解和具身推理的 Physical AI 模型。 该系列模型基于 Qwen2.5-VL-7B-Instruct 进行后训练,结合了监督微调和强化学习方法,旨在理解空间、时间及基础物理学,并能作为

2025-08-15

国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示,当前我国网民数量达到11.23亿人,互联网普及率达到79.7%。 刘烈宏表示,我国数据产业处于快速发展阶

2025-04-29

。接着,系统通过基于 sigmoid 的函数采样文档,优先考虑高质量样本,并通过参数化控制确保领域平衡。 为了优化模型,QuaDMix 在不同参数设置下训练了数千个代理模型。通过这些代理实验训练的回归模型可以预测性能结果,

2022-09-06

EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark 知识预训练技术: 发布一系列知识预训练模型,致力于提升预训练模型的常识性和知识性 中文预训练模型:发布针对中文的 SOTA 的预训练模型,降低中文预训练技术门槛 多模态预训练:

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2