英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集

2025-08-15 發表於开源资讯

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集，以支持OCR、VQA和图像字幕生成等多种应用。

数据集构成

67.0% 视觉问答（VQA）样本
28.4% OCR 样本
4.6% 图像描述（Captioning）样本

主要用途

文档理解：支持复杂版面、表格、图文混排的 OCR 与内容提取。
企业级 AI 开发：数据已清除版权限制，可直接商用。
模型训练支持：配套 NVIDIA NeMo Curator 工具，便于进一步清洗和定制。

数据来源与构建方式

基于开源数据集重新标注，确保可商用；
使用 NVIDIA 自研模型进行增强，如加入链式思考（Chain-of-Thought）解释、模板化问答生成、答案扩展等；
提供中英双语的 OCR 数据，涵盖字符级、词级、页面级标注。

模型配套

该数据集是 Llama 3.1 Nemotron Nano VL 8B 模型的训练基础，该模型在 OCRBench V2、DocVQA、ChartQA 等基准测试中表现领先，已作为 NVIDIA NIM API 和 Hugging Face 模型库的一部分开放使用。

如需获取数据集，可直接访问 Hugging Face 页面：https://huggingface.co/datasets/nvidia/Llama-Nemotron-VLM-Dataset-v1

相關推薦

苹果设备端和服务器端基础语言模型的更新

2025-06-11

都能被有效捕捉。训练数据我们相信通过使用多样且高质量的数据来训练我们的模型。这包括我们从出版商处获得许可的数据、从公开可用或开源数据集精心整理的数据，以及由我们的网络爬虫Applebot爬取的公开信息。我们在

英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型

2025-06-06

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型（VLM）。该模型拥有80亿参数，专注于文档智能，能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。据介绍，该模型的开发

智元机器人开源具身世界模型EVAC与评测基准EWMBench

2025-05-23

提供可靠的基础框架与预训练能力，而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化，二者形成 “训练 - 验证” 技术闭环，不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析，研发团队可以

中英双语多模态对话模型 LLaSM，李开复零一万物参与

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括：LinkSoul.AI、北京大学和 01.ai (零一万物)，其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司，曾推出过首个开源 L

HuggingFace 开源 FinePDFs 与 FineVision 数据集

2025-09-09

PDFs 是目前最大的公开 PDF 语料库，完全由 PDF 文件构建，包含约 3 万亿 tokens，覆盖 4.75 亿份文档、1733 种语言，数据量 3.65TB。语料来自 105 个 CommonCrawl 快照（2013 夏—2025 年 2 月），经 datatrove 库去重、过滤与 PII 匿名化，采用

英伟达开源多模态音频模型 Audio Flamingo 3

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3)，一个完全开源的大型音频-语言模型 (LALM)，在超过 20 个音频理解和推理基准测试中达到最新最优性能。该模型旨在推动音频、语音和音乐领域的 AI 研究，但仅限用于非商业研究目的，并依据&n

英伟达推出 Cosmos 与 Nemotron 模型，推动物理 AI 与智能体发展

2025-08-13

据英伟达官方消息，英伟达在技术领域再推新进展。其推出的 NVIDIA Cosmos 平台，整合前沿生成式世界基础模型（WFM）、先进分词器、护栏以及高效数据处理和管理工作流，旨在加速物理 AI 开发。该平台的世界基础模型经 2000 万

Yandex 发布全球最大事件数据集，助力推荐系统发展

2025-05-31

5 亿和 5000 万事件量级，满足多样化研发需求。 Yandex 发布了 Yambda（Yandex Music Billion-Interactions Dataset，即 Yandex Music 十亿级交互数据集），这是全球最大的推荐系统开放数据集，包含近 50 亿条来自其音乐流媒体平台 Yandex Music 的

智源研究院发布开源中文互联网语料库 CCI 4.0

2025-05-09

院宣布已发布大型开源文本数据集CCI 4.0，兼顾多样性与高质量，从单一语言数据集扩展为多语种数据集。根据介绍，本次发布包括了中、英语两种语言，并将在随后的发布中，开源更多语言的版本。此外，CCI 4.0首次采用CoT方

国内多数模型训练使用中文数据已超 60%

2025-08-15

国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示，当前我国网民数量达到11.23亿人，互联网普及率达到79.7%。刘烈宏表示，我国数据产业处于快速发展阶

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1，可用于聊天机器人开发、AI Agent 工作流、检索增强生成（RAG）和代码生成等场景。根据英伟达开放模型许可证及 Llama 3.1 社区许可协议，

英伟达发布 Cosmos-Reason1 系列物理 AI 模型

2025-05-22

英伟达发布了 Cosmos-Reason1 系列模型，这是一组专注于物理常识理解和具身推理的 Physical AI 模型。该系列模型基于 Qwen2.5-VL-7B-Instruct 进行后训练，结合了监督微调和强化学习方法，旨在理解空间、时间及基础物理学，并能作为

字节跳动推出 QuaDMix：大型语言模型预训练数据质量与多样性的统一框架

2025-04-29

。接着，系统通过基于 sigmoid 的函数采样文档，优先考虑高质量样本，并通过参数化控制确保领域平衡。为了优化模型，QuaDMix 在不同参数设置下训练了数千个代理模型。通过这些代理实验训练的回归模型可以预测性能结果，

英伟达推出通用深度研究（UDR）系统

2025-09-09

英伟达最新发布另外一个通用深度研究（UDR）系统，目前仍处于原型阶段。该系统不仅可以与任何大语言模型(LLM)兼容，更为用户提供了高度定制的深度研究策略，彻底改变了以往研究智能体的工作方式。根据英伟达的最新论

熱門推薦