HuggingFace 开源 FinePDFs 与 FineVision 数据集

2025-09-09 發表於开源资讯

Hugging Face 开源了两个大规模数据集 FinePDFs 和 FineVision，前者是目前最大的公开 PDF 语料库，后者则专为视觉-语言模型训练设计，旨在显著提升开源模型的能力。

https://huggingface.co/datasets/HuggingFaceFW/finepdfs
https://huggingface.co/datasets/HuggingFaceM4/FineVision

FinePDFs 是目前最大的公开 PDF 语料库，完全由 PDF 文件构建，包含约 3 万亿 tokens，覆盖 4.75 亿份文档、1733 种语言，数据量 3.65TB。

语料来自 105 个 CommonCrawl 快照（2013 夏—2025 年 2 月），经 datatrove 库去重、过滤与 PII 匿名化，采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍，长于 10万字符的样本显著，可用于提升开源 LLM 的长上下文能力。

数据集已按语言-脚本对划分，978 种语言超 100万 tokens，66 种语言超 10 亿 tokens。

FineVision 面向视觉-语言模型训练，整合 200 余个来源，含 1730 万张图像、2430 万样本、8890 万轮对话、95 亿回答 tokens，支持 GUI 导航、指向、计数等新能力。

官方称在 10 项基准上带来 20% 以上提升，可显著增强开源 VLM 性能。数据已转为 Parquet，总量约 4.48 TB，支持流式加载。

相關推薦

智源研究院发布开源中文互联网语料库 CCI 4.0

2025-05-09

全球最大的开源合成数据集Cosmopedia规模提升近20倍。 Huggingface地址： https://huggingface.co/datasets/BAAI/CCI4.0-M2-Base-v1 https://huggingface.co/datasets/BAAI/CCI4.0-M2-CoT-v1 https://huggingface.co/datasets/BAAI/CCI4.0-M2-Extra-v1 针对不同来源的数据

英伟达开源多模态音频模型 Audio Flamingo 3

2025-07-22

0 GPU 进行了优化，以实现更快的训练和推理。 https://huggingface.co/nvidia/audio-flamingo-3 https://github.com/NVIDIA/audio-flamingo https://research.nvidia.com/labs/adlr/AF3/ https://x.com/huggingface/status/1946354015568052228

Yandex 发布全球最大开源音乐推荐数据集 Yambda

2025-06-05

平台的推荐系统测试，现已在 Hugging Face 上提供： https://huggingface.co/datasets/yandex/yambda

全球首发｜原生开源大模型托管项目 CSGHub

2024-01-16

理和运用大模型核心资产数据。 CSGHub实现了类似私有化Huggingface的功能，以类比OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及Sonatype Nexus管理制品的方式，以开源软件的方式实现对LLM资产的安全、高效管理。 CSGHub 官网

RWKV7-G1 1.5B 发布！全球语言推理模型，特别适合端侧手机运行

2025-05-01

g 数据，总数据为 5.16T tokens。快速体验 G1 1.5B ：https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace 我们也开源发布了 RWKV 模型端聊天 APP，方便大家体验 RWKV-7 模型。APP 下载链接在本文靠后位置。模型客观指标评测英语和多语

英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集

2025-08-15

。如需获取数据集，可直接访问 Hugging Face 页面：https://huggingface.co/datasets/nvidia/Llama-Nemotron-VLM-Dataset-v1

RWKV7-G1 2.9B 推理模型开源发布，展示数学/代码/全球语言能力，已适配手机 App

2025-05-22

g 数据，总数据为 5.16T tokens。快速体验 G1 2.9B ：https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace 我们也开源发布了 RWKV 模型端聊天 APP，方便大家体验 RWKV-7 G1 模型，APP 下载链接在本文靠后位置。模型客观指标评测英语和多

智源研究院发布中文互联网语料库 CCI3.0

2024-09-27

Flopsera：http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3 Huggingface：https://huggingface.co/datasets/BAAI/CCI3-Data Datahub：https://data.baai.ac.cn/details/BAAI-CCI3 据介绍，CCI 3.0收录超过2.68亿个网页，涵盖新闻、社交媒体、博客等多个领域。CCI

Stability AI 开源视频生成模型 Stable Video Diffusion

2023-11-23

-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets HuggingFace：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

阿里通义开源实首个音频生成模型 ThinkSound

2025-07-08

的高保真音频。目前，ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源，开发者可免费下载和体验。 https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

Hugging Face 发布 AI Sheets，使用 AI 模型处理数据集的开源工具

2025-08-12

构建、丰富和转换数据集。开源地址：https://github.com/huggingface/aisheets 简单来说，AI Sheets 就像是 Excel 和 Google Sheets 的 AI 增强版，但它专为数据科学家和开发者设计，能够直接调用各种 AI 模型来处理表格数据。无论你是需

空间理解模型 SpatialLM 正式发布首份技术报告

2025-06-25

epSeek-V3、通义千问Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。作为一款将大语言模型扩展到3D空间理解任务中的模型，SpatialLM能从3D点云输入生成结构化的空间场景描述，这一过程突破了大语言模型对物

阿拉伯语 AI 大模型 Jais 正式开源，参数达 130 亿

2023-08-31

模型的推理能力。目前这款模型现已开源，用户可以从 HuggingFace 获取。 https://huggingface.co/inception-mbzuai/jais-13b

南京大学发布 Hugging Face 知识图谱

2025-05-28

07 代码：https://github.com/nju-websoft/HuggingBench 数据：https://huggingface.co/collections/cqsss/huggingbench-67b2ee02ca45b15e351009a2

熱門推薦