字节跳动推出 QuaDMix:大型语言模型预训练数据质量与多样性的统一框架


字节跳动近日宣布推出其全新的数据选择框架 QuaDMix,旨在提升大型语言模型(LLM)预训练的效率和泛化能力。众所周知,模型的训练效果受基础数据集的质量和多样性影响很大。然而,传统的数据筛选方法往往将质量和多样性视为两个独立的目标,先进行质量过滤,再进行领域平衡。

这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差,而多样化的数据集可能会降低质量。因此,在固定的训练预算下,如何同时优化这两个维度以最大化模型性能,成为了一个亟待解决的难题。

QuaDMix 框架的主要运作分为三个阶段:特征提取、质量聚合和质量 - 多样性感知采样。在初始阶段,每个文档都会被标注领域标签和多项质量评分。通过归一化和合并这些评分,生成一个综合质量分数。接着,系统通过基于 sigmoid 的函数采样文档,优先考虑高质量样本,并通过参数化控制确保领域平衡。

为了优化模型,QuaDMix 在不同参数设置下训练了数千个代理模型。通过这些代理实验训练的回归模型可以预测性能结果,从而识别出最佳采样配置。这种方法使得在高维参数空间中进行结构化探索成为可能,从而更好地将数据选择与下游任务对接。

实验结果显示,QuaDMix 在 RefinedWeb 数据集上进行的验证实验中,与多种基线模型相比,平均得分达到了39.5%。这些基线模型包括随机选择、Fineweb-edu、AskLLM、DCLM 等。实验结果表明,联合优化策略在整体表现上始终优于单独关注质量或多样性的方法。此外,经过优化的数据混合更能提升特定下游任务的性能。

QuaDMix 为大型语言模型的预训练数据选择提供了一个系统化的解决方案,解决了长期以来同时优化数据质量与多样性的挑战。通过结合质量聚合和领域感知采样,QuaDMix 建立了一种可扩展的方法论,提升了 LLM 预训练的效率。


相關推薦

2025-06-11

了先进的爬虫策略,我们还显著扩大了训练数据的规模和多样性,并纳入了大量高质量的通用领域、数学和编程内容。我们还扩展了多语言支持,以支持即将在今年下半年推出的新的语言。 我们认为高质量的过滤在整体模型性

2025-05-10

字节跳动宣布正式开源其全新研发的社区驱动深度研究框架 DeerFlow。作为一款基于LangChain和LangGraph框架构建的智能研究助手,DeerFlow 深度整合了语言模型与网络搜索、爬虫、Python代码执行等专业工具。 DeerFlow旨在通过AI技术提

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

2025-05-15

字节跳动正式开源了全新图像定制框架DreamO。该框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能,旨在通过单一模型完成各种定制化任务。 https://github.com/bytedance/DreamO DreamO基于DiT(Diffusion Transform

2025-05-09

智源研究院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。 根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次

2025-06-07

继“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型。其中包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenC

2023-10-26

)联合香港大学、浙江大学和中国科学技术大学宣布共同推出 PonderV2 通用 3D 预训练方法与模型。 Ponder系列在通用3D方面实现三个“首次”:首次同时支持室内外使用场景;首次同时支持点云、体素和多视角图像输入;首次在不

2024-10-21

近日,有消息称字节跳动发生大模型训练被实习生“投毒”事件。 据悉,该事件发生在字节跳动商业化团队,因实习生田某某对团队资源分配不满,利用HF(huggingface)的漏洞,通过共享模型注入破坏代码,导致团队模型训练成

2023-08-10

以让数据为最终模型训练的目标服务。 为保证数据的多样性并有效处理重复信息,百川设计了一个多粒度的大规模聚类系统。通过使用先进的聚类算法和方法,识别和整合相似或相关的数据,为去重、采样提供支撑。 百

2025-05-23

真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。 技术突破:EVAC—— 全球首个机器人动作序列驱动的世界模型 EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到

2023-06-25

是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。 开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

2025-06-12

等团队。   挑战   Oncall 问题具有显著的多样性,不同类型的问题需由不同专业背景的人员进行处理。例如,系统故障需要产研& SRE 迅速定位并修复,以减少服务中断时间;客户投诉以及负面情绪则需要客户经

2023-04-27

为 Primus 解决的问题。   日均作业百万核的字节跳动实践 经过字节跳动在不断实践中调整打磨的 Primus,拥有以下能力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的