字节跳动商业化团队模型训练被“投毒”,内部人士称未影响豆包大模型


近日,有消息称字节跳动发生大模型训练被实习生“投毒”事件。

据悉,该事件发生在字节跳动商业化团队,因实习生田某某对团队资源分配不满,利用HF(huggingface)的漏洞,通过共享模型注入破坏代码,导致团队模型训练成果受损。消息称此次遭到入侵的代码已注入8000多张卡,损失或达千万美元。

字节跳动知情人士向记者透露称,近期公司确实发生过破坏模型训练一事,但传闻存在夸张和虚构的部分,该事件实际发生在今年6月底,田某某是在商业化技术团队实习,因为对团队资源分配不满,使用攻击代码破坏团队的模型训练任务,千万美元损失的数字也有所夸大。

另外,该人士称,受代码入侵影响的业务不是豆包大模型,而是商业化技术团队的模型训练任务,影响了广告部门的部分技术工作,实习生通过共享模型进行入侵的部分也不属于集团大模型。

此次事件暴露出字节跳动技术训练中存在的安全管理问题,包括权限隔离、共用代码的审计等。一位行业人士对记者表示,进行权限隔离与审计利于保护公司核心数据与知识产权,防止数据泄漏,提高数据与系统的安全性。比如实时监控权限使用情况,及时发现权限滥用和异常操作;定期审计权限,检查团队成员的权限是否符合授权策略,是否存在权限滥用的情况等。但这件事也有难度,包括跨部门合作成本、经常性维护与更新的资源投入等。

据知情人士向记者透露,目前该实习生已被辞退,公司也将相关情况同步给行业联盟与实习生学校。

最新的字节跳动大模型信息披露发生在今年10月15日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。

(本文来自第一财经)


相關推薦

2024-09-25

字节跳动今天在深圳举办2024火山引擎 AI 创新巡展,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。 据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力

2025-04-17

地位。 随着抖音、TikTok 占据绝对优势的市场地位,流量商业化成为字节面临的 Top 级问题,AI Lab 在字节内部重要性下降。2020年,AI Lab 定位从集团级前瞻性项目转为技术中台,为字节商业化团队业务提供支持,马维英的汇报对

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2025-04-18

字节跳动旗下「豆包大模型团队」发文表示,全新图像生成基础模型「Seedream 3.0」技术报告正式发布。 Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,亮点如下: 原生 2K 直出,适配多比例场景:无需后

2024-09-26

模型原名“云雀”,是国内通过算法备案的大模型之一。字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等 AI 创作工具,并把大模型接入抖音、番茄小

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

2023-07-13

国和美国的互联网大厂(比如谷歌、Meta、腾讯、百度、字节跳动),以及 AI 头部初创企业,都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。 而 OpenAI 最持久的护城河,就在于他们拥有真实用户的使用反馈、业内最顶

2024-08-14

公,效率翻倍。 豆包 抖音旗下的人工智能产品,基于字节跳动推出的自研豆包大模型。豆包电脑版以“豆包”主智能体为核心,集合AI搜索、写作、阅读总结、图像生成功能于一体,能够在工作、学习等各种场景为你提供帮

2025-04-11

字节跳动豆包大模型团队宣布开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。 据介绍,在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈

2023-04-27

为 Primus 解决的问题。   日均作业百万核的字节跳动实践 经过字节跳动在不断实践中调整打磨的 Primus,拥有以下能力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2024-07-27

用量增长了22倍。 火山引擎副总裁张鑫在会上介绍,在字节内部,有50多个业务在使用豆包大模型,覆盖了协同办公、数据分析、文案创作、辅助编程、内容审核、客服、游戏NPC、角色对话、教育等各种场景,基于豆包大模型

2025-04-16

在三月份的月活跃用户数(MAU)达到了近1.5亿,成功超越了字节跳动的 Doubao,成为中国最受欢迎的 AI 应用。 根据南华早报的报道,紧随其后的是 Doubao(豆包),月活跃用户接近1亿,DeepSeek 则约为7700万。 值得一提的是,阿里巴

2024-08-14

bsp; 而且,“ 遵守开源开放的标准,也让我们没有任何商业化和开源产品上的矛盾 , 也能帮助客户解决被某一家云厂商绑定的顾虑 。” 一套 RAG 系统,多种向量算法引擎 随着业务的增长,为了满足大规模内部业务和外部