字节跳动:利用 AI 自动调优 Linux 内核参数


在近日举办的 Linux Plumbers Conference 上提出,字节跳动 Linux 内核工程师 Cong Wang 发表了一个“Linux Kernel Autotuning”的主题演讲,提议可以使用人工智能(AI)和机器学习(ML)来调整 Linux 内核,从而为特定工作负载带来效果最优化。

他指出,现在的 Linux 内核为用户提供了数以千计的参数,因此想要通过调整参数以获得最佳性能已经变得越来越困难。大多数情况下,不同的工作负载需要对不同的 Linux 内核参数集进行不同的调整。

而在像字节跳动这样的大型数据中心,要针对数百种不同的工作负载手动调整 Linux 内核参数几乎是不可能的。因此字节跳动提出了一个解决方案,尝试以最小的工程投入实现整个 Linux 内核参数调整过程的自动化。

我们还注意到,内存管理是 Linux 内核子系统中对自动调优的需求较多的一个。借助贝叶斯优化等机器学习算法,我们相信自动调优甚至可以击败大多数 Linux 内核工程师。在本次演讲中,我们将介绍 Linux 内核自动调整解决方案的工作原理以及其设计和架构的概述。我们还将研究 Linux 内核内存管理的一些特定案例,以展示我们的结果作为概念验证。

对于未来的工作,我们希望利用这个机会提出并讨论一个内核内机器学习框架,该框架可以进一步推动这个项目,在内核空间中完全优化 Linux 内核快速路径。

Wang 打趣称,此举并不是为了“让 Linux 内核工程师失业”,而是旨在将人类工程师从调整每个单独工作负载的性能的工作中解放出来,同时利用历史数据做出更好的决策,找到比目前使用试错和启发式方法得出的解决方案更好的解决方案。

自动调整系统旨在根据特定的工作负载和硬件配置,自动调整 Linux 内核的内部设置。这种动态调整可确保最佳性能,解决 Linux 社区长期以来面临的一个针对特定场景手动调整内核的难题。

  • 动态优化: 系统持续监控内核性能,对 CPU 频率缩放和内存管理等设置进行实时调整。
  • 提高效率: 通过优化资源使用,自动调整系统大大提高了 Linux 系统的效率,尤其是在不同工作负载的环境中。
  • 用户友好界面: 该系统包含一个用户友好界面,即使技术知识有限的用户也能从增强的内核性能中受益。
  • 可定制的设置: 高级用户可以自定义自动调整参数,根据其特定需求定制系统。

虽然目前还处于早期阶段,但字节方面表示已经取得了一些进展。例如,通过将 DAMON(一个用于内存访问监控和优化的 Linux 内核子系统)与该框架结合使用,能够为 MySQL 应用程序找到最佳方案。为此,他们运行了不同的 DAMON 方案并对其性能进行了比较,发现可以将应用程序的内存使用量减少 30%。

在另一项案例中,该公司通过优化调整 16 个内核 sysctl 参数,优化了 NGINX 服务器上的 HTTP 网络延迟。在最佳情况下,与专家手动调整相比,ML 调整使 NGNIX 网络性能提升了 12%。

字节并未宣称其 AI/ML 方法适用于所有 Linux 调整工作,但工程师也表示:“虽然存在局限性,但我们相信内核机器学习不仅是可能的,而且是必要的。”

科技媒体 ZDNet 的编辑对字节此举表达了认可,并认为其可能改变 Linux 应用程序的游戏规则。“通过简化内核优化,将使 Linux 对更广泛的用户和应用程序来说更易用、更高效。特别是,我看到自动调整系统几乎可以提升所有服务器、云计算和数据中心应用的性能。”


相關推薦

2024-09-26

标准,广泛用于数据仓库、数据湖、机器学习等领域。在字节跳动内部每天运行百万级别的 Spark 离线作业,Shuffle 量高达 500PB,CPU 资源需求达到千万级别。随着业务的快速发展,用户对计算资源的需求越来越大,除了增加物理

2023-07-01

Oracle 开源了一个基于 BPF 的 Linux 参数自动调优工具 “bpftune”,这是一个自动配置器,可以监控 Linux 系统的工作负载并自动设置正确的内核参数值。 Linux 内核包含超过 1,500 个可调参数 ,bpftune 会随着系统的状态不断地自动调

2024-06-26

有消息称字节跳动为削减采购成本并确保高端 AI 芯片供应稳定,与美国博通(Broadcom)合作开发先进AI处理器。针对该消息,字节跳动方面对第一财经记者回应称:消息不实。 据媒体报道,字节跳动与博通合作开发的处理器为

2024-06-25

字节跳动正在与美国芯片设计公司博通公司(Broadcom)合作开发一款先进的人工智能处理器,此举将有助于TikTok的所有者在中美关系紧张之际确保高端芯片的充足供应。 消息人士补充说,5纳米芯片是一种定制产品,被称为特

2023-03-25

Katalyst 是字节跳动对多年大规模业务云原生化场景中资源管理能力的抽象和总结,我们期望通过 Katalyst 的开源直接或间接的帮助用户做好资源管理,实现降本增效。 当下互联网应用以天为单位,在线业务的资源使用情况往

2023-04-27

为 Primus 解决的问题。   日均作业百万核的字节跳动实践 经过字节跳动在不断实践中调整打磨的 Primus,拥有以下能力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的

2024-08-23

、CNCF、华为、Red Hat(红帽)、阿里云、DaoCloud、微软、字节跳动等企业及组织的 200 多位技术专家、企业代表、开源领袖,将带来 140 多场精彩演讲,主题涵盖软件开发生命周期、平台工程、运营、安全、网络、服务网格、可观

2024-10-21

近日,有消息称字节跳动发生大模型训练被实习生“投毒”事件。 据悉,该事件发生在字节跳动商业化团队,因实习生田某某对团队资源分配不满,利用HF(huggingface)的漏洞,通过共享模型注入破坏代码,导致团队模型训练成

2024-09-25

字节跳动今天在深圳举办2024火山引擎 AI 创新巡展,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。 据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力

2023-02-08

源项目前 100。 国内 腾讯、华为、阿里巴巴、美团、字节跳动、百度、京东、网易、快手、圆通 等 和 国外 Google, Microsoft, Amazon, Paypal, IBM, Shopee 等数百名知名大厂员工点了 Star, 也有 腾讯、华为、字节跳动、Microsoft、Zoom、

2023-03-10

3月7日,由字节跳动主办,英特尔、OCP-OSF(Open System Firmware)、OSFF(Open System Firmware Foundation) 社区联合举办的“云固件交流沙龙”在北京召开。会上,字节跳动正式发布了新一代云固件 Cloud Firmware 2.0,这是首次在 X86 服务器中产品化

2024-09-26

模型原名“云雀”,是国内通过算法备案的大模型之一。字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等 AI 创作工具,并把大模型接入抖音、番茄小

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2023-04-08

进程分别建立Message和Byte高低优先级队列,确保在消息和字节并发的情况下,优先保障消息队列的数据发送,同时也能保障Byte得到有效传输,避免了在字节数据拥塞的情况下,消息数据不能及时传输。 在支持RAW流的基础上,