字节跳动:利用 AI 自动调优 Linux 内核参数


在近日举办的 Linux Plumbers Conference 上提出,字节跳动 Linux 内核工程师 Cong Wang 发表了一个“Linux Kernel Autotuning”的主题演讲,提议可以使用人工智能(AI)和机器学习(ML)来调整 Linux 内核,从而为特定工作负载带来效果最优化。

他指出,现在的 Linux 内核为用户提供了数以千计的参数,因此想要通过调整参数以获得最佳性能已经变得越来越困难。大多数情况下,不同的工作负载需要对不同的 Linux 内核参数集进行不同的调整。

而在像字节跳动这样的大型数据中心,要针对数百种不同的工作负载手动调整 Linux 内核参数几乎是不可能的。因此字节跳动提出了一个解决方案,尝试以最小的工程投入实现整个 Linux 内核参数调整过程的自动化。

我们还注意到,内存管理是 Linux 内核子系统中对自动调优的需求较多的一个。借助贝叶斯优化等机器学习算法,我们相信自动调优甚至可以击败大多数 Linux 内核工程师。在本次演讲中,我们将介绍 Linux 内核自动调整解决方案的工作原理以及其设计和架构的概述。我们还将研究 Linux 内核内存管理的一些特定案例,以展示我们的结果作为概念验证。

对于未来的工作,我们希望利用这个机会提出并讨论一个内核内机器学习框架,该框架可以进一步推动这个项目,在内核空间中完全优化 Linux 内核快速路径。

Wang 打趣称,此举并不是为了“让 Linux 内核工程师失业”,而是旨在将人类工程师从调整每个单独工作负载的性能的工作中解放出来,同时利用历史数据做出更好的决策,找到比目前使用试错和启发式方法得出的解决方案更好的解决方案。

自动调整系统旨在根据特定的工作负载和硬件配置,自动调整 Linux 内核的内部设置。这种动态调整可确保最佳性能,解决 Linux 社区长期以来面临的一个针对特定场景手动调整内核的难题。

  • 动态优化: 系统持续监控内核性能,对 CPU 频率缩放和内存管理等设置进行实时调整。
  • 提高效率: 通过优化资源使用,自动调整系统大大提高了 Linux 系统的效率,尤其是在不同工作负载的环境中。
  • 用户友好界面: 该系统包含一个用户友好界面,即使技术知识有限的用户也能从增强的内核性能中受益。
  • 可定制的设置: 高级用户可以自定义自动调整参数,根据其特定需求定制系统。

虽然目前还处于早期阶段,但字节方面表示已经取得了一些进展。例如,通过将 DAMON(一个用于内存访问监控和优化的 Linux 内核子系统)与该框架结合使用,能够为 MySQL 应用程序找到最佳方案。为此,他们运行了不同的 DAMON 方案并对其性能进行了比较,发现可以将应用程序的内存使用量减少 30%。

在另一项案例中,该公司通过优化调整 16 个内核 sysctl 参数,优化了 NGINX 服务器上的 HTTP 网络延迟。在最佳情况下,与专家手动调整相比,ML 调整使 NGNIX 网络性能提升了 12%。

字节并未宣称其 AI/ML 方法适用于所有 Linux 调整工作,但工程师也表示:“虽然存在局限性,但我们相信内核机器学习不仅是可能的,而且是必要的。”

科技媒体 ZDNet 的编辑对字节此举表达了认可,并认为其可能改变 Linux 应用程序的游戏规则。“通过简化内核优化,将使 Linux 对更广泛的用户和应用程序来说更易用、更高效。特别是,我看到自动调整系统几乎可以提升所有服务器、云计算和数据中心应用的性能。”


相關推薦

2023-07-01

Oracle 开源了一个基于 BPF 的 Linux 参数自动调优工具 “bpftune”,这是一个自动配置器,可以监控 Linux 系统的工作负载并自动设置正确的内核参数值。 Linux 内核包含超过 1,500 个可调参数 ,bpftune 会随着系统的状态不断地自动调

2023-03-25

Katalyst 是字节跳动对多年大规模业务云原生化场景中资源管理能力的抽象和总结,我们期望通过 Katalyst 的开源直接或间接的帮助用户做好资源管理,实现降本增效。 当下互联网应用以天为单位,在线业务的资源使用情况往

2023-04-27

为 Primus 解决的问题。   日均作业百万核的字节跳动实践 经过字节跳动在不断实践中调整打磨的 Primus,拥有以下能力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的

2023-02-08

源项目前 100。 国内 腾讯、华为、阿里巴巴、美团、字节跳动、百度、京东、网易、快手、圆通 等 和 国外 Google, Microsoft, Amazon, Paypal, IBM, Shopee 等数百名知名大厂员工点了 Star, 也有 腾讯、华为、字节跳动、Microsoft、Zoom、

2023-03-10

3月7日,由字节跳动主办,英特尔、OCP-OSF(Open System Firmware)、OSFF(Open System Firmware Foundation) 社区联合举办的“云固件交流沙龙”在北京召开。会上,字节跳动正式发布了新一代云固件 Cloud Firmware 2.0,这是首次在 X86 服务器中产品化

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2023-04-08

进程分别建立Message和Byte高低优先级队列,确保在消息和字节并发的情况下,优先保障消息队列的数据发送,同时也能保障Byte得到有效传输,避免了在字节数据拥塞的情况下,消息数据不能及时传输。 在支持RAW流的基础上,

2022-10-28

10月26日,字节跳动宣布开源BitSail数据集成引擎。BitSail意为“数据航行”,可支持二十余种异构数据源间的数据同步,提供离线、实时、全量、增量场景下的全域数据集成解决方案,从而打通困扰企业数字化转型的“数据孤岛”

2023-07-13

国和美国的互联网大厂(比如谷歌、Meta、腾讯、百度、字节跳动),以及 AI 头部初创企业,都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。 而 OpenAI 最持久的护城河,就在于他们拥有真实用户的使用反馈、业内最顶

2022-10-20

近日,CNCF 发布了最新版本的云原生全景图。字节跳动多租户网关项目 KubeZoo 被收录,在 Provisioning-Automation & Configuration 领域占有一席之地。这意味着 KubeZoo 正式成为 CNCF 认可的构建云原生最佳实践中的一环。 Landscape

2024-02-23

机接口等。 对于这六大方向业内已有布局。早在2016年,字节跳动公司就成立了人工智能实验室,聚焦研究自然语言处理、机器学习、数据挖掘等方面。2023年以来,字节跳动公司加码人工智能应用研究,旗下产品不断加入AIGC(

2023-09-24

React/Vue/Nerv 等框架来开发微信 / 京东 / 百度 / 支付宝 / 字节跳动 / QQ 小程序 / H5 等应用。 此版本具体更新内容如下: 特性 小程序 支持 ScrollView 组件二级下拉相关属性,fix #14321 微信小程序支持 Snapshot 

2022-12-02

React/Vue/Nerv 等框架来开发微信 / 京东 / 百度 / 支付宝 / 字节跳动 / QQ 小程序 / H5 等应用。 此版本具体更新内容如下: 特性 小程序 独立分包添加公共逻辑抽取 fix #12206 修复开启 html 转译插件后,部分元素属性没有进

2023-03-12

字节跳动开源了一款采用 Rust 开发的前端模块打包工具:Rspack(读音为/'ɑrspæk/)。 据介绍,Rspack 是一个基于 Rust 的高性能构建引擎,具备与 Webpack 生态系统的互操作性,可以被 Webpack 项目低成本集成,并提供更好的构建性