OpenJDK 合并英特尔 x86-simd-sort，将数据排序速度提高 7-15 倍

2023-10-08 發表於开源资讯

今年早些时候，英特尔发布了一个利用了 AVX-512 的 x86-simd-sort 快速排序库；当 Numpy 将 x86-simd-sort 代码进行合并后发现，对于 16 位到 64 位的数据类型，排序速度提高了10~17倍。如今，英特尔软件工程师又发布了 x86-simd-sort 3.0，OpenJDK 也已经将这一修改版进行了合并。

x86-simd-sort 3.0 添加了一个新的“avx512_argselect”方法，用于计算 arg nth_element，该方法返回一个对数据数组进行分区的索引数组。x86-simd-sort 3.0 版本还对其 benchmarks 进行了改进，现在使用 __builtin_cpu_supports 而不是 querying cpuinfo，并进行了各种其他更改。

目前，x86-simd-sort 3.0 已合并至 Numpy 主分支中，它提供了 np.partition 和 np.argpartition 的 AVX-512 矢量化版本。将 np.partition 的 16 位速度提高了 25 倍，将 32 位 dtypes 的速度提高了 17 倍，将 64 位 dtypes 的速度提高了约 8 倍。与此同时，新的 avx512_argselect 方法还使 np.argpartition 的速度提高了 6.5 倍。

并入 OpenJDK 的 x86-simd-sort 是一个略有修改的版本，该版本将 32 位数据排序速度提高了 15 倍，64 位数据排序速度提高了约 7 倍。

更多详情可查看此处。

相關推薦

NumPy 2.0.0 发布，2006 年以来的首个主要版本

2024-06-20

支持数组 API 标准。性能改进：通过使用 Intel x86-simd-sort 和 Google Highway 库，排序函数（sort、argsort、partition、argpartition）已得到加速，并且可能会看到较大的（特定于硬件的）加速为 MacOS >=14 提供 macOS 加速支持和 binar

华为开发者贡献 Linux 内核补丁，将核心内核函数速度提升 715 倍

2022-12-16

Linux 6.2 近日合并了一个重要补丁，该补丁能够将一个核心内核函数速度提升 715 倍。从合并的注释可知，贡献此补丁的维护者 Zhen Lei 来自华为，他将 kallsyms_lookup_name() 的平均查找性能提高了 715 倍，从而使内核里面旧实现的

NumPy 2.0.1 发布

2024-07-24

对 NaN 和 NAN 别名的提及 #26821：BLD：修复 openBSD 上的 x86-simd-sort 构建失败问题 #26835：BUG：避免“include complex.h”的 side-effect #26963：BUG：修复 in1d table method 的越界最小偏移量 #26971：BUG：修复 f2py 测试，使其与 v2 API 兼容

OpenSearch 3.0 发布

2025-05-09

达 30 倍的 p90 冷启动查询延迟改善，并减少了所有引擎的合并时间高达 40%。该功能还在 Faiss、Lucene 和 NMSLIB 库中表现出 3 倍的存储成本降低，为向量工作负载解锁了进一步的优化。使用 GPU 加速构建更快的向量解决方案向量

FreeBSD 为 SYSINT 采用合并排序取代冒泡排序

2023-08-22

护者 Colin Percival 发帖称，他们已经为 SYSINIT 采用合并排序 (mergesort) 来取代冒泡排序 (bubblesort)。 SYSINIT 是通用调用排序和调度机制的框架，FreeBSD 目前使用它来动态初始化内核。当加载内核或其模块之一时，SYSINIT 允

AI PC 新突破端侧首次支持 128K 上下文窗口实现 2.2 倍推理优化

2025-06-09

，实现了端侧可落地的系统级软硬件稀疏化的高效创新。英特尔与面壁智能从模型开发阶段就紧密合作，实现了长短文本多重推理效率的提升，端侧AI PC在Day 0全面适配，128K长上下文窗口等多方面突破。双方开展了深度技术协

HandBrake 1.7.0 发布，多功能视频转码工具

2023-11-22

2-pass 编码选项重命名为 multi-pass ( #5019 ) 修复了英特尔 QSV 编码器在某些情况下输出 green video 的问题（#4842、#4876）修复了使用 10 位硬件编码器时像素格式转换会稍微改变颜色的问题 ( #5011 ) 修复了当源分辨

Linus 批评英特尔的 LAM 代码，拒绝将其合并到内核

2022-12-21

英特尔希望将其 LAM（Linear Address Masking ：线性地址掩码）功能合并到 Linux 6.2，但该功能被 Linus 批评了一番，并拒绝了该合并。英特尔线性地址掩码 (LAM) 允许软件将 64 位线性地址的未转换地址位用于元数据，线性地

Eclipse OpenJ9 v0.33.0 发布

2022-08-08

Eclipse OpenJ9 v0.33.0 现已发布，Eclipse OpenJ9 是 OpenJDK 的 JVM，由 IBM 创建并捐赠给 Eclipse 基金会。此 Java 虚拟机经过优化，具备占用空间小、启动速度快以及吞吐量高等优势。自 0.30.0 版以来，此版本包含以下新功能和显着更改

Deno 1.26 发布，新增CacheWeb API、提升性能

2022-10-01

d/deno#15922。写入小文件时，同步写入Deno.writeFileSync()的速度快了 1.44 倍，异步写入Deno.writeFile()的速度快了 1.15 倍。 CSV 解析的性能在 Mac 和 Linux 上都有明显提升： URL 解析方面，对于没有查询字符串的 Url，URL 解析的速度

Mesa 22.2 发布，英特尔光追开源驱动获得 100 倍性能改进

2022-09-22

2 姗姗来迟正式发布。Mesa 22.2 的主要更新内容包括：英特尔 DG2 Vulkan 光线追踪代码的性能得到了很大的改善，达到了约 100 倍。用于 Radeon HD 2000 到 HD 6000 系列硬件的旧 R600g 驱动程序已经重写了 NIR 支持 RadeonSI EGL 背景下

曾被 Linus 点名批评的功能，现已合并到 Linux 6.4 中

2023-05-02

曾被 Linus 点名批评的英特尔 LAM（Linear Address Masking ：线性地址掩码）功能，终于合并到 Linux 6.4 中。英特尔线性地址掩码 (LAM) 允许软件将 64 位线性地址的未转换地址位用于元数据，可用于用户空间内存清理和标记

SQL优化：提升数据库性能的艺术

2025-06-05

余，提高数据一致性；但在某些场景下，反规范化（例如合并表）能够减少JOIN的次数，提升查询效率。数据类型选择：选择合适的数据类型可以有效减少存储空间，进而提高查询效率。例如，使用INT代替VARCHAR存储数字类型数

新的开源图像格式 QOI ，压缩速度比 PNG 快 100 倍

2021-12-22

像处理库 stb_image / stb_image_write 和 libpng 相比，QOI 的编码速度提高了100 倍，解码速度提高了 3-4 倍，压缩率提高了 20%。无可否认，QOI 在压缩/解压缩性能这一块有一些优势，但它仍然存在相当多的问题。比如，作为一个全

熱門推薦