由阿里巴巴开源并捐赠的新一代流存储 Fluss 项目,顺利通过了投票,正式成为全球最大的开源基金会 Apache 软件基金会(ASF)的孵化项目!这是 Fluss 社区发展的重要里程碑,标志着项目迈入更加开放、中立和规范的新阶段。未来,Fluss 将依托 Apache 生态,加速构建全球化的开发者社区,持续推动新一代实时数据基础设施的创新与落地。
Fluss 社区已于近日完成了所有捐赠的流程,并将 Fluss 项目正式移交到了 Apache 软件基金会名下。在 7 月 3 日于新加坡举办的 Flink Forward Asia 2025 的主题演讲中,项目发起人 伍翀(云邪)正式宣布了这一激动的消息,并分享了新仓库地址(https://github.com/apache/fluss/)和官方网站域名(https://fluss.apache.org/)。
什么是 Fluss?
Fluss 是一款面向实时分析场景设计的下一代流存储引擎,致力于解决传统流存储技术在流计算、Lakehouse 等分析场景中面临的高成本与低效率问题。它具备以下核心特性:
- 列式流存储:支持毫秒级延迟的实时流读流写能力,以 Apache Arrow 列存格式存储实时流数据,通过列裁剪、分区裁剪等查询下推技术,可提升 10 倍读取性能并降低网络成本。
- 实时更新与点查:创新性地将实时更新能力引入流存储中。通过高性能流式更新、部分列更新、binlog、维表点查以及 DeltaJoin 等特性,高效协同 Flink 构建低成本流式实时数仓。
- 湖流一体:湖与流一体化存储,实现数据共享。Lakehouse 为流存储提供低成本的历史数据支持,而流存储则为 Lakehouse 注入实时数据能力,带来实时数据分析的体验,构建流批一体秒级湖仓。
Fluss 的发展历史与现状
2023 年 7 月,阿里云智能 Flink 团队正式启动了 Fluss 项目。项目名称源自 "FlinkUnifiedStreamingStorage"的缩写,寓意为 Apache Flink 打造统一的流式存储底座。巧合的是,"Fluss"在德语中意为" 河流 ",正如源源不断的数据流。
经过一年多的内部孵化与打磨,2024 年 11 月 29 日,在上海举办的 Flink Forward Asia 2024 大会主题演讲中,阿里巴巴正式宣布开源 Fluss 项目。自此,Fluss 迎来了多元化的国际化发展,吸引了来自全球的 60 多位开发者贡献代码,社区活跃度持续提升,平均每三个月发布一个重大版本。
与此同时,Fluss 在阿里巴巴集团内部也实现了大规模落地应用。目前,已支持超过 3 PB 数据规模,集群吞吐峰值达 40 GB/s,最大单表点查 QPS 达到 50 万次 / 秒,单表数据量最高可达 5000 亿条。在日志流量分析、搜索推荐、实时数仓等关键业务场景,Fluss 展现出卓越的性能与能力。
为什么加入 ASF 孵化器?
Apache 软件基金会是全球开源大数据技术的摇篮,孕育了众多改变世界的项目:Hadoop, Spark, Iceberg, Kafka, Flink 等。Fluss 期待加入 ASF,成为改变未来实时基础设施的一员。与此同时,Fluss 与这些 Apache 项目之间有着深度集成的需求,加入 ASF 能够加速与生态集成的进程。更重要的是,ASF 所倡导的 "开放、协作、中立" 理念,与 Fluss 的发展愿景高度契合。通过加入 Apache 孵化器,Fluss 不仅延续这一开源精神,也将融入更广阔的开发者社区,获得更完善的治理机制与可持续发展的坚实保障。