Amoro 0.6.0 发布:集成 Kubernetes 与 S3,支持 Apache Paimon


Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

2023 年 11 月 07 日,Amoro 0.6.0 版本正式更新发布!这个版本在 0.5.1 版本的基础上,增加了很多 feature,并且提升了可用性和稳定性,推荐各位用户和开发者升级到这个版本。在这次版本更新中,来自社区的 21 位贡献者付出了 118 次提交,感谢每位社区小伙伴的贡献!

01 重要更新

1.Kubernetes 集成

支持通过 Kubernetes 部署 AMS 和 Optimizer。

2. 与 S3 更友好的集成

注册 catalog 的时候可以选择 Storage 是 S3,并且支持 AK/SK 验证体系。

 

 

3. Paimon format 支持

Apache paimon 是一个具备高速数据摄取,变更日志跟踪和高效的实时分析的实时数据湖平台。

  • 在 Catalogs 页面支持支持注册 Paimon catalog。

 

 

  • 注册完 catalog 以后,可以在 Tables 页面查看表的 Schema, Properties, Files, Snapshots, Optimizing, Operations 等信息。
  • 可以在 Terminal 界面执行 paimon 支持的 Spark sql。

4. 分区及文件过期

现在只需要在表上进行一些简单的配置,则能开启按照时间自动过期表中文件或分区的功能,如:

CREATE TABLE IF NOT EXISTS user (
id INT,
name string,
ts TIMESTAMP
) USING iceberg 
PARTITIONED BY (days(ts));

ALTER TABLE user SET TBLPROPERTIES (
'data-expire.enabled' = 'true',
'data-expire.level' = 'partition',
'data-expire.field' = 'ts',
'data-expire.retention-time' = '30d'
);

上面的例子开启了 user 表上的分区自动过期功能,AMS 会自动淘汰超过 30 天的分区。有关分区及文件自动过期的更多信息可以参考最新的用户手册:https://amoro.netease.com/docs/latest/using-tables/#configure-data-expiration

5.Mixed Format 支持 ORC 文件格式

Mixed Format 用户可以设置文件存储格式为 ORC 格式。

6.Mixed Format 支持 Flink-1.16 和 Flink-1.17

移除了对 Flink-1.12 和 Flink-1.14 的支持,新加了 Flink-1.16 和 Flink-1.17 版本的支持。

7. 优化 Position Delete 的内存使用

减少了 Self-Optimizing 过程中由于索引 Iceberg 的 position-delete 数据带来的内存消耗。

 

02 Release Note

Amoro 0.6.0 版本完整的 Release Note 请参考:

https://github.com/NetEase/amoro/releases/tag/v0.6.0

 

03 致谢

Amoro 社区的发展离不开大量用户的积极试用和反馈,以及社区开发者的无私贡献,再次感谢大家的付出!也欢迎更多小伙伴共同参与到 Amoro 社区建设中!

0.6.0 版本贡献者(排名不分先后)

 


End~

如果你对数据湖,湖仓一体、table format 或 Amoro 社区感兴趣,欢迎联系我们深入交流。

关于 Amoro 的更多资讯可查看:

  • 官网:https://amoro.netease.com/
  • 源码:https://github.com/NetEase/amoro

作者:史大洋

编辑:Viridian


相關推薦

2023-08-09

Dremio 的 Arctic 组件 另一方面,Arctic 的灵感更多源于 Apache Iceberg 项目, 但是在这开源的一年时间里我们发现一个可以适配更多数据湖格式的湖仓管理系统更加符合社区用户的需要,后续我们依然会围绕 Iceberg 去构建更多

2023-03-10

。它还 支持多种部署模式,包括独立模式、集群模式和 Kubernetes 模式 ,以满足不同用户的需求。 DolphinScheduler 的一个 关键特性 是它对 DAG(有向无环图)工作流定义的支持 ,使用户可以轻松定义复杂的数据处理工作流。它还

2024-02-15

C)投票接受 Strimzi 作为 CNCF 孵化项目。 Strimzi 专注于在 Kubernetes 上部署和运行 Apache Kafka 集群。Apache Kafka 是构建基于事件的微服务架构和实时数据流水线的领先平台,它在设计上具有水平可扩展性和容错性。在 Kubernetes 上运行

2022-11-22

新增功能包括: 新增跨环境集群同步功能、增强Alluxio在Kubernetes上的可管理性、提高S3 API 安全性和用户体验 2022年11月17日,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.9版本,新版本立即可用。2.9版

2024-01-30

小伙伴们,Apache Doris 2.0.4 版本已于 2024 年 1 月 26 日正式发布,该版本在新优化器、倒排索引、数据湖等功能上有了进一步的完善与更新,使 Apache Doris 能够适配更广泛的场景。此外,该版本进行了若干的改进与优化,以提供更

2024-03-19

亲爱的社区小伙伴们,Apache Doris 2.0.6 版本已于 2024 年 3 月 12 日正式与大家见面,该版本在物化视图、统计信息收集、JDBC Catalog 等方面进行了更新优化,并提交了 114 个改进项以及问题修复,欢迎大家下载体验。 官网下载: http

2023-12-19

小伙伴们,Apache Doris 2.0.3 版本已于 2023 年 12 月 14 日正式发布,该版本对复杂数据类型、统计信息收集、倒排索引、数据湖分析、分布式副本管理等多个功能进行了优化,欢迎大家下载体验。 此外,由衷感谢 104 位贡献者,他

2023-01-11

重点特性的介绍。 扩展对 Gateway API 的支持 Gateway API 是 Kubernetes 中下一代的 Ingress 规范,致力于提供富有表现力,可扩展和面向角色的接口来发展 Kubernetes 的网络,各个 Ingress controller 项目都在积极推进对该规范的支持。Apache A

2023-10-14

编程语言技术和实践来改进对大量繁杂配置比如云原生 Kubernetes 配置场景的编写,致力于构建围绕配置的更好的模块化、扩展性和稳定性,更简单的逻辑编写,以及更简单的自动化和生态工具集成。 本栏目将会双周更新 KCL 语

2023-01-06

照亮开源之路 https://github.com/apache/incubator-seatunnel 版本发布 今天,Apache SeaTunnel(incubating) 正式推出 2.3.0 正式版本,并正式发布自己的核心同步引擎 Zeta!此外,SeaTunnel 2.3.0 还带来了许多大家期待已久的新特性,包括支持 CDC、

2022-07-28

月前,Apache Flink 推出第一个可用于生产环境的 Apache Flink Kubernetes Operator 版本以来(1.0 版本),社区一直在努力改善该工具的功能。 随着 Flink Kubernetes Operator 1.1 的发布,新版本又带来了一些新功能,改善了生产环境中管理 Flink

2023-08-11

​StarRocks 自 4 月底发布 3.0 版本,拥抱云原生,开启极速统一的湖仓新范式;8月7日,StarRocks 正式发布全新 3.1 版本,全面提升云原生存算分离构架、极速数据湖分析、物化视图等重量级特性,让用户更简单的实现极速统一的湖

2023-10-21

施,实现超高性能、无缝访问和便捷管理。” 此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立

2022-11-19

的 1.5 版本中已基本支持了所有的 Gateway API 配置。 由于 Kubernetes Ingress 资源本身的限制,南北向场景中很多的流量管理能力无法被很好的表达出来,因此市场上大量的 Ingress Controller 解决方案都提供了自定义的 CRD,虽然这样能