Amoro 0.6.0 发布:集成 Kubernetes 与 S3,支持 Apache Paimon


Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

2023 年 11 月 07 日,Amoro 0.6.0 版本正式更新发布!这个版本在 0.5.1 版本的基础上,增加了很多 feature,并且提升了可用性和稳定性,推荐各位用户和开发者升级到这个版本。在这次版本更新中,来自社区的 21 位贡献者付出了 118 次提交,感谢每位社区小伙伴的贡献!

01 重要更新

1.Kubernetes 集成

支持通过 Kubernetes 部署 AMS 和 Optimizer。

2. 与 S3 更友好的集成

注册 catalog 的时候可以选择 Storage 是 S3,并且支持 AK/SK 验证体系。

 

 

3. Paimon format 支持

Apache paimon 是一个具备高速数据摄取,变更日志跟踪和高效的实时分析的实时数据湖平台。

  • 在 Catalogs 页面支持支持注册 Paimon catalog。

 

 

  • 注册完 catalog 以后,可以在 Tables 页面查看表的 Schema, Properties, Files, Snapshots, Optimizing, Operations 等信息。
  • 可以在 Terminal 界面执行 paimon 支持的 Spark sql。

4. 分区及文件过期

现在只需要在表上进行一些简单的配置,则能开启按照时间自动过期表中文件或分区的功能,如:

CREATE TABLE IF NOT EXISTS user (
id INT,
name string,
ts TIMESTAMP
) USING iceberg 
PARTITIONED BY (days(ts));

ALTER TABLE user SET TBLPROPERTIES (
'data-expire.enabled' = 'true',
'data-expire.level' = 'partition',
'data-expire.field' = 'ts',
'data-expire.retention-time' = '30d'
);

上面的例子开启了 user 表上的分区自动过期功能,AMS 会自动淘汰超过 30 天的分区。有关分区及文件自动过期的更多信息可以参考最新的用户手册:https://amoro.netease.com/docs/latest/using-tables/#configure-data-expiration

5.Mixed Format 支持 ORC 文件格式

Mixed Format 用户可以设置文件存储格式为 ORC 格式。

6.Mixed Format 支持 Flink-1.16 和 Flink-1.17

移除了对 Flink-1.12 和 Flink-1.14 的支持,新加了 Flink-1.16 和 Flink-1.17 版本的支持。

7. 优化 Position Delete 的内存使用

减少了 Self-Optimizing 过程中由于索引 Iceberg 的 position-delete 数据带来的内存消耗。

 

02 Release Note

Amoro 0.6.0 版本完整的 Release Note 请参考:

https://github.com/NetEase/amoro/releases/tag/v0.6.0

 

03 致谢

Amoro 社区的发展离不开大量用户的积极试用和反馈,以及社区开发者的无私贡献,再次感谢大家的付出!也欢迎更多小伙伴共同参与到 Amoro 社区建设中!

0.6.0 版本贡献者(排名不分先后)

 


End~

如果你对数据湖,湖仓一体、table format 或 Amoro 社区感兴趣,欢迎联系我们深入交流。

关于 Amoro 的更多资讯可查看:

  • 官网:https://amoro.netease.com/
  • 源码:https://github.com/NetEase/amoro

作者:史大洋

编辑:Viridian


相關推薦

2024-05-23

署中 Arrow Flight 无法获取正确 IP 的问题 此修复解决了在 Kubernetes 部署环境中 Arrow Flight 无法正确获取 IP 地址的问题。

2023-08-09

Dremio 的 Arctic 组件 另一方面,Arctic 的灵感更多源于 Apache Iceberg 项目, 但是在这开源的一年时间里我们发现一个可以适配更多数据湖格式的湖仓管理系统更加符合社区用户的需要,后续我们依然会围绕 Iceberg 去构建更多

2024-06-27

小伙伴们,Apache Doris 2.1.4 版本已于 2024 年 6 月 26 日正式发布。在 2.1.4 版本中,我们对数据湖分析场景进行了多项功能体验优化,重点修复了旧版本中异常内存占用的问题,同时提交了若干改进项以及问题修复,进一步提升了系

2023-03-10

。它还 支持多种部署模式,包括独立模式、集群模式和 Kubernetes 模式 ,以满足不同用户的需求。 DolphinScheduler 的一个 关键特性 是它对 DAG(有向无环图)工作流定义的支持 ,使用户可以轻松定义复杂的数据处理工作流。它还

2024-02-15

C)投票接受 Strimzi 作为 CNCF 孵化项目。 Strimzi 专注于在 Kubernetes 上部署和运行 Apache Kafka 集群。Apache Kafka 是构建基于事件的微服务架构和实时数据流水线的领先平台,它在设计上具有水平可扩展性和容错性。在 Kubernetes 上运行

2022-11-22

新增功能包括: 新增跨环境集群同步功能、增强Alluxio在Kubernetes上的可管理性、提高S3 API 安全性和用户体验 2022年11月17日,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.9版本,新版本立即可用。2.9版

2024-09-20

小伙伴们,Apache Doris 2.1.6 版本已于 2024 年 9 月 10 日正式发布。2.1.6 版本在 Lakehouse、异步物化视图、半结构化数据管理持续升级改进,同时在查询优化器、执行引擎、存储管理、数据导入与导出以及权限管理等方面完成了若干修

2024-07-13

对象存储摘要 ,作者@superhx,PR # 1396 fix(action): 修复发布操作 ( #1398 ) ,作者@superhx,PR # 1399 feat(core): 优化控制器事件循环中的块操作日志 ,作者@ShadowySpirits,PR # 1403 fix(auto_balancer):删除不必要的地图副本 ,作

2023-01-11

重点特性的介绍。 扩展对 Gateway API 的支持 Gateway API 是 Kubernetes 中下一代的 Ingress 规范,致力于提供富有表现力,可扩展和面向角色的接口来发展 Kubernetes 的网络,各个 Ingress controller 项目都在积极推进对该规范的支持。Apache A

2023-10-14

编程语言技术和实践来改进对大量繁杂配置比如云原生 Kubernetes 配置场景的编写,致力于构建围绕配置的更好的模块化、扩展性和稳定性,更简单的逻辑编写,以及更简单的自动化和生态工具集成。 本栏目将会双周更新 KCL 语

2024-01-30

小伙伴们,Apache Doris 2.0.4 版本已于 2024 年 1 月 26 日正式发布,该版本在新优化器、倒排索引、数据湖等功能上有了进一步的完善与更新,使 Apache Doris 能够适配更广泛的场景。此外,该版本进行了若干的改进与优化,以提供更

2024-10-16

Apache SeaTunnel 2.3.8 版本现已正式发布!此次版本后,用户将可以使用期待已久的Docker镜像,还可以体验Job级别日志功能,以及其他更新优化的功能。本文将详细介绍 Apache SeaTunnel 2.3.8 版本中的关键更新内容,欢迎更多开发者和

2024-03-19

亲爱的社区小伙伴们,Apache Doris 2.0.6 版本已于 2024 年 3 月 12 日正式与大家见面,该版本在物化视图、统计信息收集、JDBC Catalog 等方面进行了更新优化,并提交了 114 个改进项以及问题修复,欢迎大家下载体验。 官网下载: http

2023-01-06

照亮开源之路 https://github.com/apache/incubator-seatunnel 版本发布 今天,Apache SeaTunnel(incubating) 正式推出 2.3.0 正式版本,并正式发布自己的核心同步引擎 Zeta!此外,SeaTunnel 2.3.0 还带来了许多大家期待已久的新特性,包括支持 CDC、