Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。
2023 年 11 月 07 日,Amoro 0.6.0 版本正式更新发布!这个版本在 0.5.1 版本的基础上,增加了很多 feature,并且提升了可用性和稳定性,推荐各位用户和开发者升级到这个版本。在这次版本更新中,来自社区的 21 位贡献者付出了 118 次提交,感谢每位社区小伙伴的贡献!
01 重要更新
1.Kubernetes 集成
支持通过 Kubernetes 部署 AMS 和 Optimizer。
2. 与 S3 更友好的集成
注册 catalog 的时候可以选择 Storage 是 S3,并且支持 AK/SK 验证体系。
3. Paimon format 支持
Apache paimon 是一个具备高速数据摄取,变更日志跟踪和高效的实时分析的实时数据湖平台。
- 在 Catalogs 页面支持支持注册 Paimon catalog。
- 注册完 catalog 以后,可以在 Tables 页面查看表的 Schema, Properties, Files, Snapshots, Optimizing, Operations 等信息。
- 可以在 Terminal 界面执行 paimon 支持的 Spark sql。
4. 分区及文件过期
现在只需要在表上进行一些简单的配置,则能开启按照时间自动过期表中文件或分区的功能,如:
CREATE TABLE IF NOT EXISTS user (
id INT,
name string,
ts TIMESTAMP
) USING iceberg
PARTITIONED BY (days(ts));
ALTER TABLE user SET TBLPROPERTIES (
'data-expire.enabled' = 'true',
'data-expire.level' = 'partition',
'data-expire.field' = 'ts',
'data-expire.retention-time' = '30d'
);
上面的例子开启了 user 表上的分区自动过期功能,AMS 会自动淘汰超过 30 天的分区。有关分区及文件自动过期的更多信息可以参考最新的用户手册:https://amoro.netease.com/docs/latest/using-tables/#configure-data-expiration。
5.Mixed Format 支持 ORC 文件格式
Mixed Format 用户可以设置文件存储格式为 ORC 格式。
6.Mixed Format 支持 Flink-1.16 和 Flink-1.17
移除了对 Flink-1.12 和 Flink-1.14 的支持,新加了 Flink-1.16 和 Flink-1.17 版本的支持。
7. 优化 Position Delete 的内存使用
减少了 Self-Optimizing 过程中由于索引 Iceberg 的 position-delete 数据带来的内存消耗。
02 Release Note
Amoro 0.6.0 版本完整的 Release Note 请参考:
https://github.com/NetEase/amoro/releases/tag/v0.6.0
03 致谢
Amoro 社区的发展离不开大量用户的积极试用和反馈,以及社区开发者的无私贡献,再次感谢大家的付出!也欢迎更多小伙伴共同参与到 Amoro 社区建设中!
0.6.0 版本贡献者(排名不分先后)
End~
如果你对数据湖,湖仓一体、table format 或 Amoro 社区感兴趣,欢迎联系我们深入交流。
关于 Amoro 的更多资讯可查看:
- 官网:https://amoro.netease.com/
- 源码:https://github.com/NetEase/amoro
作者:史大洋
编辑:Viridian