SeaTunnel 2.3.1重磅发布!AI compatible 特性引发关注


SeaTunnel 2.3.1 版本于近日发布,这是一次备受瞩目的重磅发布,有多项重要功能更新和优化。

在编程使用体验层面上,新版本提升了 SeaTunnel Zeta 稳定性,并提升了 CI/CD 的稳定性;在连接器层面上,新版本实现了 7+ 个新连接器,修复了已有常用连接器 bug,并提高了安全性。社区重构了多个底层基类,增加了一个重要特性 AI Compatible,经过优化后的API,用户可以直接使用ChatGPT 4.0 快速构建需要使用的SaaS Connector。

重大Feature更新

01 SeaTunnel Zeta

SeaTunnel 2.3.0 版本中发布了数据集成专用引擎 SeaTunnel Zeta 的首个版本,目前已经收到了大量社区用户的使用反馈。在 SeaTunnel 2.3.1 版本中,我们修复了所有用户反馈的 bug,同时对内存和线程的使用做了优化,Zeta 的稳定性得到了极大的提升。

2.3.1 版本中,社区也增加了多项 Zeta 新特性,包括专门的 JVM 参数配置文件、作业监控信息的客户端输出,Zeta 集群信息和作业信息的 Rest API 等。

在 checkpoint 层面,2.3.1 版本 Zeta 支持使用 OSS 作为 checkpoint 存储。同时支持对运行中的作业进行 savepoint 以及从 savepoint 中恢复作业。

此外,2.3.1 版本还增加了一套 Zeta 的 Rest API 可以用来获取运行在 Zeta 上的作业列表,作业的状态信息,以及 Zeta 集群节点的监控指标等,具体的使用方式可以参考 https://seatunnel.apache.org/docs/seatunnel-engine/rest-api/

02 AI Compatible

SeaTunnel 2.3.1 当中重构了Http接口和相关API,根据现有xGPT水平能力简化了SaaS Connector相关API和Connector构建流程,让ChatGPT 4.0 可以直接生成SaaS Connector,快速生成各类SaaS Connector接口,对比之下,用此方法得到的结果与开源贡献者写的代码相似度达 95%(参见附录)。

当然,因为 ChatGPT4.0 在 2021 年 10 月份进行数据更新,所以针对最新的 SaaS 接口适配还需要给一些向量化的最新文档才会有最新的接口适配。不过,这套重构后的 API 和代码框架可以让用户自己更快速地生成 Connector,并贡献到开源社区,让 SeaTunnel 接口更加强大。

连接器

01 新增7+个连接器

在修复已知连接器的 bug 和优化连接器的同时,社区新增加了 SAP HANA, Persistiq, TDEngine, SelectDB Cloud, Hbase, FieldMapper Transform 和 SimpleSQL Transform 等 7 个连接器。

02 重新实现SQL Transform

由于之前的 SQL Transform 连接器是基于 Flink SQL 和 Spark SQL 来定义的,导致 SQL Transform 无法适配多个引擎的执行,因此我们在 2.3.0 版本中移除了 SQL Transform 的功能。在 2.3.1 版本中,我们重新实现了 SQL Transform, SQL Transform 是不依赖任务特定的执行引擎的 API,可以完美运行在 Flink/Spark/Zeta 三种不同的引擎上。在此特别感谢贡献者马骋原(githubId: rewerma)主导和贡献了这个重要的 Feature。

关于 SQL Transform 已经支持的函数,可参考 https://seatunnel.apache.org/docs/2.3.1/transform-v2/sql-functions

03 CDC连接器新增SQL Server CDC

在CDC连接器层面,社区新增加了SQL Server CDC连接器,并对MySQL CDC进行了大量的优化,提升了MySQL CDC的稳定性。

04 新增CDC连接器输出debezium-json格式功能

此外,2.3.1 版本还新增了 CDC 连接器输出 debezium-json 格式的功能,用户可以使用 MySQL CDC 读取 binlog 并输出 debezium-json 格式的数据到 Kafka,这样用户可以创建新的同步任务读取 Kafka 中的 debezium-json 格式的数据并同步到目标数据源,或者可以直接写其它程序读取 Kafka 中的 debezium-json 格式的数据来进行一些指标计算。

安全性

在 2.3.1 版本之前,用户需要将数据库用户名、密码等信息明文配置在 config 文件中,这可能会带来一些安全性问题。在 2.3.1 版本中,我们增加了配置文件加密功能,用户可以在 config 文件中填写加密之后的数据库用户名、密码等信息。作业运行时,SeaTunnel 会基于默认的加解密算法对 config 文件中的内容进行解密。同时,加密功能提供了 SPI,用户可以基于自己的需求自定义加密解密的参数列表和加密解密的算法。

关于此功能的使用方式,可以参考https://seatunnel.apache.org/docs/2.3.1/connector-v2/Config-Encryption-Decryption

第三方引擎支持

SeaTunnel 2.3.1 版本支持了 Spark 3.3 版本,以及 Flink 1.14.6, Flink 1.15, Flink 1.16 等版本,基本覆盖了 Spark 和 Flink 的主流版本。

Client

新版本增加了作业配置的 SPI,之前只支持 hocon json 方式配置文件,现在开放了SPI,可以由用户自定义作业配置文件的格式以适应不同的业务系统集成需求。

优化

SeaTunnel 2.1.3 版本进行了多项重要优化,包括核心组件、连接器组件、CI/CD、Zeta(ST-Engine) 和 E2E 组件均有更改,涉及到添加新功能、改进现有功能以及优化测试和部署流程。一些值得注意的更改包括在 Core API 中添加并行性和列投影接口,在 Connector-V2 中引入 MySQL-CDC 源工厂和支持 JDBC 源连接器的仅一次语义,提高了 E2E 的 CI/CD 流程和稳定性,在 Zeta(ST-Engine) 中添加了当所有节点宕机时重新启动作业的逻辑,并使写数据超时时间可配置。

详细列表见  Realease Note 【Improve】部分。

文档

此外,新版本还对文档进行了一系列更新,包括添加 transform v2 文档和一些提示,以及改进各种 connector 的文档。

详见Realease Note 【Docs】部分。

文档地址:https://seatunnel.apache.org/versions/

Release Note

https://github.com/apache/incubator-seatunnel/blob/2.3.1/release-note.md

项目地址https://seatunnel.apache.org/

下载地址https://seatunnel.apache.org/download

致谢贡献者

TaoZex

liugddx

TyrantLucifer

hailin0

lightzhao

zhaoliang01

MonsterChenzhuo

ic4y

Hisoka-X

EricJoy2048

ashulin

FlechazoW

john8628

Carl-Zhou-CN

zhouyao

CalvinKirs

FWLamb

wendongdi

wenweideng

lhyundeadsoul

wuchunfu

Grypse

sunnyzhuzhu

lvshaokang

laglangyue

harveyyue

zy-kkk

voidking

liumengkai

wineternity

quanhongding

zhilinli123

mosence

ruanwenjun

kpretty

chucheng92

Al-assad

531651225

stdnt-xiao

rewerma

iture123

HuPengCheng

wfrong

 

附录:ChatGPT生成Connector代码步骤如下:

1. 先将重构后http基类代码喂入ChatGPT4.0 https://github.com/apache/incubator-seatunnel/blob/dev/seatunnel-connectors-v2/connector-http/connector-http-base/src/main/java/org/apache/seatunnel/connectors/seatunnel/http/source/HttpSource.java

2. 得到反馈后,给出SaaS Connector示例代码:https://github.com/apache/incubator-seatunnel/blob/dev/seatunnel-connectors-v2/connector-http/connector-http-github/src/main/java/org/apache/seatunnel/connectors/seatunnel/github/source/GithubSource.java

3. 直接给出指令:“参考上面示例代码 写一个Apache SeaTunnel Gitlab Connector的代码,要求有注释需用Java 编写”

 

对比之下,用此方法得到的结果与开源贡献者写的代码相似度达 95%,https://github.com/apache/incubator-seatunnel/blob/dev/seatunnel-connectors-v2/connector-http/connector-http-gitlab/src/main/java/org/apache/seatunnel/connectors/seatunnel/gitlab/source/GitlabSource.java


相關推薦

2023-09-15

thub.com/devlive-community/openai-java-sdk 该版本着重支持 Apache Seatunnel 作为流水线支持框架 DataCap 已发布 发布版本 发布时间 1.14.0 2023-09-14 General 修复数据源检查任务返回空的问题 添加验证码 支持登

2023-08-30

,聊聊 AI 大模型与底层技术 >>> 时隔两个月, Apache SeaTunnel 终于迎来大版本更新。此次发布的 2.3.3 版本在功能和性能上均有较大优化改进,其中大家期待已久的 CDC Schema evolution(DDL 变更同步)、主键 Split 拆分、JDBC Sink 自

2024-08-08

Apache SeaTunnel 2.3.6 版本于近日正式发布,社区期待的 SeaTunnel Zeta Master/Worker 新架构、事件通知机制、支持动态编译的transform等新功能和新能力在这次版本中都有了全面的更新,并添加了首个向量数据库 Milvus。此外,本版本还进

2022-06-18

Godot 4.0 发布了第 10 个 Alpha 版本。 值得关注的变化: 新增将 Godot 3.x 项目转换为兼容 Godot 4 的 CLI 工具 此工具旨在优化项目从 Godot 3.x 过渡到 Godot 4.0 的 API 兼容性。由于此工作仍在进行中,因此建议在尝试转换工具之前,先

2024-10-31

率和准确性。探索 UOS AI 智能全局搜索。| 全局智能搜索重磅升级。 3)UOS AI 随行 & UOS AI 写作:2024年10月,从UOS 1.0重磅升级至 UOS AI 1.5,UOS AI随行及UOS AI 写作功能上线,助你告别工作及学习中的中的繁琐,轻松应对各种挑战

2022-11-06

自细分领域的TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常

2023-01-06

️ Star · 照亮开源之路 https://github.com/apache/incubator-seatunnel 版本发布 今天,Apache SeaTunnel(incubating) 正式推出 2.3.0 正式版本,并正式发布自己的核心同步引擎 Zeta!此外,SeaTunnel 2.3.0 还带来了许多大家期待已久的新特性,

2024-07-27

江科学会堂,100+ 来自不同公司、不同社区、不同领域的重磅嘉宾将为您呈现一系列精彩内容: 主论坛。主题:极客与技术,产业与生态,源见未来。来自上海市政府的领导、中国电子的领导、国家级院士,以及来自百度、

2024-08-17

推动 AI 技术与各领域的深度融合与发展。 多个重磅项目启动 本次大会,有多个重磅项目宣布启动,从开源生态构建、开源技术应用、开源社区扩展、开源项目推广以及开源人才培养等方面促进开源生态持续繁荣发展

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。 值得关注的亮点: Chat Completions API 中新的函数调用功能 更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比

2024-07-03

商汤智能产业研究院牵头,联合InfoQ、稀土掘金、思否、开源PHP、CSDN、DataWhale,RTE开发者社区、Founder Park、异步社区等机构,正式发布《采用AI编程助手,发展新质生产力》白皮书。 该白皮书主要发现和讨论了: 1、遵循KRE

2024-10-16

Apache SeaTunnel 2.3.8 版本现已正式发布!此次版本后,用户将可以使用期待已久的Docker镜像,还可以体验Job级别日志功能,以及其他更新优化的功能。本文将详细介绍 Apache SeaTunnel 2.3.8 版本中的关键更新内容,欢迎更多开发者和

2023-10-27

当前版本为“最新版”,生产环境推荐使用“稳定版”,参考这里获取版本信息 获取更多信息,请阅读FISCO BCOS 3.x文档 新增 新增rPBFT共识算法 支持交易同步、区块同步的树状广播 交易池按时间顺序打包交易 新增Paillier

2024-08-08

个究竟,看看此次deepin IDE 更新了哪些亮点? 《deepin-IDE 重磅更新,终于等到你》 《deepipn-IDE 终于实现了自举!》   deepin IDE版本更新,智能化与工具增强 我们研发团队根据用户的反馈和需求,推出的全新版本deepin IDE对AI