SeaTunnel 2.3.1重磅发布!AI compatible 特性引发关注


SeaTunnel 2.3.1 版本于近日发布,这是一次备受瞩目的重磅发布,有多项重要功能更新和优化。

在编程使用体验层面上,新版本提升了 SeaTunnel Zeta 稳定性,并提升了 CI/CD 的稳定性;在连接器层面上,新版本实现了 7+ 个新连接器,修复了已有常用连接器 bug,并提高了安全性。社区重构了多个底层基类,增加了一个重要特性 AI Compatible,经过优化后的API,用户可以直接使用ChatGPT 4.0 快速构建需要使用的SaaS Connector。

重大Feature更新

01 SeaTunnel Zeta

SeaTunnel 2.3.0 版本中发布了数据集成专用引擎 SeaTunnel Zeta 的首个版本,目前已经收到了大量社区用户的使用反馈。在 SeaTunnel 2.3.1 版本中,我们修复了所有用户反馈的 bug,同时对内存和线程的使用做了优化,Zeta 的稳定性得到了极大的提升。

2.3.1 版本中,社区也增加了多项 Zeta 新特性,包括专门的 JVM 参数配置文件、作业监控信息的客户端输出,Zeta 集群信息和作业信息的 Rest API 等。

在 checkpoint 层面,2.3.1 版本 Zeta 支持使用 OSS 作为 checkpoint 存储。同时支持对运行中的作业进行 savepoint 以及从 savepoint 中恢复作业。

此外,2.3.1 版本还增加了一套 Zeta 的 Rest API 可以用来获取运行在 Zeta 上的作业列表,作业的状态信息,以及 Zeta 集群节点的监控指标等,具体的使用方式可以参考 https://seatunnel.apache.org/docs/seatunnel-engine/rest-api/

02 AI Compatible

SeaTunnel 2.3.1 当中重构了Http接口和相关API,根据现有xGPT水平能力简化了SaaS Connector相关API和Connector构建流程,让ChatGPT 4.0 可以直接生成SaaS Connector,快速生成各类SaaS Connector接口,对比之下,用此方法得到的结果与开源贡献者写的代码相似度达 95%(参见附录)。

当然,因为 ChatGPT4.0 在 2021 年 10 月份进行数据更新,所以针对最新的 SaaS 接口适配还需要给一些向量化的最新文档才会有最新的接口适配。不过,这套重构后的 API 和代码框架可以让用户自己更快速地生成 Connector,并贡献到开源社区,让 SeaTunnel 接口更加强大。

连接器

01 新增7+个连接器

在修复已知连接器的 bug 和优化连接器的同时,社区新增加了 SAP HANA, Persistiq, TDEngine, SelectDB Cloud, Hbase, FieldMapper Transform 和 SimpleSQL Transform 等 7 个连接器。

02 重新实现SQL Transform

由于之前的 SQL Transform 连接器是基于 Flink SQL 和 Spark SQL 来定义的,导致 SQL Transform 无法适配多个引擎的执行,因此我们在 2.3.0 版本中移除了 SQL Transform 的功能。在 2.3.1 版本中,我们重新实现了 SQL Transform, SQL Transform 是不依赖任务特定的执行引擎的 API,可以完美运行在 Flink/Spark/Zeta 三种不同的引擎上。在此特别感谢贡献者马骋原(githubId: rewerma)主导和贡献了这个重要的 Feature。

关于 SQL Transform 已经支持的函数,可参考 https://seatunnel.apache.org/docs/2.3.1/transform-v2/sql-functions

03 CDC连接器新增SQL Server CDC

在CDC连接器层面,社区新增加了SQL Server CDC连接器,并对MySQL CDC进行了大量的优化,提升了MySQL CDC的稳定性。

04 新增CDC连接器输出debezium-json格式功能

此外,2.3.1 版本还新增了 CDC 连接器输出 debezium-json 格式的功能,用户可以使用 MySQL CDC 读取 binlog 并输出 debezium-json 格式的数据到 Kafka,这样用户可以创建新的同步任务读取 Kafka 中的 debezium-json 格式的数据并同步到目标数据源,或者可以直接写其它程序读取 Kafka 中的 debezium-json 格式的数据来进行一些指标计算。

安全性

在 2.3.1 版本之前,用户需要将数据库用户名、密码等信息明文配置在 config 文件中,这可能会带来一些安全性问题。在 2.3.1 版本中,我们增加了配置文件加密功能,用户可以在 config 文件中填写加密之后的数据库用户名、密码等信息。作业运行时,SeaTunnel 会基于默认的加解密算法对 config 文件中的内容进行解密。同时,加密功能提供了 SPI,用户可以基于自己的需求自定义加密解密的参数列表和加密解密的算法。

关于此功能的使用方式,可以参考https://seatunnel.apache.org/docs/2.3.1/connector-v2/Config-Encryption-Decryption

第三方引擎支持

SeaTunnel 2.3.1 版本支持了 Spark 3.3 版本,以及 Flink 1.14.6, Flink 1.15, Flink 1.16 等版本,基本覆盖了 Spark 和 Flink 的主流版本。

Client

新版本增加了作业配置的 SPI,之前只支持 hocon json 方式配置文件,现在开放了SPI,可以由用户自定义作业配置文件的格式以适应不同的业务系统集成需求。

优化

SeaTunnel 2.1.3 版本进行了多项重要优化,包括核心组件、连接器组件、CI/CD、Zeta(ST-Engine) 和 E2E 组件均有更改,涉及到添加新功能、改进现有功能以及优化测试和部署流程。一些值得注意的更改包括在 Core API 中添加并行性和列投影接口,在 Connector-V2 中引入 MySQL-CDC 源工厂和支持 JDBC 源连接器的仅一次语义,提高了 E2E 的 CI/CD 流程和稳定性,在 Zeta(ST-Engine) 中添加了当所有节点宕机时重新启动作业的逻辑,并使写数据超时时间可配置。

详细列表见  Realease Note 【Improve】部分。

文档

此外,新版本还对文档进行了一系列更新,包括添加 transform v2 文档和一些提示,以及改进各种 connector 的文档。

详见Realease Note 【Docs】部分。

文档地址:https://seatunnel.apache.org/versions/

Release Note

https://github.com/apache/incubator-seatunnel/blob/2.3.1/release-note.md

项目地址https://seatunnel.apache.org/

下载地址https://seatunnel.apache.org/download

致谢贡献者

TaoZex

liugddx

TyrantLucifer

hailin0

lightzhao

zhaoliang01

MonsterChenzhuo

ic4y

Hisoka-X

EricJoy2048

ashulin

FlechazoW

john8628

Carl-Zhou-CN

zhouyao

CalvinKirs

FWLamb

wendongdi

wenweideng

lhyundeadsoul

wuchunfu

Grypse

sunnyzhuzhu

lvshaokang

laglangyue

harveyyue

zy-kkk

voidking

liumengkai

wineternity

quanhongding

zhilinli123

mosence

ruanwenjun

kpretty

chucheng92

Al-assad

531651225

stdnt-xiao

rewerma

iture123

HuPengCheng

wfrong

 

附录:ChatGPT生成Connector代码步骤如下:

1. 先将重构后http基类代码喂入ChatGPT4.0 https://github.com/apache/incubator-seatunnel/blob/dev/seatunnel-connectors-v2/connector-http/connector-http-base/src/main/java/org/apache/seatunnel/connectors/seatunnel/http/source/HttpSource.java

2. 得到反馈后,给出SaaS Connector示例代码:https://github.com/apache/incubator-seatunnel/blob/dev/seatunnel-connectors-v2/connector-http/connector-http-github/src/main/java/org/apache/seatunnel/connectors/seatunnel/github/source/GithubSource.java

3. 直接给出指令:“参考上面示例代码 写一个Apache SeaTunnel Gitlab Connector的代码,要求有注释需用Java 编写”

 

对比之下,用此方法得到的结果与开源贡献者写的代码相似度达 95%,https://github.com/apache/incubator-seatunnel/blob/dev/seatunnel-connectors-v2/connector-http/connector-http-gitlab/src/main/java/org/apache/seatunnel/connectors/seatunnel/gitlab/source/GitlabSource.java


相關推薦

2023-09-15

thub.com/devlive-community/openai-java-sdk 该版本着重支持 Apache Seatunnel 作为流水线支持框架 DataCap 已发布 发布版本 发布时间 1.14.0 2023-09-14 General 修复数据源检查任务返回空的问题 添加验证码 支持登

2023-08-30

,聊聊 AI 大模型与底层技术 >>> 时隔两个月, Apache SeaTunnel 终于迎来大版本更新。此次发布的 2.3.3 版本在功能和性能上均有较大优化改进,其中大家期待已久的 CDC Schema evolution(DDL 变更同步)、主键 Split 拆分、JDBC Sink 自

2022-06-18

Godot 4.0 发布了第 10 个 Alpha 版本。 值得关注的变化: 新增将 Godot 3.x 项目转换为兼容 Godot 4 的 CLI 工具 此工具旨在优化项目从 Godot 3.x 过渡到 Godot 4.0 的 API 兼容性。由于此工作仍在进行中,因此建议在尝试转换工具之前,先

2022-11-06

自细分领域的TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常

2023-01-06

️ Star · 照亮开源之路 https://github.com/apache/incubator-seatunnel 版本发布 今天,Apache SeaTunnel(incubating) 正式推出 2.3.0 正式版本,并正式发布自己的核心同步引擎 Zeta!此外,SeaTunnel 2.3.0 还带来了许多大家期待已久的新特性,

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。 值得关注的亮点: Chat Completions API 中新的函数调用功能 更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比

2023-10-27

当前版本为“最新版”,生产环境推荐使用“稳定版”,参考这里获取版本信息 获取更多信息,请阅读FISCO BCOS 3.x文档 新增 新增rPBFT共识算法 支持交易同步、区块同步的树状广播 交易池按时间顺序打包交易 新增Paillier

2023-05-18

了基于 3.1.5 版本进行了 bug 修复、Doc 完善外, 还进行了 SeaTunnel Zeta 引擎的支持。   其中较为重要的为: 修复依赖任务不正确的超时警报 #13822 修复替换时间变量参数 #13975 修复流程实例 DAG 无法显示依赖任务的问

2022-10-26

建可扩展且可持续的神经搜索系统。目前 Jina 3.11.0 正式发布,此版本包含 6 个新功能、1 个错误修复和 10 个文档改进。 使用基本配置添加 OpenTelemetry 跟踪和指标 ( #5175 ) Jina 现在支持 OpenTelemetry Tracing 和 Metrics 库,以提高 Jina Ru

2023-05-08

VLOOK™ 是针对 Typora(跨平台 Markdown 编辑器)的 主题包 和 增强插件(针对导出的 HTML 文件),旨在与众 Markdown 粉共创 Markdown 的自动化排版 2.0,在保持 Markdown 简洁性的基础上,让编辑、阅读 Markdown 文档更实

2022-10-19

疑问要属 Stable Diffusion,它是由初创公司 StabilityAI 于今年发布的深度学习文字转图像模型,它主要用于根据文字的描述产生详细图像。Stable Diffusion 的诞生除了让 AI 绘画这个领域突然火爆,还催生出了售卖 AI 关键词等新兴产业

2023-06-14

全球首个全模态大模型发布、水分子基础科研探索等系列重磅内容公布。 当前人工智能领域充满着无限的潜力和机遇,而大模型和人工智能框架也将迎来更多突破。人工智能框架生态峰会的召开将为国内人工智能技术,特别是

2023-10-18

【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 截至目前,openKylin(开放麒麟)开源生态圈汇聚超300家合作企业、5000余名核心贡献者、80+SIG以及超百万用户。   现诚邀社区各合作伙伴、S

2023-07-05

VLOOK™ 是针对 Typora(跨平台 Markdown 编辑器)的 主题包 和 增强插件(针对导出的 HTML 文件),旨在与众 Markdown 粉共创 Markdown 的自动化排版 2.0,在保持 Markdown 简洁性的基础上,让编辑、阅读 Markdown 文档更实