数据采集 ETL & 流批一体化框架 bboss v7.0.2 发布


数据采集 ETL & 流批一体化框架 bboss v7.0.2 发布 --- 高效、稳定、快速、安全

bboss 由三部分构成

  • Elasticsearch Highlevel Java Restclient

  • 数据采集同步 ETL

  • 流批一体化计算框架

bboss版本最新版本号从以下文档章节获取:

1.1 在工程中导入bboss maven坐标

https://esdoc.bbossgroups.com/#/db-es-tool

bboss详细介绍文档:

https://esdoc.bbossgroups.com/#/README

bboss介绍视频

Elasticsearch Bboss Stream ETL 介绍视频

实时采集 Mysql binlog 增删改数据视频教程

v7.0.2 功能改进

  1. 数据采集改进:处理增量状态类型转换异常

  2. 数据采集改进:去掉增量状态管理嵌套锁,消除潜在的死锁隐患

  3. 文件采集插件改进:一次性文件全量采集的处理,添加是否禁止记录文件采集状态控制开关,false 不禁止,true 禁止,启用记录状态情况情况下作业重启,已经采集过的文件不会再采集,未采集完的文件,从上次采集截止的位置开始采集。默认true,禁止增量状态标记:fileInputConfig.setDisableScanNewFilesCheckpoint(false);//启用增量状态Checkpoint机制

  4. 优化用户自定义dsl输出机制:用户可以自定义实现dsl语句日志,另外提供了一个慢日志的默认功能,二选一,自定义的优先,没有自定义就判断是否设置需要打印慢dsl,如果需要则调用慢日志输出组件输出,注意:开启自定义dsl输出后,要关闭showTemplate,否则会重复输出日志。

  5. 状态管理info日志调整为debug级别日志。

  6. 处理mysql binlog 插件flushInterval机制不起作用问题, 优化数据处理管道flushInterval机制。

  7. mysql binlog插件增加异步启动机制,JoinToConnectTimeOut大于0生效,否则是同步启动,启用方法:

MySQLBinlogConfig mySQLBinlogConfig = new MySQLBinlogConfig();
mySQLBinlogConfig.setJoinToConnectTimeOut(20000L);

8. 细化数据处理管道停止状态:正常停止和异常停止,正常停止情况下需要继续处理完数据,异常停止情况下不处理后续数据

更多版本变更历史,浏览:https://esdoc.bbossgroups.com/#/changelog


相關推薦

2023-09-26

数据采集 ETL & 流批一体化框架 bboss v7.1.0 发布 --- 高效、稳定、快速、安全 bboss --- 简化版 Flink,一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成: Elasticsearch Hi

2023-11-07

数据采集 ETL & 流批一体化框架 bboss v7.1.1发布 --- 高效、稳定、快速、安全 本次版本最大亮点:新增MongoDB CDC输入插件,可以增量模式采集MongoDB 增、删、改数据,也可每次作业重启从最新位置采集MongoDB 增、删、改数据,

2024-08-13

制,大幅提升文本采集性能(近20倍性能提升) 并行数据采集改进:增加判断记录集是否为空逻辑,解决可能存在输入内容为空异常 bboss使用案例 https://esdoc.bbossgroups.com/#/bboss-datasyn-demo 数据采集ETL工具使用集成指南 https

2024-06-19

e功能 使用案例 https://esdoc.bbossgroups.com/#/bboss-datasyn-demo 数据采集&流批一体化处理使用指南 https://esdoc.bbossgroups.com/#/etl-metrics 插件清单 https://esdoc.bbossgroups.com/#/datatran-plugins 快速导入和使用  参考章节【1.1 在工程中导

2023-02-24

数据采集ETL&流批一体化计算工具 bboss v6.8.2 发布。 bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理入库以及流批一体化数据指标统计计算处理功能。 v6.8.2功能改进 FTP文件输入/

2022-11-03

多振奋人心的功能。 Flink 已经是流计算领域的领跑者,流批一体的概念逐渐得到大家的认可,并在越来越多的公司成功落地。之前的流批一体更强调统一的 API 和统一的计算框架。今年,在此基础上,Flink 推出了 Streaming Ware

2022-11-06

11月5日,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。 开放原子开源基金会副秘书长刘京娟女士对报告进行了深度

2024-10-18

效率和可扩展性。 1-1 湖仓查询加速 查询加速是湖仓一体化进程中的重要一环。借助 Apache Doris 强大的分布式查询引擎,可以帮助用户对湖仓数据进行快速分析。在 TPC-H 和 TPC-DS 标准测试集上,Apache Doris 的平均查询性能是 Tri

2022-10-28

集成和增量集成三类同步模式,并支持分布式水平扩展和流批一体架构,在各种数据量和各种场景下,一个框架即可解决数据集成需求。此外,BitSail采用插件式架构,支持运行时解耦,从而具备极强的灵活性,企业可以很方便

2023-04-27

式数据源,Text、PB、Parquet 等数据类型。 目前 Primus 流批一体训练框架在字节内部支持了抖音、头条、Tiktok、广告等大部分业务,每天运行在 Primus 上的作业总核数达到几百万。相比旧的基于Hadoop Streaming的框架,训练性能提

2023-08-09

ve 之上添加了更多实时场景的能力;并且面向 DataOps 提供流批统一、开箱即用的元数据服务,让数据湖更加好用和实用。 公告指出,项目更名的原因是 Arctic 与一些知名软件商标冲突,不利于长期规划。譬如: Man Gro

2022-07-20

SON 文档,可以部署在分布式集群中。 RavenDB 5.4 近日正式发布,更新内容如下: 特性 [ETL] 为 ETL 添加了 Kafka 支持 [ETL] 在 ETL 中添加了 RabbitMQ 支持 [Corax] 新的实验性搜索和索引引擎 Client API [Graph API] 将所有的 API 标记

2023-12-06

新的流式数据处理优先、统一历史数据从存储到计算原生一体化的实时数据平台。这意味着企业现在可以使用统一 SQL 语言实时无缝地查询流式数据和历史数据,进行实时处理分析,实时生成报表。相对于其他流式数据处理技术

2022-04-07

和 数据湖 等众多框架的 一站式 实时计算平台,致力于 流批一体 和 湖仓一体 的建设与实践。 其主要目标如下: 可视化交互式 FlinkSQL 和 SQL 的数据开发平台:自动提示补全、语法高亮、调试执行、语法校验、语句美化、