数据采集 & 流批一体计算工具 bboss v6.8.2 发布


数据采集ETL&流批一体化计算工具 bboss v6.8.2 发布。

bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理入库以及流批一体化数据指标统计计算处理功能。

v6.8.2功能改进

  1. FTP文件输入/输出插件改进:ftp/sftp协议增加socketTimeout配置,sftp协议增加connectionTimeout配置

  2. FTP输出插件改进:增加生成文件异常上传FTP机制,默认同步发送。数据量比较多,同时切割文件的情况下,启用异步发送文件,会显著提升数据采集同步性能

  3. 数据采集重大功能扩展:增加指标计算输出插件,提供流批一体指标统计计算功能,支持两种模式的指标计算:

1) 在采集和处理数据时,同时对数据进行大数据指标统计聚合计算,最终将加工后的数据和指标计算结果进行持久化处理

2)只对采集的数据进行指标计算,最终将指标计算结果进行持久化处理

可以将聚合计算结果保存的各种指标数据库:Eleasticsearch/Mongodb/HBase/Clickhouse/Doris/DB(Oracle、Mysql、postgresql、sqlserver等主流关系数据库)

工具可以灵活定制具备各种功能的数据采集统计作业

1) 只采集和处理数据作业

2) 采集和处理数据、指标统计计算混合作业

3) 采集数据只做指标统计计算作业

流批一体化指标计算特点

1) 支持时间维度和非时间维度指标计算

2) 时间维度指标计算:支持指定统计时间窗口,单位到分钟级别

3) 一个指标支持多个维度和多个度量字段计算,多个维度字段值构造成指标的唯一指标key,支持有限基数key和无限基数key指标计算

4) 一个作业可以支持多种类型的指标,每种类型指标支持多个指标计算

5)支持准实时指标统计计算和离线指标统计计算

6)可以从不同的数据输入来源获取需要统计的指标数据,亦可以将指标计算结果保存到各种不同的目标数据源

数据增量采集特点

增量数据采集,默认基于sqlite数据库管理增量采集状态,可以配置到其他关系数据库管理增量采集状态,提供对多种不同数据来源增量采集机制:

1) 基于数字字段增量采集:各种关系数据库、Elasticsearch、MongoDB、Clickhouse等

2) 基于时间字段增量采集:各种关系数据库、Elasticsearch、MongoDB、Clickhouse、HBase等,基于时间增量还可以设置一个截止时间偏移量,比如采集到当前时间前十秒的增量数据,避免漏数据

3) 基于文件内容位置偏移量:文本文件、日志文件基于采集位置偏移量做增量

4) 基于ftp文件增量采集:基于文件级别,下载采集完的文件就不会再采集

 

数据采集&流批一体化处理使用指南

https://esdoc.bbossgroups.com/#/etl-metrics

 


相關推薦

2023-09-26

数据采集 ETL & 流批一体化框架 bboss v7.1.0 发布 --- 高效、稳定、快速、安全 bboss --- 简化版 Flink,一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成: Elasticsearch Hi

2023-11-07

数据采集 ETL & 流批一体化框架 bboss v7.1.1发布 --- 高效、稳定、快速、安全 本次版本最大亮点:新增MongoDB CDC输入插件,可以增量模式采集MongoDB 增、删、改数据,也可每次作业重启从最新位置采集MongoDB 增、删、改数据,

2023-07-06

数据采集 ETL & 流批一体化框架 bboss v7.0.2 发布 --- 高效、稳定、快速、安全 bboss 由三部分构成 Elasticsearch Highlevel Java Restclient 数据采集同步 ETL 流批一体化计算框架 bboss版本最新版本号从以下文档章节获取:

2024-08-13

制,大幅提升文本采集性能(近20倍性能提升) 并行数据采集改进:增加判断记录集是否为空逻辑,解决可能存在输入内容为空异常 bboss使用案例 https://esdoc.bbossgroups.com/#/bboss-datasyn-demo 数据采集ETL工具使用集成指南 https

2024-06-19

e功能 使用案例 https://esdoc.bbossgroups.com/#/bboss-datasyn-demo 数据采集&流批一体化处理使用指南 https://esdoc.bbossgroups.com/#/etl-metrics 插件清单 https://esdoc.bbossgroups.com/#/datatran-plugins 快速导入和使用  参考章节【1.1 在工程中导

2022-11-03

多振奋人心的功能。 Flink 已经是流计算领域的领跑者,流批一体的概念逐渐得到大家的认可,并在越来越多的公司成功落地。之前的流批一体更强调统一的 API 和统一的计算框架。今年,在此基础上,Flink 推出了 Streaming Ware

2022-11-06

算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在2019年出现第一个热力峰值。以数据湖存储为代表的存储一体化从2019年起进入了一个新的发展阶段,涌现了Delta Lake、 Iceberg和Hudi等热点项目。 云原生

2023-08-09

ve 之上添加了更多实时场景的能力;并且面向 DataOps 提供流批统一、开箱即用的元数据服务,让数据湖更加好用和实用。 公告指出,项目更名的原因是 Arctic 与一些知名软件商标冲突,不利于长期规划。譬如: Man Gro

2023-03-17

测 内置基于 AI 的时序异常检测和预测分析框架,具备流批一体、严重程度分级等多项能力,支持每秒万级实时指标数据并发检测,内含 13 种异常检测器,可覆盖常见的离群点、数值变化、阈值、持续上升下降等常见时序异常

2022-04-07

和 数据湖 等众多框架的 一站式 实时计算平台,致力于 流批一体 和 湖仓一体 的建设与实践。 其主要目标如下: 可视化交互式 FlinkSQL 和 SQL 的数据开发平台:自动提示补全、语法高亮、调试执行、语法校验、语句美化、

2023-12-06

以启动预配置的 Docker 镜像,快速对接各种数据开始体验流批一站式实时数据处理和分析。欢迎大家查看代码,运行样例,提交反馈和贡献社区。 有关 Timeplus Timeplus 是一个 “流式优先” 的实时数据平台。它提供强大的端到端

2022-10-28

集成和增量集成三类同步模式,并支持分布式水平扩展和流批一体架构,在各种数据量和各种场景下,一个框架即可解决数据集成需求。此外,BitSail采用插件式架构,支持运行时解耦,从而具备极强的灵活性,企业可以很方便

2024-10-18

支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存

2024-08-02

图的1.0版本,到默认采用动态图并可实现动静统一与训推一体的2.0版本发布,飞桨框架已经可以完美融合动态图的灵活性与静态图的高效性,并支持模型的混合并行训练;再到近日,为大模型时代而锤炼的3.0版本的正式出炉!飞