数据采集 ETL & 流批一体化框架 bboss v7.1.0 发布


数据采集 ETL & 流批一体化框架 bboss v7.1.0 发布 --- 高效、稳定、快速、安全

bboss --- 简化版 Flink,一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成:

  • Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java 客户端框架

  • 数据采集同步 ETL ,一个基于 java 语言实现数据采集作业的强大 ETL 工具,提供丰富的输入插件和输出插件,可以基于插件规范轻松扩展新的输入插件和输出插件

  • 流批一体化计算框架,提供灵活的数据指标统计计算流批一体化处理功能的简易框架,可以结合数据采集同步 ETL 工具,实现数据流处理和批处理计算,亦可以独立使用;计算结果可以保存到各种关系数据库、分布式数据仓库 Elasticsearch、Clickhouse 等,特别适用于数据体量和规模不大的企业级数据分析计算场景,具有成本低、见效快、易运维等特点,助力企业降本增效。

项目源码地址参考:源码下载和构建

v7.1.0 功能改进

  1. 流批一体化改进:框架增加了添加和获取用于指标计算处理等的临时数据到记录,不会对临时数据进行持久化处理 使用案例:

    //添加用于指标计算处理等的临时数据到记录,不会对临时数据进行持久化处理,
    context.addTempData("name","ddd");
    //获取用于指标计算处理等的临时数据到记录,不会对临时数据进行持久化处理,
    CommonRecord data = (CommonRecord) mapData.getData();
    
    String name = (String)data.getTempData("name");
  2. 流批一体化改进:修复指标分析器设置时间格式空指针异常

  3. 流批一体化改进:修复指标分析器设置时间窗口类型空指针异常

  4. Elasticsearch客户端改进:添加文档时,如果数据采用Map封装,控制是否保存文档id字段到记录中,true 保存 false 不保存,默认值true 使用案例:

    //创建创建/修改/获取/删除文档的客户端对象,单实例多线程安全
    ClientInterface clientUtil = ElasticSearchHelper.getRestClientUtil();
    //构建一个对象,日期类型,字符串类型属性演示
    Map demo = new LinkedHashMap();
    demo.put("demoId","2");//文档id,唯一标识,@PrimaryKey注解标示,如果demoId已经存在做修改操作,否则做添加文档操作
    demo.put("agentStarttime",new Date());
    demo.put("applicationName","blackcatdemo2");
    demo.put("contentbody","this-is content body2");
    demo.put("agentStarttime",new Date());
    demo.put("name","|刘德华");
    demo.put("orderId","NFZF15045871807281445364228");
    demo.put("contrastStatus",2);
    demo.put("localDateTime", LocalDateTime.now());
    
     //强制刷新
     ClientOptions addOptions = new ClientOptions();
     addOptions.setIdField("orderId");
     addOptions.setPersistMapDocId(false);
     //如果orderId对应的文档已经存在则更新,不存在则插入新增
     String response = clientUtil.addDocument("demonoid",//索引表
     demo,addOptions);
  5. 流处理机制改进:根据时间窗口类型配置日期格式和相应的时间维度字段

  6. 流处理机制改进:useDefaultMapData调整为false

导入和使用 bboss

bboss 版本最新版本号从以下文档章节【1.1 在工程中导入 bboss maven 坐标获取:

https://esdoc.bbossgroups.com/#/db-es-tool

bboss ETL 插件使用指南

https://esdoc.bbossgroups.com/#/datatran-plugins

bboss 详细介绍文档

https://esdoc.bbossgroups.com/#/README

bboss 实战视频

Elasticsearch Bboss Stream ETL 介绍视频

实时采集 Mysql binlog 增删改数据视频教程

bboss 流批一体化计算入门教程

Elasticsearch 导出 Excel 文件,按记录数切割 Excel 文件,解决单个文件导出数量过大问题


相關推薦

2023-11-07

数据采集 ETL & 流批一体化框架 bboss v7.1.1发布 --- 高效、稳定、快速、安全 本次版本最大亮点:新增MongoDB CDC输入插件,可以增量模式采集MongoDB 增、删、改数据,也可每次作业重启从最新位置采集MongoDB 增、删、改数据,

2023-07-06

数据采集 ETL & 流批一体化框架 bboss v7.0.2 发布 --- 高效、稳定、快速、安全 bboss 由三部分构成 Elasticsearch Highlevel Java Restclient 数据采集同步 ETL 流批一体化计算框架 bboss版本最新版本号从以下文档章节获取:

2023-02-24

数据采集ETL&流批一体化计算工具 bboss v6.8.2 发布。 bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理入库以及流批一体化数据指标统计计算处理功能。 v6.8.2功能改进 FTP文件输入/

2022-11-03

多振奋人心的功能。 Flink 已经是流计算领域的领跑者,流批一体的概念逐渐得到大家的认可,并在越来越多的公司成功落地。之前的流批一体更强调统一的 API 和统一的计算框架。今年,在此基础上,Flink 推出了 Streaming Ware

2022-11-06

11月5日,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。 开放原子开源基金会副秘书长刘京娟女士对报告进行了深度

2022-10-28

集成和增量集成三类同步模式,并支持分布式水平扩展和流批一体架构,在各种数据量和各种场景下,一个框架即可解决数据集成需求。此外,BitSail采用插件式架构,支持运行时解耦,从而具备极强的灵活性,企业可以很方便

2023-04-27

式数据源,Text、PB、Parquet 等数据类型。 目前 Primus 流批一体训练框架在字节内部支持了抖音、头条、Tiktok、广告等大部分业务,每天运行在 Primus 上的作业总核数达到几百万。相比旧的基于Hadoop Streaming的框架,训练性能提

2022-07-20

SON 文档,可以部署在分布式集群中。 RavenDB 5.4 近日正式发布,更新内容如下: 特性 [ETL] 为 ETL 添加了 Kafka 支持 [ETL] 在 ETL 中添加了 RabbitMQ 支持 [Corax] 新的实验性搜索和索引引擎 Client API [Graph API] 将所有的 API 标记

2023-08-09

ve 之上添加了更多实时场景的能力;并且面向 DataOps 提供流批统一、开箱即用的元数据服务,让数据湖更加好用和实用。 公告指出,项目更名的原因是 Arctic 与一些知名软件商标冲突,不利于长期规划。譬如: Man Gro

2023-12-06

新的流式数据处理优先、统一历史数据从存储到计算原生一体化的实时数据平台。这意味着企业现在可以使用统一 SQL 语言实时无缝地查询流式数据和历史数据,进行实时处理分析,实时生成报表。相对于其他流式数据处理技术

2022-06-10

Apache Hop 2.0.0 已正式发布。 Apache Hop(Hop 是 Hop Orchestration Platform 的缩写)是一个灵活、元数据驱动的数据编排、工程和集成平台。该项目起源于二十多年前的 ETL 平台 Kettle,经过几年的重构,于 2020 年 9 月进入 ASF 孵化器。 Kettle

2022-04-07

和 数据湖 等众多框架的 一站式 实时计算平台,致力于 流批一体 和 湖仓一体 的建设与实践。 其主要目标如下: 可视化交互式 FlinkSQL 和 SQL 的数据开发平台:自动提示补全、语法高亮、调试执行、语法校验、语句美化、

2023-07-05

a 版本全面启用。全新查询优化器采取了更先进的 Cascades 框架、使用了更丰富的统计信息、实现了更智能化的自适应调优,在绝大多数场景无需任何调优和 SQL 改写即可实现极致的查询性能,同时对复杂 SQL 支持得更加完备、可

2022-10-10

ta science、data-engineering 技术分类 根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括: 数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理/安全/中间件、数据可视化。