CloudCanal v4.7.0.0 发布,支持 PG 向量结合大模型提供 RAG 服务


CloudCanal 免费社区版  ClouGence 公司推出的一款全自研可视化自动化数据迁移同步工具,具备 结构迁移数据迁移数据同步数据校验数据订正 等功能,支持 30+ 款流行关系型数据库、实时数仓、消息中间件、缓存数据库和搜索引擎之间数据互通,其中包含国产数据库 OceanBasePolarDBTiDBStarRocksDorisRocketMQ  等。

结合开源项目 CloudCanalProcess ,可方便实现如下功能:

  • wide-table : 打宽表数据处理插件,主要包括事实表和单维表组合处理
  • data-transform : 数据通用转换插件,比如做操作变幻、额外加字段、清洗回填数据
  • data-gather : 数据汇聚插件,将分库分表、垂直拆分、异地数据进行实时汇聚
  • data-compare : 数据对比插件,根据源端数据变化进行业务对账
  • business-alert : 业务告警插件,根据数据变化趋势做出相应告警

CloudCanal 产品功能对标阿里云 DTS、亚马逊 DMS、StreamSets、AirByte,助力开发、DBA 或运维同学快速构建在线数据应用。

Release-Note

亮点

  • 开放 PostgreSQL 向量结合大模型提供 RAG 服务 (数据源类型:RagApi),兼容标准 OpenAI 交互协议,支持用 Cherry Studio 等三方工具操作

  • 开放 文件(数据源类型:SshFile、S3File、OssFile)到 PostgreSQL 全量迁移结合大模型进行数据向量化(embedding),结合 RagApi 构建 私有数据到服务 的 RAG 应用

  • 支持 PostgreSQL 到 PostgreSQL 全量迁移、增量同步结合大模型进行数据向量化(embedding)

  • 支持 MySQL 到 PostgreSQL 全量迁移结合大模型进行数据向量化(embedding)

  • 支持 添加 OpenAI、阿里云 DashScope、DeepSeek、HuggingFace、Cohere、LocalAI 等 LLM 类型数据源,为数据向量化和 RagApi 服务

新链路

  • 开放 Dameng -> MySQL/StarRocks/Doris 链路 结构迁移、全量迁移、增量同步、数据校验与订正、DDL同步(加列/减列)

  • 开放 Dameng -> ClickHouse 链路 结构迁移、全量迁移、增量同步、数据校验、DDL同步(加列/减列)

  • 开放 Dameng -> Kafka 链路 全量迁移、增量同步

  • 开放 文件数据源(SshFile、S3File、OssFile)到 PostgreSQL 的全量迁移

  • 开放 文件数据源(SshFile、S3File、OssFile)到 MySQL 的全量迁移

  • 开放 Greenplum -> Hana 链路 结构迁移、全量迁移、额外支持定时全量迁移和过滤条件(程序内和下推)

  • 开放 Greenplum -> Doris 链路 结构迁移、全量迁移、数据校验与订正

新特性

  • 支持 通过 SSH 获取的 Posix 文件系统文件(SshFile)、AWS S3 文件(S3File)、阿里云 OSS文件(OssFile)数据源

  • 支持 文本文件(txt,markdown,json,.java,.c等)、Excel、CSV 到 MySQL 或 PostgreSQL 全量迁移

  • 支持 MariaDB 11.8 版本(实际规则增加了允许所有11.x版本)

  • 支持 Aliyun RocketMQ 5.0 版本

  • 支持 SQL Server 新增 CDC 表静态模式(多位点),任务共享固定 CDC 表名(db_schema_table_cc_static)

  • 支持 用户偏好设置 RDB 目标端写入并行策略(参数:increParallelApplyStrategy)

  • 支持 Iceberg 使用用户自定义代码

  • 支持 Redis key 的正则过滤(新增参数:keyRegex)

  • 支持 MongoDB 源端设置目标主键

  • 支持 创建任务选表步骤 搜索并手动勾选能力,满足数据库有限授权和几十万张表选择几张做迁移同步的需求

  • 支持 创建任务时根据用户偏好决定是否获取唯一键信息

  • 支持 创建任务在有唯一键无主键表,自动勾选 UPDATE & DELETE 或表变为可选择,且在选列页面自动设置第一个唯一键字段为对端主键

  • 支持 JDK17 运行 CloudCanal 产品,整体运行效率得到提升

  • 支持 清理机器日志

优化

  • 优化 Aliyun RocketMQ 测试连接,可探测 Aliyun RocketMQ 实例是否存活

  • 优化 Aliyun RocketMQ 源端重置位点,可通过 timestamp 进行位点重置

  • 优化 SQL Server 元信息获取,提示页面获取速度。

  • 优化 TiDB 源端,支持多 TiSession 请求,提升任务 Region 处理瓶颈(参数:maxPoolSize)

  • 优化 Redis 源端全量大 Key 同步(新增参数: listValueShardSize、hashValueShardSize、setValueShardSize、zsetValueShardSize)

  • 优化 Redis 位点,添加 count 辅助指标,dbIndex 多位点

  • 优化 支持 ElasticSearch 对端写入无 format 手动创建 format 的 date 类型

  • 优化 ElasticSearch 对端同步时区转换及带时区数据校验订正

  • 优化 初次安装 CloudCanal 需要删除默认 Sidecar

  • 优化 数据源列表分类展示,更容易识别

问题修复

  • 修复 Redis -> Redis 任务多次重启导致源端 Redis 主节点服务不稳定的问题(新增参数:bindSocketPort)

  • 修复 Redis -> Redis 任务停止 Socket 连接不会关闭的问题

  • 修复 Kafka Scram 登录模式并选择原始消息格式时,增量同步出现异常的问题

  • 修复 TiDB 源端表名大写导致 DDL 无法捕获的问题

  • 修复 修改订阅无法展示表数量的问题

  • 修复 StarRocks DYNAMIC scanMode 对 largeint 类型数据的转换

  • 修复 PolarDbMySQL 全量期间空指针报错的问题

  • 修复 Hana、PostgreSQL、Dameng、TDengine、SQL Server Dbs 过长导致修改订阅报错的问题

  • 修复 Aliyun RocketMQ 源端修改订阅抛非法 groupid 异常

  • 修复 Aliyun RocketMQ 源端修改订阅合并配置失败问题

免费下载和使用

  • 快速上手:https://www.clougence.com/cc-doc/quick/quick_star

相關推薦

2024-08-14

enDistro 上以插件的形式实现了向量检索的能力,于 2019 年发布了并开源了该插件,也就是 OpenDistro k-NN 插件。鉴于当时的实际情况,云搜索团队在 2020 年将 k-NN 方案引入到内部的实践中,同时也积极参与社区的建设 。2021 年 4 月

2024-08-27

上,“定身术”都起到了不小的作用。 自从 ChatGPT 宣布支持Function calling、插件系统、GPT+等功能后,各路厂商大模型均不限于提供一个可问答的大模型了,新的智能体概念被包装出来抬到用户眼前,整个 AI 世界仿佛在向用户勾

2023-09-05

Pigsty v2.3.1 现已发布。这个版本中PGVECTOR迎来 v0.5 史诗级更新,添加了新的 HNSW 索引支持。也对新发布的 PostgreSQL 16 RC1 提供了支持。此外,官方文档现在提供中文版本,现有文档也进行了丰富与完善。最后,还有例行的软件

2024-06-29

解和试用! 来源:github.com/greenplum-db PostgreSQL 17 Beta1 发布 5月23日,PostgreSQL 17 的首个 Beta 版本发布,在查询和写入性能、分区和分布式工作负载、开发者体验、安全功能、备份与导出管理以及监控等多个方面进行了改进与

2024-08-02

康食谱建议。 Mem0 背后包含对各种流行的大模型的内置支持,内存可以利用用户提供的 LLM,确保特定需求的高效使用,支持:

2024-08-01

! 省流版本: RWKV 官方公告 RWKV-6-World 14B 模型已发布 RWKV 中文官网 rwkv.cn 正式上线 RWKV 社区新项目 RWKV RAG:一键式 RWKV RAG 本地搭建项目,实现了最小封装和极高的扩展性 RWKV-Keras:RWKV 的 Keras 实现,支持 RWKV 模

2024-06-25

过阿里云百炼接入Yi系列大模型后,将可以使用平台工具结合自身数据进行模型调优、应用搭建等一系列开发。在调用推理时,依托阿里云AI基础设施,开发者可按需弹性调用算力资源,无需关心底层架构。此外,对零一万物的

2023-10-13

产品多半名称不同。 知名大模型:在全球范围内,已经发布了多款知名大模型,这些大模型在各个领域都取得了突破性的进展。 知名大模型应用:LLM 已经在多种应用场景中得到了应用,包括文本生成、机器翻译、问答、自

2024-07-06

对话即服务,Chat as a Service 语言 English 中文 介绍 智能客服 基于大模型 LLM && RAG 的智能客服 AI助手 更适合团队使用,一人配置,多人使用。完美权限控制,即可私用,也可公用 在线客服:跟客户聊

2024-07-13

对话即服务,Chat as a Service 语言 English 中文 介绍 智能客服 基于大模型 LLM && RAG 的智能客服 AI 助手 更适合团队使用,一人配置,多人使用。完美权限控制,即可私用,也可公用 在线客服:跟客户聊

2024-08-22

微语 对话即服务,Chat as a Service 语言 English 中文 介绍 智能客服 基于大模型 LLM && RAG 的智能客服 AI助手 更适合团队使用,一人配置,多人使用。完美权限控制,即可私用,也可公用 在线客服:跟客户

2024-08-07

微语 对话即服务,Chat as a Service 语言 English 中文 介绍 智能客服 基于大模型 LLM && RAG 的智能客服 AI助手 更适合团队使用,一人配置,多人使用。完美权限控制,即可私用,也可公用 在线客服:跟客户

2023-10-26

Language Model Evaluation Harness 当一个新的大语言模型(LLM)发布时,通常都会被进行评估,将该模型与 ChatGPT 在某个基准上进行比较,很多公司可能会使用 lm-eval-harness 来生成评估分数。lm-eval-harness 由分布式人工智能研究所 Eleuther

2024-07-27

注成本和稳定性,因此,火山引擎云搜索团队在原先已经支持的 HNSW、IVF 等低延迟的算法引擎的基础上,引入了内存和磁盘更好平衡的 DiskANN 算法 ,目前已经在 200 亿单一 向量库 得到落地验证并取得预期效果 。