DuckDB 0.7.0 发布，高性能分析型数据库系统

2023-02-15 發表於开源资讯

DuckDB 是一个高性能的分析数据库系统，它快速、可靠、易于使用。DuckDB 提供了丰富的 SQL 方言，支持远远超过基本 SQL，且支持任意的和嵌套的相关子查询、复杂类型等。

DuckDB 0.7.0 新版本包含对 JSON 支持的许多改进、新的 SQL 功能、对数据摄取和导出的改进以及其他新功能。以下是最具影响力的更改摘要：

JSON 提取

这个版本介绍了read_json和read_json_auto方法，可用于将 JSON 文件提取为表格格式。类似read_csv，该read_json方法需要指定模式，而read_json_auto使用采样自动从文件中推断出 JSON 的模式。

支持换行分隔的 JSON 和常规JSON 。

FROM 'data/json/with_list.json';

分区 Parquet/CSV 导出

DuckDB 支持提取配置单元分区的 Parquet 和 CSV 文件已有一段时间了。在此版本之后，DuckDB 还将能够使用 PARTITION_BY 子句写入配置单元分区的数据。这些文件可以在本地或远程导出到 S3 兼容存储。这是一个本地示例：

COPY orders TO 'orders' (FORMAT PARQUET, PARTITION_BY (year, month));

多数据库支持

附加功能，此版本增加了对将多个数据库附加到同一个 DuckDB 实例的支持。允许数据在不同的 DuckDB 数据库文件之间传输，也允许来自不同数据库文件的数据在单独的查询中组合在一起。

也可以附加远程 DuckDB 实例（存储在 Github 等网络可访问位置）。

ATTACH 'new_db.db';
CREATE TABLE new_db.tbl(i INTEGER);
INSERT INTO new_db.tbl SELECT * FROM range(1000);
DETACH new_db;

有关详细信息，请参阅文档。

SQLite 存储后端。

除了添加对附加 DuckDB 数据库的支持外，此版本还添加了对可插入数据库引擎的支持。允许扩展定义自己的数据库和可以附加到系统的目录引擎。

一旦附加，引擎就可以支持读取和写入。SQLite扩展利用它向 DuckDB 添加对 SQLite 数据库文件的本地读/写支持。

新的 SQL 特性

此版本使用 ON CONFLICT 子句以及 SQLite 兼容的 INSERT OR REPLACE / INSERT OR IGNORE 语法添加了 Upsert 支持。

ATTACH 'sqlite_file.db' AS sqlite (TYPE sqlite);
CREATE TABLE sqlite.tbl(i INTEGER);
INSERT INTO sqlite.tbl VALUES (1), (2), (3);
SELECT * FROM sqlite.tbl;

有关详细信息，请参阅文档。

Python API 改进

此版本通过允许查询关系，使用 Python API 引入了更轻松的增量查询构建。这允许将长 SQL 查询分解为多个较小的 SQL 查询，并轻松检查查询中间体。

>>> import duckdb
>>> lineitem = duckdb.sql('FROM lineitem.parquet')
>>> lineitem.limit(3).show()

要安装新版本，请访问安装指南和完整的发行说明。

此版本的 DuckDB 命名为“Labradorius” ，源于产于北美的拉布拉多鸭 (Camptorhynchus labradorius) 。

DuckDB 0.7.0 发布，高性能分析型数据库系统

相關推薦

DuckDB 0.6 发布，高性能分析型数据库系统

DuckDB 0.8.0 发布，进程内 SQL OLAP 数据库

DuckDB 路线图发布

DuckDB 0.5 发布

InfoWorld 公布 2023 年最佳开源软件

《开源大数据热力报告2022 》入围项目公示

[重磅来袭] 功能强大的开源数据中台系统 DataCap 1.14.0 发布

不需要数据的数据库

深耕分析型数据库领域，火山引擎 ByteHouse 入围《2024 爱分析数据库厂商全景报告》

CeresDB 1.0 正式发布，Rust 高性能云原生时序数据库

Pigsty v3 发布：海量扩展，可替换内核，RDS 服务

DBeaver 24.0.5 发布

政企合作 | 石原子科技加入重庆“满天星”行动计划，入围数字重庆建设生态企业

HTAP 已死