图灵奖得主 Stonebraker 带你回顾数据库技术二十年的周期性演进


最近,数据库行业唯一在世的图灵奖得主 Michael Stonebraker 和 CMU 知名教授 Andrew Pavlo (Andy) 教授联合发表了数据库论文《What Goes Around Comes Around... And Around》。过去 20 年,数据库领域诞生了众多新技术,这对数据库届的王炸组合对这些技术的看法是怎样的呢?

由图灵奖得主 Michael Stonebraker 和 CMU 知名教授 Andrew Pavlo (Andy)教授创作的最新论文《What Goes Around Comes Around...And Around...》,标题着实特别,“What Goes Around Comes Around”中文翻译过来是「种瓜得瓜,种豆得豆」、「因果报应」。而后面的 Around,暗示着这其实是一篇续作。

早在 2006 年,Stonebraker 教授和他的学生,UC 伯克利的 Joseph M. Hellerstein 合著了一篇《What Goes Around Comes Around》,而 Andy 教授也是这篇文章的粉丝。

这篇 20 年前的文章创作的起因,是当时数据库界兴起了一股“反关系型”,“反 SQL” 的浪潮。Stonebraker 和 Joseph 两位教授认为,关系模型和 SQL 因其击败了包括层次文件系统、面向对象数据库和 XML 数据库等在内的其他理念,成为了数据库管理系统的最佳选择。

这次的新论文,发表在 2024 年 6 月的 SIGMOD Record 上,Stonebraker 与 Andy 两位教授分析了过去 20 年数据库的演进,展望了数据库技术的发展。那么,2005 年到现在,数据库界发生了哪些事呢?下文将对这篇论文进行摘录,帮助大家了解这篇论文的主要内容。

1 数据库近 20 年的发展

论文的 Introduction 部分,首先呼应了一下当年的论文,列出了数据库从 1960 年的层次结构到 2000 年诞生的半结构化数据模型的演进史。

接着,在论文中分析了数据库近 20 年的发展,分别从数据模型&查询语言(Data Models & Query Languages),以及系统架构(System Architectures) 两部分入手进行分析。

1.1 数据模型和查询语言 / Data Models & Query Languages

在这一章节,两位教授将数据库中的数据模型和查询语言的研究和开发分为八个类别,包括 MapReduce、键值存储、文档数据库、列式数据库、文本搜索引擎、数组数据库、向量数据库和图数据库。

在谈及 MapReduce 时, 两位教授认为:MR 的缺陷如此之大,以至于尽管其开发者社区充满热情,它也无法得救。与此同时,分布式 RDBMS 正在蓬勃发展,特别是在云上。HDFS 已经失去它的光彩,因为企业意识到有更好的分布式存储替代品。

关于向量数据库, 两位教授预计,向量 DBMS 将经历与文档 DBMS 类似的演变过程,通过增加包括 SQL、事务、可扩展性等功能,变得更像关系型数据库。而关系型数据库厂商在现有的关系型数据库中添加向量索引也将成为趋势。

两位教授认为:

non-SQL、非关系型系统要么是小众市场,要么正在迅速成为SQL/RM 系统。具体来说:

  • MapReduce: 多年前就已经消亡,目前充其量是“遗留技术”。

  • 键值存储: 许多键值系统要么已经发展成为关系型系统,要么仅被用于特定问题。这些系统通常可以被现代高性能关系型数据库管理系统所替代或超越。

  • 文档数据库: 这些 NoSQL 系统正与关系型数据库管理系统往相类似的发展轨道上前进。随着时间的推移,这两种系统之间的差异已经减少,并且预计在未来将几乎没有区别。

  • 列式数据库: 将仍是小众市场。如果没有谷歌的存在,本文可能不会讨论这个类别。

  • 文本搜索引擎: 这些系统用于多存储架构中的文本字段。如果关系型数据库管理系统在搜索方面有更好的解决方案,那么这些就不必是单独的产品。

  • 数组数据库: 科研领域的应用将继续忽视关系型数据库管理系统,转而使用定制的数组系统。由于即使关系数据库有新的 SQL/MDA 增强功能,但却无法高效地存储和分析数组,数组数据库可能变得更加重要。

  • 向量数据库: 它们是专用的数据库管理系统,具有加速最近邻搜索的索引。关系型数据库应该很快能够提供对这些数据结构和搜索方法的原生支持,使用它们可扩展的类型系统,这将使得这些专门的数据库变得不必要。

  • 图形数据库: OLTP 图形应用程序将主要由关系型数据库提供服务。此外,分析图形应用程序有独特的需求,最好使用专门的数据结构在主内存中完成。关系型数据库将提供基于 SQL 的图形中心 API 或通过扩展。我们预计专门的图形数据库管理系统不会是一个大市场。

1.2 数据库系统架构 / System Architecture

在数据库系统架构章节中,Stonebraker 和 Andy 除了就“关系型或非关系型”的争论表达了看法之外,还分享了他们对数据库架构最新趋势的看法。内容涵盖列式存储、云数据库、数据湖/湖仓一体、NewSQL 数据库、硬件加速器、区块链数据库六大技术领域。

在谈及云数据库时, 两位教授认为:云计算对 DBMS 产生了深远的影响,导致它们被彻底重新设计。过去 20 年里,数据库设计的最大变革发生在云端。由于网络带宽的增长速度相对于磁盘带宽具有巨大飞跃,通过 NAS 在对象存储中存储数据变得越来越有吸引力,推动了计算和存储的分离。计算从本地环境转移到云端,加上无服务器计算(Serverless Computing) 技术的兴起,为企业带来了巨大的机会。

云平台促进的另一个趋势上从单一、专用的数据仓库转向由对象存储支持的数据湖。Stonebraker 和 Andy 认为数据湖/湖仓一体是 2010 年初“大数据”运动的继任者。Apache Iceberg、Apache Hudi 和 Databricks Delta Lake 等表格式技术,让“允许任何应用程序往中央存储里写入任意数据”这个原本看起来“糟糕”的想法变得可行。很多传统 OLAP 厂商(例如 Teradata、Vertica)已经扩展了产品功能,以支持从对象存储中读取数据。还有一些独立的系统也在这个领域有所建树,包括 Databricks 等。

两位教授认为:

  • 列存储系统: 列存储的变革彻底改变了 OLAP 数据库管理系统的架构。

  • 云数据库: 云计算颠覆了传统的构建可扩展数据库管理系统方式。除了嵌入式数据库管理系统外,任何不提供云服务的产品都可能会失败。

  • 数据湖/湖仓一体: 使用开源格式构建基于云的对象存储系统,将成为未来十年 OLAP 数据库管理系统的典范。

  • NewSQL 数据库: 找到了新的想法,但仍然未能产生与列式数据库和云数据库管理系统相同的影响。NewSQL 数据库导致了新的分布式数据库管理系统的出现:可支持更强的 ACID 语义,以解决 NoSQL 较弱的 BASE 特性。

  • 硬件加速器: 除了主流的云供应商外,我们没有看到其他专门的硬件用例,不过初创公司将继续尝试探索。

  • 区块链数据库: 这是一种还在寻找应用场景的效率低下的技术。历史表明,这是系统发展的错误途径。

2 展望未来:技术发展的循环往复

正如论文标题《What Goes Around Comes Around...And Around...》所示,Stonebraker 和 Andy 认为数据库领域正在并将继续经历周期性的变化:

新一代的开发者将会宣称 SQL 和关系型模型(RM)不足以应对新兴的应用领域,随后会提出新的查询语言和数据模型来克服这些问题。探索新的数据库管理系统(DBMS)理念和概念具有巨大的价值(这也是 SQL 获得新特性的来源),数据库研究社区和市场因此而更加强大。然而,两位教授并不期望这些新的数据模型会取代关系型模型。

此外,两位教授也表达了“为了加速下一代 DBMS 的发展,社区应促进开源可重用组件和服务的开发。”

最后,他们提醒开发者要向历史学习,要站在前人的肩膀上,而不是踩在他们的脚趾上。

虽然 Stonebraker 已经 81 岁高龄,我们依旧期待如文末所提到的,能够在 2044 年看到这篇论文的后续。

参考文献:

  • What Goes Around Comes Around... And Around...
  • What Goes Around Comes Around
  • 二十年大数据到 AI,图灵奖得主眼中的数据库因果循环

关于 PieCloudDB

拓数派大模型数据计算系统(PieDataCS)首款计算引擎 PieCloudDB Database 实现了分析型数据数仓上云虚拟化,可按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。PieCloudDB 存储和计算可各自作为两个独立变量,在云里弹性伸缩,实现瞬间扩缩容,解决了基于PC的传统MPP的缺陷。在 eMPP 分布式专利技术、服务器无感知(Serverless)及 TDE (透明数据加密)等多项核心技术加持下,为企业构建高安全,高可靠,高在线的云原生虚拟数仓,助力企业实现数据价值最大化,成为新一代 AI 数据计算基础设施的典范。


相關推薦

2023-01-03

前两天我们回顾了过去一年,Mesa 的发展与变化。现在不妨再来看看过去这一年 X Window System 的变化与发展。 熟悉 Linux 的用户应该都知道,X11 已经是一个有点 “老龄化” 的技术了,由于历史遗留的问题以及系统臃肿,它的发

2023-07-06

中以前发布的内容。此外,红帽还可能会提供有限的持续技术支持和迁移到当前支持的 RHEL 版本的建议。 对于需要在标准生命周期结束后继续使用大版本的企业,该公司提供延长生命周期支持(ELS,Extended Life Cycle Support)附

2022-03-24

,贡献的项目包括 GNU Compiler Collection (GCC),目前是时区数据库  的维护者,该数据库提供有关世界时区的准确信息。 Paul Eggert 的获奖感言是:“考虑到过去所有拿到该奖项的所有杰出人士,我对此感到十分荣幸。我要感谢所

2023-06-01

AI 技术的狂热浪潮冲昏了头脑。 在此之前,AI 教父、图灵奖得主、深度学习先驱 Geoffrey Hinton 就辞去了在谷歌长达十余年的 AI 开发工作,并公开讨论 AI 所带来的危害。 在一个 MITEmTech 数字会议上,他表达了对当前 AI 发展

2023-05-07

在加入谷歌十年后,AI 教父、图灵奖得主、深度学习先驱 Geoffrey Hinton 于日前宣布辞去职务离开该公司,以便可以更自由的讨论人工智能 (AI) 所带来的危害。随后在一个 MITEmTech 数字会议上,Geoffrey Hinton 进一步的表达了对 AI

2023-03-04

开源项目都会遇到的挑战。 今天,我们将做一个完整的回顾,梳理项目演进过程中的那些“坑”,希望对整个开源生态的发展有所帮助。 项目发起:明确目标和定位 一个开源项目的发起,其最核心的是明确项目的目标和定位

2023-04-01

马斯克 (Elon Musk)、苹果联合创始人 Steve Wozniak、图灵奖得主 Yoshua Bengio 等上千名行业高管和专家签署了一封公开信,呼吁所有 AI 实验室立即暂停对比 GPT-4 更强大的 AI 系统的训练至少 6 个月。并表示,这种暂停应该是公开

2024-04-23

前很多来自腾讯、阿里、字节等大厂的,甚至是工作十几二十年的大佬都在使用 vmr ,并为 vmr 提供了很好的建议和意见。 欢迎大家去项目参观,star ,分享和使用。有兴趣的,可以贡献代码和想法。

2023-02-16

nbsp;   带你来吃瓜!Andy Pavlo教授带您一文回顾数据库的2022年 稳扎稳打,坚定前行 | 一文带你回顾 StoneDB 的 2022 年 哪篇论文宣布了 HTAP 数据库的诞生?| StoneDB学术分享会#5 列存引擎 Tianmu 如何实现 Delete?| StoneDB

2022-11-20

时任美国总统 Ronald Reagan 颁发的国家技术奖章,1999 年的图灵奖以及 IEEE先后颁发的三个奖项,McDowell 奖 (1970)、计算机先驱奖 (1980) 和冯·诺伊曼奖 (1993)。 Brooks 曾表示,认为自己最大的技术成就在于将 IBM 360 系列从 6

2022-09-29

AMD Athlon era systems 中,这是一个问题……但对于大约过去二十年的新芯片组来说,这不是问题”。 K Prateek Nayak 指出: 在 AMD Zen3 系统上使用 IBS 对某些工作负载进行采样表明,大量时间花费在 dummy op 中,这被错误地视为 C-Stat

2023-07-27

面现在包含“参与其中”部分。 深色模式选项已在《二十二十一》的块编辑器 iframe 中恢复。 最大高度值在编辑媒体屏幕中的图像缩放中固定。 此外,还解决了一些有关国际化的问题。 获取 WordPress 6.3 RC2 您可以通

2023-10-28

nonical 在博客写道: Ubuntu 为您提供 10 年的稳定性 近二十年来,Canonical 一直是 Ubuntu Linux 内核最重要的 LTS 提供商。 我们每两年发布一个新的 LTS 内核,并总共维护 10 年。我们为 LTS 内核提供为期五年的安全更新,并可以选

2023-04-08

过3000多家政企用户提供持续创新的网络安全解决方案和技术服务。 在加入openKylin社区后,联软科技将结合多年的终端安全建设经验,结合终端安全Firewall、Network-security等组件提供完善的安全解决方案,助力社区的安全建设