开源“摩尔定律”即将打破,《2022开源大数据热力报告》重磅发布


11月5日,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。

开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的102个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔40个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去8年里,发生了5次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。

定量分析“后Hadoop时代”开源趋势

Hadoop 作为开源大数据技术的起源,兴起于2006年,至今已有16年历史。我们收集了从Hadoop 发展第10年(即2015年)至今的相关公开数据,并进行了关联分析,定义了开源项目热力值研究模型,使用量化指标,来刻画开源项目的开发迭代活跃度和受开发者欢迎程度。

报告所呈现的开源大数据热力图,从技术全景、技术栈分类以及项目维度对入围项目的热力表现进行洞察,将项目进程中的关键事件与热力表现关联分析,并访谈了开源基金会、知名开源项目等领域专家,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。

开源大数据技术的“摩尔定律”即将打破

报告发现,每隔40个月,热力值会提升1倍,开源大数据完成一轮技术迭代升级,而且技术周期在加速缩短。在8年时间内,发生了多轮热力变迁,反映出背后技术的更新换代趋势。开发者对「数据查询与分析」保持了长期的开发热情,这一技术栈连续8年位于热力值榜首。2017年,「流处理」热力值超过「批处理」,大数据处理进入实时阶段。随着数据规模越来越大,数据结构更多样化,「数据集成」从2020年开始爆发式增长。

三大热力趋势:多元化、一体化和云原生

用户需求多样化推动技术多元化。「数据湖」以34%的热力值年均复合增长率高居热力值增速第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位 。而原有Hadoop体系的产品迭代则趋于稳定,热力值年均复合增长率为1%。

从2015年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在2019年出现第一个热力峰值。以数据湖存储为代表的存储一体化从2019年起进入了一个新的发展阶段,涌现了Delta Lake、 Iceberg和Hudi等热点项目。

云原生大规模重构开源技术栈。诞生于云原生时代的开源项目如雨后春笋般破土成长。「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了80%。

开源大数据热力榜单TOP30

本报告从102个入围项目中,评选出了TOP30热力榜单。Kibana以989.40的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常青树”。

感谢开源PHP、InfoQ和阿里云开发者社区的战略支持,感谢对本报告内容产出做出重要贡献的32位专家和贡献者。感谢CSDN、DataFun、Segmentfault思否、开源社等社区合作。

报告下载地址:

https://files.alicdn.com/tpsservice/d985b559f65e3ffd004620e0050e9f21.pdf 


相關推薦

2022-10-10

在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学

2024-08-16

度)社区创始人 刘闻欢(deepin) 8月15日,国际知名开源社区deepin(深度)社区在线上举办了主题为“聚AI而生 大有不同”新品发布会,正式对外发布开源操作系统deepin V23,带来了全新DDE视界、 AI For OS、“如意玲珑”应用生

2024-07-27

全球开源技术峰会(Global Open-source Technology Conference,简称 GOTC)始于 2021 年,是面向全球开发者的开源技术盛会。 GOTC 2024 与上海浦东软件园联合举办,并结合 “GOTC(全球开源技术峰会)” 与 “GOGC(全球开源极客嘉年华

2023-06-14

会2023即将召开,本次峰会将聚集顶尖AI公司、研究机构、开源社区、高校等,共同探讨人工智能框架的发展趋势与技术成果、成功案例和最佳实践,旨在促进各方广泛合作与深度交流,推动大模型与科学智能的创新,加速AI技术

2023-02-09

GitHub CEO Thomas Dohmke 近日在布鲁塞尔举行的欧盟开源政策峰会上对欧盟即将出台的 AI 法案 (Artificial Intelligence Act) 发表了看法称,开源开发者应该免于此法案的约束,并强调了开源在欧洲 AI 发展中的重要性。 欧盟 AI 法案

2024-07-10

2024年7月8日,人人可用的开源数据可视化分析工具DataEase正式发布v2.8.0版本。 这一版本的功能变动包括:图表方面,新增组合图、热力地图、符号地图、K线图等图表类型,并对已有的仪表盘、明细表、指标卡、富文本等图表类

2024-07-05

7月4日,禅城区经济和科技促进局将携手华为云计算技术有限公司举办2024华为开发者大会(HDC 2024)佛山分会场活动,本次活动以“AI引领佛山智造,数聚禅城开拓创新”为主题。届时,来自产业研究领域的专家学者、优秀企业

2024-08-08

eepin IDE(UOS 专业版 V20 本周稍晚时候更新),感谢每一位开源爱好者的热爱和支持,也欢迎大家加入 deepin IDE 用户交流群,一起推动 deepin IDE 变得更好!   最后,告诉大家一个好消息,deepin V23 正式版即将发布,更多精彩

2023-03-21

会出品,全面披露了 2022 年腾讯在研发投入、研发效能、开源协同等方面的重要数据。 研发人员占比达 74%,Go 语言蝉联腾讯最热编程语言 《报告》显示,2022年腾讯内部研发人员占比达到74%,意味着平均每四个腾讯员工中,就

2022-10-20

迎11月4日齐聚开发者舞台D2馆,听百味技术人生,品激荡开源江湖。届时有众多大咖到场,分享大数据&AI开源亲历者们的十年。大师零距离,技术真心话与贾扬清、王峰、红薯等重磅嘉宾亲密互动,听硬核技术探讨,品真实技

2024-08-13

8 月 15 日至 16 日,2024 全球开源技术峰会 GOTC x GOGC 全球开源极客嘉年华将于上海张江科学会堂举行。 全球开源技术峰会(Global Open-source Technology Conference,简称 GOTC)始于 2021 年,是面向全球开发者的开源技术盛会。 GOTC 2

2022-09-10

技术大学,研究方向高性能计算,目前负责 Paddle 主框架开源生态建设。 彭靖田,品览联合创始人兼CTO 彭靖田是 Google Developers Expert,加州大学访问学者,毕业于浙江大学竺可桢学院。 张晴晴 ,Magic Data 创始人兼CEO 张晴晴

2023-06-29

们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! 重要更新 最新音频课程现已发布 近期,我们发布了一个音频

2024-10-09

以下简称“大会”)即将迎来第三个年头,作为OpenHarmony开源社区乃至国内开源操作系统领域的年度盛会,今年大会将转场上海,以更大规模、更高规格,迎接来自全球的开源操作系统技术领袖、前沿实践专家及高校教授、学者