《开源大数据热力报告2022 》 入围项目公示


在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目。

项目简介

「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下7个阶段:公开数据初筛->项目技术分类->专家审议->入围公示&征集修正->热力值计算和关联分析->数据洞察和课题研究->报告审议。

数据来源

2015年1月至2022年9月的Github和Jira公开数据,包括项目id、Star、Issue、open PR,review comment,merge PR等。

数据初筛

项目初筛 Github 上 Topic Tag满足如下条件且开源的大数据项目:

Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

技术分类

根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:

数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理/安全/中间件、数据可视化。

说明:

  • 数据查询和分析分类聚焦大数据分析类型项目,不包括OLTP数据库、OLTP能力为主的HTAP数据库和NoSQL数据库
  • 数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目
  • 数据管理/安全/中间件分类中,项目较少且功能互相交叠,因此归为一类
  • 本次报告聚焦大数据领域,不包含大数据AI融合型项目

项目公示

现将本次入围项目(共计92个)予以公布,公示期为2022年10月10日至10月16日。

技术分类

项目名称

数据集成

airbytehq/airbyte

alibaba/DataX

apache/camel

apache/flume

apache/incubator-seatunnel

apache/inlong

apache/sqoop

dbt-labs/dbt-core

debezium/debezium

ververica/flink-cdc-connectors

流处理

apache/beam

apache/flink

apache/incubator-heron

apache/incubator-streampark

apache/kafka

apache/pulsar

apache/samza

apache/storm

数据查询和分析

apache/arrow-datafusion

apache/calcite

apache/cassandra

apache/doris

apache/drill

apache/druid

apache/hawq

apache/hbase

apache/hive

apache/impala

apache/incubator-kyuubi

apache/kylin

apache/lucene

apache/phoenix

apache/pig

apache/pinot

apache/solr

apache/spark

apache/tez

ClickHouse/ClickHouse

duckdb/duckdb

elastic/elasticsearch

eventql/eventql

greenplum-db/gpdb

opensearch-project/OpenSearch

prestodb/presto

StarRocks/starrocks

trinodb/trino

uber/aresdb

数据存储

apache/avro

apache/bookkeeper

apache/carbondata

apache/hadoop-hdfs

apache/hudi

apache/iceberg

apache/incubator-pegasus

apache/kudu

apache/ozone

apache/parquet-format

delta-io/delta

hazelcast/hazelcast

juicedata/juicefs

数据管理/安全/中间件

apache/ambari

apache/arrow

apache/atlas

apache/bigtop

apache/hadoop

apache/knox

apache/ranger

cube-js/cube.js

datahub-project/datahub

数据开发

apache/incubator-devlake

apache/zeppelin

jupyter/notebook

pachyderm/pachyderm

数据可视化

apache/superset

dataease/dataease

edp963/davinci

elastic/kibana

getredash/redash

grafana/grafana

keplergl/kepler.gl

metabase/metabase

shzlw/poli

数据调度和编排

Alluxio/alluxio

apache/airflow

apache/dolphinscheduler

apache/incubator-linkis

apache/nifi

apache/oozie

apache/zookeeper

dagster-io/dagster

kestra-io/kestra

PrefectHQ/prefect

其他项目补充征集

如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。

参与标准:

1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本

2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

参与方式:

扫描上方二维码,参与征集
截止日期:2022年10月16日24时

发布预告

「 开源大数据热力报告2022」将于2022年11月云栖大会现场正式发布。

特别致谢

  • 联合发起方:开放原子开源基金会、X-Lab开放实验室、阿里巴巴开源委员会
  • 战略合作:开源PHP、InfoQ、阿里云开发者社区
  • 合作媒体:CSDN、Datafun、SegmentFault思否

相關推薦

2022-11-06

,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。 开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。

2023-03-21

会出品,全面披露了 2022 年腾讯在研发投入、研发效能、开源协同等方面的重要数据。 研发人员占比达 74%,Go 语言蝉联腾讯最热编程语言 《报告》显示,2022年腾讯内部研发人员占比达到74%,意味着平均每四个腾讯员工中,就

2023-08-03

研发路线,打造了三款标杆产品: 业内首个单机内核开源、行列混存+内存计算架构的一体化 MySQL HTAP 数据库 StoneDB:使用 MySQL 的用户,通过 StoneDB 可以实现 TP+AP 混合负载,分析性能提升 10 倍以上显著提升

2022-11-11

GitHub 发布了 2022 年度 Octoverse 报告,涵盖了对开源软件的探索,包括其对世界和公司的影响;以及影响软件开发的关键趋势内容。报告引用了梅赛德斯-奔驰技术创新的 FOSS 大使 Wolfgang Gehring 的一句话称,“如今,如果不进行

2022-09-16

用组 以体现 TiDB 产品价值为主,基于 TiDB 之上实现代码开源的产品、工具、应用等均可。部署方式上,更推荐基于 Cloud 构建 TiDB 相关应用。推荐领域:游戏、电商、金融科技、公益等。 TiDB 产品组 为 TiDB 内核产品以及 TiCDC、

2023-11-17

GitHub 发布了 2023 年度 Octoverse 开源状态报告。主要研究了围绕 AI、云和 Git 的开源活动如何改变开发人员体验,以及如何在开发者和企业中产生越来越大的影响。 报告发现了三大趋势: 开发人员正在大量使用生成式 AI 进

2023-03-22

6.0 beta 版本,全面支持 Metrics、Logging、Tracing,向着构建开源、开放、完整的可观测性解决方案迈进。您可以借助夜莺 V6,接入和管理 Prometheus、ElasticSearch、Jaeger 多种数据源,实现数据的统一可视化、告警和分析。 🚀 可以在

2023-12-01

、通信管理局推荐,工业互联网战略咨询专家委评审以及公示等程序,确定了2023年5G工厂名录,现予以公布。 一图读懂《2023年5G工厂名录》

2023-04-01

现代基础设施依赖于各种开源项目,为了帮助维护和支持这些项目和项目背后的开发者,很多公司和非营利组织都有推出开源基金,让公司的员工能够提名他们每天依赖(或参与)的开源软件项目。开源基金借此可以确定对公司

2022-10-10

2021 年有超过 220 亿条记录因数据泄露而被曝光,一些大型公司因此受到损害,安全问题仍是企业的头等大事。鉴于此,谷歌的 DORA(DevOps 研究和评估)团队发布了一份 2022 Accelerate State of DevOps Report,重点关注安全性。此次报

2023-01-04

报告,基于收集的超过 150,000 份薪资申请。报告中的薪酬数据反映的是在过去一年中收集的年度薪酬总额中位数,包括工资、股票和奖金。 “就像今年年初市场迅速升温一样,到了年底,市场已经进入了严酷的冷却状态。裁员

2023-03-28

架 OneFlow。 OneFlow 是一个采用全新架构设计的工业级通用开源深度学习框架,采用了 Apache 2.0 License。OneFlow 率先提出了静态调度和流式执行的核心理念,解决了大数据、大模型、大计算带来的异构集群分布式扩展挑战,具有五大

2023-07-27

告”,针对各公司的薪酬进行了深入探讨。报告中的薪酬数据反映的是,在过去半年中收集的年度薪酬总额中位数,包括工资、股票和奖金。 截至目前,大多数职位在今年都呈现出了积极的趋势,薪资水平增幅显着;尤其是软

2022-11-05

段openEuler生态的发展情况。当前,以openEuler为代表的中国开源社区正在构建以自主技术为核心的产业生态,国产服务器操作系统已经具备产品有开发者社区、有知识产权,高安全、高可用、可定制、可重构的特性。 此前,在工