《开源大数据热力报告2022 》 入围项目公示


在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目。

项目简介

「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下7个阶段:公开数据初筛->项目技术分类->专家审议->入围公示&征集修正->热力值计算和关联分析->数据洞察和课题研究->报告审议。

数据来源

2015年1月至2022年9月的Github和Jira公开数据,包括项目id、Star、Issue、open PR,review comment,merge PR等。

数据初筛

项目初筛 Github 上 Topic Tag满足如下条件且开源的大数据项目:

Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

技术分类

根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:

数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理/安全/中间件、数据可视化。

说明:

  • 数据查询和分析分类聚焦大数据分析类型项目,不包括OLTP数据库、OLTP能力为主的HTAP数据库和NoSQL数据库
  • 数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目
  • 数据管理/安全/中间件分类中,项目较少且功能互相交叠,因此归为一类
  • 本次报告聚焦大数据领域,不包含大数据AI融合型项目

项目公示

现将本次入围项目(共计92个)予以公布,公示期为2022年10月10日至10月16日。

技术分类

项目名称

数据集成

airbytehq/airbyte

alibaba/DataX

apache/camel

apache/flume

apache/incubator-seatunnel

apache/inlong

apache/sqoop

dbt-labs/dbt-core

debezium/debezium

ververica/flink-cdc-connectors

流处理

apache/beam

apache/flink

apache/incubator-heron

apache/incubator-streampark

apache/kafka

apache/pulsar

apache/samza

apache/storm

数据查询和分析

apache/arrow-datafusion

apache/calcite

apache/cassandra

apache/doris

apache/drill

apache/druid

apache/hawq

apache/hbase

apache/hive

apache/impala

apache/incubator-kyuubi

apache/kylin

apache/lucene

apache/phoenix

apache/pig

apache/pinot

apache/solr

apache/spark

apache/tez

ClickHouse/ClickHouse

duckdb/duckdb

elastic/elasticsearch

eventql/eventql

greenplum-db/gpdb

opensearch-project/OpenSearch

prestodb/presto

StarRocks/starrocks

trinodb/trino

uber/aresdb

数据存储

apache/avro

apache/bookkeeper

apache/carbondata

apache/hadoop-hdfs

apache/hudi

apache/iceberg

apache/incubator-pegasus

apache/kudu

apache/ozone

apache/parquet-format

delta-io/delta

hazelcast/hazelcast

juicedata/juicefs

数据管理/安全/中间件

apache/ambari

apache/arrow

apache/atlas

apache/bigtop

apache/hadoop

apache/knox

apache/ranger

cube-js/cube.js

datahub-project/datahub

数据开发

apache/incubator-devlake

apache/zeppelin

jupyter/notebook

pachyderm/pachyderm

数据可视化

apache/superset

dataease/dataease

edp963/davinci

elastic/kibana

getredash/redash

grafana/grafana

keplergl/kepler.gl

metabase/metabase

shzlw/poli

数据调度和编排

Alluxio/alluxio

apache/airflow

apache/dolphinscheduler

apache/incubator-linkis

apache/nifi

apache/oozie

apache/zookeeper

dagster-io/dagster

kestra-io/kestra

PrefectHQ/prefect

其他项目补充征集

如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。

参与标准:

1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本

2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

参与方式:

扫描上方二维码,参与征集
截止日期:2022年10月16日24时

发布预告

「 开源大数据热力报告2022」将于2022年11月云栖大会现场正式发布。

特别致谢

  • 联合发起方:开放原子开源基金会、X-Lab开放实验室、阿里巴巴开源委员会
  • 战略合作:开源PHP、InfoQ、阿里云开发者社区
  • 合作媒体:CSDN、Datafun、SegmentFault思否

相關推薦

2022-11-06

,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。 开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。

2023-03-21

会出品,全面披露了 2022 年腾讯在研发投入、研发效能、开源协同等方面的重要数据。 研发人员占比达 74%,Go 语言蝉联腾讯最热编程语言 《报告》显示,2022年腾讯内部研发人员占比达到74%,意味着平均每四个腾讯员工中,就

2024-07-09

C-H 和 TPC-DS 三种数据集进行性能测试,并以性能著称的某开源OLAP为基准测试产品,ByteHouse在不同查询项上都有显著的性能提升。以TPC-H 数据集举例,在相同硬件和软件环境下, ByteHouse 查询效率高于本次基准测试产品几十倍。

2023-08-03

研发路线,打造了三款标杆产品: 业内首个单机内核开源、行列混存+内存计算架构的一体化 MySQL HTAP 数据库 StoneDB:使用 MySQL 的用户,通过 StoneDB 可以实现 TP+AP 混合负载,分析性能提升 10 倍以上显著提升

2024-07-17

国产数据仓库技术的发展与应用。在积极投身 Apache Doris 开源社区建设的同时,飞轮科技自主研发了现代化实时数据仓库 SelectDB,100% 掌握底层核心架构、确保技术的自主可控。 与此同时,飞轮科技积极拥抱信创全产业链生态、

2024-07-10

2024年7月8日,人人可用的开源数据可视化分析工具DataEase正式发布v2.8.0版本。 这一版本的功能变动包括:图表方面,新增组合图、热力地图、符号地图、K线图等图表类型,并对已有的仪表盘、明细表、指标卡、富文本等图表类

2024-08-17

技术进展方面,该季度内阿里云发布了全球性能最强的开源模型Qwen2-72B,该模型提升了代码、数学、推理、指令遵循、多语言理解等能力。Qwen2-72B发布后即登顶HuggingFace 的Open LLM Leaderboard开源模型榜单。中文大模型测评基准Super

2022-11-11

GitHub 发布了 2022 年度 Octoverse 报告,涵盖了对开源软件的探索,包括其对世界和公司的影响;以及影响软件开发的关键趋势内容。报告引用了梅赛德斯-奔驰技术创新的 FOSS 大使 Wolfgang Gehring 的一句话称,“如今,如果不进行

2022-09-16

用组 以体现 TiDB 产品价值为主,基于 TiDB 之上实现代码开源的产品、工具、应用等均可。部署方式上,更推荐基于 Cloud 构建 TiDB 相关应用。推荐领域:游戏、电商、金融科技、公益等。 TiDB 产品组 为 TiDB 内核产品以及 TiCDC、

2023-11-17

GitHub 发布了 2023 年度 Octoverse 开源状态报告。主要研究了围绕 AI、云和 Git 的开源活动如何改变开发人员体验,以及如何在开发者和企业中产生越来越大的影响。 报告发现了三大趋势: 开发人员正在大量使用生成式 AI 进

2023-03-22

6.0 beta 版本,全面支持 Metrics、Logging、Tracing,向着构建开源、开放、完整的可观测性解决方案迈进。您可以借助夜莺 V6,接入和管理 Prometheus、ElasticSearch、Jaeger 多种数据源,实现数据的统一可视化、告警和分析。 🚀 可以在

2024-08-29

选变得尤为困难,不利于规范化回答内容的形成。 MaxKB开源知识库问答系统的引入 随着人工智能技术的快速发展和应用普及,智能问答系统已经成为各类机构提升公共服务质量和效率的重要工具。在这一背景下,针对深圳信用

2023-12-01

、通信管理局推荐,工业互联网战略咨询专家委评审以及公示等程序,确定了2023年5G工厂名录,现予以公布。 一图读懂《2023年5G工厂名录》

2022-10-10

2021 年有超过 220 亿条记录因数据泄露而被曝光,一些大型公司因此受到损害,安全问题仍是企业的头等大事。鉴于此,谷歌的 DORA(DevOps 研究和评估)团队发布了一份 2022 Accelerate State of DevOps Report,重点关注安全性。此次报