Yandex 开源大数据存储和处理平台 YTsaurus


因为众所周知的原因,俄罗斯开发者在开源领域遭到了各种 “不公正” 的对待。但即便如此,俄罗斯大型科技公司 Yandex 近日依然在 GitHub 上开源了一个项目,该项目名为 YTsaurus,这是一个用于存储和处理大数据的平台,大多数 Yandex 服务均在使用。

Yandex 分布式计算的负责人 Maxim Babenko 表示:

Yandex 自 2010 年以来一直在开发 YTsaurus(在内部称之为 YT)。因为市场上没有一个解决方案可以满足我们所有的要求,我们决定开始建立自己的大数据生态。现在 YTsaurus 是 Yandex 内部基础设施的关键技术之一。

根据官方说法,YTsaurus 适用于广泛的任务,从数据分析到训练具有数十亿参数的复杂模型。例如:Yandex Search 用它建立搜索索引、自动驾驶汽车用它来处理海量数据和改进算法、YTsaurus 还管理着 Yandex 的超级计算机,分配负载,使计算能力得到尽可能有效的利用。

YTsaurus 具有的平台优势包括:

  • 多租户生态
  • 可靠性和稳定性
  • 可扩展性
  • 丰富的功能
  • 由 ClickHouse 提供支持的 CHYT
  • 由 Apache Spark 提供支持的 SPYT

Yandex Cloud 的负责人 Alexey Bashkeev 则表示:

YTsaurus 已经在 Yandex 内部证明了自己,现在我们把它提供给所有开发者。在数以千计的服务器上处理大量数据,并且负载不断增加的大公司将获得最大收益。我们相信将 YTsaurus 开源可以使其进入一个新的发展阶段,正如我们的其他产品那样。

YTsaurus 的源代码和文档都可以在 GitHub 上找到,该项目采用的是 Apache 2.0 许可。项目地址如下:链接。


相關推薦

2023-01-29

俄罗斯科技公司 Yandex 前雇员近日在一个流行的黑客论坛上以 Torrent 磁链的形式发布了总容量为 44.7GB 的源代码仓库。 泄露者称这是 'Yandex git sources',于 2022 年 7 月从公司窃取,包含了除反垃圾邮件规则之外的所有源代码

2023-03-23

一些功能。只不过从最近的测试来看,情况并非如此。 Yandex Browser 是俄罗斯搜索巨头 Yandex 在 2012 年推出的浏览器,同样基于 Chromium,其特点是内置了卡巴斯基的反病毒技术来保护用户安全。近日 Yandex 浏览器性能团队的负责人

2024-01-16

b  ——  一个旨在解决大模型相关资产治理难题的开源项目。 CSGHub的使命是为用户提供一个开源开放的、针对大模型原生设计的资产管理平台,支持私有化部署和离线运行。我们的目标是为用户创造一个安全、高效且可

2023-10-21

【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> (2023 年 10 月 19 日,北京)Alluxio 作为一家承载各类数据驱动型工作负载的数据平台公司,现推出全新的 Alluxio Enterprise AI 高性能数据平台, 旨

2023-10-13

LLM 中最为热门和硬核的技术领域以及相关的软件产品和开源项目。 基础设施 LLM 技术图谱(LLM Tech Map)的基础设施部分主要包括以下几个方面: 向量数据库:向量数据库是专门用于存储和检索向量数据的数据库,它可以

2022-01-10

的插件菜单中找到。 IndexNow 本身是微软 Bing 与俄罗斯 Yandex 一同推出的协议,可以让网站所有者在网站内容出现变化后通知搜索引擎,让搜索引擎立即索引这些页面和内容。这是一个开放的协议,任何搜索引擎都能使用,但目

2022-11-06

,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。 开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。

2023-07-26

概述 XL-LightHouse是针对互联网领域繁杂的数据统计需求而开发的一套集成了数据写入、数据运算、数据存储和数据可视化等一系列功能,支持大数据量,支持高并发的【通用型流式大数据统计平台】。 XL-LightHouse目前已基本

2023-01-06

库,具有极致性价比、融合统一、简单易用、企业特性和开源开放五大特色,解决了企业构建数仓过程中最为关注的“降本增效”的困难,实现了在成本降低 50% 以上的同时,性能提升超 1.5 倍的成绩;有效解决了传统数仓方案

2023-03-01

跬智信息(Kyligence)宣布全新推出国产化云原生数据底座开源项目玄武(XUANWU),以助力企业加速数据平台上云,并实现国产化升级。玄武(XUANWU)是在容器化技术上形成的新一代云原生大数据底座,旨在提供一套整体的、标准

2023-05-05

res 支持 apache hadoop hdfs SPI¶ 移除 http 重试逻辑 Yandex Database¶ 修复了 ydb 依赖冲突 Trino¶ 添加配置文件 Dependencies¶ 升级 trino-jdbc 397 到 414 (#331) 升级 iotdb-jdbc 0.13.0 到 1.1.0 

2022-10-10

在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学

2023-03-10

处理工作流调度和执行问题,2018 年以 Apache License 2.0 的开源协议发布,并在社区中获得大力支持。目前,Apache DolphinScheduler 项目在 GitHub 上已获得 10K Star,拥有 400+ 贡献者,累积发版 40+ ,Fork 3.7K ,Pull Request 接近 7000 ,并已应

2023-09-01

测领域的神器 or 鸡肋? 腾讯云向量数据库 SDK 宣布正式开源。根据介绍,腾讯云向量数据库(Tencent Cloud VectorDB)的 Python SDK 与Java SDK 是基于数据库设计模型,遵循 HTTP 协议,将 API 封装成易于使用的 Python 与 Java 函数或类,为