Yandex 发布全球最大事件数据集,助力推荐系统发展


  • Yandex 推出了当前可用的全球最大的推荐系统数据集,推动全球范围内的研究与开发工作。
  • 该开放数据集包含通过 Yandex 音乐流媒体服务历时 10 个月收集的 47.9 亿条匿名的用户交互数据(收听、喜欢、不喜欢)。
  • 该数据集包含匿名的音频嵌入向量自然交互标记和精确时间戳,支持用于真实行为分析。
  • 引入全局时间分割 (GTS) 评估方法保持事件序列,并配套基线算法作为参考。
  • 该数据集在 Hugging Face 平台提供三种规模:50 亿、5 亿和 5000 万事件量级,满足多样化研发需求。

Yandex 发布了 YambdaYandex Music Billion-Interactions Dataset,即 Yandex Music 十亿级交互数据集),这是全球最大的推荐系统开放数据集,包含近 50 亿条来自其音乐流媒体平台 Yandex Music 的用户与音轨的匿名交互数据。

Yambda, 全球最大的推荐系统开放数据集

Yambda 可作为通用基准来测试推荐系统的新方法和算法,适用于电子商务、社交网络和短视频平台等所有使用推荐系统的领域。

研究人员可借助该数据集基于其基线模型开发和测试新的推荐算法,从而加速创新进程。数据资源有限的初创企业可以先利用 Yambda 数据集构建和测试系统,然后再扩展规模。这有助于在全球范围内加快特定于业务需求的先进技术开发进程。

弥合研究与产业的鸿沟

训练数据的质量与规模对于流媒体服务、社交网络、短视频应用和电商等平台提供相关的推荐内容而言至关重要。然而,推荐系统领域的研究已落后于大语言模型等迅速发展的领域,其主要原因便是缺乏大规模数据集。效果良好的推荐模型需要 TB 级的行为数据,商业平台虽然拥有这些数据但却极少公开分享。

数据集统计的轨迹分布

研究人员通常只能获得规模较小且过时的数据集,难以反映现代使用场景的复杂性:

  • Spotify 的百万歌单数据集对于商业级推荐系统而言规模过小。
  • Netflix Prize 数据集包含约 17,000 个项目且时间戳仅包含日期,限制了时序建模和大规模研究。
  • Criteo 1TB 点击日志数据集缺乏合适的文档和标识符,且只关注广告点击。

“推荐系统天生与敏感数据紧密相关。企业只有在进行充分的匿名化处理后才能公开发布推荐系统数据集,这一过程会耗费大量资源,减缓了开放创新的步伐。”Yandex 推荐系统负责人 Nikolai Savushkin 解释道。

数据短缺导致了落差的出现:学术表现优异的模型在现实应用中往往表现不佳。将推荐系统与先进架构加以整合的工作也因缺乏合适的训练数据而受限。

Yambda 数据集简介

Yambda 提供的海量匿名数据集来自其月活用户约 2800 万的音乐流媒体服务,解决了推荐系统面临的挑战。  该数据集揭示了用户与 Yandex Music 平台内容的交互方式,该平台以其先进的 My Wave 推荐系统著称,能够根据每位用户的品味定制收听体验。为保护隐私,所有用户和音轨数据均已匿名化,采用数字标识符以符合隐私标准。

数据集统计的用户内容交互历史

数据集主要特性:

  • 历时 10 个月收集的 47.9 亿条匿名的用户交互数据。
  • 来自 100 万用户的数据以及 939 万条音轨的匿名描述符。
  • 包含两种反馈类型:隐式交互(收听)和显式交互(喜欢、不喜欢及其撤销)。
  • 提供音频嵌入向量(通过卷积神经网络生成的向量表示)及音轨的匿名信息。
  • 设有“is_organic”标记,区分用户是自主发现音轨还是通过推荐发现,便于进行更深入的行为分析。
  • 所有事件均带有时间戳,从而支持对用户行为的时序分析,使模型能够在更接近真实使用场景的条件下接受评估。

数据集以 Apache Parquet 格式发布,兼容 SparkHadoop 等分布式处理系统和 PandasPolars 等分析库。

Yambda 让研究人员能验证创新性假设,让企业能构建更智能的推荐系统。最终,用户将会受益,能够轻松找到符合需求的的歌曲、商品或服务。”Nikolai Savushkin 补充说道。

数据集版本与评估

Yambda 数据集提供三种规模:约 50 亿、5 亿和 5000 万事件量级,满足需求和算力资源条件不同的研究人员与开发者。

数据集的不同规模

数据集

用户数

项目数

收听数

喜欢数

不喜欢数

Yambda-50M

10,000

934,057

46,467,212

881,456

107,776

Yambda-500M

100,000

3,004,578

466,512,103

9,033,960

1,128,113

Yambda-5B

1,000,000

9,390,623

4,649,567,411

89,334,605

11,579,143

数据集采用全局时间分割 (GTS) 进行评估,该方法按时间戳划分数据以保持事件序列。与留一法 (Leave-One-Out) 从每个用户的历史记录中移除最后一次正向交互以用于测试的做法不同,GTS 避免破坏训练集和测试集之间的时序依赖,模拟了未来数据不可用的现实条件,让模型测试更为真实。

采用全局时间分割 (GTS) 的评估方案

基线实现包括 MostPopDecayPopItemKNNiALSBPRSANSA SASRec,为比较新推荐系统方法提供基准。这些基线通过标准指标进行评估,包括:

  • NDCG@k(排序质量)
  • Recall@k(检索效果)
  • Coverage@k(目录多样性)

“当行业领袖共享宝贵的工具和数据时,所有人都会从中受益:研究人员获得真实的基准,初创企业获得原本只属于科技巨头的资源,全球用户得以享受更优质的个性化体验。”Nikolay Savushkin 补充说道。

Yambda,全球最大的推荐系统开放数据集,现已在 Hugging Face 发布。

 

Yandex 简介

Yandex 是一家全球性的科技公司,专注于打造由机器学习驱动的智能产品与服务。公司宗旨为帮助消费者和企业更好地应对线上与线下世界的挑战。自 1997 年以来,Yandex 持续提供世界级、本地化的搜索与信息服务,并为全球数百万消费者开发了市场领先的按需出行服务、导航产品及其他移动应用。

My Wave 简介

My Wave 是集成于用户规模达数百万的音乐流媒体服务 Yandex Music 中的个性化推荐系统,采用深度神经模型和 AI 算法分析千余项因素,包括用户交互、可定制的情绪/语言设置,以及对声谱图、频率范围、节奏、声调和流派等的实时音乐分析。通过处理收听历史记录和音轨序列来动态适应用户偏好、识别音频相似性并预测音乐品味,从而提供量身定制的推荐内容


相關推薦

2025-06-05

Yandex 发布开源音乐推荐数据集 Yambda,包含近 50 亿次匿名用户与流媒体平台 Yandex Music 音轨的互动数据。 Yandex 表示,该数据集来自旗下流媒体音乐服务的 My Wave 推荐系统,所有用户和跟踪数据都使用数字标识符匿名化处理:

2023-03-27

“不公正” 的对待。但即便如此,俄罗斯大型科技公司 Yandex 近日依然在 GitHub 上开源了一个项目,该项目名为 YTsaurus,这是一个用于存储和处理大数据的平台,大多数 Yandex 服务均在使用。 Yandex 分布式计算的负责人 Maxim Babe

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2023-12-01

当前,以大模型为代表的人工智能技术迅猛发展,成为全球技术焦点,越来越多的开发者投入到人工智能技术的学习和应用中。AI框架是AI算法模型设计、训练和验证的一套标准接口、特性库和工具包,集成了算法的封装、数据

2025-04-29

4月27日下午,在北京人工智能产业生态创新发布会上,开源人工智能社区“模力方舟”正式发布,“开源人工智能应用创新大赛”也同步启动,经开区将围绕建设全域人工智能之城,助力共建国内AI开源开放生态。 模力方舟依

2023-10-21

施,实现超高性能、无缝访问和便捷管理。” 此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立

2024-07-08

业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰

2024-09-26

已进入加快推进应用落地的关键阶段,中国电信联合华为发布魔乐(Modelers)开发者社区,进一步驱动产业发展,加快技术创新和商业落地。魔乐社区汇聚了AI全产业链能力,依托成员单位提供AI全生命周期服务,吸引全国开发者

2023-03-23

一些功能。只不过从最近的测试来看,情况并非如此。 Yandex Browser 是俄罗斯搜索巨头 Yandex 在 2012 年推出的浏览器,同样基于 Chromium,其特点是内置了卡巴斯基的反病毒技术来保护用户安全。近日 Yandex 浏览器性能团队的负责人

2022-09-24

为了让开发者对 TiDB 触手可及,PingCAP 还在本次大会上发布了 Serverless Tier 和 TiDB Playground,在 TiDB Cloud 上为每一个开发者提供一个免费的云上数据库,后者可以让开发者在 5 分钟内快速体验 HTAP。 构建多元数据生态 PingCAP 通过

2024-01-16

与企业功能 应用空间: 支持托管Gradio/Streamlit应用并发布到Space应用空间 细粒度权限:面向企业架构的细粒度权限和访问控制设置 安全合规 资产元数据: 资产的元数据管理机制,支持自定义元数据类型和对应的A

2023-07-08

的大会主题演讲中,华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中,盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提

2024-09-21

知名的软件开发工具提供商JetBrains在2024云栖大会上正式发布基于阿里云通义大模型的JetBrains AI Assistant,标志着JetBrains在完善其开发工具产品生态方面迈出了重要一步。JetBrains AI Assistant与多款JetBrains产品深度集成,能够以高度的

2023-01-29

俄罗斯科技公司 Yandex 前雇员近日在一个流行的黑客论坛上以 Torrent 磁链的形式发布了总容量为 44.7GB 的源代码仓库。 泄露者称这是 'Yandex git sources',于 2022 年 7 月从公司窃取,包含了除反垃圾邮件规则之外的所有源代码