Yandex 发布全球最大开源音乐推荐数据集 Yambda


Yandex 发布开源音乐推荐数据集 Yambda,包含近 50 亿次匿名用户与流媒体平台 Yandex Music 音轨的互动数据。

Yandex 表示,该数据集来自旗下流媒体音乐服务的 My Wave 推荐系统,所有用户和跟踪数据都使用数字标识符匿名化处理:

  • 包含了跨度 10 个月、47.9 亿次匿名用户交互,拥有来自 100 万用户的数据和 939 万个曲目的匿名描述符
  • 包括隐式交互(侦听)和显式交互(喜欢、不喜欢和删除)两种反馈类型,并提供 50 亿、5 亿和 5000 万三种数据集大小,

相比现有的 Spotify Million Playlists、Netflix Prize dataset 等数据集,Yambda 在数据规模和时效性方面都更为出色。

Yambda 可作为通用基准用于电子商务、社交网络和短视频平台的推荐系统测试,现已在 Hugging Face 上提供:

https://huggingface.co/datasets/yandex/yambda


相關推薦

2025-05-31

Yandex 推出了当前可用的全球最大的推荐系统数据集,推动全球范围内的研究与开发工作。 该开放数据集包含通过 Yandex 音乐流媒体服务历时 10 个月收集的 47.9 亿条匿名的用户交互数据(收听、喜欢、不喜欢)。 该数据集

2023-03-27

“不公正” 的对待。但即便如此,俄罗斯大型科技公司 Yandex 近日依然在 GitHub 上开源了一个项目,该项目名为 YTsaurus,这是一个用于存储和处理大数据的平台,大多数 Yandex 服务均在使用。 Yandex 分布式计算的负责人 Maxim Babe

2024-07-08

业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰

2023-01-29

俄罗斯科技公司 Yandex 前雇员近日在一个流行的黑客论坛上以 Torrent 磁链的形式发布了总容量为 44.7GB 的源代码仓库。 泄露者称这是 'Yandex git sources',于 2022 年 7 月从公司窃取,包含了除反垃圾邮件规则之外的所有源代码

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生

2024-01-16

与企业功能 应用空间: 支持托管Gradio/Streamlit应用并发布到Space应用空间 细粒度权限:面向企业架构的细粒度权限和访问控制设置 安全合规 资产元数据: 资产的元数据管理机制,支持自定义元数据类型和对应的A

2023-03-23

一些功能。只不过从最近的测试来看,情况并非如此。 Yandex Browser 是俄罗斯搜索巨头 Yandex 在 2012 年推出的浏览器,同样基于 Chromium,其特点是内置了卡巴斯基的反病毒技术来保护用户安全。近日 Yandex 浏览器性能团队的负责人

2023-10-21

施,实现超高性能、无缝访问和便捷管理。” 此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立

2025-05-09

智源研究院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。 根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次

2025-05-22

tps://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace 我们也开源发布了 RWKV 模型端聊天 APP,方便大家体验 RWKV-7 G1 模型,APP 下载链接在本文靠后位置。 模型客观指标评测 英语和多语言能力 RWKV7-G1 2.9B 的英语和多语言能力显著强于同

2025-05-01

tps://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace 我们也开源发布了 RWKV 模型端聊天 APP,方便大家体验 RWKV-7 模型。APP 下载链接在本文靠后位置。 模型客观指标评测 英语和多语言能力 RWKV7-G1 1.5B 的英语和多语言能力显著强于同规

2025-03-28

人工智能搜索初创公司 Perplexity 近日在官方博客发布文章,提出收购(并改造)TikTok 的要约。 该公司写道:“Perplexity 拥有独特的优势,可以在不造成垄断的情况下重建 TikTok 算法,将世界一流的技术能力与 Little Tech 的独立性

2023-09-12

道,Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终

2025-03-27

千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)达成过“开源周”,其在2月末连续五天发布五个代码库,并