Yandex 发布开源音乐推荐数据集 Yambda,包含近 50 亿次匿名用户与流媒体平台 Yandex Music 音轨的互动数据。
Yandex 表示,该数据集来自旗下流媒体音乐服务的 My Wave 推荐系统,所有用户和跟踪数据都使用数字标识符匿名化处理:
- 包含了跨度 10 个月、47.9 亿次匿名用户交互,拥有来自 100 万用户的数据和 939 万个曲目的匿名描述符
- 包括隐式交互(侦听)和显式交互(喜欢、不喜欢和删除)两种反馈类型,并提供 50 亿、5 亿和 5000 万三种数据集大小,
相比现有的 Spotify Million Playlists、Netflix Prize dataset 等数据集,Yambda 在数据规模和时效性方面都更为出色。
Yambda 可作为通用基准用于电子商务、社交网络和短视频平台的推荐系统测试,现已在 Hugging Face 上提供:
https://huggingface.co/datasets/yandex/yambda