Twitter 算法开源了!


当地时间 3 月 31 日,马斯克终于履行诺言正式宣布了 Twitter (推特) 算法的开源。该公司在 GitHub 上发布了两个存储库 (main repo、ml repo),其中涵盖了推荐算法在内的许多推特源代码,包括用来控制用户在 For You 时间线上看到的推文的机制。并发布了一篇博客分享了有关推特算法的更多详细信息。

“今天标志着 Twitter 进入了一个透明的新时代。我们正在与全世界共享为我们的平台提供动力的大部分源代码。”

马斯克表示,此次发布的是大部分推荐算法,其余的算法也将陆续开放;希望“独立的第三方能够以合理的准确性确定 Twitter 可能向用户展示的内容”。不过他也警告称,随着开源发布可能会暴露出一些令人尴尬的问题,“但我们会迅速解决”。此外他还补充称,推特将根据用户的建议,每 24 至 48 小时更新其推荐算法。

此次发布不包括驱动推特广告推荐的代码。推特方面表示,其目标是尽可能提高透明度,它排除了会损害用户安全或隐私的代码,以及会破坏在该平台上防止儿童性侵内容努力的细节。

在有关算法开源发布的 Space 讨论中,马斯克称此次的开源是想让推特向著名的开源项目 Linux 项目看齐,“即使你不同意某些东西,至少你会知道它为什么在那里,而且你没有被秘密操纵......在这里,我们渴望的类比是开源操作系统上的一个伟大示例 Linux......理论上,人们可以为 Linux 发现许多漏洞。在现实中,所发生的是社区识别和修复这些漏洞......”

推特在博客中详细介绍了算法在确定 For You 时间线所显示的推文时,会具体参考哪些内容并如何对其进行排名和过滤。根据介绍,其推荐管线由三个主要阶段组成:

  1. 在称为 candidate sourcing 的过程中从不同的推荐来源获取最佳推文。
  2. 使用机器学习模型对每条推文进行排名。
  3. 应用启发式和过滤器,例如过滤掉来自你已阻止的用户的推文、NSFW 内容和你已经看过的推文。

负责构建和提供 For You 时间线的服务称为 Home Mixer。Home Mixer 建立在 Product Mixer 之上,Product Mixer 是推特的自定义 Scala 框架,有助于构建内容提要。该服务充当连接不同候选源、评分函数、启发式方法和过滤器的软件主干。

下图说明了用于构建时间线的主要组件:

 

文中对过程中的具体步骤做出了进一步的解释。例如首先会从数亿推文中提取最好的大约 1500 条推文,目标是让 For You 时间线中约 50% 的推文来自已关注的用户(即人际网络内),50% 的推文来自“尚未关注的(人际网络外)账户”。排名“是通过一个约 4800 万参数的神经网络实现的,该神经网络不断接受推文交互训练以优化积极参与(例如点赞、转发和回复)”。

当然,推特用户看不到完整的 1500 条推文。它们会根据内容限制和模型考虑的其他标准和因素进行过滤,例如推文是否有“负面反馈”,以及它们是否主要来自同一 Twitter 用户,或者来自被屏蔽的用户。

值得一提的是,Gizmodo 指出,推特向用户推送的 VIP 名单似乎没有被公开。Platformer 也曾报道称,推特有一份值得关注的用户轮换名单,其中包括 YouTuber Mr. Beast 和 Daily Wire 创始人 Ben Shapiro,它通过看似随意地增加这些“power user”的可见性来监控推荐算法的变化。

TechCrunch 指出,有更多证据表明算法可能会根据来源不同地对待推文。研究人员 Jane Manchun Wong 指出,推特的算法专门标记了推文作者是否是 Elon Musk,还有其他标签表明作者是否是“power user”,以及他们是共和党人还是民主党人。

对此,一位 Twitter 工程师在当天的 Spaces 会议上解释称,这些标签仅用于衡量指标。但是马斯克则表明,他在当天之前并不知道这些标签的存在,并认为它们不应该存在:“绝对不应该将人们分为共和党人和民主党人,这没有任何意义。”

相关阅读:

  • 马斯克接手后,Twitter 开源工作停摆
  • 马斯克又来炒作开源,称下周开源推特算法
  • 马斯克:Twitter 将于 3 月 31 日开源所有推荐机制代码
  • Twitter 源代码泄露

相關推薦

2023-07-18

埃隆·马斯克 (Elon Musk) 在日前举行的 Twitter Spaces 音频会议概述了他新成立的 xAI 公司的目标称,xAI 的首要目标是建立一个良好的 AGI(通用人工智能),达到“了解宇宙的真实本质”的目的。 针对一些人对 AGI 概念的恐惧,马斯

2022-12-08

在解雇了大部分技术人员的同时,Twitter 新所有者兼首席执行官 Elon Musk 似乎也放弃了对其开源工作的支持。 与大多数现代软件公司一样,Twitter 依赖于开源程序;其基于 CentOS 7 运行,该版本将于 2024 年 6 月结束生命周

2023-01-18

初的 250 万。 Mastodon 是去中心化的社交平台,可作为 Twitter 的开源替代方案。基于 Mastodon 搭建的站点被称为 “实例 (instance)”,这些实例可以托管到不同的独立服务器,它们既相互独立,又彼此关联(因为不同站点的用户可

2022-11-08

本。 这款诞生于 6 年前的开源软件,因为马斯克收购 Twitter 而在近期吸引了许多新用户。Mastodon 创始人 Eugen Rochko 上周四接受采访时表示,自 10 月 27 日马斯克宣布完成收购 Twitter 以来 Mastodon 吸引了 123,562 名新用户,到周六这

2023-07-08

作为用户名。 Bluesky 是一个去中心化的社交应用,由 Twitter 创始人 Jack Dorsey 创建,最初是与 Twitter 并行开发。Bluesky 使用的是内部构建的开源框架 AT Protocol,这意味着其构建方式和正在开发的内容都具有相当的透明度。今年&nb

2023-03-15

Facebook、Instagram 和 WhatsApp 的母公司 Meta 正在创建自己的 Twitter 替代方案。该公司在声明中表示,“我们正在探索一个独立的去中心化社交网络来共享文本更新。我们相信有机会创建一个独立的空间,让创作者和公众人物可以及

2023-06-13

外媒消息称,在本月即将续签合同之际,Twitter 决定拒绝向谷歌云支付费用;原因在于对其基础设施性能的不满,曾屡次出现中断和不一致等问题。Twitter 试图以拒绝付款的方式促使谷歌解决这些问题,但此举可能导致其信用和

2022-11-16

Mastodon 是开源的社交网络服务器,任何人都可以基于它创建类似推特 / 微博的产品 —— 即标题所说的搭建 “私服微博”。但 Mastodon 与常见的社交网络不一样,其定位是去中心化的社交平台。 基于 Mastodon 搭建的站点被称为 “

2022-11-15

刚刚正式掌管 Twitter 不久的马斯克对公司进行了大刀阔斧的裁员,从他今天发表的推文来看,很显然他对此决策颇为满意,直言“Twitter 越来越充满活力”。 但与此同时,马斯克旁敲侧击地对 Twitter 的开发团队“批判”了一番

2022-11-22

近日,马斯克前往 Twitter 总部大楼和工程师团队进行了 code review,并在结束后晒出了合照,以及 Twitter 的系统架构图。 当然这不是 Twitter 的整体架构图,主要是展示了 Timeline 部分的架构,其中关键的组件是 Timeline Mixer,据

2022-11-16

马斯克昨天锐评 Twitter App 滥用 RPC 后,被 Twitter 的技术主管直接怼了回去——直言马斯克不懂技术,只是喜欢发表一些粗鲁无礼的评价。 除了这名技术主管,一位负责 Twitter Android 客户端开发的工程师 Eric Frohnhoefer 也丝毫

2023-03-27

根据《纽约时报》的报道,一份法律文件显示,Twitter 称其部分源代码在网上泄露,该公司已于上周五采取行动,通过向托管代码的 GitHub 发送版权侵权通知,删除了被泄露的代码。 文件显示 Twitter 还要求美国加利福尼亚州北区

2023-07-25

大楼上。 马斯克今日发布推文称,X.com 现已定向至 Twitter 原网址 twitter.com ,临时 X Logo 将于今日晚些时候启用。 根据马斯克转发的现任 Twttier CEO 推文,X 和他之前提到过的“超级 App”愿景如出一辙。 昨天他就已经在推

2023-07-12

消费级应用。 根据 Cloudflare 的监测,Threads 上线之后,Twitter 的流量显著下降。 其实马斯克接手 Twitter 之后,流量就一直持续下降。而且在 Threads 发布前两天,马斯克还搞了一个谜之操作:临时上线“限流”机制。 根据 Threa