抖音公开算法原理:通过神经网络计算预估用户行为、几乎不依赖打标签


4月16日,据抖音集团微信公众号,在昨日的抖音安全与信任中心开放日活动上,抖音相关业务负责人基于网站版块,就社会关切的算法和治理问题展开介绍。

据介绍,抖音推荐算法核心目标是通过分析用户的“行为”(点击、浏览、喜欢、转发、收藏等),构建个性化的推荐模型。系统会基于用户历史动作、对象特征和上下文环境,采用算法模型,预测用户可能会对什么样的内容产生什么样的行为。

抖音算法已几乎不依赖对内容和用户打标签,而是通过神经网络计算,预估用户行为,计算用户观看这条内容获得的价值总和,把排名靠前的内容推给用户。

在抖音的实际应用中,推荐系统采取“人工 + 机器”协同的方式进行风险治理,始终有人工运营和治理体系为算法导航;多目标体系算法能主动打破“信息茧房”,为用户带来更丰富多元、实用可靠的推荐结果。

抖音应用的深度学习算法包括Wide&Deep模型、双塔召回模型等。前者可解决协同过滤算法容易造成信息单一、泛化不足的问题,后者在召回环节提供更好的推荐效果。

基于人工智能机器学习和深度学习构建的推荐算法,其本质是数学模型的运算过程,只是在建立用户行为与内容特征之间的数学统计关联,而非理解内容本身。抖音推荐算法的核心逻辑可以简化为“推荐优先级公式”:综合预测用户行为概率×行为价值权重 = 视频推荐优先级。

模型需要内容和用户两端的数据做输入,其中主要是学习用户行为数据。结合用户行为和视频本身的价值权重,推算出视频推荐的价值分数,并将综合得出的价值最高的视频推送给用户。

官方表示,抖音的价值模型希望实现内容、用户、作者以及平台的多方价值共赢,并通过不断调整参数,对各类价值进行加权。随着算法的进步,抖音已经实现了“分钟级”实时反馈更新。

抖音表示,推荐算法通过各种“目标”来预估用户行为。推荐算法诞生之初,只关注单一或者少量的目标。随着抖音的用户愈发多样化,内容风格也日益多元,平台上有了越来越多的优质中长视频,完播率等少数目标难以满足需求,多目标建模成为技术上的自然选择。

抖音方面称,已经发展出非常复杂的多目标体系,比如将收藏率纳入多目标,帮助知识类内容推送给有需求的用户;增强“收藏+复访”“关注+追更”“打开+搜索”等组合目标,预估用户长期行为,帮助用户探索长期需求;设置探索类指标,帮助用户探索可能他们自己都还没发现的潜在需求,助力破除“信息茧房”;设置原创性目标,鼓励优质、新颖且具有独特价值的内容推荐。

此外,抖音集团还表示,平台治理存在于内容发布与传播的每一个环节,整体遵循两个原则。一是所有在平台发布的内容都会经过评估,流量越高的内容经过评估的次数越多,标准也越严格;二是“人工+机器”审核相互分工又密切配合。

一条视频可能触发多个治理研判节点,视频被举报、评论区出现集中质疑、流量激增等情况,均可能触发“人工+机器”审核。而在任一环节,一旦内容被处置,基本都会立即停止进一步的推荐和分发。

针对社会普遍关心的、呈现聚集特征的、反复出现的、对用户造成较多困扰的焦点问题,抖音成立了数个专项治理团队,分别设置相应的治理标准、识别策略、处置手段和风险巡查能力,专注应对涉及特殊群体、网络暴力、AIGC技术滥用等问题治理。

据悉,3月30日,“抖音安全与信任中心”网站上线,网站面向社会首次公开抖音算法原理、社区规范、治理体系和用户服务机制。

相关阅读:抖音上线「安全与信任中心」网站,首次公开推送算法


相關推薦

2023-03-25

60% 的提升。 Katalyst:从内部验证到开源 在经历内部抖音、今日头条等大规模潮汐流量业务验证后,字节跳动的云原生混部实践已日臻完善。 为了帮助更多人了解大规模资源混部实践的工作原理,方便更多开发者用户体验这

2023-04-14

要求用户提供真实身份信息。 第十条 提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。 第十一条 提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务

2025-04-03

“微信珊瑚安全”发文公布了视频号算法推荐原理,称视频号主要依靠社交好友关系来进行推荐,若推荐的视频不符合预期,可关闭个性化推荐功能。 官方称,视频号平台将持续优化算法信息公示方式,用通俗化的语言来解释

2024-07-02

学习向量量化聚类等 机器学习-分类及拟合: 多层前馈神经网络,多层循环神经网络,残差网络,多层残差循环神经网络,卷积神经网络,决策树,随机森林,k最近邻等 启发式算法: 粒子群,蚁群,模拟退火 强化学习

2025-04-09

最初之所以容易被后门攻击,多亏了NSA可能被认为是一次算法供应链攻击。) 作为一个例子,中国的开发者经常在中国国内的文件分享网站上寻找Xcode的副本,这些副本下载速度更快。2015年,安全研究人员发现攻击者发布了一

2022-04-20

一直以来,HiQ 都依赖于爬取 LinkedIn 用户在网络上可公开访问的信息来实现商业模式。但随着越来越多的企业开始爬取 LinkedIn 的数据,该公司开始试图采用一些技术阻碍手段及法律手段,来禁止竞争对手的数据爬取行为

2023-04-03

人际网络外)账户”。排名“是通过一个约 4800 万参数的神经网络实现的,该神经网络不断接受推文交互训练以优化积极参与(例如点赞、转发和回复)”。 当然,推特用户看不到完整的 1500 条推文。它们会根据内容限制和模

2023-11-18

自动调优的需求较多的一个。借助贝叶斯优化等机器学习算法,我们相信自动调优甚至可以击败大多数 Linux 内核工程师。在本次演讲中,我们将介绍 Linux 内核自动调整解决方案的工作原理以及其设计和架构的概述。我们还将研

2024-01-03

计算机的反抗。“监管开源几乎是不可能的。一旦事情被公开,你就无法对其进行监管。开源[大语言模型]已经存在,它们正在接受训练,而且它们开始变得比 GPT-4 更好,这使得监管它们变得更加困难。” Brock 没有 McFadin 这么

2022-10-26

了一个名为 Private Detector 的 AI 功能。Private Detector 的工作原理是自动模糊处理聊天时分享的色情图像,接收方可以自己决定是否查看或拦截该图片,觉得这种行为冒犯了自己的也可以向 Bumble 举报。 近日,为了进一步打击 "网络

2022-10-30

🎉 🎉 ⭐ 特性增强 测试覆盖率提升: Snowflake 算法分片均匀性 增强: CosIdIntervalShardingAlgorithm 支持更多日期类型: java.time.Instant java.time.LocalDate java.time.OffsetDateTime java.time.ZonedDateTime java.time.LocalDateTime j

2025-04-02

的态度,向全球代码界宣布一项革命性突破 ——Moark-M1,通过独创的 FishNet 神经融合引擎(FishNet Neuro-Fusion Engine, FNFE),实现了「推理速度快过闪电、训练成本低于一杯奶茶、腹有笑话气自华」的不可能三角! 核心技术:

2023-06-30

计在于中间层映射方案的设计 (上图 Mapping),即分片算法的设计。 几乎所有编程语言都内置实现了散列表 (java:HashMap/csharp:Dictionary/python:dict/go:map ...)。分片算法跟散列表高度相似 (hashCode),都得通过 key/shardingValue 

2023-10-26

计在于中间层映射方案的设计 (上图 Mapping),即分片算法的设计。 几乎所有编程语言都内置实现了散列表 (java:HashMap/csharp:Dictionary/python:dict/go:map ...)。分片算法跟散列表高度相似 (hashCode),都得通过 key/shardingValue