标签 算法 下的文章

X(原Twitter)本次开源算法总结(基于 xai-org/x-algorithm 仓库)

本次开源的仓库(https://github.com/xai-org/x-algorithm)是 X 平台 For You 时间线(推荐饲料)的全新推荐算法,由 xAI 主导开源。核心变化是:彻底放弃了旧版算法中的手工艺特征(hand-engineered features)和各种人工启发式规则(heuristics),转而完全依赖 基于 Grok 模型的 Transformer(Phoenix 组件)进行端到端学习和排名。

算法整体流程:

  • 候选来源:In-Network(关注的人,Thunder 来源) + Out-of-Network(全局推荐,Phoenix 检索)。
  • 模型直接从用户历史互动序列中学习相关性,预测多种用户行为概率。
  • 最终分数通过 加权求和 计算得出,再施加多样性和 OON(Out-of-Network)调整。
  • 多层过滤确保内容质量。

关键点:具体数值权重未开源
与 2023 年旧版 Twitter 开源算法(twitter/the-algorithm)不同,本次 没有公开任何硬编码的数值权重或乘数(如旧版的 LikeWeight = 30、RetweetWeight = 100、Real Graph 权重 0.85 等)。官方明确表示:所有相关性由 Grok-based Transformer 直接学习,加权求和中的具体 weight_i 值属于保密部分,未在代码或文档中披露。

有效权重/因素详细罗列(所有实际影响排名的组件)

以下是算法中明确提及的、实际生效的权重、信号和调整因素(来自 README 和核心组件描述)。它们是当前算法中“有效”的部分,按管道阶段分类列出:

1. 核心排名信号:Engagement Probability Predictions(Phoenix Transformer 输出)

模型为每个候选推文预测以下 15 种用户行为概率(这些概率是排名的核心基础):

  • 正面行为(赋予正权重)

    • P(favorite) → 点赞(Like)
    • P(reply) → 回复
    • P(repost) → 转发(Retweet)
    • P(quote) → 引用
    • P(click) → 点击推文
    • P(profile_click) → 点击作者资料
    • P(video_view) → 观看视频
    • P(photo_expand) → 展开图片
    • P(share) → 分享
    • P(dwell) → 长时间停留
    • P(follow_author) → 关注作者
  • 负面行为(赋予负权重)

    • P(not_interested) → 不感兴趣
    • P(block_author) → 拉黑作者
    • P(mute_author) → 静音作者
    • P(report) → 举报

生效方式:这些概率直接决定了推文的“相关性”。正面行为概率越高,分数越高;负面行为概率越高,分数越低。

2. 加权求和(Weighted Scorer)—— 最核心的有效权重

最终分数计算公式:

Final Score = Σ (weight_i × P(action_i))
  • 正权重:应用于上述 11 种正面行为(具体数值保密)。
  • 负权重:应用于 4 种负面行为(具体数值保密,作用是惩罚可能让用户反感的内容)。
  • 生效阶段:Phoenix Scorer 之后,直接决定排序基础分数。
  • 说明:这是算法中最主要的“权重”部分,但 exact weight 值未公开,被视为商业机密。

3. 作者多样性调整(Author Diversity Scorer)

  • 作用:对同一作者的重复出现进行 分数衰减(attenuation),防止饲料被少数账号霸屏。
  • 生效阶段:加权求和之后、最终选择之前。
  • 有效性:强制提升内容多样性,是当前算法中少数明确的“后处理权重调整”之一(无具体衰减系数公开)。

4. Out-of-Network 调整(OON Scorer)

  • 作用:专门针对非关注来源(Out-of-Network)的内容进行 分数调整(可能提升或衰减,以平衡关注内/外内容比例)。
  • 生效阶段:评分阶段,与 Weighted Scorer 并行。
  • 有效性:确保推荐饲料不完全被关注列表主导(无具体调整公式公开)。

5. 过滤器(Filters)—— 间接影响“有效权重”(二元筛选,非数值权重)

这些不是传统权重,但会直接决定推文是否能进入排名(相当于权重为 0 或 1):

  • 预评分过滤(Pre-Scoring Filters):去除重复、太老、自推、已见、被屏蔽作者、付费墙等。
  • 后选择过滤(Post-Selection Filters):去除违规、spam、暴力、已删除内容,并对对话线程去重。
  • 生效性:任何被过滤掉的推文分数直接归零,无法上饲料。

总体结论

  • 本次开源的核心创新:完全 ML 驱动(Grok Transformer),没有旧版那种明确的手工权重(如 Real Graph 概率、Trust & Dignity 分数、Social Proof 等)
  • 真正“有效”的权重:主要是 15 种行为概率的 保密加权求和,加上作者多样性和 OON 调整。
  • 没有公开的具体数值:官方只开源了架构、模型结构和概率列表,实际权重值仍保密(社区分析也普遍认为这是“secret”部分)。
  • 如果你想对比旧版(2023 年),旧版有大量硬编码权重(如点赞 30 分、转发 100 分等),但本次已全部移除,转为纯模型学习。