跳转至

小红书推荐系统平台技术公开信息调研

调研日期:2026-03-27 | 作者:Cindy + Claude Opus 4.6 调研方法:/research-fast skill(调研黑客)— 爆炸式调研模式 关联文档:论文深度研读(无 skill 版) | Research Snapshot(无 skill 版)


1. 调研目标

小红书在学术活动、科技交流活动、官方出版物、播客博客等公开渠道,公布和提到了多少关于推荐系统平台的技术细节?

核心交付物: 1. 技术演进时间线(按系统阶段划分) 2. 每个阶段的驱动力分析(为什么决定这样升级/改变) 3. 信源清单与可信度分级 4. Gap 分析(哪些关键技术细节尚未公开)


2. 调研方法说明

调研模式选择

爆炸式调研(Explosive Research):目标是建立小红书推荐系统技术的全景图谱。

理由:这不是一个「选 A 还是选 B」的决策问题(系统式),也不是追踪某个特定现象的原因(挖掘式),而是「一家公司在这个领域公开了多少信息」——需要大面积扫描、分类、建立时间线。

执行策略

Phase 方法 工具
Phase 1 问题拆解(7 步分解法) 手工
Phase 2a 8 篇核心论文全文阅读 Jina Reader API (r.jina.ai/) + 6 个并行 Agent
Phase 2b 非论文信源搜索(会议/博客/开源/招聘) WebSearch + WebFetch + 1 个 Agent
Phase 2c 王树森背景交叉验证 WebSearch(个人主页/LinkedIn/GitHub/arXiv)
Phase 3 关键声明交叉验证 3 个并行 Agent 分别验证 GRPO>PPO、GenRank 架构声明、王树森关系
Phase 4 结构化输出 本文档

停止条件

  • ✅ 核心论文(8 篇)全部全文阅读
  • ✅ 非论文信源(会议/博客/开源/招聘)覆盖 ≥3 类
  • ✅ 关键技术声明交叉验证 ≥2 个独立信源
  • ⚠️ REDtech 微信公众号无法访问(需微信环境),B 站视频无法观看 → 标记为人工补位点

3. Scope

In Scope

  • 推荐系统全链路:召回 → 粗排 → 精排 → 重排 → 策略
  • 搜索系统(与推荐共享基础设施)
  • 冷启动
  • 基础设施(训练/推理/数据)
  • 时间范围:2021–2026(有公开论文的时期)

Out of Scope

  • 内容安全/反欺诈(有论文但非推荐系统核心)
  • 电商交易系统
  • 客户端/音视频技术
  • 广告竞价机制(仅涉及广告排序中的冷启动)

4. 核心发现

发现 1:小红书推荐系统经历了 4 个清晰的技术阶段

阶段 时间 标志 核心驱动力
Phase 0:规则+简单模型 2013–2018 GBDT 排序, Flink 实时管道 用户增长,人工运营不 scale
Phase 1:深度学习全面上线 2019–2021 MMoE 多目标, 多路召回, SSD 多样性 DAU 破亿,多目标优化成刚需
Phase 2:精细化+搜推融合 2022–2023 冷启动全链路, Ark 图计算, 搜推统一 冷启动/长尾/搜推融合成瓶颈
Phase 3:LLM 全面改造 ★ 2024–2026 每个环节从判别式→生成式/LLM LLM 能力突破,每个环节有更强表达方式

置信度:高(Phase 1-2 基于会议分享+王树森课程推断,Phase 3 基于 8 篇 A 级论文直接验证)

发现 2:Phase 3 的 LLM 改造覆盖了推荐系统全链路

环节 论文 变化 在线核心指标
召回 I2I NoteLLM (WWW'24) BERT → LLaMA 7B embedding CTR +16.2%
召回多模态 NoteLLM-2 (KDD'25) 纯文本 → 多模态 LLM 首千曝点击 +6.35%
召回多兴趣 GemiRec (2025.03) 单兴趣双塔 → RQ-VAE 多兴趣 Recall@120 +28.78%
精排 GenRank (KDD'25 WS) 判别式 MLP → 生成式 Transformer 互动 +1.25%, P99 延迟 -25%
冷启动 IDProxy (2025.03/08) Random → MLLM proxy embedding 广告曝光 +1.28%
搜索排序 GRM+SAM (KDD'26) 标量分数 → CoT 推理 + RL CES +0.72%
搜索 QP QP-OneModel (2026 Q1) N 个 BERT → 1 个统一 LLM NER F1 +9.01%

置信度:高(全部来自 A 级信源,在线 A/B 数据均有统计显著性报告)

发现 3:6 个反复出现的技术模式

模式 出现论文 解读
对比学习构建 embedding NoteLLM, NoteLLM-2, IDProxy, GemiRec 推荐 embedding 学习的标准范式
GRPO 作为 RL 标准算法 GRM+SAM(显式验证), QP-OneModel(沿用) 避免 PPO 值函数估计偏差
大模型训练→小模型上线 GRM+SAM (32B→0.1B), QP-OneModel (8B→0.6B serving) 工业落地标准模式
生成任务辅助表示学习 NoteLLM (hashtag 生成→embedding), QP-OneModel (intent desc→CoT) 生成不是目的,是手段
消融实验驱动决策 GenRank, GemiRec 先证明为什么,再决定怎么做
结构复用>另起炉灶 IDProxy (注入现有 CTR), QP-OneModel (替换信号不替换系统) 增量部署,降低风险

置信度:高(直接从论文提取的 pattern)

发现 4:两个贯穿始终的核心驱动力

  1. 内容形态决定技术路线:图文 → 图文+视频 → 短视频,每次变化倒逼多模态升级
  2. UGC 平台的冷启动宿命:新笔记持续涌入,冷启动不是一次性问题而是永久约束

置信度:中-高(跨论文推断,非某单一论文的结论)

发现 5:技术栈拼图

层面 技术 信源
语言 Python, C++, Go 招聘 JD (C)
深度学习 PyTorch, Megatron-core, DeepSpeed QCon 2025 分享 (B), 论文 (A)
推理 vLLM QCon 2025 (B)
调度 Ray, K8s, OpenKruise, Koordinator 博客 (C), 招聘 (C)
数据 Flink(实时), StarRocks, Apache Paimon DataFunCon (B), 博客 (C)
自建为主 + 阿里云(2024 从 AWS 迁移 500PB) InfoQ (C)
GPU NVIDIA H20 GenRank 论文 (A)
基座模型 RedOne (Qwen2.5-32B domain-adapted), RedOne2.0, dots.llm1 (142B MoE) 论文 (A), GitHub (B)
内部系统 Ark 图计算, 类 TAO 一跳查询 QCon (B), 博客 (C)

置信度:中(跨多个 B-C 级信源拼合,部分来自招聘 JD 推断)


5. 证据记录

5.1 学术论文(A 级信源)

# 论文 会议 日期 source level engagement
1 SSD (Sliding Spectrum Decomposition) KDD 2021 2021.07 arXiv: 2107.05204 A 不适用
2 NoteLLM WWW 2024 2024.03 arXiv: 2403.01744 A 不适用
3 NoteLLM-2 KDD 2025 2024.05 arXiv: 2405.16789 A 不适用
4 GemiRec 预印本 2025.10 arXiv: 2510.14626 A 不适用
5 GenRank KDD 2025 Workshop 2025.05 arXiv: 2505.04180 A 不适用
6 IDProxy 预印本 2026.03 arXiv: 2603.01590 A 不适用
7 GRM + SAM KDD 2026 2025.12 arXiv: 2512.00968 A 不适用
8 QP-OneModel 预印本 2026.02 arXiv: 2602.09901 A 不适用

补充论文(非推荐核心但相关):

论文 会议 level 相关度
Inverse Retrieval (doc2query) ICIC 2024 A 搜索召回
BatchEval ACL 2024 主会 A LLM 评估方法
MLLM Alignment Metric (LIS) RecSys 2025 WS A 推荐评估

5.2 技术会议演讲(B 级信源)

# 活动 日期 核心披露 source level engagement
1 CCF C3 #18 @ 小红书 2023.03 推荐技术创新 + 搜索召回前沿 CCF 官网 B 不可获取
2 CNCC 2023 2023.10 大模型如何变革推荐系统(冯笛主持) CNCC 议程 B 不可获取
3 QCon 上海 2024.10 搜推融合、模糊意图、长尾 query、多模态 InfoQ B 不可获取
4 DataFunCon 2024.04/07 图数据库、搜推广策略、大数据+AI DataFun B 不可获取
5 QCon 北京 2025 多模态大模型 RLHF 系统:Megatron-core + Ray + vLLM InfoQ B 不可获取
6 QCon 上海 2025.12 AI Coding: PRD→代码生成 InfoQ B 不可获取

5.3 官方技术博客 REDtech(B-C 级信源)

# 平台 代表内容 source level engagement
1 CSDN (REDtech_1024) 技术文章系列 CSDN C 不可获取
2 知乎(小红书技术团队) 技术问答/文章 知乎 C 不可获取(403 封禁)
3 微信公众号(小红书技术REDtech) 种草/反欺诈/广告/成本优化 微信 C 不可获取(需微信环境)
4 InfoQ 技术采访/文章 InfoQ C 不可获取

5.4 开源项目(B 级信源)

# 项目 说明 source level 推荐系统相关度
1 dots.llm1 142B MoE,开放全阶段 checkpoint GitHub B 间接(基座能力)
2 NoteLLM 代码 论文配套实现 GitHub B ★★★ 直接相关
3 REDPlayer 跨平台播放器 GitHub B
4 Karmada(联合) K8s 多集群管理 GitHub B

5.5 王树森推荐系统公开课(B 级信源)

属性 详情
source GitHub: wangshusen/RecommenderSystem, B 站 8 小时视频
level B(前员工个人项目,非官方出版物)
date 2022.12 创建, 2024.01 最后更新
engagement 不可获取
作者背景 王树森,2021.09-2023.07 小红书 ML 工程师/经理(搜索推荐模型组),现 Meta Staff Engineer
时间覆盖 反映 ~2021-2023 技术栈(Phase 1-2,LLM 之前)
性质 个人项目,非小红书官方认可,但基于真实生产系统经验

5.6 招聘信息(C-D 级信源)

# 信源 透露的技术栈 level
1 脉脉/Boss直聘 推荐算法岗 PyTorch, 大规模分布式训练, 实时特征 D
2 LinkedIn 推荐工程师岗 Python/C++/Go, 实时系统 C
3 2024 应用算法部组建 合并社区/电商/商业化算法 C

6. 交叉验证

验证 1:GRPO > PPO

声明 信源 1 信源 2 结论
GRPO 优于 PPO GRM+SAM 论文:显式对比,PPO 5-ACC=78.81 vs GRPO 80.90,全 4 指标 GRPO 胜出 (A) QP-OneModel 论文:使用 GRPO,但未做 PPO 对比,引用外部证据 (A) 部分验证:GRM+SAM 显式证明;QP-OneModel 沿用但未独立验证

验证 2:GenRank「架构>训练范式」

声明 论文原文 交叉验证 结论
生成式排序的提升主要来自架构(causal masking),而非训练范式(grouped training) GenRank Section 3.1:去掉 causal mask → AUC 掉 >0.0015;grouped→pointwise → "slight decrease" 未找到独立验证(Meta HSTU 论文关注点不同) 方向性支持但非严格证明:消融用定性语言("slight")而非精确数值报告 grouped training 效果,无法定量比较两者差距

验证 3:王树森课程反映真实生产系统

声明 信源 1 信源 2 信源 3 结论
课程内容反映小红书 2021-2023 实际技术栈 个人主页:确认 2021.09-2023.07 在小红书 (B) arXiv 2308.01204:标注 Xiaohongshu 机构 (A) 论文映射:课程中的双塔/MMoE/SSD 与后续论文的 baseline 一致 (A) 高度可信:三源交叉验证,且后续论文(NoteLLM, GenRank)的 baseline 正是课程描述的系统

验证 4:技术栈信息

声明 信源组合 结论
Megatron-core + Ray + vLLM QCon 2025 分享 (B) + GenRank 论文提到 H20 GPU (A) 可信:会议+论文交叉
Flink 实时管道 DataFunCon (B) + 招聘 JD (C-D) 可信度中:两个独立但非 A 级信源
自建+阿里云,500PB 迁移 InfoQ 报道 (C) 单一信源,置信度低

7. 信息冲突

冲突 1:NoteLLM-2 离线指标 vs NoteLLM

NoteLLM 报告 Recall@100 = 84.02 (vs SentenceBERT 70.72),NoteLLM-2 报告 Recall@100 = 77.56 (vs SentenceBERT 67.59)。两者的绝对值不可直接比较。

原因:基线不同。NoteLLM 用 SentenceBERT,NoteLLM-2 用 RoBERTa-wwm-ext。评估集也不同。两篇论文都有 disclaimer。

判断not a real conflict — 评估设置差异导致,不影响各自的增量结论。

冲突 2:GemiRec 部署时间

论文 arXiv 提交时间 2025.10,但文中提到 2025.03 已部署。

判断not a real conflict — 工业论文通常系统先上线、论文后发表。GemiRec 2025.03 部署、2025.10 才写成论文发 arXiv,完全正常。

冲突 3:Phase 0-1 的具体时间线

王树森课程和各会议分享对 Phase 0-1 的时间点(何时上 DL、何时多路召回)描述模糊,无法精确到年。

判断genuine uncertainty — 缺乏 A 级信源,Phase 0-1 的年份为推断性质。标记为中置信度。


8. 推理过程

推理链 1:为什么 2024-2026 是信息密度最高的阶段

事实: - 8 篇核心论文中,7 篇发表于 2024-2026(仅 SSD 在 2021) - 2024 前有 3 年(2021-2023)几乎无推荐系统论文发表 - 2024.12 成立应用算法部,合并社区/电商/商业化

推理: - 2021 SSD 后的沉寂期可能对应 Phase 2「精细化」阶段——系统改进多为工程优化而非算法创新,不足以发论文 - 2024 起的爆发与 LLM 技术成熟同步——LLM 为推荐系统每个环节提供了新的建模方式,产生了大量可发表的方法论创新 - 应用算法部合并可能降低了跨团队发论文的协调成本

结论:Phase 3 信息密度高不是因为小红书突然变得更开放,而是因为 LLM 范式切换产生了大量有学术价值的工作。置信度:中-高

推理链 2:小红书推荐系统的核心技术路线

事实: - 召回:BERT → LLM → 多模态 LLM → 多兴趣(NoteLLM → NoteLLM-2 → GemiRec) - 排序:MLP → 生成式 Transformer(GenRank) - 搜索:独立判别模型 → 统一生成式 LLM(GRM+SAM, QP-OneModel) - RL 算法统一选择 GRPO - 部署模式统一为大模型训练→蒸馏上线

推理: - 每个环节的升级都遵循「判别式→生成式」的方向,说明这是自上而下的技术战略,不是各团队独立演化 - GRPO 和「训大用小」的统一选择进一步证实了平台级的技术决策 - 基座模型 RedOne/RedOne2.0 被多个团队共享(GRM+SAM, QP-OneModel),说明有平台化的模型基础设施

结论:小红书推荐系统正在经历一次有组织的、平台级的「全面 LLM 化」转型,而非零散的局部优化。置信度:高

推理链 3:公开信息的战略选择

事实: - 大量公开:召回、排序、搜索的算法创新 - 完全未公开:精排多目标权重、Feature Store、粗排架构、广告竞价、ODL 框架、用户画像、探索策略

推理: - 已公开的都是「方法论创新」——可以发顶会论文、吸引人才 - 未公开的都是「工程细节+商业敏感信息」——多目标权重直接影响内容分发策略,广告竞价是收入命脉,用户画像涉及隐私 - 这符合中国互联网公司的典型模式:用论文做雇主品牌,核心商业逻辑保密

结论:小红书的技术公开策略是有选择性的,论文展示的是「冰山水面上的部分」。面试准备时需要意识到公开信息的边界。置信度:高


9. 结论

9.1 技术演进时间线(最终版)

Phase 0  2013-2018  规则/GBDT
  │  驱动力:用户增长,人工运营不 scale
  ▼
Phase 1  2019-2021  Deep Learning 全面上线
  │  D&W → MMoE 多目标, 多路召回, ODL 实时训练, SSD 多样性
  │  驱动力:DAU 破亿,多目标优化成刚需
  ▼
Phase 2  2022-2023  精细化 + 搜推融合
  │  冷启动全链路, Ark 图计算, 搜推统一工程
  │  驱动力:冷启动/长尾/搜推融合成瓶颈
  ▼
Phase 3  2024-2026  LLM 全面改造 ★
  │  每个环节从判别式 → 生成式/LLM
  │  驱动力:LLM 能力突破 + 平台级技术战略
  │
  ├── 召回: BERT → LLM → 多模态 LLM → 多兴趣
  ├── 排序: MLP → 生成式 Transformer (causal masking)
  ├── 冷启动: Random → MLLM proxy embedding
  ├── 搜索排序: 黑盒标量 → CoT 推理 + RL
  ├── 搜索 QP: N 个 BERT → 1 个统一生成式 LLM
  ├── RL 标准: GRPO(非 PPO)
  └── 部署模式: 大模型训练(7B-32B) → 蒸馏上线(<1B)

9.2 关键数字汇总

论文 最核心在线指标 部署规模
SSD 用户时长 +0.42%, 内存 -27% 数千万 DAU, N=600 候选
NoteLLM CTR +16.2%, 新笔记 24h 评论 +3.58% I2I 召回通道
NoteLLM-2 首千曝点击 +6.35%, 24h 互动 +8.08% 关键召回通道
GemiRec 视频点击 +0.38%, 次日活跃 +0.07% 首页推荐
GenRank 互动 +1.25%, P99 延迟 -25% 精排,数千万用户
IDProxy 广告曝光 +1.28%, 广告主价值 +1.93% 广告 + Feed
GRM+SAM CES +0.72%, 不相关结果 -0.36% 搜索排序
QP-OneModel 留存 +0.044%, 有效 CTR +0.17% 搜索 QP 全量

9.3 对面试准备的启示

  1. 小红书推荐系统是理解「LLM 如何改造传统推荐」的最佳案例——覆盖全链路,每个环节都有论文
  2. 王树森课程是 Phase 1-2 的最佳参考,但内容已落后于 Phase 3
  3. GenRank 的消融方法论值得深入理解——「是架构还是训练范式」这种问题的回答方式是面试高分点
  4. GRM+SAM 的 SAM 机制——不需要逐步人工标注的 process supervision,是 RL 落地的实用创新
  5. IDProxy 的两阶段对齐——冷启动问题的工业级解法,比学术界的纯 content-based 方法务实得多

10. 不确定性

不确定性 影响 置信度
Phase 0-1 具体年份 时间线精度 ±1 年 中(推断性,缺乏 A 级信源)
粗排是否已升级到生成式 Phase 3 全链路改造的完整性判断 低(完全无公开信息)
重排策略(2024 后) SSD 是否仍在使用 低(无更新信息)
GenRank grouped training 消融的精确数值 「架构>训练范式」结论的定量强度 中(论文用定性语言报告)
2022-2023 沉寂期的真实原因 Phase 2 的技术深度判断 低(纯推测)
ODL 框架细节 对实时训练能力的理解 低(仅知道「分钟级更新」)

11. 下一步调研建议

桌面调研(可继续执行)

任务 预期信源 优先级
读 REDtech CSDN 具体文章 CSDN REDtech_1024 ★★
搜索 DataFunCon 2024 小红书分享的完整 slides/文字稿 DataFun 公众号、知乎 ★★
搜索 QCon 2025 RLHF 系统分享的详细内容 InfoQ ★★★
读 arXiv 2308.01204(王树森综述论文) arXiv ★★
搜索小红书最新招聘 JD 中的技术栈关键词 LinkedIn, Boss 直聘

人工调研(需真人执行)

任务 为什么 AI 做不到 建议方式
读 REDtech 微信公众号历史文章 需微信环境,WebFetch 无法访问 手动浏览/截图
看王树森 B 站公开课视频 无法处理视频 看视频或找文字整理版
获取 DataFunCon/QCon 需付费的完整资料 付费墙 购买或联系组织方
联系小红书前/现员工了解未公开细节 需要人际网络 LinkedIn networking
确认小红书对王树森课程的态度 非公开信息 直接询问王树森/小红书 HR

12. 附录

A. 论文间引用关系图

NoteLLM (2024.03)
  └─→ NoteLLM-2 (2024.05) [继承 Note Compression Prompt + GCL]
       └─→ IDProxy (2026.03) [对比:NoteLLM-2 类 embedding 只 +0.015%]

GenRank (2025.05)
  └─→ 引用 HSTU (Meta) [对比,Action-Oriented > Item-Oriented]
  └─→ IDProxy 受益 [GenRank 对冷启动 item 提升显著]

GRM+SAM (2025.12)
  └─→ QP-OneModel (2026.02) [共享 GRPO, 共享 RedOne 基座]

SSD (2021.07)  [独立于后续工作,重排阶段]

GemiRec (2025.10)  [独立召回侧,与 NoteLLM 系列互补非替代]

B. Gap 分析表

Gap 领域 已知线索 未知细节 可能信源 状态
精排多目标融合 GenRank 提到多任务 head 数、权重、loss 平衡 REDtech, 知乎 🔍 待搜索
Feature Store GenRank:「实时窗口特征有价值」 架构、更新频率、特征数量 REDtech, 招聘 JD 🔍 待搜索
粗排架构(2024后) 王树森课: 三塔粗排 是否升级到生成式 会议, 博客 🔍 待搜索
重排策略(2024后) SSD (2021) SSD 后有无新算法 博客, DataFun 🔍 待搜索
广告排序架构 IDProxy 部署在广告 完整广告排序模型、竞价机制 博客, 专利 🔍 待搜索
ODL 框架 百亿参数分钟级更新 框架、增量 vs 全量、一致性保证 博客, 知乎 🔍 待搜索
用户建模/长期画像 GemiRec 多兴趣 长期 vs 短期兴趣、生命周期管理 博客 🔍 待搜索
探索/利用策略 冷启动流量调控 具体算法(ε-greedy? Thompson? LinUCB?) 博客 🔍 待搜索

C. 信源可信度评分标准

级别 定义 本次涉及的信源
A 经同行评审的学术论文,或政府/企业官方数据 arXiv 论文 ×8(含 KDD/WWW/ACL 录用)
B 行业会议正式分享、官方技术博客、数据库/报告 QCon/DataFun/CCF 分享, 王树森课程, GitHub 开源
C 媒体报道、KOL 分析、非官方技术博客 InfoQ 报道, CSDN/知乎 REDtech 文章, 招聘 JD
D 社交媒体讨论、论坛、匿名爆料 脉脉招聘讨论, 知乎评论区

本报告使用 /research-fast skill(调研黑客)的爆炸式调研模式生成,遵循 4-phase 方法论:问题拆解 → 多维度证据搜集 → 冲突处理与交叉验证 → 结构化输出。所有 A 级信源(论文)通过 Jina Reader API 全文阅读。