小红书推荐系统平台技术公开信息调研¶

调研日期：2026-03-27 | 作者：Cindy + Claude Opus 4.6 调研方法：/research-fast skill（调研黑客）— 爆炸式调研模式关联文档：论文深度研读（无 skill 版） | Research Snapshot（无 skill 版）

1. 调研目标¶

小红书在学术活动、科技交流活动、官方出版物、播客博客等公开渠道，公布和提到了多少关于推荐系统平台的技术细节？

核心交付物： 1. 技术演进时间线（按系统阶段划分） 2. 每个阶段的驱动力分析（为什么决定这样升级/改变） 3. 信源清单与可信度分级 4. Gap 分析（哪些关键技术细节尚未公开）

2. 调研方法说明¶

调研模式选择¶

爆炸式调研（Explosive Research）：目标是建立小红书推荐系统技术的全景图谱。

理由：这不是一个「选 A 还是选 B」的决策问题（系统式），也不是追踪某个特定现象的原因（挖掘式），而是「一家公司在这个领域公开了多少信息」——需要大面积扫描、分类、建立时间线。

执行策略¶

Phase	方法	工具
Phase 1	问题拆解（7 步分解法）	手工
Phase 2a	8 篇核心论文全文阅读	Jina Reader API (`r.jina.ai/`) + 6 个并行 Agent
Phase 2b	非论文信源搜索（会议/博客/开源/招聘）	WebSearch + WebFetch + 1 个 Agent
Phase 2c	王树森背景交叉验证	WebSearch（个人主页/LinkedIn/GitHub/arXiv）
Phase 3	关键声明交叉验证	3 个并行 Agent 分别验证 GRPO>PPO、GenRank 架构声明、王树森关系
Phase 4	结构化输出	本文档

停止条件¶

✅ 核心论文（8 篇）全部全文阅读
✅ 非论文信源（会议/博客/开源/招聘）覆盖 ≥3 类
✅ 关键技术声明交叉验证 ≥2 个独立信源
⚠️ REDtech 微信公众号无法访问（需微信环境），B 站视频无法观看 → 标记为人工补位点

3. Scope¶

In Scope¶

推荐系统全链路：召回 → 粗排 → 精排 → 重排 → 策略
搜索系统（与推荐共享基础设施）
冷启动
基础设施（训练/推理/数据）
时间范围：2021–2026（有公开论文的时期）

Out of Scope¶

内容安全/反欺诈（有论文但非推荐系统核心）
电商交易系统
客户端/音视频技术
广告竞价机制（仅涉及广告排序中的冷启动）

4. 核心发现¶

发现 1：小红书推荐系统经历了 4 个清晰的技术阶段¶

阶段	时间	标志	核心驱动力
Phase 0：规则+简单模型	2013–2018	GBDT 排序, Flink 实时管道	用户增长，人工运营不 scale
Phase 1：深度学习全面上线	2019–2021	MMoE 多目标, 多路召回, SSD 多样性	DAU 破亿，多目标优化成刚需
Phase 2：精细化+搜推融合	2022–2023	冷启动全链路, Ark 图计算, 搜推统一	冷启动/长尾/搜推融合成瓶颈
Phase 3：LLM 全面改造 ★	2024–2026	每个环节从判别式→生成式/LLM	LLM 能力突破，每个环节有更强表达方式

置信度：高（Phase 1-2 基于会议分享+王树森课程推断，Phase 3 基于 8 篇 A 级论文直接验证）

发现 2：Phase 3 的 LLM 改造覆盖了推荐系统全链路¶

环节	论文	变化	在线核心指标
召回 I2I	NoteLLM (WWW'24)	BERT → LLaMA 7B embedding	CTR +16.2%
召回多模态	NoteLLM-2 (KDD'25)	纯文本 → 多模态 LLM	首千曝点击 +6.35%
召回多兴趣	GemiRec (2025.03)	单兴趣双塔 → RQ-VAE 多兴趣	Recall@120 +28.78%
精排	GenRank (KDD'25 WS)	判别式 MLP → 生成式 Transformer	互动 +1.25%, P99 延迟 -25%
冷启动	IDProxy (2025.03/08)	Random → MLLM proxy embedding	广告曝光 +1.28%
搜索排序	GRM+SAM (KDD'26)	标量分数 → CoT 推理 + RL	CES +0.72%
搜索 QP	QP-OneModel (2026 Q1)	N 个 BERT → 1 个统一 LLM	NER F1 +9.01%

置信度：高（全部来自 A 级信源，在线 A/B 数据均有统计显著性报告）

发现 3：6 个反复出现的技术模式¶

模式	出现论文	解读
对比学习构建 embedding	NoteLLM, NoteLLM-2, IDProxy, GemiRec	推荐 embedding 学习的标准范式
GRPO 作为 RL 标准算法	GRM+SAM（显式验证）, QP-OneModel（沿用）	避免 PPO 值函数估计偏差
大模型训练→小模型上线	GRM+SAM (32B→0.1B), QP-OneModel (8B→0.6B serving)	工业落地标准模式
生成任务辅助表示学习	NoteLLM (hashtag 生成→embedding), QP-OneModel (intent desc→CoT)	生成不是目的，是手段
消融实验驱动决策	GenRank, GemiRec	先证明为什么，再决定怎么做
结构复用>另起炉灶	IDProxy (注入现有 CTR), QP-OneModel (替换信号不替换系统)	增量部署，降低风险

置信度：高（直接从论文提取的 pattern）

发现 4：两个贯穿始终的核心驱动力¶

内容形态决定技术路线：图文 → 图文+视频 → 短视频，每次变化倒逼多模态升级
UGC 平台的冷启动宿命：新笔记持续涌入，冷启动不是一次性问题而是永久约束

置信度：中-高（跨论文推断，非某单一论文的结论）

发现 5：技术栈拼图¶

层面	技术	信源
语言	Python, C++, Go	招聘 JD (C)
深度学习	PyTorch, Megatron-core, DeepSpeed	QCon 2025 分享 (B), 论文 (A)
推理	vLLM	QCon 2025 (B)
调度	Ray, K8s, OpenKruise, Koordinator	博客 (C), 招聘 (C)
数据	Flink（实时）, StarRocks, Apache Paimon	DataFunCon (B), 博客 (C)
云	自建为主 + 阿里云（2024 从 AWS 迁移 500PB）	InfoQ (C)
GPU	NVIDIA H20	GenRank 论文 (A)
基座模型	RedOne (Qwen2.5-32B domain-adapted), RedOne2.0, dots.llm1 (142B MoE)	论文 (A), GitHub (B)
内部系统	Ark 图计算, 类 TAO 一跳查询	QCon (B), 博客 (C)

置信度：中（跨多个 B-C 级信源拼合，部分来自招聘 JD 推断）

5. 证据记录¶

5.1 学术论文（A 级信源）¶

#	论文	会议	日期	source	level	engagement
1	SSD (Sliding Spectrum Decomposition)	KDD 2021	2021.07	arXiv: 2107.05204	A	不适用
2	NoteLLM	WWW 2024	2024.03	arXiv: 2403.01744	A	不适用
3	NoteLLM-2	KDD 2025	2024.05	arXiv: 2405.16789	A	不适用
4	GemiRec	预印本	2025.10	arXiv: 2510.14626	A	不适用
5	GenRank	KDD 2025 Workshop	2025.05	arXiv: 2505.04180	A	不适用
6	IDProxy	预印本	2026.03	arXiv: 2603.01590	A	不适用
7	GRM + SAM	KDD 2026	2025.12	arXiv: 2512.00968	A	不适用
8	QP-OneModel	预印本	2026.02	arXiv: 2602.09901	A	不适用

补充论文（非推荐核心但相关）：

论文	会议	level	相关度
Inverse Retrieval (doc2query)	ICIC 2024	A	搜索召回
BatchEval	ACL 2024 主会	A	LLM 评估方法
MLLM Alignment Metric (LIS)	RecSys 2025 WS	A	推荐评估

5.2 技术会议演讲（B 级信源）¶

#	活动	日期	核心披露	source	level	engagement
1	CCF C3 #18 @ 小红书	2023.03	推荐技术创新 + 搜索召回前沿	CCF 官网	B	不可获取
2	CNCC 2023	2023.10	大模型如何变革推荐系统（冯笛主持）	CNCC 议程	B	不可获取
3	QCon 上海	2024.10	搜推融合、模糊意图、长尾 query、多模态	InfoQ	B	不可获取
4	DataFunCon	2024.04/07	图数据库、搜推广策略、大数据+AI	DataFun	B	不可获取
5	QCon 北京	2025	多模态大模型 RLHF 系统：Megatron-core + Ray + vLLM	InfoQ	B	不可获取
6	QCon 上海	2025.12	AI Coding: PRD→代码生成	InfoQ	B	不可获取

5.3 官方技术博客 REDtech（B-C 级信源）¶

#	平台	代表内容	source	level	engagement
1	CSDN (REDtech_1024)	技术文章系列	CSDN	C	不可获取
2	知乎（小红书技术团队）	技术问答/文章	知乎	C	不可获取（403 封禁）
3	微信公众号（小红书技术REDtech）	种草/反欺诈/广告/成本优化	微信	C	不可获取（需微信环境）
4	InfoQ	技术采访/文章	InfoQ	C	不可获取

5.4 开源项目（B 级信源）¶

#	项目	说明	source	level	推荐系统相关度
1	dots.llm1	142B MoE，开放全阶段 checkpoint	GitHub	B	间接（基座能力）
2	NoteLLM 代码	论文配套实现	GitHub	B	★★★ 直接相关
3	REDPlayer	跨平台播放器	GitHub	B	无
4	Karmada（联合）	K8s 多集群管理	GitHub	B	无

5.5 王树森推荐系统公开课（B 级信源）¶

属性	详情
source	GitHub: wangshusen/RecommenderSystem, B 站 8 小时视频
level	B（前员工个人项目，非官方出版物）
date	2022.12 创建, 2024.01 最后更新
engagement	不可获取
作者背景	王树森，2021.09-2023.07 小红书 ML 工程师/经理（搜索推荐模型组），现 Meta Staff Engineer
时间覆盖	反映 ~2021-2023 技术栈（Phase 1-2，LLM 之前）
性质	个人项目，非小红书官方认可，但基于真实生产系统经验

5.6 招聘信息（C-D 级信源）¶

#	信源	透露的技术栈	level
1	脉脉/Boss直聘推荐算法岗	PyTorch, 大规模分布式训练, 实时特征	D
2	LinkedIn 推荐工程师岗	Python/C++/Go, 实时系统	C
3	2024 应用算法部组建	合并社区/电商/商业化算法	C

6. 交叉验证¶

验证 1：GRPO > PPO¶

声明	信源 1	信源 2	结论
GRPO 优于 PPO	GRM+SAM 论文：显式对比，PPO 5-ACC=78.81 vs GRPO 80.90，全 4 指标 GRPO 胜出 (A)	QP-OneModel 论文：使用 GRPO，但未做 PPO 对比，引用外部证据 (A)	部分验证：GRM+SAM 显式证明；QP-OneModel 沿用但未独立验证

验证 2：GenRank「架构>训练范式」¶

声明	论文原文	交叉验证	结论
生成式排序的提升主要来自架构（causal masking），而非训练范式（grouped training）	GenRank Section 3.1：去掉 causal mask → AUC 掉 >0.0015；grouped→pointwise → "slight decrease"	未找到独立验证（Meta HSTU 论文关注点不同）	方向性支持但非严格证明：消融用定性语言（"slight"）而非精确数值报告 grouped training 效果，无法定量比较两者差距

验证 3：王树森课程反映真实生产系统¶

声明	信源 1	信源 2	信源 3	结论
课程内容反映小红书 2021-2023 实际技术栈	个人主页：确认 2021.09-2023.07 在小红书 (B)	arXiv 2308.01204：标注 Xiaohongshu 机构 (A)	论文映射：课程中的双塔/MMoE/SSD 与后续论文的 baseline 一致 (A)	高度可信：三源交叉验证，且后续论文（NoteLLM, GenRank）的 baseline 正是课程描述的系统

验证 4：技术栈信息¶

声明	信源组合	结论
Megatron-core + Ray + vLLM	QCon 2025 分享 (B) + GenRank 论文提到 H20 GPU (A)	可信：会议+论文交叉
Flink 实时管道	DataFunCon (B) + 招聘 JD (C-D)	可信度中：两个独立但非 A 级信源
自建+阿里云，500PB 迁移	InfoQ 报道 (C)	单一信源，置信度低

7. 信息冲突¶

冲突 1：NoteLLM-2 离线指标 vs NoteLLM¶

NoteLLM 报告 Recall@100 = 84.02 (vs SentenceBERT 70.72)，NoteLLM-2 报告 Recall@100 = 77.56 (vs SentenceBERT 67.59)。两者的绝对值不可直接比较。

原因：基线不同。NoteLLM 用 SentenceBERT，NoteLLM-2 用 RoBERTa-wwm-ext。评估集也不同。两篇论文都有 disclaimer。

判断：not a real conflict — 评估设置差异导致，不影响各自的增量结论。

冲突 2：GemiRec 部署时间¶

论文 arXiv 提交时间 2025.10，但文中提到 2025.03 已部署。

判断：not a real conflict — 工业论文通常系统先上线、论文后发表。GemiRec 2025.03 部署、2025.10 才写成论文发 arXiv，完全正常。

冲突 3：Phase 0-1 的具体时间线¶

王树森课程和各会议分享对 Phase 0-1 的时间点（何时上 DL、何时多路召回）描述模糊，无法精确到年。

判断：genuine uncertainty — 缺乏 A 级信源，Phase 0-1 的年份为推断性质。标记为中置信度。

8. 推理过程¶

推理链 1：为什么 2024-2026 是信息密度最高的阶段¶

事实： - 8 篇核心论文中，7 篇发表于 2024-2026（仅 SSD 在 2021） - 2024 前有 3 年（2021-2023）几乎无推荐系统论文发表 - 2024.12 成立应用算法部，合并社区/电商/商业化

推理： - 2021 SSD 后的沉寂期可能对应 Phase 2「精细化」阶段——系统改进多为工程优化而非算法创新，不足以发论文 - 2024 起的爆发与 LLM 技术成熟同步——LLM 为推荐系统每个环节提供了新的建模方式，产生了大量可发表的方法论创新 - 应用算法部合并可能降低了跨团队发论文的协调成本

结论：Phase 3 信息密度高不是因为小红书突然变得更开放，而是因为 LLM 范式切换产生了大量有学术价值的工作。置信度：中-高

推理链 2：小红书推荐系统的核心技术路线¶

事实： - 召回：BERT → LLM → 多模态 LLM → 多兴趣（NoteLLM → NoteLLM-2 → GemiRec） - 排序：MLP → 生成式 Transformer（GenRank） - 搜索：独立判别模型 → 统一生成式 LLM（GRM+SAM, QP-OneModel） - RL 算法统一选择 GRPO - 部署模式统一为大模型训练→蒸馏上线

推理： - 每个环节的升级都遵循「判别式→生成式」的方向，说明这是自上而下的技术战略，不是各团队独立演化 - GRPO 和「训大用小」的统一选择进一步证实了平台级的技术决策 - 基座模型 RedOne/RedOne2.0 被多个团队共享（GRM+SAM, QP-OneModel），说明有平台化的模型基础设施

结论：小红书推荐系统正在经历一次有组织的、平台级的「全面 LLM 化」转型，而非零散的局部优化。置信度：高

推理链 3：公开信息的战略选择¶

事实： - 大量公开：召回、排序、搜索的算法创新 - 完全未公开：精排多目标权重、Feature Store、粗排架构、广告竞价、ODL 框架、用户画像、探索策略

推理： - 已公开的都是「方法论创新」——可以发顶会论文、吸引人才 - 未公开的都是「工程细节+商业敏感信息」——多目标权重直接影响内容分发策略，广告竞价是收入命脉，用户画像涉及隐私 - 这符合中国互联网公司的典型模式：用论文做雇主品牌，核心商业逻辑保密

结论：小红书的技术公开策略是有选择性的，论文展示的是「冰山水面上的部分」。面试准备时需要意识到公开信息的边界。置信度：高

9. 结论¶

9.1 技术演进时间线（最终版）¶

Phase 0  2013-2018  规则/GBDT
  │  驱动力：用户增长，人工运营不 scale
  ▼
Phase 1  2019-2021  Deep Learning 全面上线
  │  D&W → MMoE 多目标, 多路召回, ODL 实时训练, SSD 多样性
  │  驱动力：DAU 破亿，多目标优化成刚需
  ▼
Phase 2  2022-2023  精细化 + 搜推融合
  │  冷启动全链路, Ark 图计算, 搜推统一工程
  │  驱动力：冷启动/长尾/搜推融合成瓶颈
  ▼
Phase 3  2024-2026  LLM 全面改造 ★
  │  每个环节从判别式 → 生成式/LLM
  │  驱动力：LLM 能力突破 + 平台级技术战略
  │
  ├── 召回: BERT → LLM → 多模态 LLM → 多兴趣
  ├── 排序: MLP → 生成式 Transformer (causal masking)
  ├── 冷启动: Random → MLLM proxy embedding
  ├── 搜索排序: 黑盒标量 → CoT 推理 + RL
  ├── 搜索 QP: N 个 BERT → 1 个统一生成式 LLM
  ├── RL 标准: GRPO（非 PPO）
  └── 部署模式: 大模型训练(7B-32B) → 蒸馏上线(<1B)

9.2 关键数字汇总¶

论文	最核心在线指标	部署规模
SSD	用户时长 +0.42%, 内存 -27%	数千万 DAU, N=600 候选
NoteLLM	CTR +16.2%, 新笔记 24h 评论 +3.58%	I2I 召回通道
NoteLLM-2	首千曝点击 +6.35%, 24h 互动 +8.08%	关键召回通道
GemiRec	视频点击 +0.38%, 次日活跃 +0.07%	首页推荐
GenRank	互动 +1.25%, P99 延迟 -25%	精排，数千万用户
IDProxy	广告曝光 +1.28%, 广告主价值 +1.93%	广告 + Feed
GRM+SAM	CES +0.72%, 不相关结果 -0.36%	搜索排序
QP-OneModel	留存 +0.044%, 有效 CTR +0.17%	搜索 QP 全量

9.3 对面试准备的启示¶

小红书推荐系统是理解「LLM 如何改造传统推荐」的最佳案例——覆盖全链路，每个环节都有论文
王树森课程是 Phase 1-2 的最佳参考，但内容已落后于 Phase 3
GenRank 的消融方法论值得深入理解——「是架构还是训练范式」这种问题的回答方式是面试高分点
GRM+SAM 的 SAM 机制——不需要逐步人工标注的 process supervision，是 RL 落地的实用创新
IDProxy 的两阶段对齐——冷启动问题的工业级解法，比学术界的纯 content-based 方法务实得多

10. 不确定性¶

不确定性	影响	置信度
Phase 0-1 具体年份	时间线精度 ±1 年	中（推断性，缺乏 A 级信源）
粗排是否已升级到生成式	Phase 3 全链路改造的完整性判断	低（完全无公开信息）
重排策略（2024 后）	SSD 是否仍在使用	低（无更新信息）
GenRank grouped training 消融的精确数值	「架构>训练范式」结论的定量强度	中（论文用定性语言报告）
2022-2023 沉寂期的真实原因	Phase 2 的技术深度判断	低（纯推测）
ODL 框架细节	对实时训练能力的理解	低（仅知道「分钟级更新」）

11. 下一步调研建议¶

桌面调研（可继续执行）¶

任务	预期信源	优先级
读 REDtech CSDN 具体文章	CSDN REDtech_1024	★★
搜索 DataFunCon 2024 小红书分享的完整 slides/文字稿	DataFun 公众号、知乎	★★
搜索 QCon 2025 RLHF 系统分享的详细内容	InfoQ	★★★
读 arXiv 2308.01204（王树森综述论文）	arXiv	★★
搜索小红书最新招聘 JD 中的技术栈关键词	LinkedIn, Boss 直聘	★

人工调研（需真人执行）¶

任务	为什么 AI 做不到	建议方式
读 REDtech 微信公众号历史文章	需微信环境，WebFetch 无法访问	手动浏览/截图
看王树森 B 站公开课视频	无法处理视频	看视频或找文字整理版
获取 DataFunCon/QCon 需付费的完整资料	付费墙	购买或联系组织方
联系小红书前/现员工了解未公开细节	需要人际网络	LinkedIn networking
确认小红书对王树森课程的态度	非公开信息	直接询问王树森/小红书 HR

12. 附录¶

A. 论文间引用关系图¶

NoteLLM (2024.03)
  └─→ NoteLLM-2 (2024.05) [继承 Note Compression Prompt + GCL]
       └─→ IDProxy (2026.03) [对比：NoteLLM-2 类 embedding 只 +0.015%]

GenRank (2025.05)
  └─→ 引用 HSTU (Meta) [对比，Action-Oriented > Item-Oriented]
  └─→ IDProxy 受益 [GenRank 对冷启动 item 提升显著]

GRM+SAM (2025.12)
  └─→ QP-OneModel (2026.02) [共享 GRPO, 共享 RedOne 基座]

SSD (2021.07)  [独立于后续工作，重排阶段]

GemiRec (2025.10)  [独立召回侧，与 NoteLLM 系列互补非替代]

B. Gap 分析表¶

Gap 领域	已知线索	未知细节	可能信源	状态
精排多目标融合	GenRank 提到多任务	head 数、权重、loss 平衡	REDtech, 知乎	🔍 待搜索
Feature Store	GenRank:「实时窗口特征有价值」	架构、更新频率、特征数量	REDtech, 招聘 JD	🔍 待搜索
粗排架构（2024后）	王树森课: 三塔粗排	是否升级到生成式	会议, 博客	🔍 待搜索
重排策略（2024后）	SSD (2021)	SSD 后有无新算法	博客, DataFun	🔍 待搜索
广告排序架构	IDProxy 部署在广告	完整广告排序模型、竞价机制	博客, 专利	🔍 待搜索
ODL 框架	百亿参数分钟级更新	框架、增量 vs 全量、一致性保证	博客, 知乎	🔍 待搜索
用户建模/长期画像	GemiRec 多兴趣	长期 vs 短期兴趣、生命周期管理	博客	🔍 待搜索
探索/利用策略	冷启动流量调控	具体算法（ε-greedy? Thompson? LinUCB?）	博客	🔍 待搜索

C. 信源可信度评分标准¶

级别	定义	本次涉及的信源
A	经同行评审的学术论文，或政府/企业官方数据	arXiv 论文 ×8（含 KDD/WWW/ACL 录用）
B	行业会议正式分享、官方技术博客、数据库/报告	QCon/DataFun/CCF 分享, 王树森课程, GitHub 开源
C	媒体报道、KOL 分析、非官方技术博客	InfoQ 报道, CSDN/知乎 REDtech 文章, 招聘 JD
D	社交媒体讨论、论坛、匿名爆料	脉脉招聘讨论, 知乎评论区

本报告使用 /research-fast skill（调研黑客）的爆炸式调研模式生成，遵循 4-phase 方法论：问题拆解 → 多维度证据搜集 → 冲突处理与交叉验证 → 结构化输出。所有 A 级信源（论文）通过 Jina Reader API 全文阅读。