Deep Learning 与 RLHF：从统一说明书到人类偏好对齐

这一篇想把两块拼图放在一起聊：一篇是 2015 年那份给深度学习“定调子”的综述，一篇是 2017 年那个后来把 ChatGPT 推到台前的训练方法。前者回答“深度学习是什么、为什么 work”，后者回答“模型很强之后，怎么让它听话、合乎人类的期待”。一个是方法论的总纲，一个是对齐路线的起点。

💡

一句话复盘：Deep Learning (2015) 把散落各处的经验拧成了一本“统一说明书”；RLHF (2017) 则在“能力”之外，第一次系统性地给模型装上了“偏好”这把方向盘。

小节一：Deep Learning (Nature 2015) —— 深度学习的“统一说明书”

2015 年，Hinton、LeCun、Bengio 三位日后共同拿下图灵奖的学者，在《Nature》上合写了一篇题为《Deep Learning》的综述。它没有提出新模型，但它做了一件更重要的事：把过去十几年零散的突破，整理成了一套自洽、可传授的框架。这篇文章的被引量高达 约 10 万次以上（~100k+），是名副其实的“入门必读第一篇”。

它到底讲清了什么？

表示学习（Representation Learning）：深度学习的本质，是让模型自动地从原始数据中逐层学出特征，而不再依赖人工设计——这是它区别于传统机器学习的根本。
层级抽象：低层学边缘与纹理，中层学局部部件，高层学语义概念。深度，正是让这种“从具体到抽象”的层级表示成为可能。
反向传播：把链式法则与梯度下降讲成一套通用的优化引擎，解释了深层网络“为什么训得动”。
CNN 与 RNN：分别作为处理空间数据（图像）与序列数据（语音、文本）的两大支柱，被系统性地归纳到同一套话语体系里。

换句话说，在 AlexNet 用结果证明“深度可行”之后，这篇综述负责把“为什么可行、如何推广” 讲透，让深度学习从一堆各自为战的技巧，升级成一门有共识、可教学、可继续生长的学科。

如果说 AlexNet 是点燃引信的火花，那么 Deep Learning (2015) 就是那本随后发给所有人的操作手册。

小节二：RLHF (2017) —— 用人类反馈，给模型装上方向盘

时间来到 2017 年。随着模型越来越强，一个新问题浮出水面： 模型“能做”不等于“该做”。一个能力很强的语言模型，可能流畅地胡说八道、答非所问，或者给出技术正确却完全不合人类期待的回答。我们缺的，是一种把 “人类偏好”直接教给模型的方法。

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习） 正是为此而生。它的思路非常巧妙：很多时候我们说不清“最优答案的公式”，但我们一眼就能分辨“A 和 B 哪个更好”。那就别去硬写目标函数，直接让人来当裁判。

RLHF 大致怎么运作？

收集人类偏好：让模型对同一个问题生成多个回答，请人类标注者按“哪个更好”排序。
训练奖励模型（Reward Model）：用这些人类排序数据，训练一个能给任意回答“打分”的模型，让它学会模仿人类的偏好判断。
用强化学习微调：把奖励模型当作“评分官”，用强化学习（如 PPO）去优化语言模型，让它倾向于生成得分更高、也就是更受人类青睐的回答。

🎯

关键转变：RLHF 把优化目标从“预测下一个词的概率”悄悄换成了“生成人类更喜欢的回答”。能力还是那个能力，但输出的风格、有用性、安全性被人类偏好重新塑形了。

它为什么重要？

RLHF 开启了一条至今仍是主流的对齐（Alignment）路线。后来的 ChatGPT 之所以让大众惊艳，很大程度上不是因为底座模型突然变强了多少，而是因为 RLHF 让它学会了“好好说话”：更愿意正面回应、更少胡编、更懂得拒绝不该做的请求。它让一个原始的“文字接龙机器”，变成了一个像样的“助手”。

把两块拼图拼起来

这两篇工作，恰好对应了 AI 发展的两个不同层面的问题：

Deep Learning (2015) 解决“能力”：它总结了让机器学会强大表征的方法论，回答“我们如何造出强大的模型”。
RLHF (2017) 解决“对齐”：它提供了让强大模型对齐人类偏好与价值观的路径，回答“强大之后，如何让它向善、好用”。

一个奠定了方法的总纲，一个开启了偏好优化与对齐的重要分支。能力让模型“站起来”，对齐让模型“走得正”——今天我们用到的每一个体验顺手的大模型，背后其实都同时站着这两块拼图。

🦊

狐狸的碎碎念：折腾技术久了越来越觉得，“做得到”和“做得对”是两件事。前者靠算法与算力，后者靠对人的理解。AI 如此，写代码、做产品，又何尝不是。