这一篇想把两块拼图放在一起聊:一篇是 2015 年那份给深度学习“定调子”的综述, 一篇是 2017 年那个后来把 ChatGPT 推到台前的训练方法。前者回答“深度学习是什么、为什么 work”, 后者回答“模型很强之后,怎么让它听话、合乎人类的期待”。一个是方法论的总纲, 一个是对齐路线的起点。
一句话复盘:Deep Learning (2015) 把散落各处的经验拧成了一本“统一说明书”;RLHF (2017) 则在“能力”之外,第一次系统性地给模型装上了“偏好”这把方向盘。
小节一:Deep Learning (Nature 2015) —— 深度学习的“统一说明书”
2015 年,Hinton、LeCun、Bengio 三位日后共同拿下图灵奖的学者, 在《Nature》上合写了一篇题为《Deep Learning》的综述。它没有提出新模型, 但它做了一件更重要的事:把过去十几年零散的突破,整理成了一套自洽、可传授的框架。 这篇文章的被引量高达 约 10 万次以上(~100k+),是名副其实的“入门必读第一篇”。
它到底讲清了什么?
- 表示学习(Representation Learning):深度学习的本质,是让模型自动地从原始数据中逐层学出特征,而不再依赖人工设计——这是它区别于传统机器学习的根本。
- 层级抽象:低层学边缘与纹理,中层学局部部件,高层学语义概念。深度,正是让这种“从具体到抽象”的层级表示成为可能。
- 反向传播:把链式法则与梯度下降讲成一套通用的优化引擎,解释了深层网络“为什么训得动”。
- CNN 与 RNN:分别作为处理空间数据(图像)与序列数据(语音、文本)的两大支柱,被系统性地归纳到同一套话语体系里。
换句话说,在 AlexNet 用结果证明“深度可行”之后,这篇综述负责把“为什么可行、如何推广” 讲透,让深度学习从一堆各自为战的技巧,升级成一门有共识、可教学、可继续生长的学科。
如果说 AlexNet 是点燃引信的火花,那么 Deep Learning (2015) 就是那本随后发给所有人的操作手册。
小节二:RLHF (2017) —— 用人类反馈,给模型装上方向盘
时间来到 2017 年。随着模型越来越强,一个新问题浮出水面: 模型“能做”不等于“该做”。一个能力很强的语言模型,可能流畅地胡说八道、 答非所问,或者给出技术正确却完全不合人类期待的回答。我们缺的,是一种把 “人类偏好”直接教给模型的方法。
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 正是为此而生。它的思路非常巧妙:很多时候我们说不清“最优答案的公式”, 但我们一眼就能分辨“A 和 B 哪个更好”。那就别去硬写目标函数,直接让人来当裁判。
RLHF 大致怎么运作?
- 收集人类偏好:让模型对同一个问题生成多个回答,请人类标注者按“哪个更好”排序。
- 训练奖励模型(Reward Model):用这些人类排序数据,训练一个能给任意回答“打分”的模型,让它学会模仿人类的偏好判断。
- 用强化学习微调:把奖励模型当作“评分官”,用强化学习(如 PPO)去优化语言模型,让它倾向于生成得分更高、也就是更受人类青睐的回答。
关键转变:RLHF 把优化目标从“预测下一个词的概率”悄悄换成了“生成人类更喜欢的回答”。能力还是那个能力,但输出的风格、有用性、安全性被人类偏好重新塑形了。
它为什么重要?
RLHF 开启了一条至今仍是主流的对齐(Alignment)路线。后来的 ChatGPT 之所以让大众惊艳, 很大程度上不是因为底座模型突然变强了多少,而是因为 RLHF 让它学会了“好好说话”: 更愿意正面回应、更少胡编、更懂得拒绝不该做的请求。它让一个原始的“文字接龙机器”, 变成了一个像样的“助手”。
把两块拼图拼起来
这两篇工作,恰好对应了 AI 发展的两个不同层面的问题:
- Deep Learning (2015) 解决“能力”:它总结了让机器学会强大表征的方法论,回答“我们如何造出强大的模型”。
- RLHF (2017) 解决“对齐”:它提供了让强大模型对齐人类偏好与价值观的路径,回答“强大之后,如何让它向善、好用”。
一个奠定了方法的总纲,一个开启了偏好优化与对齐的重要分支。 能力让模型“站起来”,对齐让模型“走得正”——今天我们用到的每一个体验顺手的大模型, 背后其实都同时站着这两块拼图。
狐狸的碎碎念:折腾技术久了越来越觉得,“做得到”和“做得对”是两件事。前者靠算法与算力,后者靠对人的理解。AI 如此,写代码、做产品,又何尝不是。