01 / 36

AI 进阶 · 篇一 · 原理深处

AI 是怎么
"学" 出来的？

上一份我们讲了 AI「能做什么」。这一份，跟着小毛鸟钻进训练的黑箱，看看它到底怎么从一无所知，变成无所不知。

📉 损失函数 ⛰️ 梯度下降 🔁 反向传播

共 36 页 · 约 25 分钟 → 方向键开始

开场 · 这次的地图

02 / 36

先看一眼小毛鸟要带我们走的路

训练一只 AI，
就像放鸟归山找谷底。

1

怎么知道错了

损失函数：把"错得多离谱"变成一个数字。

P03 – P08 · 损失

2

错了怎么改

梯度下降 + 反向传播：蒙眼下山，错误层层追究。

P09 – P22 · 学习

3

怎么学得又快又好

优化技巧 + 微调对齐：从预训练到听懂人话。

P23 – P36 · 进阶

全程不背公式——用小毛鸟的故事，让你看见训练在发生什么。

Chapter 01

03 / 36

第一章 · 衡量错误

要会改错，
先得会算错。

训练 AI 的第一步，是把"它答得有多离谱"变成一个能比较的数字——这个数字叫损失（Loss）。

1.1 · 从一个游戏说起

04 / 36

想象你在玩
猜数字游戏。

我心里想了个数（答案是 42），你来猜。

小明猜 40

差 2 · 不错

小红猜 10

差 32 · 太离谱

「差多少」就是一个数字。AI 训练时，这个差值就是损失。

离谷底越远，损失越大

1.2 · 为什么不能只说"对/错"

05 / 36

如果只能说"对"或"错"，
AI 就不知道往哪改。

❌ 只说"错"

「你猜的猫，错了。」

AI 只知道错了，但完全不知道是差一点点还是差十万八千里，没法判断该往哪个方向调。

✅ 给个"损失值"

「你猜的猫，损失 0.02（很接近）」

有了具体数字，AI 就能比较：「上次损失 0.5，这次 0.02，我在变好！」于是知道继续这么调。

🎯 损失函数的任务：把模型的预测和正确答案，算成一个越小越好的数字。整个训练，就是在拼命把损失往低里压。

Chapter 02

06 / 36

第二章 · 蒙眼下山

知道错了，
然后往哪走？

把小毛鸟蒙上眼扔到山上，让它找最低的谷底。它看不见，但脚能感觉到坡度——顺着最陡的下坡走，总会走到低处。这就是梯度下降。

2.1 · 梯度是什么

07 / 36

梯度 = 脚下最陡的
下坡方向。

类比 · 蒙眼下山

小毛鸟看不见四周，但站在原地转一圈，用脚感受哪个方向最陡地往下倾斜——那个方向，就是梯度的反方向（负梯度）。

所以「计算梯度」，本质就是问脚下：「往哪走，能最快降低损失？」

梯度
最陡方向

负梯度
往下走的路

2.2 · 步子多大才合适

08 / 36

知道方向还不够，
还得决定迈多大步。

这个「步子大小」有个名字：学习率。它太大会跨过谷底，太小会走到天黑。

A

步子太大 · 跨过谷底，在两边来回横跳，永远到不了最低点

B

步子刚好 · 稳稳往下，逐渐收敛到谷底附近

C

步子太小 · 安全但极慢，训练可能要跑几年

同一座山，三种步长

2.3 · 山里不止一个坑

09 / 36

最怕的不是走不到底，
是卡在半山腰的小坑。

这就是「局部最优」陷阱。

小毛鸟顺着坡度走到一个小凹坑，脚下四面都是上坡——它以为自己到谷底了，其实真正的最低点在更远更深的那个大谷。

怎么逃出小坑？

• 动量：带着惯性冲出去（像滚球）
• 随机扰动：偶尔瞎跳一下，碰运气
• 换个起点：多试几次，从不同位置出发

2.4 · 小结

10 / 36

到此为止，
你已经看见训练的骨架。

1

损失函数 · 把"错得多离谱"算成一个数字

知道多错

2

梯度下降 · 沿最陡下坡走，降低损失

知道往哪走

3

学习率 · 控制每步走多远（太大跨过，太小太慢）

走多大步

★

局部最优 · 小心卡在半山腰的小坑里

别卡住

但这只是「一层」怎么改。
真正的网络有几十层——错误怎么精确传回每一层？

→ 下一章：反向传播

Chapter 03

11 / 36

第三章 · 错误追溯

搞砸了，
怎么追究每层的责任？

真实网络有几十层。最终结果错了，是第 1 层的锅，还是第 50 层的锅？这个问题不解决，网络根本学不了。答案叫反向传播。

3.1 · 一个班集体任务

12 / 36

想象一条流水线，
五只小毛鸟接力干活。

场景：鸟1 → 鸟2 → 鸟3 → 鸟4 → 鸟5，前一只的输出喂给后一只，最后鸟5交出成品。

结果：成品错了 10 分。现在要问：每只鸟各该背多少锅？

直觉：越靠近成品的鸟（鸟5），对最终结果影响越大，责任越大。顺着流水线往回追，把错误层层分摊——这就是反向传播。

3.2 · 链式法则

13 / 36

怎么精确算每层责任？
靠链式法则。

生活类比

A 的输出影响 B，B 的输出影响 C。
那么 A 对最终结果的影响 = A 影响 B 的程度 × B 影响 C 的程度。

一连串"相乘"，责任就能从最后传到最前。

对应到网络

每一层都算一个"我对下一层有多大影响"的系数。
把所有层的系数从后往前连乘，就得到每层对最终错误的贡献。

这就是为什么叫"反向"传播——从结果倒推回起点。

💡 结果：每层都精确知道自己"贡献了多少错"，于是只调整自己的权重，最终错误就能被层层削减。

3.3 · 深网络的麻烦

14 / 36

但层数一多，
就会出两种怪事……

📉 梯度消失

责任传到前面几层时，越乘越小，最后几乎为零。前面的鸟收不到信号，等于没学到。

💥 梯度爆炸

反过来，越乘越大，变成天文数字，网络彻底乱套、崩溃。

层越深，信号越不稳定

Chapter 04

15 / 36

第四章 · 优化技巧

学会，
还要学得好。

基础算法能学，但可能学得慢、学得歪、学得死。这一章讲几个让训练又快又稳又聪明的小技巧。

4.1 · 动量法

16 / 36

技巧一：动量。
让小毛鸟带着惯性滚下山。

普通梯度下降

每一步只看脚下坡度，遇到小坑就卡住，走得很拘谨。

加了动量

像滚球一样带着惯性，遇到小坑能冲过去，走得又快又稳。

🎯 原理：下一步的方向，不只看当前坡度，还累加之前几步的趋势。这样能冲出局部小坑，也能让方向更稳定。

4.2 · 批次训练

17 / 36

技巧二：分批学，
不要一次吞下所有题。

📚

全量学

每次把所有题都过一遍再调。太慢，算不动。

📄

单题学

每做一题就调一次。太抖，方向乱。

📦

小批次

每次拿一小批（如 32 题）。又快又稳，主流做法。

就像做题：一口吃不下整本题册，但一道一道做又抓不住规律。每次做一小摞，正好。

4.3 · 别学得太死

18 / 36

技巧三：正则化。
背答案 ≠ 会做题。

这叫"过拟合"。

模型把训练题死记硬背了，连标点错误都记住。结果：训练题满分，新题一塌糊涂。就像学生背答案，换个数字就不会。

正则化的办法：给模型加点"约束"，逼它学规律、别学死答案。

• L2 正则：权重太大的扣分（别把某一题记得太死）
• 早停：练到差不多就停，别练过头
• 数据增强：把题目变着花样出

4.4 · Dropout

19 / 36

技巧四：Dropout。
随机让一些神经元"睡觉"。

😴 怎么做

每次训练时，随机让一部分神经元"睡着"不工作（比如 20%）。剩下的必须更努力地协作完成任务。

🎯 为什么有用

• 网络不能依赖少数几个"明星神经元"
• 每个神经元都得能独当一面
• 结果：整体更健壮，不那么容易过拟合

🤝 类比：像球队训练时随机换人下场，逼每个人都不依赖球星、都能独立作战。比赛时全员上场，反而更强。

Chapter 05

20 / 36

第五章 · 看见注意力

上份讲了
注意力机制——
这次看见它。

Transformer 最神奇的地方，是我们可以把注意力画出来，亲眼看模型在"盯着哪里"。这是理解大模型最直观的方式。

5.1 · 画成一张热力图

21 / 36

把"谁注意谁"
涂成颜色深浅。

做法：句子里的每个字，去"看"所有字（包括自己）。

把关注程度涂色——越关注的格子颜色越深（越亮/越暖）。整句话就变成一张彩色方格图。

深色集中的地方，就是模型"盯着的重点"。

👁️ 这一刻，AI 的"思考过程"被你看见了。不再是黑箱——你能指出"它就是在看这几个字"。

5.2 · 多个"头"分工

22 / 36

Transformer 有好几个"头"，
各管一摊。

🔤

有的看语法

盯着"主谓宾"结构，谁修饰谁

💭

有的看语义

盯着意思相关、近义的词

👉

有的看指代

盯着"它/他/这"到底指谁

🧠 所以一个"头"不够用——多个头并行工作，像一组不同专长的阅读委员，各看各的重点，最后汇总。

Chapter 06

23 / 36

第六章 · 从学说话到学做人

光会接话不够，
还得懂事。

预训练出来的模型像个读了万卷书却不懂规矩的神童。微调和对齐，就是教它"怎么说才得体、有用、不闯祸"。

6.1 · 三个阶段

24 / 36

从"神童"到"绅士"，
分三步走。

1

预训练

读万卷书，学会语言的规律。

结果：会接话，但不懂规矩

→

2

SFT 监督微调

用人工写的优质问答教它"该怎么答"。

结果：会按问答格式回应

→

3

RLHF 人类反馈

让人类给回答打分，按分数强化好行为。

结果：懂事、有用、安全

后两步合称"对齐"——让 AI 的行为对齐人类的价值观。

6.2 · RLHF 的直觉

25 / 36

RLHF 本质上，
就是训练小狗。

训狗的逻辑：

🐶 狗做了对的动作 → 给零食（奖励）→ 下次更爱这么做

🐶 狗做了错的动作 → 不理它（没奖励）→ 慢慢不做了

RLHF 一模一样：AI 给出几个回答 → 人类/奖励模型打分 → AI 学着多产生高分回答。

6.3 · 先训一个"打分员"

26 / 36

但人类没法给每句话打分——
所以先训一个打分员。

A

人工标注

人给几千对回答排序：哪个好、哪个差。

B

训练打分员

用这些排序，训一个奖励模型，学会"什么样的回答分高"。

C

自动打分

之后奖励模型就能给 AI 的海量回答自动打分，加速训练。

🤖 妙处：人的判断只标一次，打分员能复制无数次。这就是为什么 RLHF 能规模化。

6.4 · 为什么费这么大劲

27 / 36

没对齐的 AI，
可能很危险。

没对齐会怎样？

• 问"怎么黑网站"，它真一步步教

• 帮人写钓鱼邮件、造谣文章

• 说话带偏见、歧视

• 一本正经编造不存在的事实

对齐的目标（有用×无害×诚实）

✅ 有用：真能帮上忙，不说废话

🛡️ 无害：不教做坏事、不输出有害内容

🤥 诚实：不确定就说不知道，不瞎编

这三者有时互相矛盾（太有用可能冒险，太安全可能没用）——对齐就是在找平衡。

Chapter 07

28 / 36

第七章 · 现实的难题

训练 AI，
没那么轻松。

理论上懂了，但真要训一个好模型，卡在三个现实问题上：数据、成本、规模。

7.1 · 数据的难题

29 / 36

模型要"吃数据"长大，
但高质量数据快不够了。

📦 从哪来

网页、书籍、论文、代码、对话……几乎整个互联网都被吃过了。

问题：里面有错、有偏见、有垃圾，模型也照学。

🔬 合成数据

真人数据不够，开始用 AI 生成数据喂给 AI。

风险：模型抄自己，可能越抄越偏（"模型崩溃"）。

💧 类比：数据是 AI 的"粮食"。粮食质量决定健康——喂垃圾，长垃圾。这也是为什么数据清洗那么重要。

7.2 · 钱的难题

30 / 36

训一个大模型，
烧掉几千万到上亿。

⚡

电费

几千张显卡跑几个月，耗电相当于一个小镇

🖥️

显卡

顶级 GPU 一张十几万，要几千张

👥

人力

顶级研究员 + 大量标注工人

💰 这就是为什么：只有少数大公司训得起顶级模型。开源模型（Llama、DeepSeek、GLM）的价值，在于让普通人也能用到好模型。

7.3 · 越大越好吗

31 / 36

"越大越好"——
这个规律还在吗？

缩放定律（Scaling Law）：

过去几年发现一个惊人规律——参数越多、数据越多、算力越多，模型就越聪明，而且提升可预测。

这就是为什么各家拼命把模型做大。

但边际在递减：

从 10 亿到 100 亿参数，提升巨大；从 1000 亿到 1 万亿，提升小得多。越往上，性价比越低。

小结 · 全篇脉络

32 / 36

回头看，
训练一只 AI 就这几步。

1

损失函数 · 算出"错得多离谱"

衡量

2

梯度下降 · 沿最陡下坡走，降低损失

调整

3

反向传播 · 把错误责任层层追溯到每层

追责

4

优化技巧 · 动量/批次/正则/Dropout 让训练更好

打磨

5

微调对齐 · SFT + RLHF 让它懂事有用

教化

想一想

33 / 36

三个问题，
检验你真懂了。

① 如果学习率设得太大，训练会怎样？为什么？

（提示：想想小毛鸟迈大步会怎样）

② 为什么深度网络容易"梯度消失"？

（提示：想想链式法则一连串相乘）

③ 为什么不能只靠预训练，还要 RLHF？

（提示：会接话 ≠ 懂事）

能用自己的话讲清楚，才是真懂了。讲给同学听听看 👇

串联

34 / 36

还记得第一份吗？

第一份《AI 第一课》用类比讲了 AI「能做什么」。这一份钻进黑箱，看见了它「怎么学会」的。

从"是什么"到"为什么"：

• 原版：Transformer 能同时看全文
• 本份：注意力到底怎么算的，还能画出来看
• 原版：训练就是猜-错-改
• 本份：错怎么量化、改往哪走、怎么追责

📖 第一份
AI 第一课（入门）

↓

🐦 这一份
AI 怎么学出来的（原理）

↓

🐱 下一篇
把 AI 用出生产力（实战）

想再深入

35 / 36

想再深入？
这几个入口送给你。

🎬 直观的

• 3Blue1Brown 的神经网络系列视频

• Google 的 TensorFlow Playground（网页上玩神经网络）

• 「Attention Is All You Need」论文图解博客

📖 系统的

• 吴恩达机器学习课（入门经典）

• 《动手学深度学习》（李沐，带代码）

• Hugging Face 教程（实操 transformer）

🌱 最重要的入口：自己动手训一个小模型（哪怕识别手写数字）。跑一遍，胜过看十本书。

36 / 36

THE END · 篇一完结

现在，
AI 的黑箱
对你打开了。

🎯 以后听到"训练""损失""梯度""微调"，你脑子里都有画面了。

🚀 下一篇，我们把镜头从"内部"转到"外部"——怎么把这些强大的模型，真正用出生产力。

谢谢小毛鸟带你钻进训练黑箱 🐦
AI 进阶 · 篇一《AI 是怎么"学"出来的》

AI 是怎么"学" 出来的？

训练一只 AI，就像放鸟归山找谷底。

怎么知道错了

错了怎么改

怎么学得又快又好

要会改错，先得会算错。

想象你在玩猜数字游戏。

如果只能说"对"或"错"，AI 就不知道往哪改。

❌ 只说"错"

✅ 给个"损失值"

知道错了，然后往哪走？

梯度 = 脚下最陡的下坡方向。

知道方向还不够，还得决定迈多大步。

最怕的不是走不到底，是卡在半山腰的小坑。

到此为止，你已经看见训练的骨架。

搞砸了，怎么追究每层的责任？

想象一条流水线，五只小毛鸟接力干活。

怎么精确算每层责任？靠链式法则。

但层数一多，就会出两种怪事……