上一份我们讲了 AI「能做什么」。这一份,跟着小毛鸟钻进训练的黑箱,看看它到底怎么从一无所知,变成无所不知。
先看一眼小毛鸟要带我们走的路
损失函数:把"错得多离谱"变成一个数字。
P03 – P08 · 损失
梯度下降 + 反向传播:蒙眼下山,错误层层追究。
P09 – P22 · 学习
优化技巧 + 微调对齐:从预训练到听懂人话。
P23 – P36 · 进阶
全程不背公式——用小毛鸟的故事,让你看见训练在发生什么。
第一章 · 衡量错误
训练 AI 的第一步,是把"它答得有多离谱"变成一个能比较的数字——这个数字叫损失(Loss)。
我心里想了个数(答案是 42),你来猜。
小明猜 40
差 2 · 不错
小红猜 10
差 32 · 太离谱
「差多少」就是一个数字。AI 训练时,这个差值就是损失。
离谷底越远,损失越大
「你猜的猫,错了。」
AI 只知道错了,但完全不知道是差一点点还是差十万八千里,没法判断该往哪个方向调。
「你猜的猫,损失 0.02(很接近)」
有了具体数字,AI 就能比较:「上次损失 0.5,这次 0.02,我在变好!」于是知道继续这么调。
🎯 损失函数的任务:把模型的预测和正确答案,算成一个越小越好的数字。整个训练,就是在拼命把损失往低里压。
第二章 · 蒙眼下山
把小毛鸟蒙上眼扔到山上,让它找最低的谷底。它看不见,但脚能感觉到坡度——顺着最陡的下坡走,总会走到低处。这就是梯度下降。
类比 · 蒙眼下山
小毛鸟看不见四周,但站在原地转一圈,用脚感受哪个方向最陡地往下倾斜——那个方向,就是梯度的反方向(负梯度)。
所以「计算梯度」,本质就是问脚下:「往哪走,能最快降低损失?」
梯度
最陡方向
负梯度
往下走的路
这个「步子大小」有个名字:学习率。它太大会跨过谷底,太小会走到天黑。
同一座山,三种步长
这就是「局部最优」陷阱。
小毛鸟顺着坡度走到一个小凹坑,脚下四面都是上坡——它以为自己到谷底了,其实真正的最低点在更远更深的那个大谷。
怎么逃出小坑?
• 动量:带着惯性冲出去(像滚球)
• 随机扰动:偶尔瞎跳一下,碰运气
• 换个起点:多试几次,从不同位置出发
但这只是「一层」怎么改。
真正的网络有几十层——错误怎么精确传回每一层?
→ 下一章:反向传播
第三章 · 错误追溯
真实网络有几十层。最终结果错了,是第 1 层的锅,还是第 50 层的锅?这个问题不解决,网络根本学不了。答案叫反向传播。
场景:鸟1 → 鸟2 → 鸟3 → 鸟4 → 鸟5,前一只的输出喂给后一只,最后鸟5交出成品。
结果:成品错了 10 分。现在要问:每只鸟各该背多少锅?
直觉:越靠近成品的鸟(鸟5),对最终结果影响越大,责任越大。顺着流水线往回追,把错误层层分摊——这就是反向传播。
生活类比
A 的输出影响 B,B 的输出影响 C。
那么 A 对最终结果的影响 = A 影响 B 的程度 × B 影响 C 的程度。
一连串"相乘",责任就能从最后传到最前。
对应到网络
每一层都算一个"我对下一层有多大影响"的系数。
把所有层的系数从后往前连乘,就得到每层对最终错误的贡献。
这就是为什么叫"反向"传播——从结果倒推回起点。
💡 结果:每层都精确知道自己"贡献了多少错",于是只调整自己的权重,最终错误就能被层层削减。
责任传到前面几层时,越乘越小,最后几乎为零。前面的鸟收不到信号,等于没学到。
反过来,越乘越大,变成天文数字,网络彻底乱套、崩溃。
层越深,信号越不稳定
第四章 · 优化技巧
基础算法能学,但可能学得慢、学得歪、学得死。这一章讲几个让训练又快又稳又聪明的小技巧。
每一步只看脚下坡度,遇到小坑就卡住,走得很拘谨。
像滚球一样带着惯性,遇到小坑能冲过去,走得又快又稳。
🎯 原理:下一步的方向,不只看当前坡度,还累加之前几步的趋势。这样能冲出局部小坑,也能让方向更稳定。
每次把所有题都过一遍再调。太慢,算不动。
每做一题就调一次。太抖,方向乱。
每次拿一小批(如 32 题)。又快又稳,主流做法。
就像做题:一口吃不下整本题册,但一道一道做又抓不住规律。每次做一小摞,正好。
这叫"过拟合"。
模型把训练题死记硬背了,连标点错误都记住。结果:训练题满分,新题一塌糊涂。就像学生背答案,换个数字就不会。
正则化的办法:给模型加点"约束",逼它学规律、别学死答案。
• L2 正则:权重太大的扣分(别把某一题记得太死)
• 早停:练到差不多就停,别练过头
• 数据增强:把题目变着花样出
每次训练时,随机让一部分神经元"睡着"不工作(比如 20%)。剩下的必须更努力地协作完成任务。
• 网络不能依赖少数几个"明星神经元"
• 每个神经元都得能独当一面
• 结果:整体更健壮,不那么容易过拟合
🤝 类比:像球队训练时随机换人下场,逼每个人都不依赖球星、都能独立作战。比赛时全员上场,反而更强。
第五章 · 看见注意力
Transformer 最神奇的地方,是我们可以把注意力画出来,亲眼看模型在"盯着哪里"。这是理解大模型最直观的方式。
做法:句子里的每个字,去"看"所有字(包括自己)。
把关注程度涂色——越关注的格子颜色越深(越亮/越暖)。整句话就变成一张彩色方格图。
深色集中的地方,就是模型"盯着的重点"。
👁️ 这一刻,AI 的"思考过程"被你看见了。不再是黑箱——你能指出"它就是在看这几个字"。
盯着"主谓宾"结构,谁修饰谁
盯着意思相关、近义的词
盯着"它/他/这"到底指谁
🧠 所以一个"头"不够用——多个头并行工作,像一组不同专长的阅读委员,各看各的重点,最后汇总。
第六章 · 从学说话到学做人
预训练出来的模型像个读了万卷书却不懂规矩的神童。微调和对齐,就是教它"怎么说才得体、有用、不闯祸"。
读万卷书,学会语言的规律。
结果:会接话,但不懂规矩
用人工写的优质问答教它"该怎么答"。
结果:会按问答格式回应
让人类给回答打分,按分数强化好行为。
结果:懂事、有用、安全
后两步合称"对齐"——让 AI 的行为对齐人类的价值观。
训狗的逻辑:
🐶 狗做了对的动作 → 给零食(奖励)→ 下次更爱这么做
🐶 狗做了错的动作 → 不理它(没奖励)→ 慢慢不做了
RLHF 一模一样:AI 给出几个回答 → 人类/奖励模型打分 → AI 学着多产生高分回答。
人给几千对回答排序:哪个好、哪个差。
用这些排序,训一个奖励模型,学会"什么样的回答分高"。
之后奖励模型就能给 AI 的海量回答自动打分,加速训练。
🤖 妙处:人的判断只标一次,打分员能复制无数次。这就是为什么 RLHF 能规模化。
没对齐会怎样?
• 问"怎么黑网站",它真一步步教
• 帮人写钓鱼邮件、造谣文章
• 说话带偏见、歧视
• 一本正经编造不存在的事实
对齐的目标(有用×无害×诚实)
✅ 有用:真能帮上忙,不说废话
🛡️ 无害:不教做坏事、不输出有害内容
🤥 诚实:不确定就说不知道,不瞎编
这三者有时互相矛盾(太有用可能冒险,太安全可能没用)——对齐就是在找平衡。
第七章 · 现实的难题
理论上懂了,但真要训一个好模型,卡在三个现实问题上:数据、成本、规模。
网页、书籍、论文、代码、对话……几乎整个互联网都被吃过了。
问题:里面有错、有偏见、有垃圾,模型也照学。
真人数据不够,开始用 AI 生成数据喂给 AI。
风险:模型抄自己,可能越抄越偏("模型崩溃")。
💧 类比:数据是 AI 的"粮食"。粮食质量决定健康——喂垃圾,长垃圾。这也是为什么数据清洗那么重要。
几千张显卡跑几个月,耗电相当于一个小镇
顶级 GPU 一张十几万,要几千张
顶级研究员 + 大量标注工人
💰 这就是为什么:只有少数大公司训得起顶级模型。开源模型(Llama、DeepSeek、GLM)的价值,在于让普通人也能用到好模型。
缩放定律(Scaling Law):
过去几年发现一个惊人规律——参数越多、数据越多、算力越多,模型就越聪明,而且提升可预测。
这就是为什么各家拼命把模型做大。
但边际在递减:
从 10 亿到 100 亿参数,提升巨大;从 1000 亿到 1 万亿,提升小得多。越往上,性价比越低。
① 如果学习率设得太大,训练会怎样?为什么?
(提示:想想小毛鸟迈大步会怎样)
② 为什么深度网络容易"梯度消失"?
(提示:想想链式法则一连串相乘)
③ 为什么不能只靠预训练,还要 RLHF?
(提示:会接话 ≠ 懂事)
能用自己的话讲清楚,才是真懂了。讲给同学听听看 👇
第一份《AI 第一课》用类比讲了 AI「能做什么」。这一份钻进黑箱,看见了它「怎么学会」的。
从"是什么"到"为什么":
• 原版:Transformer 能同时看全文
• 本份:注意力到底怎么算的,还能画出来看
• 原版:训练就是猜-错-改
• 本份:错怎么量化、改往哪走、怎么追责
📖 第一份
AI 第一课(入门)
🐦 这一份
AI 怎么学出来的(原理)
🐱 下一篇
把 AI 用出生产力(实战)
• 3Blue1Brown 的神经网络系列视频
• Google 的 TensorFlow Playground(网页上玩神经网络)
• 「Attention Is All You Need」论文图解博客
• 吴恩达机器学习课(入门经典)
• 《动手学深度学习》(李沐,带代码)
• Hugging Face 教程(实操 transformer)
🌱 最重要的入口:自己动手训一个小模型(哪怕识别手写数字)。跑一遍,胜过看十本书。
THE END · 篇一完结
🎯 以后听到"训练""损失""梯度""微调",你脑子里都有画面了。
🚀 下一篇,我们把镜头从"内部"转到"外部"——怎么把这些强大的模型,真正用出生产力。
谢谢小毛鸟带你钻进训练黑箱 🐦
AI 进阶 · 篇一《AI 是怎么"学"出来的》