从神经网络到 Transformer,从智能体到 Claude Code 实战——一份给高中生的、不劝退的 AI 科普。
先看一眼我们要走的路
神经网络 · 深度学习 · Transformer · MoE。搞懂大模型「为什么能」。
P03 – P23 · 21 页
Skill · MCP · Plugin 三件套,附真实 skill 文件和常用清单。
P24 – P32 · 9 页
从一个需求出发,走完 PRD → 计划 → 编码 → 测试 → 部署 → 提交。
P33 – P39 · 7 页
第一章 · 深入原理
这一章我们从最底层的「神经元」一路爬到 Transformer,你会看到 AI 的聪明不是魔法,而是一层层结构堆出来的。
想象你要决定「今天要不要带伞」。你的大脑会同时掂量好几件事:
云多不多
权重 0.5
预报说下雨
权重 0.8
梅雨季
权重 0.3
每个信号乘以它的「权重」加起来 → 超过某个阈值就「带伞」。
这就是一个神经元干的事。
神经元连起来 = 网络
把神经元排成一列列的「层」,前一层的输出喂给下一层。信息就像流水一样,一层层被提炼——从「像素」到「边缘」,从「边缘」到「形状」,最后到「这是一只猫」。
类比 · 流水线工厂
第一层工人只负责看「有没有圆」,第二层看「圆有没有耳朵」,第三层拼成「猫脸」。每层只做简单的事,叠起来却能认出猫。
输入层
原始数据
隐藏层
层层提炼
输出层
给出答案
每往下一层,网络就抽象一级——丢掉细节,抓住更整体的特征。
第 1 层
原始像素
只是颜色点
第 2 层
边缘 / 纹理
线条、轮廓
第 3 层
局部部件
耳朵、眼睛
最后一层
完整概念
「这是猫!」
每层只做简单的事,叠起来却能认出整只猫。
小灯带你看:层越深,看得越「整体」
💡 关键直觉:不是某一层特别聪明,而是分工——浅层管细节,深层管整体。层数越多,能抽象出的概念越高级(这也是下一页「深度学习」的由来)。
2-3 层
2010 年前
认简单图形
几十层
2012-2018
认猫狗、翻译
上百层
2018-2022
写文章、画画
数千亿参数
2022 至今
GPT / Claude
💡 越深 ≠ 越好:层太多会「学过头」(过拟合)、训练超慢、还可能记死答案。
真正的难点是:怎么让超深的网络稳定地学会,而不是学坏。
它「读完就忘」。
处理一句话时,它一个字一个字往后读。读到第 20 个字,第 1 个字的影响已经几乎消失。于是它分不清:
「我昨天看见的那只猫,今天又来了。」
→ 到底是谁来了?「我」还是「猫」?隔了 8 个字,老网络就糊涂了。
语言太依赖远距离的呼应了。我们需要一种能「同时看清全文」的方法——
下一页揭晓它的解法
2017 年,一篇叫《Attention Is All You Need》的论文
类比 · 划重点式阅读
读一句话时,Transformer 不是死板地从左到右,而是让每个字去问所有其他字:「跟我相关的,哪几个最重要?」然后给重要的字画上重点。
「猫追着老鼠跑,最后它抓住了它。」
注意力的连线:黄色↔黄色,绿色↔绿色
「它」指谁?一秒就懂。
别怕英文,本质就是图书馆找书的过程。
你心里想找的书:「我要一本讲高数的。」
→ 当前字「带着问题」去问别人
每本书的标签:「数学 / 高等教育」
→ 别的字「亮出自己的属性」
真正要的内容:书里的知识
→ 匹配度高的字,把信息传过来
Q 和 K 越匹配 → 注意力分数越高 → 拿到越多 V。
一句话里每个字都这么做一遍,整句话的「谁跟谁相关」就全算出来了——这就是 Self-Attention(自注意力)。
接下来还有两个关键问题:
「参数量」到底多大? · MoE 是怎么省钱的?
→ 翻到下一页继续
每个参数就像一个小旋钮,决定某条连线有多重要。参数越多,模型能记住的细微规律越多——所以才叫「大」模型。
作为参考基准
刚开始「像样」
突然变聪明
GPT-5 / Claude / GLM
💡 注意:参数多 ≠ 一定更聪明。调旋钮的过程(训练)同样关键——同样的旋钮数,喂的数据和训练方法不同,效果天差地别。
让模型读整个互联网的海量文本,做「猜下一个字」的练习。
类比 · 把整个图书馆读一遍,
建立对「人类语言长什么样」的直觉。
耗时几个月 · 花几千万电费
用人工标注的对话教它「怎么回答才礼貌、有用、安全」。
类比 · 像学徒拜师,
学会「问什么答什么、别乱说话」。
RLHF / SFT · 让它「懂事」
所以同一个基础模型,微调方式不同,能变成客服 / 翻译 / 编程助手等不同角色。
新概念 · MoE
这就是 MoE(Mixture of Experts,专家混合)——现代大模型(如 GLM、DeepSeek)省算力的核心技巧。
每个问题进来,先问分诊台:「这个问题该挂哪个科?」
只决定,不治病
8 个或更多「子网络」各有所长:代码、数学、文学、对话……
每人专精一摊
每个问题只激活 2 个最相关的专家,其余休息。
省一大半算力
妙处所在:总参数可能上千亿,但每次回答只用激活其中一小部分(比如 12B)。
→ 「看着很大」却「跑得很快」——这就是为什么 GLM-4.5 这类模型又强又便宜。
国内外都有成熟产品,竞争激烈,对用户是好事——又强又便宜。
🇺🇸 海外
🇨🇳 国内
→ 接下来我们以 Claude Code 为例,看怎么真正上手用 AI
这叫「幻觉」(Hallucination)——它并不是「知道答案」,而是「编一个看起来最像答案的话」。
• 本质是「猜下一个字」,不保证事实正确
• 训练数据里有错的信息,它也照学
• 不懂的时候,它会「编」而不是说「不知道」
• 关键事实(人名/数据/引用)一定要自己核对
• 让它「给出依据」或「不确定就说不知道」
• 用联网搜索 / 工具弥补它的知识盲区
🎯 记住:把 AI 当成「很会写、但偶尔记错的聪明同学」,
而不是「永远正确的答案机」。你要当那个把关的人。
第二章 · 智能体登场
大模型是「嘴」,智能体给它装上「眼、手、记忆」。这一章讲清楚 Agent 是什么,以及 Claude Code 怎么成为你的全能助手。
「帮我订张明天去北京的票」
→「好的,建议你打开 12306……」
只能告诉你怎么做,自己什么也干不了。
「帮我订张明天去北京的票」
→ 查车次 → 选座 → 下单 → 发你确认
真的替你把它做了(如果有工具和权限)。
智能体的本质 = 大模型大脑 + 能调用的工具 + 能记住的上下文
「做调研」→ 搜资料、筛选、整理、写报告
联网搜、跑代码、查数据库、发请求
做完一步回头看:对吗?要不要重试?
记得前面说过/做过什么,长任务不丢线索
Claude Code 就是这样一个智能体——它能读你的项目、改代码、跑测试、提交修复,不是只给建议,而是真的在帮你干活。
知识层
教它「怎么做」——方法、流程、规范,写成一份 markdown。
连接层
给它「手和眼」——连数据库、网页、外部工具的标准接口。
打包层
把多个 Skill + 工具「打包成盒」——一键安装、统一管理。
接下来三页,逐个拆开看 👉
你把「怎么做某件事」写成一份 markdown 文件,放进固定目录——它下次遇到这类任务,就会照着做。
本份 PPT 就是这么来的!
我用了 guizang-ppt-skill(瑞士风)和手写卡通版,Claude 读完 skill 文件,就知道该怎么排版、配色、加动效。
guizang-ppt-skill · 瑞士风/杂志风网页 PPT
huashu-design · 高保真原型、动画、设计探索
pdf / docx · 生成 PDF / Word 文档
presentation · 62 种品牌风格的演讲 PPT
superpowers · TDD/调试/计划全套方法论
skill-creator · 「造 skill 的 skill」
skill-installer · 一键安装别人写的 skill
brainstorming · 动手前先对齐需求
openai-docs · 查 OpenAI 最新官方文档
find-skills · 搜索「有没有现成的 skill」
NanoBanana-PPT · AI 配图/视频 PPT
guizang-social-card · 小红书/公众号封面
→ 这些大多开源在 GitHub,一条命令就能装,下一页看真实文件长什么样
用途亲切、结构完整。本质就是一份普通 markdown —— 左边是文件内容,右边告诉你每部分干什么。
①YAML 头(两道 --- 之间)
name=身份证名字 · description=「什么时候叫我」
Claude 靠这两行决定要不要用你。
②触发词
列出「用户说什么话时我该出现」——写得越具体,触发越准。
③步骤(核心)
编号列出怎么做,像写给新同事的操作手册。每步越具体,结果越稳。
④模板 + 风格约束
给固定输出格式 + 禁止项(如「不要学术腔」)——让每次产出一致。
💡 就这么简单——任何 skill 都是 「身份证 + 触发词 + 步骤 + 模板」 四件套。你也能照着这个格式,给自己写一个「背单词 skill」「错题本 skill」。
MCP(Model Context Protocol,模型上下文协议)是一种统一接口标准——只要工具按这个协议做,任何 AI 都能直接调用,不用每个工具单独对接。
类比 · USB 接口
以前每个设备都有自己的专用插头,现在统一成 USB-C。MCP 之于 AI 工具,就像 USB-C 之于电子设备。
filesystem MCP:让 AI 直接操作本地文件、读项目代码。
postgres / sqlite MCP:直接问数据库问题、跑 SQL。
web search / fetch MCP:实时查最新信息,补知识盲区。
github MCP:看 issue、提 PR、管仓库,不用切浏览器。
lark MCP:读文档、发消息、管日程,打通办公系统。
图像生成/理解 MCP:生图、识图、截图分析。
→ MCP 生态正在爆发,几乎你想接的服务都有现成的 MCP server
单个 Skill / MCP 是散装零件,Plugin 把它们 + 命令 + 配置打包成一个整体,像手机装 App 一样一键安装、统一管理。
一个 Skill 文件、一个 MCP server,各管一摊。
Plugin 把它们装进一个目录,带 plugin.json 描述清单。
📦 superpowers 插件
含 TDD、调试、写计划、代码评审等十几个 skill + 命令,一键装齐开发方法论。
📦 document-skills 插件
含 pdf、docx 两个 skill,装一个就能搞定文档创建和编辑。
→ 你刚才让我装的 5 个 PPT skill,本质上就是用插件机制管理的
知识 / 方法
「这件事该怎么做」
能力 / 工具
「用什么去动手」
分发 / 管理
「怎么打包送人」
举例:你想让 Claude「把数据库数据画成漂亮图表」——
📊 一个 图表 Skill(教怎么配色排版)
+ 🗄️ 一个 postgres MCP(连数据库取数)
+ 📦 打包成一个 Plugin 分享给同事
❌ 模糊的提问
「帮我做个 PPT」
→ AI 只能瞎猜,做出来多半不是你要的。
✅ 清楚的提问
「给高中生做个 AI 科普 PPT,瑞士风,约 30 页,讲清大模型和 Claude Code,要有真实例子」
→ AI 知道受众、风格、篇幅、重点,一次到位。
🎯 万能公式:受众 + 目的 + 风格/格式 + 关键约束 + 参考素材
把这五样说全,AI 返工率至少降一半。
复杂任务拆成几轮:先要大纲 → 确认 → 再要内容 → 再调细节。
就像今天这份 PPT:我先做 10 页给你看,你点头了才继续后 26 页。
早确认 = 少返工。
AI 写的代码要跑一遍、给的事实要查一下、生成的文件要打开看。
记住第 17 页说的「幻觉」——你是把关人,AI 是干活的。让它干,但别全信。
💡 真正会用 AI 的人,不是会用多复杂的命令,
而是会拆任务、会提需求、会验收。
第三章 · 完整实战
最后用一个真实例子,带你走完 AI 时代的完整开发流程——你会看到 Claude Code 在每一步都能帮上忙。
几乎任何网页应用(淘宝、B站、你的留言板)都由这三层构成。下面用班级留言板举例。
用户看到的界面
留言输入框、发送按钮、留言列表……一切你在浏览器里看到、点到的东西。
留言板里:输入框 + 「发送」按钮 + 滚动的留言列表
看不见的大脑
接收前端的请求、检查内容合不合规、决定存不存、算结果再返回。跑在服务器上,用户看不见。
留言板里:收到「发留言」→ 检查有没有脏话 → 交给数据库
长期记忆
把留言永久存起来,像一张张排好序的表格。下次打开还在,不会丢。
留言板里:一张「留言表」——作者 / 内容 / 时间
🥡 类比 · 一家餐厅:前端=菜单和大堂(客人看得到)· 后端=厨房和厨师(接到单子做菜)· 数据库=仓库(存着食材和账本)。三者配合,才能端出一道菜。
① 前端
把「作者+内容」打包,
通过网络发请求给后端
② 后端
检查内容(有没有空、违禁词),
没问题就往下传
③ 数据库
写入一行新记录,
返回「成功」
④ 后端 收到「成功」
把最新留言列表打包成数据,回传给前端
⑤ 前端 拿到新数据
刷新页面,你的留言就显示在列表里了 ✨
💡 关键术语:前后端之间用 API(接口) 对话——约定好「怎么发、发什么、回什么」。API 就像餐厅的点单流程,前后端都按这个规矩来,才能配合上。
没有「最好的」,只有「合适的」。下面列主流选择,留言板这种小项目用最简单的就够。
留言板:HTML+CSS+JS 就够,不必上框架。
留言板:Python + Flask,几十行代码搞定。
留言板:SQLite,一个文件存所有留言。
🤖 这也是 Claude Code 最能帮上忙的地方:你不用背这些工具,告诉它「做个留言板,要简单」,它会帮你选好技术栈、生成全部代码、配好环境——你只要看得懂、跑得通、改得动。
刚才认识了前端/后端/数据库——现在用这个项目走完完整流程(绿色 = AI 介入度)
聊清楚要啥
需求文档
拆任务排期
写代码实现
跑通 + 修 bug
上线 + 存档
关键转变:以前这几步全靠人慢慢做;现在 AI 能在每个环节当你的副手——你来思考和拍板,它来动手干。
问同学:想匿名还是实名?能回复吗?要头像吗?要按时间倒序吗?
AI 帮你:整理访谈、列功能点、提醒「忘了考虑删除功能」
产出文档:用户能发/看/删留言;界面有输入框+列表;数据存作者/内容/时间。
AI 帮你:起草 PRD、画线框图、生成「用户故事」清单
拆三层任务:前端做界面 · 后端写接口 · 数据库建表。定测试用例。
AI 帮你:拆任务、估工时、生成「空内容能否发送」等测试清单
💡 这一段 AI 介入最深,但人最重要。方向错了,后面全白干。所以:AI 写、你审,每一步都停下来确认。
前端写 HTML 表单 · 后端用 Flask 写「存/取留言」接口 · 数据库建一张 messages 表。
Claude Code:三层的代码全帮你写好,你只需读懂+跑通
空内容能发吗?超长留言呢?两个人同时发会冲突吗?刷新后还在吗?
Claude Code:写测试脚本、自动跑、报错了自己改到通过
把后端放到一台服务器(或免费平台 Vercel/Railway),同学用网址就能访问;代码存到 Git。
Claude Code:写部署配置、生成 commit、帮你提 PR
🚀 这一段 AI 干活最多。但记住实战技巧:代码要跑一遍、部署要自己验、提交前要review。AI 是副驾驶,你是机长。
THE END · 但只是你的开始
装个 Claude Code / Codex / Cursor,真正用它做点东西(哪怕一个待办清单)
去 GitHub 找几个感兴趣的 Skill 装上,看看别人怎么用 AI
把今天学到的原理讲给同学听——能讲清楚,才是真懂了
感谢小灯陪你走完这一程 🌟
AI 第一课 · 给高中生的治愈系科普