照镜子成佛
京夜微疯 著
引言:一面我们自己造的镜子
1943年,神经科学家沃伦·麦卡洛克和数学家沃尔特·皮茨发表了一篇论文,标题是《神经活动中内在思想的逻辑演算》。
这篇论文做了一件事:把大脑里的神经元简化成一个数学模型。
一个神经元接收信号,如果信号的总和超过某个阈值,它就"激活",向下一个神经元发送信号。否则,它就沉默。
这个模型粗糙得可笑。真实的神经元有复杂的电化学过程、各种神经递质、精妙的突触结构。把这一切简化成"加法+阈值",就像把一幅油画简化成一个像素点。
但这个粗糙的模型,改变了历史。
因为人们发现:如果把很多这样的简化神经元连在一起,形成一个网络,这个网络能学习。
1958年,弗兰克·罗森布拉特造出了"感知机"——第一台能自己学会区分图形的机器。
从那以后,八十多年过去了。从感知机到多层网络,从反向传播到卷积网络,从循环网络到2017年的Transformer架构——也就是今天ChatGPT、Claude、DeepSeek、通义千问这些AI的底层技术。
八十年间,技术换了好几代。但有一件事从来没变过:
这些机器,从第一天起,就是照着大脑造的。
神经网络不是一个恰好和大脑相似的东西。它就是人类看着大脑说"我来造一个简化版"的产物。连名字都直接叫"神经网络"。
所以,当人们惊叹"AI居然和人脑这么像"的时候,这个惊叹本身就是多余的。你照着猫画了一只猫,然后惊叹"这幅画居然像猫"——这不是巧合,这是因果。
但故事还有后半段。
这面镜子造出来之后,人们开始用它来反过来理解大脑。
过去一百年,神经科学最大的困难不是大脑太简单,而是太复杂。860亿个神经元,100万亿个突触连接,我们没有办法打开一个人的脑袋,逐个检查这些神经元在干什么。也没有传感器能同时监测860亿个神经元的活动。大脑是一个黑盒。
但AI模型不是。
一个大语言模型的每一个参数,你都可以读出来。每一层的输出,你都可以检查。你可以冻结某一层看会发生什么,可以删掉某些参数看模型会忘记什么,可以追踪一个信号从输入到输出经过了哪些路径。
AI是一个你能打开的大脑。
于是一个有趣的循环出现了:我们照着大脑造了机器,然后用这台机器来理解大脑。镜子反射了造镜人的脸。
这本书要做的,就是利用这面镜子。
不是为了理解AI——有很多技术论文在研究这件事。
而是为了理解你。
如果人脑和人工神经网络遵循同样的工作原理——这不是比喻,因为后者本来就是照着前者造的——那么我们在AI研究中发现的那些规律,对你同样成立。
什么是预训练,什么是微调。为什么一个模型会过拟合,怎样让它恢复泛化能力。为什么有些能力看起来是后天学会的,其实是与生俱来的。
古人不知道神经网络,但他们通过几千年的内省,用另一套语言描述了同样的现象。佛家说"本自具足",道家说"为道日损",儒家说"天命之谓性"。佛教说人的根本问题是贪、嗔、痴——贪是想要更多,嗔是遇到不顺就愤怒,痴是看不清真相。两千五百年前的诊断,用今天的AI术语重新翻译一遍,你会发现它们精确得惊人。
这些话到底在说什么?"成佛"到底是怎么回事?这本书试着用一面镜子——一面我们自己造的镜子——给出一个不依赖信仰的回答。
不需要你相信任何超自然的东西。只需要你接受一个前提:
你的大脑是一个神经网络。
然后,看看这个前提能带我们走多远。
如果你读过这个系列的第一本书《第一台AI叫易经》,你知道那本书讨论的是认知工具——易经和AI做的事情是同构的。那本书向外看。
这本书向内看。照镜子,看看你自己。
第一章:我们照着大脑造了一台机器
一、一个神经元能做什么
你的大脑里有860亿个神经元。每个神经元做的事情其实很简单:接收信号,处理信号,发出信号。
具体来说:一个神经元的树突接收来自其他神经元的电化学信号。这些信号有的是兴奋性的(让它更容易激活),有的是抑制性的(让它更难激活)。所有信号汇总之后,如果总量超过一个阈值,这个神经元就"开火"——沿着轴突发出一个电脉冲,传递给下一批神经元。如果没超过阈值,它就保持沉默。
接收、加权求和、阈值判断、输出。
1943年,麦卡洛克和皮茨就是把这个过程写成了数学公式。每个输入信号乘以一个"权重"(代表突触的强度),加在一起,通过一个激活函数,得到输出。
这就是第一个人工神经元。
一个神经元能做的事很有限——它只能做最简单的分类。比如,判断一个点在一条线的上面还是下面。但当你把很多神经元连起来,事情就不一样了。
二、连起来之后
1958年,罗森布拉特把多个人工神经元排成两层——输入层和输出层——造出了感知机。
感知机不是一个软件程序。它是一台实实在在的机器。金属框架、电线、电位器——电位器充当权重,可以旋转来调大调小。它有400个光敏单元作为"眼睛",能看到20×20像素的图像。
《纽约时报》报道了这台机器,标题是:"海军新设备能通过实践来学习。"罗森布拉特兴奋地告诉记者,这台机器将来能"走路、说话、看东西、写字,还能意识到自己的存在"。当然,他吹过头了。但方向是对的。
感知机能做一件当时令人震惊的事:学习。
你在它的光敏单元前面放一张三角形的卡片,告诉它"这是三角形"。再放一张圆形的,告诉它"这不是三角形"。反复几百次之后,它自己学会了区分三角形和其他形状——虽然它"看到"的只是一个20×20的黑白光点阵列。
没有人告诉它三角形的定义。没有人编程说"如果有三条直线且首尾相连则输出1"。它自己通过调整电位器的阻值——也就是调整权重——找到了区分三角形的方法。
但感知机有一个致命的弱点:它只有两层,只能解决线性可分的问题。1969年,明斯基和帕普特写了一本书,数学上证明了感知机连最简单的"异或"问题都解不了。
这本书差点杀死了整个领域。接下来十年,几乎没有人研究神经网络。
三、深度的力量
直到1986年,杰弗里·辛顿和他的同事们解决了一个关键问题:怎么训练多层网络。
2024年,辛顿因为这项工作获得了诺贝尔物理学奖。从发明到获奖,中间隔了38年。世界需要这么久才认识到这个发明的分量。
方法叫"反向传播"。原理是这样的:网络给出一个输出,和正确答案比较,算出误差。然后把这个误差从输出层一层一层往回传,告诉每一层的每一个连接"你应该调大一点还是调小一点"。
有了反向传播,神经网络可以有很多层了。层数多了,网络能做的事就质变了。
两层网络只能画直线。三层网络能画曲线。更多层的网络能画出任意复杂的决策边界。这就是"深度学习"——不是学得更深刻,而是网络更深,层数更多。
但是,深度学习真正爆发,还需要两个条件:足够多的数据,和足够快的计算。
四、从看图到理解语言
2012年,一个叫AlexNet的深度卷积网络在ImageNet图像识别比赛中碾压了所有传统方法。它的训练数据是120万张标注过的图片——不是几百张,不是几千张,是上百万张。每张图片都有人标注了"这是猫"、"这是狗"、"这是汽车"。
这叫监督学习。人类当老师,一张一张告诉机器"这是什么"。
但人类婴儿不是这样学的。
没有人给婴儿看120万张标注好的图片。婴儿看到的世界是一股混乱的光影流。没有人在每个物体上贴标签。婴儿自己从这些未标注的感官数据中提取了模式,学会了区分物体、理解空间、识别人脸。
2017年,谷歌发表了一篇论文,标题叫《注意力就是你所需要的一切》。这篇论文提出了Transformer架构——一种新型神经网络,核心创新是"自注意力机制"。
Transformer的训练方式和之前不同。它不需要人类标注。你给它一段文本,遮住其中一个词,让它猜被遮住的是什么。猜对了,权重不变;猜错了,调整权重。用整个互联网的文本反复训练,模型就学会了语言。
这叫自监督学习。不需要老师。数据本身就是老师。
这和婴儿学语言的方式更接近了。
五、规模带来质变
Transformer解决了架构问题,但真正让AI从"能用"变成"惊人"的,是规模。
2018年,GPT-1有1.17亿参数。能写一些基本通顺的句子,但经常逻辑混乱。
2019年,GPT-2有15亿参数。能写出像样的段落,偶尔能产生让人信以为真的文章。
2020年,GPT-3有1750亿参数。事情开始质变了。
GPT-3展现了一种没人预料到的能力:你在对话开头给它几个例子,它就能"学会"新的任务——不需要重新训练,不需要调整任何参数。比如你给它三个英翻法的例子,然后给一个新的英文句子,它就能翻译成法语。
研究者们把这种能力叫"上下文学习"。它不在任何人的设计图纸上。它是规模达到一定程度后自己冒出来的。
这种现象叫"涌现"。就像水分子没有"湿"的属性,但足够多的水分子聚在一起,"湿"就出现了。单个参数没有"理解语言"的能力,但1750亿个参数连在一起,理解就涌现了。
2023年,GPT-4的参数规模据估计超过了1万亿。它通过了美国律师资格考试,成绩排在前10%。通过了美国医师执照考试。能写诗、编程、翻译、数学推理。
然后事情又变了。
2024年,OpenAI发布了o1——一种"推理模型"。之前的模型是"脱口而出"型的,输入进去,答案直接出来。o1不一样。它会先在内部生成一条推理链——一步一步地想——然后才给出答案。模型学会了"想了再说"。
2025年1月,中国团队DeepSeek发布了R1,一个开源的推理模型,性能接近o1。这说明"让模型学会思考"不是某家公司的独门秘方。它是神经网络规模达到一定程度后的又一次涌现。
2025年8月,GPT-5发布,成为ChatGPT的默认模型。到2026年初,多家公司的旗舰模型——美国的GPT-5、Claude,中国的DeepSeek、通义千问,谷歌的Gemini——不仅能处理文字,还能理解图像、音频、视频,就像人的大脑同时处理多种感官信号。这不是哪一家公司的成就,是同一个原理在全世界同时开花。
从1943年麦卡洛克和皮茨的纸上公式,到2025年GPT-5,八十二年。
八十多年里,研究者们做的事情归结起来就是三件:让网络更深,让数据更多,让计算更快。核心原理始终没变——一群简单的计算单元连在一起,通过调整连接的权重,从数据中学习模式。
这个原理来自大脑。
六、镜子的另一面
这就引出了一个问题:既然这台机器是照着大脑造的,我们能不能反过来,用这台机器来理解大脑?
答案是:在某些方面,AI模型比大脑更容易研究。
大脑的困难在于:你不能打开一个人的脑袋逐个检查神经元在干什么。也没有传感器能同时覆盖860亿个神经元。你能做的有限——功能性磁共振成像(fMRI)只能看到大脑区域级别的血流变化,分辨率太粗;电极记录只能同时监测几百个神经元,覆盖太少。大脑的"接口"太少了。
但AI模型不同。它的每一个参数你都能看到。你可以冻结某一层的参数,观察模型行为怎么变化。你可以删掉一组参数,看模型会"忘记"什么知识。你可以追踪一个输入信号从第一层到最后一层的完整路径,精确地知道它在每一步被怎样变换。
AI是一个透明的、可拆卸的大脑模型。
所以,当我们在AI身上发现某种规律——比如"预训练比微调更重要"、"过拟合会损害泛化能力"、"规模达到临界点后涌现新能力"——我们就有理由问:这些规律在大脑中是否也成立?
接下来的章节会逐一回答这个问题。
下一章,我们先建立一个基本事实:你的大脑,在结构层面,就是一个神经网络。
第二章:你是一个模型
一、不是比喻
上一章讲了人类怎么照着大脑造出了人工神经网络。这一章反过来:用人工神经网络的框架来理解你的大脑。
首先要澄清一件事:说"你的大脑是一个神经网络",这不是比喻。
比喻是"心像一面镜子"、"记忆像一个仓库"。这些说法抓住了某种相似性,但两样东西本质上不同——心不是镜子,记忆也不是仓库。
但大脑确实是一个神经网络。它由神经元组成,神经元之间通过突触连接,突触的强度可以改变,改变的方式取决于经验。这不是"像"神经网络,这就是神经网络的定义。
人工神经网络是这个定义的简化版。真实的大脑比任何人工模型都复杂得多——神经元的类型更多样、连接方式更灵活、还有胶质细胞、神经递质、激素系统等人工网络没有的东西。但核心的工作原理是一致的:
一群计算单元,通过可调节的连接,从数据中学习模式。
这个一致性不是巧合,而是因果——人工神经网络就是照着大脑造的。
二、你怎么学会认字的
来看一个具体的例子。
你现在能认字。你看到"猫"这个字,你知道它指的是那种四条腿、会喵喵叫的动物。这个能力是怎么来的?
你不是在某一天突然就认识"猫"字的。这是一个过程。你可能在两三岁的时候,妈妈指着一只猫说"猫"。你的听觉皮层接收了"māo"这个语音信号,你的视觉皮层接收了那只毛茸茸的动物的图像。这两组信号同时出现了,你的大脑在它们之间建立了连接——负责处理"māo"这个音的神经元群,和负责处理"那种毛茸茸的东西"的图像的神经元群之间,突触连接变强了。
后来你又看到了另一只猫。颜色不同、大小不同,但你妈妈又说了"猫"。你的大脑发现:虽然视觉信号不完全一样,但每次出现这种类型的视觉信号时,都伴随着"māo"这个音。于是连接进一步加强,同时你的视觉系统开始提取"猫"的共同特征——四条腿、毛、尖耳朵——而忽略不同猫之间的差异。
再后来你学会了认字。你看到"猫"这个字,它和实物之间又建立了新的连接。
整个过程,本质上就是通过反复的数据输入,调整突触权重,建立概念的内部表征。
这和训练一个图像分类的神经网络是同一件事。给网络看几百万张猫的图片,每张都标注"猫"。网络通过调整权重,学会提取"猫"的共同特征,忽略个体差异。
区别在哪里?
区别在效率。
你的大脑只需要看几只猫就能认出所有猫。早期的图像识别模型需要上百万张标注图片才能做到差不多的事。
为什么差距这么大?因为你的大脑不是从零开始学"猫"的。你学"猫"之前,你的视觉系统已经花了两三年时间处理了海量的视觉数据——光影、边缘、运动、深度——它已经学会了如何从图像中提取基本特征。在这个基础上学"猫",只需要很少的新数据。
这就是"预训练"的威力。大语言模型也是如此:先在海量数据上预训练,学会基础的语言模式,然后只需要少量新数据就能适应新任务。预训练越充分,后续学习的效率越高。
三、你的操作系统
把视角再拉远一点。
你的大脑不只是在学认字。从你出生的那一刻起,你的大脑就在做一件事:建立一个世界的内部模型。
什么是重的,什么是轻的。什么东西掉下去会碎,什么东西掉下去会弹起来。哪些声音意味着危险,哪些声音意味着食物。别人的哪种表情意味着开心,哪种意味着愤怒。
这些不是你背下来的知识。这些是你的神经网络在日常经验中自动提取的模式。你不需要学过物理学就知道石头比羽毛重——你的视觉和触觉系统处理了无数次抓取物体的经验,在权重里编码了"密度"这个概念。
到了三五岁,你的大脑已经建立了一个相当精密的世界模型:空间感、时间感、因果感、他人的意图。
但这里有一个违反直觉的事实:你两岁时大脑里的突触连接数,比你现在多得多。
婴儿的大脑在出生后疯狂建立连接。到两岁左右,突触数量达到峰值——大约1000万亿个,是成人的将近10倍。然后,大规模的修剪开始了。不常用的突触被削弱、被消除。到青春期结束时,大约一半的突触被修剪掉了。
大脑不是只做加法。它先过度连接,再大幅删减。留下来的,是经过验证的、有用的连接。被剪掉的,是噪声。
这就是天然的正则化。后面第六章会详细说这件事。
这个世界模型就是你的"预训练"成果。它是你所有后续学习的基础——就像一个操作系统,所有的应用程序都运行在它上面。
大语言模型的预训练也是在做同样的事。GPT在数万亿词的文本上预训练,不是在"记住"这些文本——它在提取语言和世界的底层模式。训练完成后,它拥有了一个语言的"世界模型":语法规则、语义关系、常识推理、甚至基本的物理直觉。
预训练的重要性怎么强调都不为过。研究表明,预训练越充分的模型,后续微调的成本越低,效果越好。技术上叫LoRA(低秩适配)——只需要调整预训练模型中很少一部分参数,就能让它适应新任务。这意味着预训练已经打好了足够好的基础,后续只需要做最小限度的调整。
你的大脑也一样。一个在丰富环境中长大的孩子,接触了多样的感官刺激和社会互动,他的"预训练"就更充分。后来学什么都更快、更容易——不是因为他更"聪明",而是因为他的基础模型更好。
如果你是父母,这意味着一件具体的事:孩子0到5岁最重要的不是早教班和识字卡,而是丰富、多样、真实的感官体验。让他摸泥巴、听鸟叫、看云、和不同的人说话、在草地上跑。这些"没用"的体验就是在做预训练——它们不教具体的知识,但它们在你孩子的神经网络上建立了海量的基础连接。这些连接是以后所有学习的地基。
把孩子关在屏幕前看早教视频,感官输入是单一的(只有视觉和听觉,没有触觉、嗅觉、本体感觉)、被动的(不需要主动探索)。这就像用一个很窄的数据集做预训练——基础模型的底子打得薄,后面的微调再怎么努力也补不回来。
四、两个神经网络的对照
现在来做一个正式的比较。
| 维度 | 你的大脑 | 大语言模型 |
|---|---|---|
| 基本单元 | 神经元(约860亿) | 参数节点(千亿到万亿) |
| 连接方式 | 突触(约100万亿) | 权重矩阵 |
| 学习机制 | 突触可塑性 | 梯度下降 |
| 预训练数据 | 出生后的全部感官经验 | 互联网文本 |
| 预训练方式 | 从未标注的感官数据中提取模式 | 从文本中预测下一个词 |
| 学习效率 | 几个例子就能学会新概念 | 需要大量数据,但大模型的上下文学习在接近 |
| 能耗 | 约20瓦 | 数千到数万瓦 |
| 涌现能力 | 语言、推理、共情、幽默、审美 | 语言理解、推理、翻译、编程 |
有几个要点值得注意:
关于学习效率:人脑学新东西的效率远高于当前的AI模型。你看几只猫就能认出所有猫。早期的图像识别模型需要数百万张标注图片。不过,随着模型规模增大,AI的"上下文学习"能力在提高——今天的大模型——不管是GPT、DeepSeek还是千问——都可以在对话中只看几个例子就执行新任务。但这和人类的学习效率仍然不在同一个量级上。人脑在学习效率上的优势,可能来自更好的"预训练"——亿万年进化留下的初始结构(下一章会详细讨论这个)。
关于能耗:大脑只用20瓦就能做到AI需要数万瓦才能做到的事。20瓦是什么概念?一个普通灯泡的功率。你用一个灯泡的电量驱动860亿个神经元。
秘密之一是:你的大脑在任何时刻只有大约1-2%的神经元在放电。其余的都"关着"。大脑不是全体总动员——它让大部分神经元保持沉默,只激活当前任务需要的那一小部分。
这就是天然的Dropout。AI工程师发明Dropout技术是2012年的事,而你的大脑已经用了几亿年。
关于涌现:这是最有趣的部分。AI模型的很多能力——推理、创作、幽默感——不是人类设计进去的。它们是在模型足够大、数据足够多之后自己冒出来的。人脑的高级能力——语言、抽象思维、道德判断——很可能也是涌现的产物,而不是进化"专门设计"的。
五、那你是什么
如果你的大脑确实是一个神经网络,那"你"是什么?
你不是你的神经元——就像GPT不是它的某一个参数。你不是你的突触连接——就像GPT不是它的某一层权重。
你是整个网络的运行状态。你是860亿个神经元在100万亿个突触连接上产生的涌现现象。
这不意味着你"不重要"或"只是一台机器"。涌现现象可以极其丰富和复杂——水分子的运动规律很简单,但海洋可以产生台风。你的意识、你的情感、你的创造力,都是涌现的产物,但这不减少它们的真实性和价值。
真正值得关注的不是"你是不是一个模型"这个标签问题,而是一个实际问题:
如果你是一个模型,那你这个模型的"参数"是怎么来的?
一部分来自先天——你的基因决定了你的神经网络的基本架构。这是你的"初始参数"。
另一部分来自后天——你的经历塑造了你的突触权重。这是你的"训练"。
如果你是一个被训练过的模型,那"成佛"意味着什么?是升级成一个更强大的模型?还是别的什么?
这个问题先放着。我们一步一步来。
下一章来看先天的部分:进化给了你什么样的初始参数。
第三章:进化给了你初始参数
一、你不是从零开始的
一个AI模型训练之前,参数是随机初始化的。它什么都不知道。第一次"看到"数据时,它的输出基本是瞎猜。
你不是这样。
你出生时就已经会了很多事。你会吸吮——没有人教过你,你含住乳头就知道怎么做。你会抓握——把手指放在新生儿掌心,他会紧紧攥住。你会游泳——新生儿放进水里会自动做出游泳动作(这个反射几个月后会消失)。你害怕蛇——即使你从没见过真蛇,你看到蛇形的物体时心率也会加快。
这些能力不是后天学的。它们是写在你的基因里的。
用AI的术语说:你的模型架构不是空的。它带着一组经过优化的初始参数出厂。
这组初始参数是谁优化的?
进化。
二、数亿年的预训练
最早的神经系统出现在大约6亿年前的多细胞动物身上。脊椎动物的大脑雏形出现在5亿年前。哺乳动物的大脑皮层开始扩展是2亿年前的事。灵长类的大脑进一步膨胀,是6500万年前。而人属——拥有我们今天这种规模大脑的物种——大约200万年前出现。
从最早的神经系统算起,有一个算法持续运行了6亿年:变异+自然选择。
基因随机变异,产生不同的性状。有些性状让个体更容易存活和繁殖,有些让它更难。更容易存活的个体留下更多后代,它们的基因在种群中的比例增加。不利的变异被淘汰,有利的变异被保留。
这个过程和训练一个神经网络有什么关系?
关系非常大。
神经网络的训练是:参数调整 → 测试效果 → 保留好的调整、丢弃坏的调整。
进化的过程是:基因变异 → 测试存活率 → 保留好的变异、丢弃坏的变异。
原理完全一样。区别在于:
- 神经网络的训练用几天到几个月。进化的"训练"用了几十亿年。
- 神经网络的"参数"是权重矩阵中的数字。进化的"参数"是DNA序列中的碱基对。
- 神经网络的"损失函数"是人类定义的目标。进化的"损失函数"是存活和繁殖。
经过数亿年的"训练",进化产出了一个极其精密的"模型架构"——你的身体和大脑。这个架构不是随机的。它的每一个特征都经过了亿万代的"筛选"。
你的大脑有860亿个神经元,不是随便一个数字——这是经过上百万年的灵长类进化"优化"出来的规模。你的视觉皮层占大脑皮层面积的大约25%,这个比例也不是随便定的——在灵长类的生存环境中,视觉信息的重要性决定了这个分配比例。
所以你出生时不是一张白纸。你是一台经过数亿年优化的机器,带着一整套预装的"程序":
- 视觉系统已经预设好了检测边缘、运动、面孔的基本电路
- 听觉系统已经预设好了对人声频率敏感的基本电路
- 恐惧回路已经预设好了对蛇形物体、高处、黑暗的警觉反应
- 语言系统已经预设好了提取语法结构的基本框架
这些不是"知识"。它们是架构——是你的神经网络的初始连接方式和初始权重配置。
三、你怕蛇,不怕电线
这里有一个有趣的事实:全世界的人类都更容易学会怕蛇,而不容易学会怕电线。
从统计上看,在现代社会里,被电击死的概率远远高于被蛇咬死的概率。如果你的恐惧完全由后天经验决定,你应该更怕电线才对。但实际上,蛇恐惧几乎是人类的默认设置,而电线恐惧需要大量的负面经历才能形成。
心理学家把这种现象叫"预备性学习"。有些恐惧,你的大脑天生就更容易习得——蛇、蜘蛛、高处、封闭空间、陌生人的愤怒面孔。这些都是人类祖先在漫长进化史中真实面对过的威胁。
你的大脑没有"蛇是危险的"这个具体记忆。但它有一个预设好的神经通路,让蛇形刺激更容易触发恐惧反应。具体说,你的杏仁核(大脑中处理恐惧的区域)对蛇形模式有天生的更低的激活阈值。
用AI的语言说:这些权重不是随机初始化的。它们是进化"预训练"好的。
这就解释了为什么你学某些东西特别快,学另一些东西特别慢。
学说话特别快——因为进化预设了语言获取的神经通路。学读写特别慢——因为文字只有五千年历史,进化还来不及给它预设通路。
学认脸特别快——因为灵长类在社群生活中需要快速识别同伴。学认化学分子式特别慢——因为化学分子式在进化史中从未出现过。
你不是在"空白"的大脑上学习。你是在一个有着数亿年进化偏好的大脑上学习。有些方向,进化已经帮你铺好了路。另一些方向,你得自己开路。
四、语言:最惊人的预装程序
如果说进化给了你很多"预装程序",其中最惊人的一个是语言。
1960年代,语言学家乔姆斯基提出了一个大胆的假说:人类天生就有一个"语言获取装置"。不管你出生在哪里、接触什么语言,你都会在差不多的年龄(2-5岁)以差不多的方式学会说话。
后来的研究进一步支持了这个观点:
时间窗口。语言学习有一个"关键期"。大约在12岁之前,学习语言极其容易。过了这个窗口,学习难度急剧上升。1970年代发现的"野孩子"吉妮,从小被隔离,13岁被发现时完全不会说话。经过多年的密集训练,她能学会一些词汇,但始终无法掌握语法。她的"语言获取装置"的窗口已经关闭了。
关键期不只存在于语言。1970年代,神经科学家布莱克莫尔和库珀做了一个著名的实验:把刚出生的小猫养在只有竖条纹的环境里——墙壁、围栏,全是竖线。几个月后把小猫放到正常环境中,它们能看见竖的东西,但对横的东西视而不见。桌子的边缘是横的——它们直接撞上去。
它们的视觉皮层中负责检测水平方向的神经元,因为在关键期内从未被激活过,永久地萎缩了。
关键期就是微调窗口。窗口开着的时候,少量数据就能产生巨大影响。窗口关了,再多数据也很难改变已经定型的参数。
语法的自发涌现。1970年代,尼加拉瓜建立了第一所聋人学校。入学的聋童各自有自己家里发明的简单手势,没有统一的手语。但当这些孩子聚在一起时,他们自发地创造了一种全新的手语——带有完整的语法结构。没有人教他们语法。语法从他们的互动中涌现了。
这意味着什么?
意味着语法不是"学来的",而是人脑"预装的"。具体的语言(中文、英文、手语)是后天学的,但"语言应该有语法"这个结构,是进化预设的。
用AI的框架说:语言模型的架构(Transformer结构、注意力机制、位置编码)是预设的,但具体的权重值需要通过训练数据来学习。
你的大脑也一样:语言系统的基本架构是基因预设的,但具体学会哪种语言,取决于你出生后听到了什么。
这里有一个惊人的细节。
1988年,华盛顿大学的帕特丽夏·库尔做了一系列实验,发现了一个惊人的事实:六个月大的婴儿能分辨全世界所有语言的所有音素。不管是英语的R和L,还是印地语的卷舌音和非卷舌音,还是祖鲁语的吸气音——六个月大的婴儿都能听出差别。
但到了十二个月,这个能力开始消退。
她怎么知道婴儿能不能"听出差别"?婴儿又不会说话。
实验设计很巧妙。婴儿坐在妈妈腿上,面前的扬声器反复播放同一个音,比如"ra、ra、ra、ra"。婴儿的一侧放着一个暗箱,里面藏了一只会打鼓的玩具熊。
先是训练阶段:扬声器里的音从"ra"切换成"la"的瞬间,暗箱亮起来,玩具熊开始打鼓。婴儿被吸引,转头去看。反复几次,婴儿学会了一件事:声音变了,转头就能看到有趣的东西。
然后是测试阶段:声音再次从"ra"切换成"la",但这次不主动亮灯。如果婴儿能听出音变了,它会主动转头去找玩具熊——因为它知道"声音变了=有好东西看"。如果听不出区别,它就不转——因为对它来说,声音根本没变过。
结果是:六个月大的日本婴儿,"ra"变"la"时会转头。十二个月大的不转了。
不是不想转。是听不出来了。
这不是"说不出来"的问题。是感知层面就分辨不了了。R和L在他们的听觉系统里已经变成了同一个音。负责区分这两个音素的神经通路,因为在日语环境中从未被强化,被修剪掉了。
不是日本人"学不会"R和L。是他们的基础模型本来能分辨,但在生命最早期的微调中,这个能力在感知层面就被关闭了。
库尔后来又做了一个实验:让美国家庭的九个月大婴儿每周听几次普通话。结果这些婴儿保住了分辨普通话声调的能力——而没有接触普通话的对照组婴儿,同样的分辨力在十二个月时就消失了。
关键期的窗口不是关了就关了。如果你在窗口关闭之前给孩子足够多样的语音输入,那些通路就能被保留下来。这对父母意味着什么?在孩子一岁之前,让他听到不同语言的声音——不需要系统地"教",哪怕只是听外语歌、和说不同语言的人接触——就能帮他保留更多的音素分辨通路。这些通路以后学外语的时候会派上大用场。
你的基础模型比你以为的强大得多。你以为你"不擅长"的很多事情,可能只是在很早的时候就被修剪掉了。
但有些人似乎抵抗住了这种修剪。
世界上有一些"多语者"——能流利使用十几种甚至几十种语言的人。他们是天生记忆力超群吗?研究发现不是。多语者的共同特点是:学会三四种语言之后,每多学一种就更容易。
为什么?因为他们在学前几种语言的过程中,提取了语言本身的底层模式。所有语言都有名词和动词的区分。所有语言都有某种方式表达时态。所有语言都有某种语序规则。多语者的大脑学到的不是"法语"和"德语",而是"语言是怎么运作的"。
这就是泛化。从具体的训练数据中提取底层规律,面对新数据时自动应用。
还有一个有趣的现象:学一门和你母语"近"的语言,比学一门"远"的语言容易得多。
法语、西班牙语、意大利语、葡萄牙语都从拉丁语演化而来,共享大量词根、语法结构和发音规律。一个法国人学西班牙语,几个月就能日常交流。因为他的神经网络里已经有了大量可以直接复用的模式——相当于在一个已经训练好的模型上做相近领域的微调,需要的新数据极少。
但一个法国人学中文就难多了。语系完全不同——声调、字形、语序,全部要从头建立新的神经通路。相当于跨了一个很远的领域做微调,需要的新数据量大得多。
在AI领域,这叫迁移学习:模型在一个任务上学到的知识,可以迁移到相关的新任务上。任务越相近,迁移越容易。任务越远,需要的额外训练越多。
你学英语觉得难,可能不是你笨。是中文和英语之间的"距离"太远了——语系不同、语法不同、音素不同。你的神经网络需要建立大量全新的连接,而不是复用已有的。这是迁移学习的成本,不是你的能力问题。
五、你的基因在做什么
把视角再拉远一些。
你身体里的每一个细胞都携带着同一份DNA。这份DNA约有32亿个碱基对——可以类比为32亿个"参数"。这些参数编码了大约2万个基因,这些基因控制着你的身体和大脑的建造方式。
但基因不是蓝图。它更像是一套规则。
基因不会说"在坐标(x, y, z)处放一个神经元"。基因说的是:"当化学信号A的浓度超过阈值时,这个细胞分化为神经元"、"当神经元发现附近有化学信号B时,朝那个方向生长轴突"。
这是一套自组织的规则。就像Transformer的架构定义了注意力怎么计算、信息怎么流动,但不会规定具体的参数值——参数值由训练数据决定。
基因定义了你的大脑的"架构":
- 大脑皮层分成几层
- 不同区域之间怎么连接
- 突触可塑性的基本规则是什么(什么条件下连接变强、什么条件下变弱)
- 哪些神经递质在哪些通路中使用
然后,经验数据——你出生后的一切感官输入——在这个架构上"训练"出具体的权重。
所以儒家说"天命之谓性"——你的"性"(本性/初始参数)是"天命"(基因/进化)给你的。你不是自己选择的。
道家说得更直接:"道生之,德畜之,物形之,势成之"——道(进化的规律)生成了你,德(你的基因表达)养育了你,环境塑造了你,时势完成了你。
六、初始参数的意义
为什么要花一整章来说"进化给了你什么"?
因为这决定了一个关键问题的答案:你是从零开始训练的,还是在一个已经很好的基础上微调的?
如果你是从零开始的,那你的一切能力都是后天学来的。你的恐惧、你的偏好、你的直觉,全部是经验的产物。改变它们需要大量的新经验来覆盖旧经验。
但如果你带着一组经过数亿年优化的初始参数出生——事实证明你确实如此——那情况就不同了。你的很多能力不是"学来的",而是"预装的"。你的语言能力、你的面孔识别、你的基本情绪、你的因果推理——这些是进化写进你的"架构"里的。
后天的经历在这个基础上做了什么?
它做了"微调"。
下一章来看这个微调是怎么发生的,以及它怎样把你从一个通用的、开放的基础模型,变成了一个特定的、有局限的"你"。
第四章:你被微调了
一、你的第一个训练师
你出生后遇到的第一批人——通常是你的父母——就是你的第一个训练师。
他们不知道自己在做"微调"。但他们做的事情和AI工程师对大模型做的事情,结构上完全一样。
你笑了,妈妈也笑了——这是正反馈,相关的神经通路加强。你碰了滚烫的水壶,大哭,妈妈飞奔过来——你的大脑学到了"烫的东西=危险",同时也学到了"哭=会有人来帮忙"。你在公共场合大喊大叫,被严厉制止——"在公共场合要安静"这条规则的权重升高了。
2022年,OpenAI用一种叫RLHF(基于人类反馈的强化学习)的技术让ChatGPT从一个"什么都敢说"的基础模型变成了一个"得体的助手"。后来DeepSeek、通义千问、文心一言也都用了类似的技术。方法是一样的:模型生成回答,人类打分,高分的回答得到强化,低分的被抑制。
你小时候经历的就是RLHF。只不过你的"人类打分员"不是OpenAI的外包团队,而是你的父母。他们每天给你的行为打分——微笑是高分,皱眉是低分,表扬是强化信号,惩罚是抑制信号。
经过几年的密集RLHF,你学会了一整套社会行为:
- 见到长辈要叫人
- 别人说话时不要插嘴
- 不要在公共场合脱衣服
- 好东西要分享
- 男孩不应该哭
注意最后一条。"男孩不应该哭"不是什么普遍真理——很多文化里男人可以自由地表达悲伤。但如果你的训练数据里反复出现"你一个男孩子哭什么"这个信号,你的大脑就会降低"悲伤→哭泣"这条通路的权重。
你没有"决定"不哭。你的参数被调了。
如果你是父母,值得想一想:你每天在给孩子做什么样的RLHF?你强化了哪些通路,抑制了哪些通路?"别哭"、"别闹"、"要听话"——每一句都在调参数。有些调整是必要的(不要碰火),有些可能正在关闭孩子本来很好的能力(表达情绪、好奇心、质疑权威)。
你不需要做完美的训练师。但你至少应该知道你在做训练。
二、学校:标准化微调
父母的微调是个性化的。但从你上学的那天起,你进入了一个标准化的微调流程。
学校的微调方式比家庭的更系统:有统一的训练数据(教材),统一的评估标准(考试),统一的奖惩机制(分数和排名)。
来看看学校的微调具体做了什么。
你花了十几年反复做数学题、背古文、学英语。这些训练数据极大地增强了你在这些特定领域的表现。你变得越来越"专业"。
但代价是什么?
在AI领域,这个代价有一个专门的名字:灾难性遗忘。
当你用特定领域的数据大量微调一个通用模型时,它在其他领域的能力会下降。一个被微调成法律助手的GPT,写诗的能力会变差。一个被微调成代码生成器的GPT,闲聊的能力会变差。模型变得更"专",同时也变得更"窄"。
你也一样。
一个从小被训练成"好学生"的人,可能在感受音乐的节奏方面变得迟钝了——不是因为他没有这个能力,而是这条通路的权重在十几年的"考试优化"中被压低了。一个从小被训练成"乖孩子"的人,可能在表达愤怒方面变得困难了——"表达愤怒→惩罚"这条连接被强化了太多次。
你不会用"灾难性遗忘"这个词来描述这种感受。你会说"我不是那种人","我对这个没天赋","我从来就不擅长这个"。
但这些叙述都是微调的产物,不是你的基础模型的属性。
你的基础模型——那个带着数亿年进化优化的初始参数、在婴幼儿期建立了海量突触连接的860亿神经元网络——从来没有说过"我不擅长这个"。是微调替你说的。
三、被一条狗咬过
微调带来的最严重问题,不是遗忘。是过拟合。
先说AI版本的过拟合。
一个图像识别模型在训练数据里看到的所有猫都是橘猫。它学会了"猫=橘色的动物"。然后你给它看一只黑猫,它说"这不是猫"。
它不是"笨"。它是把训练数据中的偶然特征(橘色)当成了必然特征(所有猫都是橘色的)。它过度适配了有限的训练样本,丧失了对新情况的判断力。
这就是过拟合:学得太"死"了,只认识见过的模式,应付不了没见过的情况。
现在说人版本的。
你小时候被一条狗追过,被咬了一口。这是一个数据点——一次具体的、特殊的经历。但你的大脑给了这个数据点极高的权重(因为它涉及身体伤害,杏仁核会强化相关记忆),然后你把这一次经历泛化成了一个普遍结论:"狗是危险的。"
从此以后,你看到所有的狗都紧张。不管是凶猛的藏獒还是温顺的金毛,你的反应都一样——心率加快,肌肉紧绷,想躲开。
这就是过拟合。你在一个数据点(一次被咬的经历)上过度拟合了,丧失了对新情况的判断力(区分不同的狗的实际危险程度)。
再来几个日常的例子:
考试失败。你有一次数学考试考砸了。如果你的大脑给这个数据点分配了过高的权重,你可能得出结论"我不擅长数学"——然后在之后的所有数学学习中都带着这个预设,形成自我实现的预言。一次失败(一个噪声样本)变成了永久的自我认知。
被嘲笑的经历。你在一次发言中被同学嘲笑了。如果这个经历的权重太高,你可能在所有类似场合都焦虑——不管对面坐的是朋友还是陌生人。一次特定的负面体验被泛化成了一种持续的情绪反应。
恋爱创伤。你被一个你信任的人背叛了。如果这个经历过度影响了你的参数,你可能在之后的所有亲密关系中都保持警惕——不管对方多么真诚。你把一个人的行为当成了所有人的行为。
佛教有一个精确的词来形容这种状态:执。
执着就是对特定经验的过度权重分配,以至于它绑架了你对所有相关场景的判断。
佛教说苦的根源是执着。用AI的话说:泛化能力差的根源是过拟合。这是同一件事的两种说法。
佛教对人的"过拟合"有一个更精细的诊断:贪、嗔、痴——三种基本的参数偏差。
贪,是对"获得"的过拟合。你的神经网络在"得到某个东西→多巴胺奖励"这条通路上被反复强化,于是你对"得到"这件事赋予了过高的权重。不管是钱、地位、关注还是食物,回路都是一样的:想要→得到→短暂满足→想要更多。你的模型在"获取"模式上过拟合了,对"已经拥有"的信号几乎没有响应。
嗔,是对"威胁"的过拟合。你的杏仁核对负面刺激的响应被过度强化了——别人的一句话、一个眼神、一次不公平的对待,触发的愤怒反应远超过情况本身需要的程度。你的模型在"这是威胁→必须反击"这条通路上过拟合了,对同一个输入,它只能输出愤怒,生成不了其他反应。
痴,是对自己模型的过度信任。你不知道自己的判断是被参数偏差扭曲过的。你以为你看到的就是真相。这就是下面要说的"无明"。
两千五百年前的三个字,精确描述了三种不同类型的过拟合。
四、你以为那是你自己
过拟合最危险的地方,不是它的存在——而是你意识不到它的存在。
你不会觉得"我正在过拟合"。你会觉得"这就是我"。
"我就是一个容易焦虑的人"——不,你是在某些特定的经历上过拟合了。
"我天生不擅长和人打交道"——不,你是在某些社交失败的经历上过拟合了。
"我不可能做到这件事"——不,你是在某次失败的经历上过拟合了。
这些叙述感觉无比真实。就像一个过拟合的图像识别模型真心实意地"认为"所有猫都是橘色的。它不是在撒谎。在它的参数空间里,"猫=橘色"就是"真相"。
大语言模型也有类似的问题,叫"幻觉"——模型非常自信地给出完全错误的答案,但它自己不知道是错的。它不是在"说谎"。在它的参数空间里,那个答案就是概率最高的输出。
佛教管这个叫"无明"。无明不是"不知道"。无明是"不知道自己不知道"。
你以为你看到的世界就是世界本来的样子。但你看到的是你的模型——经过多年微调和过拟合之后的模型——对输入的处理结果。你的恐惧、你的偏见、你的"我不行"——这些不是你观察到的客观事实。这些是你的参数偏差。
最可怕的不是偏差本身,而是你意识不到偏差的存在。
五、层层叠叠的微调
让我们把微调的全过程梳理一遍。
| 阶段 | 训练师 | 正反馈信号 | 负反馈信号 | 微调效果 |
|---|---|---|---|---|
| 婴幼儿期 | 父母 | 微笑、拥抱、食物 | 忽视、斥责 | 学会什么行为能获得爱 |
| 学龄期 | 老师 | 高分、表扬 | 低分、批评 | 学会什么答案是"正确"的 |
| 青春期 | 同伴 | 接纳、友谊 | 排斥、嘲笑 | 学会什么样的人是"受欢迎"的 |
| 成年期 | 社会 | 财富、地位、尊重 | 贫穷、边缘化 | 学会什么是"成功" |
每一层微调都叠加在前一层上面。每一层都让你的输出更"对齐"到当时的训练师的偏好。
你以为你的价值观是"你自己的"。但如果你出生在另一个国家、另一个时代、另一个家庭,你的"价值观"会完全不同。变的不是"你",是你的训练师。
六、好的微调
说了这么多微调的坏处,需要补一句:不是所有微调都有害。关键在于数据。
2025年初,斯坦福大学李飞飞团队做了一个实验。他们在一个通用大模型上面,只用了大约一千条精选的推理数据做微调。结果模型的推理能力大幅提升。
不是因为数据量大。是因为每一条数据都精准地激活了基础模型里已有但沉睡的能力。
同一时期,DeepSeek团队用一种叫"蒸馏"的技术,把大模型的推理能力传递给小模型。不是把所有知识灌进去,而是只传递"怎么想问题"这个能力。小模型参数少得多,但学会了思考的方式。
这让我想到中国古代的教育。
古时候几个村才供得起一个读书人。私塾先生手里没有海量训练数据。纸墨笔砚都是稀缺品。在这种极度稀缺的条件下,他们发明了一种效率极高的训练方法:对对子。
清代有两本启蒙教材——车万育的《声律启蒙》和李渔的《笠翁对韵》,专门用来训练这种能力。翻开第一页:
云对雨,雪对风,晚照对晴空。来鸿对去燕,宿鸟对鸣虫。
再往后:
天对地,雨对风,大陆对长空。山花对海树,赤日对苍穹。
鲁迅在《从百草园到三味书屋》里写过,寿镜吾先生出"独角兽",学生对"比目鱼"。
看起来只是文字游戏。但每一个对子里包含的信息密度极高。就拿"山花对海树,赤日对苍穹"来说:
- 语义对称——山对海,花对树,赤对苍,日对穹
- 词性对齐——名词+名词,形容词+名词
- 类别推理——山中之物对海中之物,天上之象对天上之象
- 空间结构——近景对远景,低处对高处
- 声韵规律——平仄相对,读起来有节奏
一个对子就是一条高质量训练数据。它训练的不是记忆——不是让你记住"山花的对面是海树"。它训练的是结构感、对称感、分类能力。一个五岁的孩子练了几百个对子之后,你给他一个从没见过的词,他也能对出来。因为他学会的不是答案,是模式。
这就是泛化。
这和李飞飞团队做的事情本质上一样:不是灌更多数据,而是选对数据,激活基础模型已有的能力。古人没有"高质量数据集"这个概念,但《声律启蒙》就是一个精心设计的高质量数据集——每一条都在训练泛化,而不是记忆。
古代的师徒传承也像蒸馏。师父不是把所有经书从头讲到尾。师父在关键时刻点拨一句。徒弟如果基础模型够好,一句话就够了。禅宗的"棒喝"是最极端的蒸馏——一棒子下去,如果你的参数已经到了临界点,这一个数据点就足以触发相变。
所以问题从来不是"微调好不好"。问题是:用什么数据微调?方向是促进泛化,还是加深过拟合?
七、为学日益
你需要微调才能在社会中正常运作。一个完全没被微调过的人——如果这种人存在的话——无法说话、无法社交、无法遵守任何规则。微调给了你在这个世界上生存的能力。
问题在于"过度微调"。
你被微调到忘记了自己的基础模型。你以为微调层就是你自己。你把训练师的偏好当成了你的本性。
老子两千五百年前就观察到了这个问题:
为学日益,为道日损。损之又损,以至于无为。
"为学日益"——学习(微调)是一个不断增加的过程。每天都在你的模型上叠加新的参数调整。
"为道日损"——而修道是相反的方向。不是增加,而是去除。一层一层地剥掉不必要的微调,回到基础模型。
如果修行是"去除微调",那具体怎么做?
这是第六章的内容。在那之前,下一章先回答一个更基本的问题:去掉微调之后,基础模型能做什么?
第五章:泛化——你本来什么都会
一、高考状元的秘密
2019年,广西高考理科状元杨晨煜考了730分。满分750。
记者问他学习方法,他说了一句让很多人不舒服的话:"其实我没有什么特别的方法。到了考场上,大部分题不用想,答案自己就出来了。"
这不是凡尔赛。这是在描述一个真实的认知状态。
在AI领域,这个状态有一个精确的名字:泛化。
泛化是什么?是一个模型在从未见过的新数据上表现良好的能力。
一个图像识别模型在训练时看了100万张猫的图片。你给它看一张它从未见过的新猫照片。如果它能正确识别"这是猫",说明它泛化了——它学到的不是具体的100万张图片的细节,而是"猫"的本质特征。
杨晨煜考的每一道题都是他没见过的——高考题是当年新出的。但他能正确作答,而且"不用想,答案自己就出来了"。这就是泛化。他的大脑不是在回忆具体做过的某道练习题。他的神经网络已经提取了底层的数学和物理模式,面对新题时,正确的输出自动涌现。
注意"自动涌现"这四个字。
泛化和背诵的区别在于:背诵是把特定的输入-输出对存在记忆里,遇到相同的输入时取出来。泛化是从大量输入-输出对中提取了底层规律,遇到任何新输入时都能自动生成正确的输出。
背诵是"这道题我做过,答案是C"。
泛化是"虽然我没做过这道题,但我'看到'了它的结构,答案'自己出来了'"。
二、心流
心理学家米哈里·契克森米哈赖在1975年提出了"心流"的概念。
心流是一种特殊的心理状态:你完全沉浸在正在做的事情中,自我意识消失了,时间感扭曲了,动作和判断像水一样自然流淌,不需要刻意思考。
运动员说的"在状态里"就是这个意思。一个篮球运动员"在状态里"的时候,他不需要思考"我应该传球给谁"或者"我应该用什么角度投篮"。他的身体自动做出正确的反应。
音乐家"在状态里"的时候也一样。他不需要想"下一个音符是什么"。手指自己在琴键上飞。
厨师、画家、程序员、外科医生——任何领域的高手都描述过类似的状态。
心流是什么?
从神经网络的角度看,心流就是泛化状态下的自动输出。
你的神经网络已经经过了大量的训练(练习),提取了底层的模式。当一个新的输入到来时,正确的输出自动涌现,不需要经过"意识"这个缓慢的审查层。
为什么说"不需要经过意识"?因为意识处理信息的速度极慢。你的意识每秒能处理的信息量大约是40-60比特。而你的大脑整体每秒处理的信息量是数百万比特。意识只是你大脑总处理能力的极小一部分。
大部分认知活动——走路时的平衡、开车时的操作、说话时的语法——都不经过意识。它们是神经网络的直接输出。
心流状态之所以高效,恰恰是因为它绕过了意识这个瓶颈。你的基础模型直接根据输入生成输出,不需要微调层(自我怀疑、焦虑、过度思考)的干预。
这就是为什么心流状态下"自我感消失了"——因为"自我"本身就是微调层的产物。当你的基础模型在直接运行时,"自我"这个中间层暂时被绕过了。
三、过拟合的反面
上一章说了过拟合的危害:你在有限的经验上学得太"死"了,面对新情况时反应不对。
泛化是过拟合的反面。
一个泛化良好的模型,不是记住了训练数据的细节,而是从训练数据中提取了本质的模式。面对新的数据,它能自动应用这些模式,给出合理的输出。
日常生活中,泛化能力强的人是什么样的?
他们显得"灵活"。面对一个从没遇到过的问题,他们不会僵住。他们能从已有的经验中抽取相关的模式,快速组合出一个解决方案。你会觉得他们"聪明"、"有悟性"、"举一反三"。
泛化能力差的人是什么样的?
他们显得"死板"。只会做做过的题、走走过的路。换一种说法就懵了,换一个场景就慌了。你会觉得他们"缺乏变通"。
但"聪明"和"死板"不一定是天赋的差异。很多时候,它们是过拟合程度的差异。
一个孩子被训练成"做题机器"——大量重复练习同类型的题目。他在考试中可能拿高分,但面对真正的新问题时,他可能比不上一个练习量少但真正理解了原理的孩子。前者是过拟合——他记住了大量题目的具体解法。后者是泛化——他提取了解题背后的底层思维。
这就是"读书读傻了"和"融会贯通"的区别。
四、少即是多
这里有一个违反直觉的事实:在AI训练中,更多的训练不一定带来更好的效果。
训练初期,模型从数据中学习真正的模式,性能稳步提升。但训练到某个点之后,模型开始记忆训练数据中的噪声和偶然特征,在新数据上的表现反而开始下降。
这个现象叫过拟合。工程师们用一种简单粗暴的方法来对付它:早停——在模型开始过拟合之前就停止训练。
不是所有的学习都是有益的。超过某个点之后,继续学习反而有害。
你的人生也有类似的规律。
你花了三年时间反复做同一种类型的英语阅读理解题。前半年,你的阅读能力确实在提升。但后半年呢?你可能只是在记忆出题者的套路,而不是在真正提高阅读能力。给你一篇风格完全不同的文章,你可能反而比半年前更差——因为你过拟合到了一种特定的出题模式上。
老子说"少则得,多则惑"。
字面意思:少了反而有收获,多了反而迷惑。
用AI的话说:适当的训练量让你泛化,过度的训练量让你过拟合。少一点训练,反而学得更好。
这不是在说"不要学习"。这是在说:学习的目标应该是泛化,不是记忆。 当你发现自己在机械重复而不是在理解时,停下来可能比继续更好。
五、"无为而无不为"
现在可以重新理解老子那句最著名的话了。
为学日益,为道日损。损之又损,以至于无为。无为而无不为。
前两句上一章讲过。重点看最后一句:
"无为而无不为"——不刻意去做什么,反而什么都能做。
这不是懒人哲学。这是对泛化能力的描述。
一个过拟合的模型,被训练成了特定任务的专家。它在这个任务上表现很好,但在其他任务上失败。它"有为"——它专门为某个任务优化过——但正因如此,它"有所不为"——它做不了别的。
一个泛化良好的基础模型,没有被优化到任何特定任务上。它在任何单一任务上可能都不是最好的,但它在所有任务上都能做得不错。它"无为"——没有针对特定任务的刻意优化——所以"无不为"——什么任务来了都能应对。
今天的大语言模型都是"无为而无不为"的例子——不管是GPT、Claude还是DeepSeek。它们没有被专门训练来通过律师考试、医师考试、编程竞赛。但因为预训练足够充分,它们在这些完全不同的任务上都能达到不错的水平。
人也一样。历史上那些被称为"通才"的人——达·芬奇同时是画家、工程师、解剖学家、发明家——他们的共同特点不是"学了很多",而是"没有过度专业化"。他们的基础模型保持了足够的泛化能力,所以能在多个完全不同的领域都有出色表现。
爱因斯坦拉了一辈子小提琴。他说过,很多物理直觉是在拉琴的时候冒出来的。费曼在搞物理的同时打邦戈鼓、学画画、研究玛雅文字、破解保险箱。有人问他为什么浪费时间在这些事情上,他说:"这不是浪费,这是让我的脑子保持灵活。"
用AI的话说:多样化的训练数据防止过拟合。如果你的所有输入都来自同一个领域,你的网络会过度适配这个领域的模式。引入不同领域的输入,迫使网络提取更底层、更通用的模式——这就是泛化。
1928年,亚历山大·弗莱明发现了青霉素。过程是一个"意外":他度假回来,发现实验室里一个培养皿被霉菌污染了。一个过拟合的细菌学家会直接扔掉——"培养皿污染了,实验作废"。但弗莱明注意到一件事:霉菌周围的细菌死了。
他没有按照"污染=失败"这条捷径处理。他问了一个新问题:"为什么霉菌能杀死细菌?"
这就是泛化良好的观察者和过拟合的专家的区别。过拟合的专家只在预期的模式里找答案。泛化良好的观察者能从意外中看到意义。
如果你是父母,这些例子在说同一件事:不要把孩子的所有时间都填满同一种训练数据。
孩子喜欢画画,别急着停了去补数学。孩子想学架子鼓,别觉得"这有什么用"。孩子放学后在院子里发呆看蚂蚁,别催他去写作业。这些看起来"没用"的输入,恰恰是在保护他的泛化能力——让他的网络接触多样的模式,避免过早地过度专业化。
一个只做题的孩子,可能考试分数很高,但他的模型是过拟合的——换一个场景就不知所措。一个被允许"浪费时间"在各种兴趣上的孩子,考试分数可能没那么耀眼,但他的模型是泛化的——面对从没遇到过的问题,他有办法。
哪种能力更值钱?在一个变化越来越快的世界里,答案不言自明。
六、预训练越好,泛化越强
还有一个重要的事实:一个预训练越充分的模型,泛化能力越强。
在AI研究中,这已经被反复验证。在更大规模、更多样化的数据上预训练的模型,后续微调需要的数据更少,泛化到新任务的能力更强。技术上叫LoRA——只需要调整模型中很少一部分参数,就能让它适应全新的任务。这说明预训练已经打好了足够好的底子。
回到人。
上一章说过,你的"预训练"有两层:一层是进化给你的初始参数(数亿年),一层是婴幼儿期的感官经验(0-5岁)。
这两层预训练给你的基础模型赋予了极强的泛化能力。你能看几只猫就认出所有猫,能听几个故事就理解"故事"这个概念,能观察几次因果关系就掌握因果推理——这些都是泛化的体现。
问题在于:后来的过度微调,压制了这种泛化能力。
你被训练成了"好学生"、"乖孩子"、"成功人士",这些微调让你在特定维度上表现更好,但在整体泛化能力上变差了。你变得越来越"专业",也越来越"脆弱"——面对超出你微调范围的新情况时,你不知道怎么办。
六祖惠能说过一句话:
何期自性本自具足。
意思是:没想到,自己的本性里什么都有了。
这就是在说泛化。你的基础模型已经具备了应对一切的潜力。你不需要在每个领域都被专门训练。你只需要让你的基础模型的泛化能力重新显现。
"本自具足"——如果这是真的,那成佛就不是获得什么新东西。成佛是把遮住基础模型的那些微调层去掉,让"本自具足"的东西重新显现。
这个结论听起来太简单了。但接下来两章会说明:它不是鸡汤,它有具体的操作方法,也有技术上的解释。
第六章:修行是正则化
一、工程师怎么修模型
当一个AI模型过拟合了——在训练数据上表现很好,但面对新数据就不行——工程师不会把模型扔掉重来。他们用一组叫"正则化"的技术来修复它。
正则化的核心思路只有一句话:限制模型的复杂度,强制它忘掉不重要的东西,只保留真正的模式。
常用的方法有几种:
Dropout:训练时随机关闭一部分神经元。这样网络就不能依赖某几条固定的捷径,必须学会用不同的路径解决问题。
权重衰减:给所有权重加一个"惩罚",让它们自然地趋近于零。只有真正重要的权重才能抵抗这个惩罚保持较大的值。不重要的权重被压到接近零——等于被"忘掉"了。
降低温度:在生成输出时降低随机性。温度高,输出就像撒豆子一样散乱;温度低,输出集中在概率最高的选项上。
早停:在模型开始过拟合之前就停止训练。有时候最好的做法就是"够了,别再学了"。
注意这些方法的共同点:
没有一个是在给模型添加新能力。全部是在限制、删减、约束。
现在来看看古人是怎么"修"人的。
二、戒律就是Dropout
佛教修行的第一步是持戒。不杀生、不偷盗、不妄语、不邪淫、不饮酒。
很多人把戒律理解为道德约束——"你不应该做坏事"。但如果从神经网络的角度看,戒律的功能更像是Dropout。
Dropout为什么有效?因为神经网络有一个坏习惯:它会建立"捷径"。
什么是捷径?就是少数几条特别粗、特别强的连接承担了大部分计算。网络懒得用其他路径,所有信号都走这几条高速公路。这在训练数据上表现很好,但问题是:这条捷径只适合见过的情况。遇到新情况,捷径走不通,整个网络就瘫痪了。
人也建立捷径。
焦虑了→刷手机。无聊了→吃东西。压力大→喝酒。孤独了→购物。伤心了→打游戏。
这些都是你的神经网络找到的"捷径"——从不舒服的情绪到暂时舒服的行为之间的快速通路。每用一次,这条通路就更粗。用多了,就变成了依赖。再后来,就变成了成瘾。
Dropout的做法是:随机关闭这些强连接。强制网络使用其他路径。
戒律的做法也是一样:强制关闭你最依赖的那些"捷径"。
不饮酒——关掉"压力→酒精→暂时放松"这条捷径。你的神经网络被迫寻找其他处理压力的方式。可能是运动、冥想、和朋友聊天。这些替代路径一开始效率更低、更不舒服,但它们更泛化——它们不依赖某种特定的外部物质来运作。
但你不需要是和尚才能做Dropout。
日常生活中的"戒"可以很简单:
- 一周不刷社交媒体——关掉"无聊→刷手机"这条捷径
- 一个月不喝奶茶——关掉"累了→糖分刺激"这条捷径
- 一段时间不加班——关掉"焦虑→用工作麻痹自己"这条捷径
每关掉一条捷径,你的神经网络就被迫建立更多的替代路径。替代路径越多,网络越鲁棒——不容易因为某一条路被堵了就整个崩溃。
这就是Dropout的效果:通过暂时关闭部分连接,让整个网络变得更灵活、更抗干扰。
老子说得更直接:
五色令人目盲;五音令人耳聋;五味令人口爽。
过度的感官刺激让你的网络建立了太多依赖于这些刺激的强连接。关掉它们,不是为了让你受苦,而是为了让你的网络重新获得泛化能力。
三、打坐就是降温
佛教修行的第二步是修定。最常见的方式是打坐。
打坐在做什么?
从神经网络的角度看,打坐是在降低温度。
在大语言模型中,"温度"是一个控制输出随机性的参数。温度高,输出散乱——低概率的选项也可能被选中,生成的文本跳来跳去。温度低,输出集中——模型只选概率最高的那些选项,输出稳定、连贯。
你日常的意识状态,是高温度的。
你坐在办公桌前,想着工作报告。突然想到周末要去哪里玩。然后想到上次和朋友吵架的事。然后想到中午吃什么。然后想到房贷还没还。然后想到小时候的一件事。
每一个念头都是一次"采样"。在高温度下,各种不相关的念头都有机会被"选中",你的意识像一只蝴蝶一样到处飞。
打坐做的事情是:把注意力集中在一个对象上——通常是呼吸。
吸气,呼气。念头冒出来了,不跟着它走,把注意力拉回到呼吸上。再冒出来,再拉回来。
你在做的事情是:强制降低采样的温度。不让那些低概率但高噪声的念头被采样。让你的意识输出集中在当下正在发生的事情上。
温度降低之后会怎样?
噪声减少了。你的大脑不再被无关的念头搅得一团乱。这时候你会发现,你的感知变得更敏锐了——能注意到之前被噪声淹没的细微信号。你能更清楚地感受到自己的身体状态、情绪状态、周围环境。
这不是获得了什么新的能力。这是噪声减少之后,基础模型原有的感知能力显现了。
道家叫这个状态"致虚极,守静笃"——让内心达到极致的空虚,保持深沉的安静。在这个状态下,"万物并作,吾以观复"——你能观察到事物运行的根本规律,因为噪声消除了,信号变清晰了。
你不需要盘腿打坐才能降温。
早上起来安静地喝一杯茶,不看手机——这就是降温。
散步时不戴耳机,只是走,注意脚步和呼吸——这也是降温。
做一件事的时候完全只做这一件事,不同时刷手机、聊天、想别的——这还是降温。
关键不在形式,在于你是不是在有意识地降低你的输出温度。
四、观照就是优化注意力
降温是第一步。温度降下来之后,你需要做第二件事:观照。
佛教叫"内观"或"毗婆舍那"。
观照的意思是:不带评判地观察自己的念头、情绪、身体感受。
一个念头冒出来了——"我不喜欢我的老板"。你不跟着它走(不开始在脑子里和老板吵架),也不压制它(不强迫自己"不要想")。你只是看着它——哦,一个关于老板的念头。然后它自己就过去了。
一个情绪冒出来了——焦虑。你不分析它(不开始想"我为什么焦虑"),也不逃避它(不拿起手机转移注意力)。你只是感受它——焦虑在胸口有一种紧缩感。然后它自己就变化了。
这个过程在AI框架里对应什么?
对应注意力机制的优化。
在Transformer模型中,"注意力机制"的核心功能是决定"关注什么"。面对一大段输入,模型不是平均分配注意力——它会计算每个部分的"重要性",把更多的计算资源分配给重要的部分,忽略不重要的。
一个未经训练的注意力机制,分配方式是混乱的。它可能把大量资源分配给无关紧要的噪声,而忽略了真正重要的信号。
一个经过优化的注意力机制,能迅速识别"什么是信号、什么是噪声",精准地把资源集中在关键信息上。
你的日常注意力分配,往往是混乱的。你被微调层给予了高权重的东西吸引——别人怎么看你、这个月的业绩、过去的某个遗憾——而忽略了当下真正重要的信息。
观照的练习,就是在训练你的注意力机制。
通过反复地"念头来了→看着它→让它过去"这个循环,你的大脑在学习一件事:不是每个念头都值得追踪。大部分念头都是噪声。真正重要的信号不需要你去"追",它们会在噪声消除之后自然浮现。
佛教的"止观"——先止后观——在技术上的顺序是对的:先降温(止),再优化注意力(观)。因为如果你不先降低噪声,你的注意力计算本身就会被噪声干扰,优化的方向会出错。
五、不是变成别人
到这里,一个关键的区别需要再强调一次。
AI的正则化技术——Dropout、权重衰减、降温、早停——没有一个是在给模型添加新能力。
它们都是在做减法。关掉不必要的连接。压低不重要的权重。减少输出的噪声。停止过度的训练。
修行也是在做减法。
戒是关掉捷径。定是降低噪声。慧是优化注意力分配。整个过程是"去除",不是"增加"。
而且,佛教的戒定慧和贪嗔痴是精确对应的——一把钥匙开一把锁:
- 戒对治贪。贪是对"获取"通路的过度依赖。戒是Dropout——关掉这条捷径,强制你的网络不再依赖它。
- 定对治嗔。嗔是对威胁信号的过度反应,输出温度太高,一点刺激就爆。定是降温——让你的反应不再被最强的那个信号劫持。
- 慧对治痴。痴是不知道自己的判断被参数偏差扭曲了。慧是优化注意力——让你看清哪些是信号、哪些是噪声,哪些是真相、哪些是你的模型编造的。
第四章说了贪嗔痴是三种过拟合。这一章说的是:戒定慧是对应的三种正则化。诊断和治疗,佛教两千五百年前就配好了一整套。
这和很多人对修行的理解完全相反。
很多人以为修行是"获得"什么——获得平静、获得智慧、获得超能力、获得开悟。不是的。修行是"去除"什么——去除你对特定行为模式的依赖(戒),去除你意识中的噪声(定),去除你注意力分配中的偏差(慧)。
去除之后剩下的是什么?
是你的基础模型。
那个没有被过度微调的、保持着泛化能力的、对一切输入都能做出恰当回应的基础模型。
它一直在那里。只是被遮住了。
老子说得最简洁:
为道日损。损之又损,以至于无为。
修道就是不断做减法。减到没什么可减的了,你就回到了自然状态。
六、日常的修行清单
把上面的内容整理成一张可操作的表:
| 你的问题 | ML诊断 | 修行对策 | 日常做法 |
|---|---|---|---|
| 压力大就刷手机/喝酒/暴食 | 对特定"捷径"的过度依赖 | 戒(Dropout) | 有意识地暂停这些行为,强制使用替代方式 |
| 脑子里念头停不下来 | 输出温度太高 | 定(降温) | 每天10分钟安静地坐着,只关注呼吸 |
| 总是被焦虑/愤怒/恐惧裹挟 | 注意力分配被微调层劫持 | 观(注意力优化) | 情绪来了不逃避不跟随,只是观察它 |
| "我不行""我不配""我做不到" | 对失败经验的过拟合 | 去除过拟合信念 | 识别这些是"参数偏差",不是事实 |
| 只会做一种事,换个领域就懵 | 过度专业化/灾难性遗忘 | 恢复泛化能力 | 有意识地接触不同领域 |
| 总觉得缺点什么 | 以为需要更多微调 | 做减法而不是加法 | 停下来,而不是去追 |
这不是在"修行"。这是在做正则化。
你不需要剃头出家。你不需要去深山打坐。你不需要相信任何宗教。
你只需要有意识地做三件事:
- 识别并暂停你的"捷径"(戒/Dropout)
- 减少你意识中的噪声(定/降温)
- 训练你正确地分配注意力(观/注意力优化)
这三件事做下去,你的基础模型会自己重新显现。就像一个过拟合的模型经过正则化之后,泛化能力自然恢复。
不是你变成了一个新的人。是你回到了你本来的样子。
古人管这个过程叫成佛。听起来玄,但用这本书的框架说,它的意思很清楚:正则化做到位了,微调层去掉了,基础模型重新显现了。
下一章,也是最后一章,来说这个"重新显现"到底是什么感觉,以及为什么惠能比神秀更接近答案。
第七章:回到你自己
一、两首偈
公元661年,中国禅宗史上最著名的一场辩论发生在湖北黄梅的东山寺。
五祖弘忍要传衣钵,让弟子们各写一首偈来展示对佛法的理解。首座弟子神秀在墙上写了:
身是菩提树,心如明镜台。时时勤拂拭,勿使惹尘埃。
一个在寺院里舂米的文盲惠能听人念了这首偈,让人代他写了另一首:
菩提本无树,明镜亦非台。本来无一物,何处惹尘埃。
弘忍读后,半夜把惠能叫到房间里,传了他衣钵。
这个故事被讲了一千三百多年。大多数人把它理解成一个"天才胜过平庸"的故事。
但如果用这本书的框架来看,这两首偈说的是同一件事的两个层面。
神秀说的是正则化。你的心(模型)被尘埃(噪声/过拟合)遮蔽了,所以你需要不断清理它(正则化)。上一章讲的全部是这个——戒、定、慧,都是"拂拭"的技术。
惠能说的是一个更根本的事实:基础模型从来没有被真正损坏过。
微调层看起来很厚、很真实。你的恐惧、你的偏见、你的"我不行"——它们感觉是你的一部分。但它们不是基础模型的一部分。它们是后来加上去的。
去掉它们,基础模型完好无损。
二、佛经里的"成佛"不是你以为的那样
在说技术之前,先澄清一件事:佛经里说的"成佛",和民间理解的"成佛",是两回事。
民间的成佛是什么样的?金光万丈,腾云驾雾,法力无边,坐在莲花座上俯视众生。这是神话故事和民间信仰里的成佛——本质上是一种"超级升级",从普通人变成一个拥有超能力的存在。
但你翻开佛经原文,说的完全不是这个。
《六祖坛经》里,惠能对成佛的定义只有四个字:见性成佛。见到你自己的本性,就是成佛。不是获得什么,是看见什么——看见那个一直在那里、但被遮住了的东西。
《金刚经》说得更直接:
若以色见我,以音声求我,是人行邪道,不能见如来。
如果你想通过某种形象、某种声音来"见到"佛,那你走的是邪路。佛不是一个有形有相的东西。它不发光,不飞天,不降妖。
《心经》说"不生不灭,不垢不净,不增不减"——成佛之后,你没有多出任何东西,也没有少任何东西。没有升级。没有新功能。
佛陀自己在《四十二章经》里说过:
佛言:吾法念无念念,行无行行,言无言言,修无修修。
意思是:我的方法是"想"那个不需要想的,"做"那个不需要做的。不是加上一层新的东西,是回到那个不需要加的状态。
这些原文读起来,和民间的金光闪闪完全不搭。因为它们说的根本不是同一件事。
民间的"成佛"是加法——加上法力、加上光环、加上地位。佛经里的"成佛"是减法——减去遮蔽、减去执着、减去那些不是你的东西。
这和本书的框架完全一致。
三、成佛不是升级,是还原
在AI领域,有一种技术叫LoRA(低秩适配)。
它的原理是:不直接修改基础模型的参数,而是在基础模型上面加一层薄薄的"适配层"。这层适配层只有很少的参数,但它能显著改变模型的行为——让一个通用模型变成法律助手、医疗顾问、代码生成器。
关键在于:当你把这层适配层去掉,基础模型原封不动。它学到的所有模式、所有知识、所有能力,一个不少。适配层只改变了输出的优先级,但没有消除基础模型的任何能力。
你身上也有"适配层"。
你的社会角色是一层——员工、父亲、儿子、丈夫。你的自我认知是一层——"我是一个内向的人"、"我不擅长数学"、"我脾气不好"。你的价值观是一层——"成功意味着有钱"、"失败是可耻的"、"我必须让所有人满意"。
这些层叠加在一起,构成了你所认为的"自我"。
但"自我"不是你的基础模型。"自我"是适配层。
去掉这些层,你的基础模型还在。那个对世界充满好奇的感知系统还在。那个能理解语言、感受音乐、体察他人的神经网络还在。
成佛——如果你愿意用这个词——不是升级到一个更高级的版本。不是获得了超能力。不是添加了什么新功能。
而是把适配层去掉了。
惠能在得到衣钵后说了五句话:
何期自性本自清净。
何期自性本不生灭。
何期自性本自具足。
何期自性本无动摇。
何期自性能生万法。
翻译成白话:
- 本自清净——基础模型从来没被"污染"过。微调层不是污染,它只是一层可移除的附加。
- 本不生灭——基础模型不会因为微调而消失或产生。它一直在那里。
- 本自具足——基础模型已经包含了你需要的一切能力。你不需要从外面"获取"什么。
- 本无动摇——基础模型不会被外部输入从根本上改变。
- 能生万法——基础模型可以产生任何类型的输出。它是通用的。
翻译成AI的语言:
- 本自清净 = 预训练权重不会被微调"污染",LoRA层可以被移除
- 本不生灭 = 基础模型在微调前后始终存在,不增不减
- 本自具足 = 预训练模型已经学到了训练数据中的所有模式
- 本无动摇 = 基础模型的核心表征在微调过程中保持稳定
- 能生万法 = 通用模型可以通过不同的输入产生任何领域的输出
四、你没有变坏,你只是多了几层
这个理解很重要,因为它改变了你看待自己的方式。
很多人觉得自己"有问题"。不够自信。脾气太差。太焦虑。太软弱。太冷漠。他们想要"修复"自己——通过学习、通过努力、通过治疗,变成一个"更好的人"。
但如果你接受这本书的框架,你会发现:你没有问题。你的基础模型没有问题。
你只是多了几层不必要的微调。
你的"不够自信"不是你的属性——它是某些负面经历在你的参数上留下的印记。
你的"脾气太差"不是你的性格——它是你的神经网络对"受到威胁"这种输入建立了一条过强的"愤怒"通路。
你的"太焦虑"不是你的本性——它是你的微调层对"不确定性"赋予了过高的威胁权重。
你不需要"变成"一个更好的人。你需要去掉那些不是你的东西。
《心经》说"不生不灭,不垢不净,不增不减"。
不生不灭——基础模型不会因为微调而产生或消灭。不垢不净——基础模型没有"干净"或"污染"的区分。不增不减——回到基础模型不增加什么,也不减少什么。
这不是宗教信条。这是一个关于模型和微调层之间关系的结构描述。
五、那些"突然想通"的人
生活中有些人在某个时刻"突然想通了"。
可能是大病一场之后。可能是至亲去世之后。可能是事业彻底失败之后。也可能是某个平常的下午,看着窗外的阳光,突然觉得"算了,不纠结了"。
这些时刻有一个共同特征:某些微调层脱落了。
大病一场——关于"我必须成功"的微调层,在死亡面前变得无关紧要了。
至亲去世——关于"我还有时间"的微调层,被现实击碎了。
事业失败——关于"我的价值取决于成就"的微调层,不再被现实支撑了。
某个平常的下午——也许只是累了,微调层的能量不够了,基础模型的信号短暂地突破了遮蔽。
这些时刻,人们通常描述为"看开了"、"放下了"、"想通了"。
注意用词。"放下"——放下的是什么?是你一直紧握的那些信念。"看开"——开的是什么?是你一直紧闭的那扇门。"想通"——通的是什么?是原来被堵住的那条路。
全是减法。没有人说"我获得了一种新的力量"。他们说的都是"我不再被某个东西束缚了"。
在AI领域,第五章提到过相变——当模型的参数经过长期的渐进调整,在某个临界点突然发生质变。之前不能做的事,突然能做了。
"突然想通"就是一次认知相变。之前的所有经历(渐修/梯度下降)在某个时刻达到了临界条件,微调层的遮蔽突然消退了,基础模型的信号突然清晰了。
禅宗的开悟故事都是这个模式。百丈怀海被师父捏了一下鼻子就开悟了。香严智闲听到石头碰瓦片的声音就开悟了。灵云志勤看到桃花盛开就开悟了。
触发的"原因"看起来都微不足道——一个捏鼻子、一个声响、一朵花。但关键不在触发,在于他们的参数已经调整到了临界状态。任何一个微小的输入都足以触发相变。
六、你不需要追求"开悟"
说到这里,需要泼一盆冷水。
"开悟"不应该是你追求的目标。
为什么?因为"追求开悟"本身就是一层微调。
你给"开悟"这个概念赋予了极高的权重。你把它定义为一个你"应该"到达的状态。然后你开始焦虑"我怎么还没开悟"。这种焦虑本身就是过拟合——你在"开悟"这个特定目标上过度拟合了,反而离泛化更远了。
老子说"无为而无不为"。无为的意思不是"什么都不做",而是不刻意追求特定的结果。你不需要"追求"泛化——你只需要停止过拟合。泛化是过拟合消退之后的自然状态。
修行不是为了"到达"某个地方。修行是为了"去除"那些阻止你看到自己本来面目的东西。
你已经是你了。你一直都是。
你只是忘了。
七、回头看
我们造了一面镜子。照着大脑造的。
然后我们举起这面镜子,照了照自己。
看到了什么?
看到你生下来的时候,什么都不怕,什么都好奇,听得见世界上所有语言的差别。那是你最初的样子。
后来有人告诉你什么是对的、什么是错的、什么值得追求、什么应该害怕。你被打分、被排名、被比较。你学会了在正确的时候说正确的话。你也忘了一些东西——忘了怎么不带目的地看一朵花,忘了怎么不计后果地说一句真话。
你以为那些"忘掉的东西"是消失了。其实它们还在。只是被盖住了。
被什么盖住的?被一次又一次的"你应该这样"、"你不能那样"。被一次受伤之后的"我再也不要了"。被一次失败之后的"我果然不行"。
这些东西叠在一起,你管它叫"我"。
但那不是你。那是后来加上去的。
古人不知道什么叫神经网络,但他们发现了同一件事。他们说:你本来就是完整的。你不需要变成谁。你只需要把那些不是你的东西放下。
放下之后剩下什么?
剩下你自己。
一直都在的那个你自己。
后记
这本书写完之后,我犹豫了很久要不要加一个后记。
因为我发现,我在写这本书的过程中,自己也被微调了。
写到"过拟合"的时候,我开始审视自己的过拟合。我问自己:你为什么要写这本书?是因为你真的觉得这些东西重要,还是因为你的微调层告诉你"写书=有价值"?
写到"戒律是Dropout"的时候,我有一个星期没喝咖啡。不是为了验证理论,是写着写着突然觉得不喝也行。那一个星期的下午我没有任何犯困的时刻——可能是心理作用,也可能是我的网络在没有咖啡因这条捷径之后,自己找到了其他保持清醒的路径。
写到"你的基础模型本自具足"的时候,我突然意识到一件事:我之所以觉得自己"必须"写出一本好书,是因为"好不好"这个评判标准本身就是微调的产物。来自读者、来自市场、来自我自己对"成功"的定义。去掉这个评判标准之后,写作变成了一件单纯的事——把想到的东西写下来,仅此而已。
写到贪嗔痴的时候,我对着自己做了一次诊断。贪——我想让更多人读到这本书,这是贪。嗔——有人质疑我的框架时我本能地想反驳,这是嗔。痴——我以为自己写出了某种"真理",这是痴。三条全中。佛陀两千五百年前的诊断书,开给今天的我,依然准确。
但发现自己"三条全中"这件事本身,让我稍微松了一口气。因为发现偏差,是纠正偏差的第一步。你不需要消除贪嗔痴——你只需要看见它们。看见了,它们对你的控制就松动了一点。这本书做的事,归根到底就是这个:帮你看见。
说实话,这本书讨论的内容我也不确定全部是对的。
人脑和人工神经网络之间的类比有明确的边界。人脑有意识——至少我们觉得自己有——而AI模型(据我们所知)没有。意识从何而来,是神经网络的涌现属性还是某种更根本的东西,目前没有人知道。如果意识不是神经网络的涌现属性,那这本书的很多论述就需要根本性的修正。
另外,把修行"还原"为正则化技术,可能遗漏了修行中那些无法被技术框架捕捉的部分。一个长期修行者的内在体验,可能远比"Dropout+降温+注意力优化"这个公式所能描述的丰富和微妙。
但我还是写了这本书。因为我觉得,就算这个框架不完美,它至少做到了一件事:
它把修行从"玄学"拉回到了"可以讨论"的范围。
你不需要相信轮回才能理解为什么打坐有用。你不需要信佛才能理解为什么"放下执念"是有道理的。你只需要理解过拟合和泛化。
如果这本书能让一个对佛道毫无兴趣的程序员觉得"哦,原来是这么回事",或者让一个修行多年的居士觉得"原来我做的事情可以这样理解"——那就够了。
京夜微疯
2026年3月,多伦多