为什么基座大模型的智能被大大高估？我们感觉大模型很聪明，啥都懂。最近大进步是，幻

为什么基座大模型的智能被大大高估？

我们感觉大模型很聪明，啥都懂。最近大进步是，幻觉越来越少，会反复搜索，还会验证信息。

其实，即使是最简单的聊天，我们都不是和大模型直接沟通。只有API调用是，一般人接触的是“编排”程序。如聊天，就是非常复杂的程序，组织搜索才能幻觉很少。和大模型API聊很不对劲，记忆都没有，没搜索幻觉无数。一个常识是，现在我们聊，都会有一堆背景知识输入给基座大模型，才能不幻觉。

大模型开发者搞的非常复杂的“编排”，以及后训练，才是智能的核心。例如Claude Code的源代码泄露了，就可以看出为了调用Claude Opus基座大模型，编排复杂到了什么程度。光有Claude Opus 4.8，编程根本不行。

大模型应用感觉不错，这并不是说基座大模型厉害，实际缺陷严重，只是一个工具。

我用一个例子来说明，为什么基座大模型，智能并不高。

把基座大模型理解为，包含人类全部知识的100万本书当训练语料，预训练的结果。语料有10-20万亿token，而大模型系数是1000亿-1万亿规模，相当于压缩存储。

开发一个简单聊天程序，看了人的话，就到那100万本书中挑一段能接上的输出。这个“念书程序”，传统的向量文本匹配技术就行，没有任何智能。一些人觉得这程序能接上话，以为它什么都懂。但很快就露馅了。

基座大模型也是检索匹配，但基于概率算token之间的关系，不是机械念书。它这念一段，那念一段，不是原样复述有改写，可以把这个叫“高级念书程序”。它实际不懂在聊什么，只是找合适的词念经一样输出，佛教的念佛经，道教的念道经。开发者把概率选择固定，它对同样的输入输出还会一样。

高级念书是智能么？有争议。它对100万本书有理解，在数据结构里，是固定的系数组合。人类大脑表面上类似，神经网络互联连接，但要复杂强大得多。有记忆，能接受物理输入，能指挥手脚行动，很灵活。这些基座大模型都没有，结构很简单，就是对token知识有了一个死的“理解”。

预训练结束后，基座大模型的理解其实很差。2020年GPT3，外界基本不知道，只有圈内少数人觉得“有点什么”。它唯一的手段是“预测下一个token”，强行弄出了一个理解结构，不可能很对。有时感觉“这段话说得还不错，像智能”，但很多话就是形式主义，看多了知道是弱智。如果基座大模型就是这个能力，没有人会认为它是大突破，真会被认为是“高级念书”程序。聊一阵子就能看穿本质，根本不智能。

真正让人们感觉不错的，是“后训练”。人和大模型聊，不对就改进系数，改进多了人就满意了。人聊太慢，训练模仿人类对聊天满意度的打分器，机器聊自动打分。这就是RLHF，人类反馈的强化学习。基座大模型只知道这样输出人会满意，不知道原因。有时知识结构理解不对，也会改进。不断改进，人类就基本满意了，有ChatGPT的水平了。

再之后就有更多离奇的“后训练”，脱离了常规思维，是一些工程化套路明显的训练。如“tool”，训练大模型给出工具选择，一般人不会去学这些东西。很多专门技术能都去后训练，上百种，主要算力搞后训练了。有些训练很不自然，是为了干agent之类的活。例如看几百万个程序代码，还去实际跑看结果，这样学编程。人类没体力去这样学，编程不行能解释。

这种“非人类”的学习很多，最后大模型学会了不少本事。以前简单模型也能学会认字符、下棋等单一本事。基座大模型规模大，学了一堆本事，后训练一个个教。也有学不会的，如“数数”学不会，原理限制。

基座大模型是“高级念书”+“工具技能”的组合。单一技能都是以前的技术可以想象的，但都组合进来了。所有技能有统一特征：对token输入给出token输出。神经网络训练框架可以理解，只是以前搞这么大规模没算力。这条路线是技术发展的自然结果。

人类开发者除了后训练，还开发了厉害的编排程序。用多了大模型，再明白技术原理，许多应用案例都能看出人类开发者的智慧。基座大模型的智能被大大高估，还是人类智能厉害，大模型是实现人类开发者的意图，是个程序。