《科技参考》学习笔记（11）：大语言模型时代面临危机

2025年12月11日

·

大语言模型的技术驱动基础在于强化学习。强化学习的基础要素就是测试集和训练集，2023年之前，预训练和后训练分别占全部训练算力的99%和1%。那1%的后训练用强化学习训练是必要的。但是，到今天为止，后训练所占算力占比已经等于甚至略超过预训练算力。

英伟达股价飙升不是没有原因的，因为如果从头开发一个大模型，几十万张的H100只是开始，各家大模型公司竞争谁能用更多的GPU，谁能拥有更多的电力资源，谁就有可能在过拟合的竞争中获得现金地位。

明眼人都看得出来，如果没有新的算法，那么当前我们的大语言模型性能提升已经到头，应当做的就是产品化而不是别的什么。

大模型真正的危机

大模型目前真正的危机就是场景上所犯的低级错误，也就是他们自动生成一些答案。

比如在查找文献的时候，如果没有仔细训练，它会给你生成许多“伪文献”。

另外，训练的目的是知识结构更条分缕析地联系在⼀起。然而，强化学习做后训练。开发者需要设计任务、设计环境、设计反馈信号，这就涉及到选哪些任务、选哪些环境。在不同程度上把模型训练成⼀个只会参赛和考试的选⼿，⽽我们真正需要的，也就是能⼒上的泛化、不要在常识上犯低级错误。

你让他输出⼀段代码，然后你看出bug了，让他改，他改完了，第⼀个bug没有了，但⼜冒出了第⼆个bug，然后你继续让他把第⼆个bug改掉，改完⼀看，第⼆个bug没有了，第⼀个bug⼜出现了。然后你说：“我不是刚提醒你第⼀个bug了吗？你怎么在错误⾥反复横跳呢？”

这种事，根本不需要很顶尖的程序员，在⼀个合格的⼈类程序员身上也是不会出现的。但当下激烈竞争的⼤语⾔模型就会是这样。可是，这些表现在基准测试的成绩表⾥是根本不会体现出来的。

如果说仍然一切交给大模型，那么很多bug自然而然会导致很多问题。人，仍然是不可或缺的。而大模型仍然是要处在辅助地位。那些敢于裁掉技术岗位而换上大模型的经理，最终会吃“经验不足”的亏。

所以，在AI时代，人最大的优势又多了一项：经验。