大语言模型的技术驱动基础在于强化学习。强化学习的基础要素就是测试集和训练集,2023年之前,预训练和后训练分别占全部训练算力的99%和1%。那1%的后训练用强化学习训练是必要的。但是,到今天为止,后训练所占算力占比已经等于甚至略超过预训练算力。
英伟达股价飙升不是没有原因的,因为如果从头开发一个大模型,几十万张的H100只是开始,各家大模型公司竞争谁能用更多的GPU,谁能拥有更多的电力资源,谁就有可能在过拟合的竞争中获得现金地位。
明眼人都看得出来,如果没有新的算法, 那么当前我们的大语言模型性能提升已经到头,应当做的就是产品化而不是别的什么。
大模型真正的危机
大模型目前真正的危机就是场景上所犯的低级错误,也就是他们自动生成一些答案。
比如在查找文献的时候,如果没有仔细训练,它会给你生成许多“伪文献”。
另外,训练的目的是知识结构更条分缕析地联系在⼀起。然而,强化学习做后训练。开发者需要设计任务、设计环境、设计反馈信号,这就涉及到选哪些任务、选哪些环境。在不同程度上把模型训练成⼀个只会参赛和考试的选⼿,⽽我们真正需要的,也就是能⼒上的泛化、不要在常识上犯低级错误。
你让他输出⼀段代码,然后你看出bug了,让他改,他改完了,第⼀个bug没有了,但⼜冒出了第⼆个bug,然后你继续让他把第⼆个bug改掉,改完⼀看,第⼆个bug没有了,第⼀个bug⼜出现了。然后你说:“我不是刚提醒你第⼀个bug了吗?你怎么在错误⾥反复横跳呢?”
这种事,根本不需要很顶尖的程序员,在⼀个合格的⼈类程序员身上也是不会出现的。但当下激烈竞争的⼤语⾔模型就会是这样。可是,这些表现在基准测试的成绩表⾥是根本不会体现出来的。
思考:关键的决策者还是在人
如果说仍然一切交给大模型,那么很多bug自然而然会导致很多问题。人,仍然是不可或缺的。而大模型仍然是要处在辅助地位。那些敢于裁掉技术岗位而换上大模型的经理,最终会吃“经验不足”的亏。
所以,在AI时代,人最大的优势又多了一项:经验。

发表回复