《科技参考》学习笔记(8):大模型创造假消息的罪魁祸首——强化学习

·

,

前段时间,我的一个同门师弟让我帮忙查找他人委托的文献查询。他告诉我,花了一个下午也没有找到。我乍一眼看:这不妥妥的某大模型平台胡编乱造的吗?

恰巧,最近一段时间某些省份的“十五五规划建议”出来,我也大体看了一眼,不看不知道,一看有门道。

因地制宜发展低空经济、商业航天、生物制造、生成式人工智能、机器人等产业。实施新技术新产品新场景大规模示范行动,加快新兴产业集群式规模化发展。

生成式人工智能如果在大规模应用,背后除了幻觉可怎么办?

但是今天我不想说这个现象,我只想知道大模型底层的驱动技术到底是什么。就是强化学习。

强化学习是如何开展的?

强化学习用于推理。也就是先要预训练,通过投喂各种数据样本,然后盖住其中的一些元素让它猜,猜对了就给奖励。

第二步:奖励反馈调整。对应模型训练时,就是不断把奖励信号返回给模型,然后调整模型中上千亿个参数的具体值。

第三步:当强化学习能够通畅表达一段话,代表了他学会了相当丰富的知识。

第四步:近端策略优化。

大模型胡编乱造的部分

预训练

大模型的续写规则是这样的。

比如说我们问:“内蒙古自治区的首府在哪儿?”今天客观上的正确答案是呼和浩特。

但是呼和浩特成为内蒙古自治区的首府是在1954年才确定的。所以在预训练过程中可能提到的就是之前的首府乌兰浩特。“呼和浩特”作为最终答案只不过是在概率上有所胜出。

还有一些答案是张家口。这是因为在1949年,为了更好地推进绥远起义,以及考虑到与关内地区的联系便利性,首府的位置再次发生了变化,从乌兰浩特迁至张家口。

所以当你的问题中有“首府”的时候,其实有一定概率也将这些名字作为答案输出。因为续写规则里面,下一个字是什么,都是在概率列表中按照概率选择出来的。

PPO的奖励

之所以说大模型或者强化学习的黑盒,通俗理解就是模型思考过程中需要有一个打分机制,就是针对输出结果给一个优劣的排序。至于怎么思考的:这是在一个草稿纸上的思考过程,你看不见,也没有任何教学过程指导它如何思考,如何打草稿。

所以,确实思考后生成的很好答案,也可能是通过错误方式进行正确答案。

例如在一个地方应该用加法它用了减法,只不过是继续推演之后,应该用减法的时候它用了加法。只不过是加减法是相同的值。比如先加3,后减3.

结果虽然对了,但是它记住了犯两个错误的处理方式。之后面对类似问题的时候,还会延续这种犯两次错误的方式。所以就会得到一个错的比较离谱的答案,模型又特别自信的给出结果。

这就是PPO训练带来的幻觉。

GRPO训练

这是一个更加高级、隐晦、难以察觉到底幻觉。

模型训练过程中为了得到高分答案,会在思考过程中编造一些条件,把这些条件作为中间步骤帮助思考,从而推导出高分答案。

比如:训练任务是关于“XX理工学院是国内顶尖大学的确凿证据是什么?”

有的时候,这个结论是不成立的,但是模型会根据自己的需要创造条件,通过内部装的知识库,模仿参考文献的书写方式和DOI号,给你列出几篇从题目上一看就很契合的论文标题,再把格式和超链接生成出来。

这就是欺骗打分模型的关键。

可能的改变方式

如果能够训练出专家型的非标量化的打分模型,那么推理模型的幻觉就会大大减弱。这也是我们应该去攻克这一打分模型搭建的一个问题。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注