《科技参考》学习笔记(12):AI出现1000天后确定性变化

·

,

2023年2月,GPT-3.5升级之后变得好用起来。事后发现实际是因为出现了人类反馈强化学习(Reinforcement Learning of Human Feedback, RLHF)。

这种组合可以简记为:人主导科研方向,规划实验框架。AI作为工具,判别研究对象可数据化的部分,理解数据分布规律后进行发展。

现在有些人提出来,通用人工智能已经可以实现一些功能,并且马上就要替代人了。但是卓克老师在分析之后,发现在1000天内,没有这个必要。

确定性因素:AI仍然会沿着强化学习的轨迹发展

强化学习的本质,就是让AI不断试错,学会技能。而不是规则式、条件式的指令教会AI某些技能。

强化学习中没有什么规则和条件触发的命令。

对强化学习的误解

1、只要让AI胡乱点击⿏标、敲击键盘,就可以通过训练获得奖励,就能让AI⾃⼰找到恰当的参数,训练出⼀个好模型,学会完成任何复杂的任务,玩游戏、翻译、计算、分析、推理。

本质:如果这么做,相当于把AI扔进了一个奖励信号过于稀疏的环境。而只有当奖励信号密度恰当,训练才能出成果。事实上,在⼀个领域狭窄、规则清晰的有限空间⾥寻找优质答案,强化学习的效果往往不错。

强化学习的弱点

1、不要让AI大模型帮你解数学题目。

人类在面对数学问题的时候,从入手就有一个相当复杂的审查过程,评估出哪部分做得好,哪部分做不好。解决路径往往只筛选到几种。目前任何大语言模型都不具备。

在思考问题的监督上,“自动化”是不可能实现的。解题思路可行与否的评估是一事一议,无法自动化。只要不能自动化,这个方法就没办法大规模化。

强化学习的强项

如果被训练的模型本身已经具备了⼀定的基础知识(也就是完成了预训练),那么它在经过强化学习之后,展现出的能⼒上限是可以远超过⼈类的,就像今天AI下围棋秒杀全⼈类⼀样,能⼒下限也可以摸到⼈类前1‰的⽔平。

目前,代码撰写、电路设计、药物设计、医学影像解读、个性化教育、交通能源电力调度、量化交易等可以。

需要注意的是:代码编写方面,LLM顶对只是一个强大的效率工具,它距离创造性独立完成工作还很远。

之后的发展趋势

在对⻬⼈类价值⽅⾯,从早期的RLHF发展出了DPO/IPO/ORPO/RLAIF;

在推理功能上,从早期的SFT更新到了CoT,并且把强化学习引⼊其中;

在参数规模太⼤后,为了节省算⼒设计出了MoE,⽽MoE⼜分叉出通⽤专家、跨任务专家;

在上下⽂⻓度受限后,出现了KV缓存压缩、RAG、真⻓上下⽂训练等等⽅法;

在多模态⽅⾯,从早期ASR,到后来训练出端到端语⾔视听模型、专⽤感知器等等技术;

在多⼯具调⽤⽅⾯,从各种插件和函数各⾃为政,变成了今天由MCP协议统⼀调度的各种agent;

从训练数据的采集到⾃博弈⽣成难样本,从早期笨重的FP32数据格式到今天INT4/8硬件友好的格式,从CUDA软件到万卡协同的时候,光互联接⼝。甚⾄在⼤语⾔模型这个最⼤的基本盘外,还有SSM/Mamba这类线性注意⼒机制、显示记忆等等完全不同的模型构架等着挑战当下的王者。

2026的启示

1、不要再局限在具体代码编写和操作上花更多时间,而是要转移到理解任务框架上。

2、要意识到预训练过的大语言模型的知识面远超过人。当它在答案中把你从未意识到相关的内容连在⼀起时,你会产⽣⼀种⻅到了“知识之神”的错觉,你真的以为⼤语⾔模型会分析、能推理,实际并没有。但是,一个人不被替代的两个必要条件就是(1)越熟练掌握数学工具,越有信心;(2)相信万物都有规律、规律具有普遍性。所以,只要掌握问题的输入、约束条件、目标、衡量结果的方法搞清楚,就相当于把问题建模了,把握了大框架。

3、最复杂的代码如何写,最过硬的证据是哪个研究,这些从前最需要分析和查询能力才能解决的具体难点,将由LLM和RL训练出来的AI帮人类解决。

4、决定个⼈差异的将是谁先养成了把问题说清的能⼒。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注