2023年2月,GPT-3.5升级之后变得好用起来。事后发现实际是因为出现了人类反馈强化学习(Reinforcement Learning of Human Feedback, RLHF)。
2025年,AI工具深度参与到了科研中。科研人员利用AI工具分析出了研究对象可以数据化的部分,理解了数据分布规律之后,捞出了一些当下就能产生实际功效的成果。
这种组合可以简记为:人主导科研方向,规划实验框架。AI作为工具,判别研究对象可数据化的部分,理解数据分布规律后进行发展。
现在有些人提出来,通用人工智能已经可以实现一些功能,并且马上就要替代人了。但是卓克老师在分析之后,发现在1000天内,没有这个必要。
确定性因素:AI仍然会沿着强化学习的轨迹发展
强化学习的本质,就是让AI不断试错,学会技能。而不是规则式、条件式的指令教会AI某些技能。
强化学习中没有什么规则和条件触发的命令。
对强化学习的误解
1、只要让AI胡乱点击⿏标、敲击键盘,就可以通过训练获得奖励,就能让AI⾃⼰找到恰当的参数,训练出⼀个好模型,学会完成任何复杂的任务,玩游戏、翻译、计算、分析、推理。
本质:如果这么做,相当于把AI扔进了一个奖励信号过于稀疏的环境。而只有当奖励信号密度恰当,训练才能出成果。事实上,在⼀个领域狭窄、规则清晰的有限空间⾥寻找优质答案,强化学习的效果往往不错。
强化学习的弱点
1、不要让AI大模型帮你解数学题目。
人类在面对数学问题的时候,从入手就有一个相当复杂的审查过程,评估出哪部分做得好,哪部分做不好。解决路径往往只筛选到几种。目前任何大语言模型都不具备。
在思考问题的监督上,“自动化”是不可能实现的。解题思路可行与否的评估是一事一议,无法自动化。只要不能自动化,这个方法就没办法大规模化。
强化学习的强项
如果被训练的模型本身已经具备了⼀定的基础知识(也就是完成了预训练),那么它在经过强化学习之后,展现出的能⼒上限是可以远超过⼈类的,就像今天AI下围棋秒杀全⼈类⼀样,能⼒下限也可以摸到⼈类前1‰的⽔平。
目前,代码撰写、电路设计、药物设计、医学影像解读、个性化教育、交通能源电力调度、量化交易等可以。
需要注意的是:代码编写方面,LLM顶对只是一个强大的效率工具,它距离创造性独立完成工作还很远。
之后的发展趋势
在对⻬⼈类价值⽅⾯,从早期的RLHF发展出了DPO/IPO/ORPO/RLAIF;
在推理功能上,从早期的SFT更新到了CoT,并且把强化学习引⼊其中;
在参数规模太⼤后,为了节省算⼒设计出了MoE,⽽MoE⼜分叉出通⽤专家、跨任务专家;
在上下⽂⻓度受限后,出现了KV缓存压缩、RAG、真⻓上下⽂训练等等⽅法;
在多模态⽅⾯,从早期ASR,到后来训练出端到端语⾔视听模型、专⽤感知器等等技术;
在多⼯具调⽤⽅⾯,从各种插件和函数各⾃为政,变成了今天由MCP协议统⼀调度的各种agent;
从训练数据的采集到⾃博弈⽣成难样本,从早期笨重的FP32数据格式到今天INT4/8硬件友好的格式,从CUDA软件到万卡协同的时候,光互联接⼝。甚⾄在⼤语⾔模型这个最⼤的基本盘外,还有SSM/Mamba这类线性注意⼒机制、显示记忆等等完全不同的模型构架等着挑战当下的王者。
2026的启示
1、不要再局限在具体代码编写和操作上花更多时间,而是要转移到理解任务框架上。
2、要意识到预训练过的大语言模型的知识面远超过人。当它在答案中把你从未意识到相关的内容连在⼀起时,你会产⽣⼀种⻅到了“知识之神”的错觉,你真的以为⼤语⾔模型会分析、能推理,实际并没有。但是,一个人不被替代的两个必要条件就是(1)越熟练掌握数学工具,越有信心;(2)相信万物都有规律、规律具有普遍性。所以,只要掌握问题的输入、约束条件、目标、衡量结果的方法搞清楚,就相当于把问题建模了,把握了大框架。
3、最复杂的代码如何写,最过硬的证据是哪个研究,这些从前最需要分析和查询能力才能解决的具体难点,将由LLM和RL训练出来的AI帮人类解决。
4、决定个⼈差异的将是谁先养成了把问题说清的能⼒。


发表回复