《科技参考》学习笔记（12）：AI出现1000天后确定性变化

2026年1月3日

·

科技参考, 金融商业

吴, 查鲤

2023年2月，GPT-3.5升级之后变得好用起来。事后发现实际是因为出现了人类反馈强化学习（Reinforcement Learning of Human Feedback， RLHF）。

2025年，AI工具深度参与到了科研中。科研人员利用AI工具分析出了研究对象可以数据化的部分，理解了数据分布规律之后，捞出了一些当下就能产生实际功效的成果。

这种组合可以简记为：人主导科研方向，规划实验框架。AI作为工具，判别研究对象可数据化的部分，理解数据分布规律后进行发展。

现在有些人提出来，通用人工智能已经可以实现一些功能，并且马上就要替代人了。但是卓克老师在分析之后，发现在1000天内，没有这个必要。

确定性因素：AI仍然会沿着强化学习的轨迹发展

强化学习的本质，就是让AI不断试错，学会技能。而不是规则式、条件式的指令教会AI某些技能。

强化学习中没有什么规则和条件触发的命令。

对强化学习的误解

1、只要让AI胡乱点击⿏标、敲击键盘，就可以通过训练获得奖励，就能让AI⾃⼰找到恰当的参数，训练出⼀个好模型，学会完成任何复杂的任务，玩游戏、翻译、计算、分析、推理。

本质：如果这么做，相当于把AI扔进了一个奖励信号过于稀疏的环境。而只有当奖励信号密度恰当，训练才能出成果。事实上，在⼀个领域狭窄、规则清晰的有限空间⾥寻找优质答案，强化学习的效果往往不错。

强化学习的弱点

1、不要让AI大模型帮你解数学题目。

人类在面对数学问题的时候，从入手就有一个相当复杂的审查过程，评估出哪部分做得好，哪部分做不好。解决路径往往只筛选到几种。目前任何大语言模型都不具备。

在思考问题的监督上，“自动化”是不可能实现的。解题思路可行与否的评估是一事一议，无法自动化。只要不能自动化，这个方法就没办法大规模化。

强化学习的强项

如果被训练的模型本身已经具备了⼀定的基础知识（也就是完成了预训练），那么它在经过强化学习之后，展现出的能⼒上限是可以远超过⼈类的，就像今天AI下围棋秒杀全⼈类⼀样，能⼒下限也可以摸到⼈类前1‰的⽔平。

目前，代码撰写、电路设计、药物设计、医学影像解读、个性化教育、交通能源电力调度、量化交易等可以。

需要注意的是：代码编写方面，LLM顶对只是一个强大的效率工具，它距离创造性独立完成工作还很远。

之后的发展趋势

在对⻬⼈类价值⽅⾯，从早期的RLHF发展出了DPO/IPO/ORPO/RLAIF；

在推理功能上，从早期的SFT更新到了CoT，并且把强化学习引⼊其中；

在参数规模太⼤后，为了节省算⼒设计出了MoE，⽽MoE⼜分叉出通⽤专家、跨任务专家；

在上下⽂⻓度受限后，出现了KV缓存压缩、RAG、真⻓上下⽂训练等等⽅法；

在多模态⽅⾯，从早期ASR，到后来训练出端到端语⾔视听模型、专⽤感知器等等技术；

在多⼯具调⽤⽅⾯，从各种插件和函数各⾃为政，变成了今天由MCP协议统⼀调度的各种agent；

从训练数据的采集到⾃博弈⽣成难样本，从早期笨重的FP32数据格式到今天INT4/8硬件友好的格式，从CUDA软件到万卡协同的时候，光互联接⼝。甚⾄在⼤语⾔模型这个最⼤的基本盘外，还有SSM/Mamba这类线性注意⼒机制、显示记忆等等完全不同的模型构架等着挑战当下的王者。

2026的启示

1、不要再局限在具体代码编写和操作上花更多时间，而是要转移到理解任务框架上。

2、要意识到预训练过的大语言模型的知识面远超过人。当它在答案中把你从未意识到相关的内容连在⼀起时，你会产⽣⼀种⻅到了“知识之神”的错觉，你真的以为⼤语⾔模型会分析、能推理，实际并没有。但是，一个人不被替代的两个必要条件就是（1）越熟练掌握数学工具，越有信心；（2）相信万物都有规律、规律具有普遍性。所以，只要掌握问题的输入、约束条件、目标、衡量结果的方法搞清楚，就相当于把问题建模了，把握了大框架。

3、最复杂的代码如何写，最过硬的证据是哪个研究，这些从前最需要分析和查询能力才能解决的具体难点，将由LLM和RL训练出来的AI帮人类解决。

4、决定个⼈差异的将是谁先养成了把问题说清的能⼒。

2026科技参考人工智能卓克科技参考

《科技参考》学习笔记（12）：AI出现1000天后确定性变化

确定性因素：AI仍然会沿着强化学习的轨迹发展

对强化学习的误解

强化学习的弱点

强化学习的强项

之后的发展趋势

2026的启示

其他文章

在迷茫的泥沼中，紧握那根名为“学习”的稻草

《情绪觉知100讲》学习笔记（60）：拖延有积极意义吗？

《资治通鉴》学习笔记（212）：外丧师于西域，内铸斗以欺天

《科技参考》学习笔记（14）：如何从大语言模型对话中寻找交往的技巧

评论

发表回复取消回复

《科技参考》学习笔记（12）：AI出现1000天后确定性变化

确定性因素：AI仍然会沿着强化学习的轨迹发展

对强化学习的误解

强化学习的弱点

强化学习的强项

之后的发展趋势

2026的启示

其他文章

在迷茫的泥沼中，紧握那根名为“学习”的稻草

《情绪觉知100讲》学习笔记（60）：拖延有积极意义吗？

《资治通鉴》学习笔记（212）：外丧师于西域，内铸斗以欺天

《科技参考》学习笔记（14）：如何从大语言模型对话中寻找交往的技巧

评论

发表回复 取消回复

发表回复取消回复