《科技参考》学习笔记（10）：从豆包手机看到手机Agent

2025年12月8日

·

豆包手机的技术本质是什么？实际上就是利用多模态大语言模型与手机助手的结合。

它的作用是什么：跨APP的联动操作。

但为什么以支付宝和微信代表的国民级应用抵制呢？

技术还不成熟

首先，大语言模型无法理解人类多样性的需求。在云计算上面的执行阶段都会出现各种低级错误。今天这些AI助⼿连具体操作上，还都是10次任务出3-4次错的⽔平。

其次，16GB的内存无法驱动大模型。GPT-5训练参数大到上万亿参数都无法满足。

更重要的是，大语言模型的上限就满足不了，现在急需科研人员开发下一代全新原理的模型。

现在的智能手机主要是打游戏、看剧、刷短视频等等，这些工作根本不需要豆包帮助操作。所以替代人的手指的需求强度其实是很弱的。

况且，今天激烈竞争的APP本来就接近最少点击次数的地步。现在必要性已经降到非常低了。

首先，广告抵制。很多APP开屏广告，中间跳转广告都有利益。

其次，用户抵制。当助手代替人做决策，肯定会出现问题。

2025年是AI Agent的元年。确实，今天那些编程表现顺滑、表现特别好的AI⼯具，实际都是在Agent上做得⾮常出⾊的。

AI Agent要搞好的话，那要调⽤的⽬标，还是要把它放在⾏业软件、⼲重体⼒活的那种软件，然后把这些软件怎么⽤给训练明⽩了。