豆包手机的技术本质是什么?实际上就是利用多模态大语言模型与手机助手的结合。
它的作用是什么:跨APP的联动操作。
但为什么以支付宝和微信代表的国民级应用抵制呢?
技术还不成熟
首先,大语言模型无法理解人类多样性的需求。在云计算上面的执行阶段都会出现各种低级错误。今天这些AI助⼿连具体操作上,还都是10次任务出3-4次错的⽔平。
其次,16GB的内存无法驱动大模型。GPT-5训练参数大到上万亿参数都无法满足。
更重要的是,大语言模型的上限就满足不了,现在急需科研人员开发下一代全新原理的模型。
产品功能需求不强
现在的智能手机主要是打游戏、看剧、刷短视频等等,这些工作根本不需要豆包帮助操作。所以替代人的手指的需求强度其实是很弱的。
况且,今天激烈竞争的APP本来就接近最少点击次数的地步。现在必要性已经降到非常低了。
多方抵制
首先,广告抵制。很多APP开屏广告,中间跳转广告都有利益。
其次,用户抵制。当助手代替人做决策,肯定会出现问题。
2025年是AI Agent的元年。确实,今天那些编程表现顺滑、表现特别好的AI⼯具,实际都是在Agent上做得⾮常出⾊的。
AI Agent要搞好的话,那要调⽤的⽬标,还是要把它放在⾏业软件、⼲重体⼒活的那种软件,然后把这些软件怎么⽤给训练明⽩了。

发表回复