晓睿商业分析|全网热议的Manus,实则是一场无比荒谬的炒作游戏

今天华语科技圈最火的新闻,莫过于全网刷屏的“全球首款通用Agent(自主智能体)产品,Manus。在许多媒体的口中,这款产品甚至被称为人类通往 AGI 时代的 GPT 时刻,又一个 DeepSeek 式的华人创业者的里程碑事件。


但是让人感到非常费解的是,在这些媒体口中如此“王炸”的 AI 突破,在海外几乎没有什么讨论,这与 DeepSeek 墙内开花墙外香,海外各路 AI 大神们甘当自来水疯狂吹爆的现象形成了巨大的反差;此外,更让人费解的是,大量科技媒体所引用的有关于这款产品的“实力”的论据,除了“在GAIA 测试中创下纪录”这一点可考之外,几乎都是这款产品官方自己发布的信息,并无很多第三方的验证。


于是乎,本着来都来了不深扒一下不合适吧的精神,我仔细研究了一下,发现了这里面的许多猫腻。请你一定耐心地看到最后。


先不论技术细节,许多科技媒体吹爆 Manus 的逻辑就站不住脚,甚至可以说是在偷换概念和过度包装。至于这是科技媒体的过度解读还是项目方自己的营销策略,这里无法判断,我仅从媒体报道的层面来分析这次事件。


这里先声明一下,这篇文章不是要和读者去掰扯技术细节,所以我会尽量用一些简单的比喻来帮助读者来理解一些晦涩难懂的技术概念。


大量媒体吹爆 Manus,基本都是基于下面这个王炸级的结论:


Manus在权威的GAIA基准测试中创下新纪录,性能远超OpenAI的同类产品。


这句话隐藏了什么逻辑链条呢? 意思是这样的:OpenAI 牛逼吧?那我在一个“权威的测试”里“超过 ”OpenAI,是不是就非常牛逼了?


好,首先来看一下这个 GAIA 是个什么权威测试,他到底权威不权威?


GAIA(General AI Assistants Benchmark)是由 Meta(FAIR 团队)、Hugging Face、AutoGPT 等机构联合推出的基准测试,旨在评估通用人工智能助手在现实世界任务中的综合能力。其官方定义为:


“一个通过现实问题测试 AI 助手核心能力的基准,如果被解决,将代表人工智能研究的里程碑。”


嗯,各种 Big Name(知名机构),看着还挺靠谱的。


再来看看这个测试的内容,这个测试覆盖 466 个任务,分三级难度(Level 1-3),从查天气(基础)、分析 PDF(中级)到调用 API 生成股票报告(高级),模拟真实职场需求。如果做个类比,就相当于是你考驾照一样,既有驾驶的理论知识又要上路进行路考。只不过考试对象从人换成了AI 应用。


到目前为止,这个故事是站得住脚的。但是再深挖下去,事情就不对劲儿了。


众多媒体报道,“GAIA基准测试中取得了SOTA(State-of-the-Art)的成绩,显示其性能超越OpenAI的同类产品。” 


这个逻辑就属于有点扯淡了。


Manus 在 GAIA 测试中以 86.5% 准确率超越 OpenAI 的 DeepResearch(74.3%)这点数据是没错的,但是仅凭这一点就笼统地说“超越”是很有问题的。


首先,GAIA 的核心是评估 AI 解决“现实世界任务”的“执行力”,而非综合能力。其任务设计偏向办公自动化(如筛选简历、分析 PDF、调用 API 生成报告),但对多模态生成(如视频创作)、开放式推理(如哲学辩论)等能力未充分覆盖。GAIA 中 Manus 的 86.5% 准确率主要体现在任务拆解和工具调用,而 OpenAI 的 GPT-4 在 MMLU(综合知识测试)等基准中仍保持领先。


所以,笼统地说Manus性能超越OpenAI的同层次大模型,这就好比你说,一个天天做五年高考三年模拟把高中物理题目都研究透了的高中学霸,在物理学方面的造诣全面超越藤校博士一样奇怪。


其次,Manus 是多智能体协作系统(整合 Claude-3.5、Qwen-72B 等模型),而 OpenAI 的参比对象是单一模型(如 DeepResearch)。


这句话翻译过来的意思就是,Manus 干的事儿是让“最合适的模型”去干“最擅长的事儿”,本质上是个解决方案,而 OpenAI人家是个百科全书。


一个字,这俩玩意儿压根就不是同一类东西。就像足球比赛一样,要比你也是球队和球队比,没听说过拿一支球队去和一个教练去比的。


最后,关于 Manus 的宣传,许多媒体的报道刻意隐藏了在Manus 在GAIA 测试中对自己不利的数据,并且在宣传中存在与事实明显不符的“虚假宣传”。


媒体现在宣传,都是说 Manus 在GAIA测试的 86.5% 准确率(接近人类 92%),但是其实这只是 Level 1 的准确度,但在 GAIA Level 3(复杂任务)中取得了57.7% 准确率的这个数据确少有提及。这种 “扬长避短”的宣传对公众是一个极大的误导。


这就好比,一个考驾照的人,科目一高分通过,但是科目三刚刚及格。连驾照还没拿到呢,就到处说自己就是新一代秋名山车神了。


Manus的技术白皮书强调“少结构、多智能”,但有开发者发现其代码库包含 12,000+ 条业务规则约束(如金融审计红线),疑似通过规则工程转移针对性优化GAIA 题库,导致测试成绩与实际泛化能力脱钩。


这句话翻译一下就是,项目方自己说这位同学很聪明,智商很高,没怎么做模拟题和真题,就是智商高,所以在这次考试中取得了高分。但是实际情况是,这位同学针对这次考试做了大量的模拟练习和针对性训练,所以考试成绩不足以充分反映智商高低。


我知道这是一个需要民族自信心的时代,也是一个中国人扬眉吐气的时代,就像DeepSeek 横空出世之后,获得国内外的一致好评一样,圈里朋友开玩笑说,所谓中美 AI 的对决,其实就是“在中国搞 AI的中国人”和“在美国搞 AI的中国人”之间的对决。同样作为华人创业者的我,也从心里期待着华人的 AI 产品能真正凭实力站在世界的巅峰,就像 DeepSeek 一样。


但是,我极其反感的是有些无良媒体,为了一些众所周知的目的,误导大众,如果放任这种玩法搞下去,那最终臭掉的就是整个华人创业者的形象。优秀的产品,一定靠的是实打实的硬功夫,而不是靠偷换概念指鹿为马。


ChatGPT之所以被封神,是因为它开启了生成式 AI 的时代;DeepSeek 之所以被称为一个“伟大的里程碑”,是因为它在模型层极大地降低了成本并通过开源的方式让技术普惠。我并不否认Manus本身在具体应用场景上取得进步,但是到底有何底气和实力被尊为“AI 智能体时代的GPT”?


炒作,还是要有点底线。


说句题外话,建议你不要用 AI 模型去提问“Manus 是不是炒作”,答案都会告诉你不是,因为AI的答案来源,现在(至少是今天)是铺天盖地吹爆 Manus 的营销号。


我突然觉得,AI时代最可怕的事情,不是AI 取代人类的工作,而是 AI 说的话取代了真相,而我们又对此深信不疑。


就像过去,人们崇拜所谓全知全能的先知一样;如今,AI 在许多人眼里,又何尝不是一个全知全能的“神”呢?



文章来自微信公众号 “ 麦晓睿进化论 “,作者 麦晓睿Michael



晓睿商业洞察|全网吹爆的Manus,其实是一场可笑至极的炒作

发表评论