GAIA 基准测试表现

tasmih1234 · Post by **tasmih1234** » Thu Apr 17, 2025 9:23 am

Manus AI 声称其在 GAIA 基准测试中取得了最佳表现。GAIA 基准测试是由 Meta AI、Hugging Face 和 AutoGPT 团队推出的一项严格标准，用于评估现实世界中 AI 的任务解决能力 ( Arxiv )。GAIA 基准测试的得分尤其具有说服力：

人类基线：92%
带插件的 GPT-4：15%
OpenAI的深度研究：67.36%
h2oGPTe剂：65%
虽然 Manus AI 的具体得分尚未公布，但可靠的行业洞察表明，它超越了 h2oGPTe Agent 和 OpenAI 的 Deep Research（比较分析），使其成为 AI 代理领域的领先竞争者。江晨（ X post ）等早期测试用户的评价凸显了 Manus AI 在自主规划和任务执行方面令人印象深刻的能力。然而，一些用户也报告了偶尔出现的错误和无限循环（TechCrunch），这表明仍有改进空间。

市场影响和炒作
Manus AI 的炒作尤为引人注目，其邀请码在黑市上的价格之高尤为引人洪都拉斯电话号码列表注目，这些邀请码的售价约为 14,000 美元（hybrid-rituals.com）。如此高的估值凸显了市场对这款 AI 代理的浓厚兴趣和兴奋之情。

在推出后的几天内，Manus AI 的官方 Discord 社区就吸引了超过 138,000 名成员，彰显了其卓越的市场渗透力和公众的好奇心。

社交媒体渠道，尤其是 X（以前称为 Twitter），极大地促进了这一热议，讨论经常将 Manus AI 的影响与 DeepSeek 等其他著名的中国人工智能发展的影响进行比较（《新闻周刊》）。

然而，Manus AI 的迅速崛起并非没有争议。人们对其准确性、可靠性和早期故障的担忧，以及导致其官方 X 账号被暂时封禁的政策违规行为，都表明尽管 Manus AI 潜力巨大，但它仍面临严格审查。