苏州智能体“苏零”登顶全球权威评测

朱琦柳丹丹 ☉ 文来源：苏报融媒 2025-04-29 @ 哈希力量

【人工摘要：GAIA是由国际顶尖团队联合打造的评测基准，用466道“魔鬼考题”模拟真实世界挑战，涵盖网页浏览与信息整合、多模态理解、代码执行与数据分析、文件处理及复杂的推理和任务规划。】

人工智能的下一个战场，正在从大模型迈向智能体——这项能自主决策、执行复杂任务的技术，被公认为颠覆生产力的革命性引擎。在这场全球竞速中，中国力量成功站上巅峰。4月23日，由苏州市人工智能重点实验室自主研发的“苏零”智能体在全球权威评测GAIA中一举登顶，截至记者发稿时，“苏零”仍保持第一。

智能体（Agent）是指能够感知环境并采取行动以实现特定目标的代理体，是大模型迈向真实世界应用的重要方向。它可以是软件、硬件或一个系统，具备自主性、适应性和交互能力。智能体通过感知环境中的变化（如通过传感器或数据输入），根据自身学习到的知识和算法进行判断和决策，进而执行动作以影响环境或达到预定的目标。

如果说大模型的智商测试是ChatGPT时代的“高考”，那么GAIA就是智能体技术的“奥林匹克”。GAIA是由国际顶尖团队联合打造的评测基准，用466道“魔鬼考题”模拟真实世界挑战，涵盖网页浏览与信息整合、多模态理解、代码执行与数据分析、文件处理及复杂的推理和任务规划。不同于其他聚焦于抽象模式识别的评测基准，GAIA更注重评估AI在真实世界任务中的表现，包括推理、多模态处理（文本、图像、音频）以及工具使用能力。

自2023年11月推出后，GAIA成为各大厂和创业公司争相竞逐的权威评测榜单，不断被刷新纪录。此次，“苏零”智能体凭借独特的多智能体协作与辩论机制、灵活的工具调用、自主决策和实时修正能力，以76.41%的准确率碾压一众国际选手。其中，在包含301个问题的测试集上，超越了微软、谷歌和硅谷AI独角兽公司H2O智能体等许多国际顶尖竞争对手。

苏州市人工智能重点实验室由苏州市政府联合苏州数智科技集团、中国科学技术大学苏州高研院等产学研龙头单位共建，是长三角区域首个以“人工智能+”为核心使命的创新平台。

（文章插图未收录。编辑：钱芳引力播新闻）

（苏报融媒记者朱琦通讯员柳丹丹/文）

来源链接文末附或略。内容并不代表投资建议。

本文选录后固定可引用URL链接

https://www.haxililiang.com/toutiao/kuaixun/37346.html

☉ 库存同一主题内容智能推荐 ☉

哈希力量 ☉ 文库精选修订稿阅读：