哈希力量归集文库路径访问: 首页 > 通用人工智能 > 人工智能产业要闻库

苏州智能体“苏零”登顶全球权威评测

朱琦 柳丹丹 ☉ 文 来源:苏报融媒 2025-04-29 @ 哈希力量

【小哈划重点:GAIA是由国际顶尖团队联合打造的评测基准,用466道“魔鬼考题”模拟真实世界挑战,涵盖网页浏览与信息整合、多模态理解、代码执行与数据分析、文件处理及复杂的推理和任务规划。】

人工智能的下一个战场,正在从大模型迈向智能体——这项能自主决策、执行复杂任务的技术,被公认为颠覆生产力的革命性引擎。在这场全球竞速中,中国力量成功站上巅峰。4月23日,由苏州市人工智能重点实验室自主研发的“苏零”智能体在全球权威评测GAIA中一举登顶,截至记者发稿时,“苏零”仍保持第一。gyW哈希力量 | 通用人工智能文库

智能体(Agent)是指能够感知环境并采取行动以实现特定目标的代理体,是大模型迈向真实世界应用的重要方向。它可以是软件、硬件或一个系统,具备自主性、适应性和交互能力。智能体通过感知环境中的变化(如通过传感器或数据输入),根据自身学习到的知识和算法进行判断和决策,进而执行动作以影响环境或达到预定的目标。gyW哈希力量 | 通用人工智能文库

如果说大模型的智商测试是ChatGPT时代的“高考”,那么GAIA就是智能体技术的“奥林匹克”。GAIA是由国际顶尖团队联合打造的评测基准,用466道“魔鬼考题”模拟真实世界挑战,涵盖网页浏览与信息整合、多模态理解、代码执行与数据分析、文件处理及复杂的推理和任务规划。不同于其他聚焦于抽象模式识别的评测基准,GAIA更注重评估AI在真实世界任务中的表现,包括推理、多模态处理(文本、图像、音频)以及工具使用能力。gyW哈希力量 | 通用人工智能文库

自2023年11月推出后,GAIA成为各大厂和创业公司争相竞逐的权威评测榜单,不断被刷新纪录。此次,“苏零”智能体凭借独特的多智能体协作与辩论机制、灵活的工具调用、自主决策和实时修正能力,以76.41%的准确率碾压一众国际选手。其中,在包含301个问题的测试集上,超越了微软、谷歌和硅谷AI独角兽公司H2O智能体等许多国际顶尖竞争对手。gyW哈希力量 | 通用人工智能文库

苏州市人工智能重点实验室由苏州市政府联合苏州数智科技集团、中国科学技术大学苏州高研院等产学研龙头单位共建,是长三角区域首个以“人工智能+”为核心使命的创新平台。gyW哈希力量 | 通用人工智能文库

(文章插图未收录。编辑:钱芳 引力播新闻)gyW哈希力量 | 通用人工智能文库

(苏报融媒记者 朱琦 通讯员 柳丹丹/文 )gyW哈希力量 | 通用人工智能文库



收录源追溯链接或暂略


本文收录后固定可引用URL链接
    http://www.haxililiang.com/toutiao/kuaixun/37346.html


☉ 文库同一主题内容智能推荐 ☉
哈希力量 ☉ 人机智能科普文库