谷歌深夜炸场发布Gemini 2.0，2025属于智能体之年？

刘晓洁 ☉ 文来源：第一财经 2024-12-12 @ 哈希力量

【小哈划重点：模型之外，谷歌这次的重头戏是智能体。在发布产品的同时，谷歌CEO桑达尔·皮查伊（Sundar Pichai）在X上着重提到了智能体Project Astra，认为其“展示了通用AI助手的曙光”。】

“2025年将是令人兴奋的一年。”谷歌CEO皮查伊表示。

AI大厂的竞争日趋白热化，一边OpenAI正如火如荼进行着为期12天的产品发布活动，另一边谷歌也在频频放大招。

12月11日晚，刚刚发布量子芯片的谷歌，又投下一枚重磅炸弹，正式发布其最新版大模型Gemini 2.0系列，谷歌表示这是他们迄今为止最强大的人工智能模型，“专为智能体时代设计”，并同时介绍了多个智能体应用（AI Agent）。

如果说去年底发布的Gemini 1.0是整合和理解信息，那么Gemini 2.0是能够让信息更加有用。谷歌在博客中表示，基于此前多模态方面的进展，Gemini 2.0能够构建新的AI智能体，从而离通用助手的愿景更进一步。

目前谷歌完全对外开放的新模型是Gemini 2.0 Flash体验版，这是谷歌的主力模型，具有低延迟特性。与此前的1.5 Flash版本相比，Gemini 2.0 Flash在同样快速的响应时间下性能进一步增强。谷歌提到，2.0 Flash在关键基准测试中甚至超越了此前的旗舰模型1.5 Pro，其速度是1.5 Pro的两倍。

同时2.0Flash还具有新功能，除了能够支持图片、视频和音频等多模态输入，2.0 Flash可以支持多模态输出，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音（TTS）音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。

作为提供给开发者的体验版模型，Gemini 2.0 Flash现在可以通过Google AI Studio和Vertex AI中的Gemini API获取，所有开发者均可使用多模态输入和文本输出。该产品将于1月全面上市，谷歌称届时将推出更多型号。

对于Gemini 2.0模型，谷歌表示会先将开放给开发者以及受信任的测试人员，并将其整合到产品中。Gemini 2.0基于谷歌定制的硬件第六代TPU Trillium构建而成。谷歌表示，TPU为Gemini 2.0的训练和推理提供100%算力支持。

模型之外，谷歌这次的重头戏是智能体。在发布产品的同时，谷歌CEO桑达尔·皮查伊（Sundar Pichai）在X上着重提到了智能体Project Astra，认为其“展示了通用AI助手的曙光”。

皮查伊表示，“2025年将是令人兴奋的一年。”帖子下则有评论表示，2025年会是属于智能体的一年。

‌Project Astra‌是谷歌最初在5月的I/O大会上首次对外发布的AI助手，彼时主要是对标OpenAI的GPT-4o，其主要功能包括实时语音和视觉处理，能够通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理‌。谷歌在此次的博客中将其称为“使用多模态理解现实世界的智能体”。

对于此次正式发布的Project Astra‌，谷歌表示，它能够流畅地在多种语言和混合语言之间进行对话，并且能够理解不同口音和生僻单词。此外，借助Gemini 2.0，Project Astra可以使用Google Search、Google Lens和Google Maps，从而在日常生活中发挥助手的作用。

谷歌增强了Project Astra的记忆能力，这一助手目前可以记住长达10分钟的会话内容，并且可以回忆起过去与它进行的更多对话，能提供个性化服务。

在此前5月I/O大会上的演示中，在询问Project Astra时，其语音回复还有一定的延迟，谷歌这次改进了这一点，博客提及，借助新的流式处理技术和原生音频理解能力，该智能体能够以接近于人类对话的延迟来理解语言。

“AI智能体在现实中的应用是一个令人振奋且充满可能性的研究领域。”谷歌称，团队正在探索这个全新的领域，并开发出了一系列原型，帮助人们完成任务。除了Project Astra的升级版，这次谷歌发布的智能体还包括：完成复杂任务的智能体Project Mariner，能够帮助开发者的编码智能体Jules，以及游戏和其他领域的智能体。

Project Mariner是使用Gemini 2.0构建的早期研究原型，可以从浏览器开始探索人机交互，它能够理解和推理浏览器页面中的信息，包括像素和文本、代码、图像和表单等网页元素，然后通过Chrome扩展程序使用这些信息为用户完成任务。

在WebVoyager基准测试中，Project Mariner作为单个智能体设置实现了83.5%的工作效率，达到了先进的水平。但谷歌提到，Project Mariner目前的运行并非总是准确，且完成任务的速度较慢，仍处于早期阶段。

谷歌还在博客最后介绍了游戏和其他领域的智能体。就在上周，谷歌刚刚推出了世界基础模型Genie 2，这是一个可以从单个图像创建无限3D世界的AI模型。基于此，谷歌使用Gemini 2.0构建了智能体，可以帮助用户在电子游戏中做出更好的决策。谷歌称，这些游戏智能体可以根据屏幕上的实时画面，分析游戏情况，并为用户提供下一步的行动建议。

除了探索虚拟世界的智能体能力外，谷歌还将Gemini 2.0的空间推理能力应用于机器人领域，尝试让智能体在现实世界中提供帮助。这项研究仍处于初期阶段，但谷歌认为智能体在现实环境中的应用前景非常广阔。

值得一提的是，临近2024年底，AI智能体频频被行业人士提及。所谓智能体，简单来说是能够感知环境，具有独立思考和行动能力的AI程序。传统AI通常是指令驱动的，需要人类用户输入指令才会执行相应的任务，AI智能体则有独立解决任务的能力。

近日天风证券发布研究报告称，海外大厂积极布局智能体构建应用，AI智能体正在快速发展，智能体在C端硬件落地正进入临界点。

10月21日微软连发10个AI智能体，面向销售、运营等场景，11月19日微软又宣布Copilot Studio平台已支持用户构建自主智能体，同时发布5款预构建的智能体。12月，亚马逊公布了一系列布局AI大模型的进展。

在国内，以智谱为代表的厂商也开始重点发力AI智能体。10月25日，智谱发布AutoGLM智能体，可通过读取语音指令理解用户意图，并模拟人类行为，自动完成点外卖、订机票和酒店等操作。11月29日，智谱推出AutoGLM智能体升级版，支持自主执行超过50步的长步骤任务，并且能够在执行任务时灵活切换不同的APP。

除智谱以外，字节、百度、腾讯、阿里等科技大厂也开始布局智能体，包括字节的Coze Agent平台、百度千帆AgentBuilder智能体开发工具等。

在此前的采访中，瑞银证券中国科技软件分析师张维璇预测，“明年是Agent（智能体）的大年。”她表示，最近也看到美国领先的软件厂商发布了AI智能体的产品，通过智能体将企业的工作流自动化，在前中后台的很多应用都能看到对客户的效率和用户体验的提高，并且这些软件公司也获得了提价。

“随着越来越多的大厂布局AI Agent产品和生态，预计2025年将会成为AI Agent商用爆发的年度。”中信建投证券在月初表示。

责编：刘佳

收录来源链接或附上。内容并不代表投资建议。

本文收录后固定可引用URL链接

http://www.haxililiang.com/toutiao/kuaixun/37056.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 通用人工智能文库