【小哈划重点:Dia最受朋友们欢迎的功能,就是直接针对网页内容问答。在Dia的AI侧边栏中,用户能针对当前显示的网页提问,Dia还支持同时针对多个甚至全部已打开的网页提问,这在日常做研究时还是蛮方便的。相信大家都给AI聊天机器人发过网页链接,所以我想应该不用再举例说明这个功能的用处了。】
我一直在等待一个时机写写“AI浏览器”。原因很简单,还是我常说的:AI最缺的是眼睛和手脚。而在今天,能让我们放下手机、打开电脑的理由,主要还是工作。若想让AI成为我们真正的生产力助手,浏览器就是那个能为AI提供眼睛和手脚的最佳载体。
明确一下,本文说的都是电脑上的浏览器。在电脑上,浏览器是我们大多数公司人每天面对时间最长的窗口。今天,人们除了通过浏览器来获取信息、浏览内容,还可以在其中完成各种日常办公任务、处理文档,甚至是专业的设计工作。根据Firefox浏览器官网上显示的用户使用统计实时数据,目前,其用户平均每天使用时长高达5.5小时,足以说明浏览器的重要性。
过去几年,我一直在使用Arc浏览器,其开发团队名字也颇为复古,就叫“浏览器公司”(The Browser Company)。去年年底,这家“浏览器公司”宣布将推出新的“AI浏览器”Dia。在Arc老用户的反对声中,Dia持续往前推进,今年3月开启内测,6月启动公测,同时公司正式宣布将停止为Arc开发新功能。
这段时间中,我身边不少喜欢使用AI的朋友,都将自己的默认浏览器切换成了Dia。
那么,“AI浏览器”到底能否在我们的工作中发挥实用价值呢?要回答这个问题,我们还是得先搞清楚“AI浏览器”到底指什么。在我看来,目前市面上自称“AI浏览器”的产品,可以分为三类。
第一类,是所谓的agentic browser。这是最激进的一派,它们以“agent”为主要卖点,如国内团队开发的Fellou。当然,agent这个概念本身也被用得乱七八糟,我在5月刊的本专栏介绍Manus时已经讨论过。简单概括Fellou和Manus的差异:如果说Manus是一个自带电脑的远程实习生,Fellou更像是请一个实习生来直接操作你的电脑。Manus让许多人第一次看到一台电脑在自己操作自己,只是这台电脑身处远方;Fellou则让你看到你的电脑在自己操作自己。
相较于Manus,Fellou的优点和缺点都源自于此。由于它可以直接使用你在浏览器中已经登录的账号,像是Gmail、小红书、豆瓣、微信网页版等等,它可以触达一些Manus难以触及的地方。但也因为它直接使用你的电脑,尽管团队做了一些创新来避免AI和人类的相互干扰,但我在实际使用中仍然很害怕会“打扰”AI工作。另外,权力越大责任也越大,我真的有些害怕Fellou不小心对我这些个人账号搞了什么破坏。
正如我在之前那期专栏中总结的,agent这个词的重点应该是“手脚”,但今天市场上的agent能做好的仍然是信息的获取和处理,而非真正付诸行动。Fellou未能例外。例如,我尝试让Fellou通过微信网页版向我的一位朋友回复一句“收到了”,它足足花了十多分钟,消耗了几美元,才完成了这个任务。围观agent工作的感受是,现在的agent在阅读和整理信息时都是超人,但在操作那些为人类设计的电脑界面时,它们又变回了蹒跚学步的婴儿。
因此,结论也没有变化:这类AI浏览器不适合普通用户日常使用,但对AI爱好者来说是一个值得探索的玩具。
第二类“AI浏览器”以Dia为代表,号称“为AI时代重新设计”,但仍然将核心放在了浏览上。
Dia最受朋友们欢迎的功能,就是直接针对网页内容问答。在Dia的AI侧边栏中,用户能针对当前显示的网页提问,Dia还支持同时针对多个甚至全部已打开的网页提问,这在日常做研究时还是蛮方便的。相信大家都给AI聊天机器人发过网页链接,所以我想应该不用再举例说明这个功能的用处了。
好了,Dia目前最主要的特点,其实用这两句话就说完了。可能很多人看了以后会想:不就是网页问答吗?很多浏览器的侧边栏现在也有这个功能,我为什么要用Dia?这也是我刚开始参与Dia内测时产生的疑问。
这也就引出了第三类“AI浏览器”:在老牌浏览器上直接增加AI功能,比如Chrome、Edge、Safari等推出的更新,浏览器扩展也归为此类。早在2023年2月,ChatGPT发布未满百日,微软就凭借自己和OpenAI的独家合作关系,率先在Edge浏览器(也是Windows系统的默认浏览器)的侧边栏中加入了“Bing Chat”,背后的技术是当时尚未公布的GPT-4。
和它们相比,Dia最直观的优势是设计简洁、优雅。一些国内的产品选择了堆砌功能,设计臃肿,我数了一下自己电脑上安装的这些产品,其中最贪心的一家在侧边栏中一次性塞了50多个按钮,要在这里面找到“与网页聊天”的选项一点儿也不容易。而Dia的使用体验非常简单直接,整个工具栏除了“前进”“后退”“刷新”,只有一个“聊天”按钮,打开就可以直接问答。这样的界面设计背后实际上也是一种取舍,舍弃了无法提出问题的用户的体验。
这两年中大语言模型本身的进步也让问答体验更成熟。整体而言,如果你经常需要将网页链接发给AI,Dia可以让你的日常使用体验变得愉悦,经过从内测到公测的优化,目前的Dia已足够稳定,推荐一试。
说到这里,到底“AI浏览器”能否成功呢?我对AI乐观,对“AI浏览器”却不那么乐观。前面提到过Edge“抢跑”——两年多过去了,Edge的市场份额增长很小,没能撼动Chrome的主导地位。
人的习惯是很难改变的。即使进入移动互联网时代、PC互联网时代的巨头,除了门户网站外,浏览器作为一个成熟市场,要让用户放弃一个用了数年的工具,非常困难。
当然,非常困难并不意味着做不到。历史上,浏览器市场多次改朝换代。最近的一次就是Chrome的崛起。2008年Google推出Chrome时,浏览器市场也已经是一个成熟市场,由微软的Internet Explorer(IE,也是当时Windows系统的默认浏览器)统治。然而Chrome一骑绝尘,在短短的数年间,就取得了全球浏览器市场的统治地位。
究其原因,要让人们改变习惯,不仅需要比原来的产品做得更好,而且得是超出数量级的好,好上10倍,带来体验的质变。我的手上还有一本2008年Chrome发布时的宣传册——回到2008年,随着像Gmail、Google Docs等网页应用的逐步流行,越来越多的工作正迁移到浏览器中完成,IE的卡顿和崩溃成了家常便饭,十分影响人们的工作。Chrome可以说是彻底解决了这些问题。对当时包括我在内的需要在浏览器中办公的用户来说,Chrome就像是“地狱里的一杯冰水”,是体验的质变。
类似的经典例子还有很多,比如iPhone取代功能机,都是提供了用户体验的质变。当然,这只是第一步。反观今天的“AI浏览器”,包括Dia在内,虽然努力做了很多体验创新,但还远远不够形成质变。AI还没有深度融合到浏览器中,没有真正成为“眼睛和手脚”。例如,既然浏览器承载了我在电脑上的大部分信息获取历史,我的标签页、浏览记录、收藏夹其实就是非常自然的“知识库”,Dia也在测试这方面的功能。Dia也号称自己是agentic browser,将推出agent功能。
不过,即使Dia能从其中找到带来“10倍体验”的亮点,我也看不到什么Chrome无法跟进的理由。就在刚刚过去的5月,Chrome终于在浏览器右上角直接增加了一个Gemini按钮,用户可以直接和网页聊天,体验和Dia相似。
说回来,其实我今天使用的主力浏览器依然是Arc。我属于浏览器标签页泛滥成灾型用户,以前用Chrome时一般同时开着上百个标签页,Arc解决了这个问题。所以,Arc在2022年推出时对我来说也是“地狱里的冰水”,义无反顾地切了过去,这对我来说就是一种“10倍体验”。当然,Arc的操作逻辑和其他浏览器完全不同,学习成本很高。但另一方面,习惯了Arc后也很难切换到其他浏览器,包括Dia。
因此,这个产品虽然注定小众,却拥有许多忠实拥趸。如果能基于这个预期来设计商业模式,一样可以是一家成功的公司。遗憾的是,这无法承载“浏览器公司”的野心,他们仍然决定另起炉灶。
只是,推广Dia并没有那么容易。