【小哈划重点:我预测未来每个人常打交道的机器人数量应该在10-20个左右。既不可能是一个机器人解决我们的所有问题(就算有钱,管家和秘书还有司机还是分开的),更不可能和3000个机器人打交道(我们的人脑能分清楚150个人都困难),那么问题来了,未来的世界我们和机器人到底是怎么工作的呢?】
我们看到了一个人类和机器人用自然语言对话的世界,但是看到更大的突破是机器人和机器人对话的世界。
未来会有多少机器人?
首先做一个判断,未来世界上会有多少对话机器人(Bot)?
我的看法是,会有几千万个,现在有多少网站就会有多少个机器人。
每个公司都需要一个机器人被训练了本公司的知识,连接自己的管理系统,并且可以帮助下单或者完成客户指令。这种从信息机器人(Informational),到动态机器人(Dynamic),到交易机器人(Transaction),将会按照5年一代的时间普及。这个进程可以参考互联网从信息互联网(Informational),到动态互联网(各种数据库驱动的橱窗网站),到可以下单买东西(电子商务),直到驱动线下世界(O2O)。早在20年前这四个步骤的所有可能性都可以演示出来,但是从演示到全社会使用,这个过程用了20年左右。
机器人网络的基础设施
机器人逐渐普及的过程中,需要有人给机器人制定名字让大家可以互相找到,有人需要建模型,有人需要提供托管,有人需要提供机器人入口,这是新一代的机器人的基础设施。
但是在这么多机器人中,参考我们和朋友的数量,以及我们常用的网站的数量,以及手机上常用App的数量,我预测未来每个人常打交道的机器人数量应该在10-20个左右。既不可能是一个机器人解决我们的所有问题(就算有钱,管家和秘书还有司机还是分开的),更不可能和3000个机器人打交道(我们的人脑能分清楚150个人都困难),那么问题来了,未来的世界我们和机器人到底是怎么工作的呢?
我断言,未来是一个机器人和机器人用自然语言对话,协同为人类提供服务的世界。
机器人协同工作
我无法想象未来是一个或者几个大模型可以回答所有问题。
比如明天「上海的最高温度」这个问题,就不是任何一个大语言模型可以从训练的语料里面计算出来的。那么必然会有一个叫做「天气通」的机器人可以回答天气信息,有一个叫做「穿衣助手」的机器人可以提供穿衣建议。如果我问我最信任的「阿旺」这个问题:
「根据明天的天气,我应该穿什么衣服」
ChatGPT现有的引擎,就会把这个问题分解成几个子问题。
第一个问题是「明天上海的天气怎么样?」
阿旺显然无法回答这个问题,它需要在它的朋友列表中找到一个叫做「天气通」的机器人,从描述看,这个机器人自述自己是一个「用于获取实时天气信息的机器人」,和我的问题看起来有关系,它会用自然语言的方式把这个问题扔给「天气通」,并且获得了5度到12度的信息。
阿旺会继续把这个问题用自然语言提交给「穿衣助手」,从而从那里获取穿衣的指导,并且把最终的结果返回给我。
这个不是科幻。这个是LangChain等Python库的内置的功能,我只是把现在阿旺背后现在正在运行的程序用自然语言描述一遍而已。
机器人从固定格式到自然语言
机器人和机器人的对话,从互联网初期开始到现在从来没有停歇过。只不过我们以前把这种通信称作「协议」,或者「API」。如果大家参考RFC 5321协议,看到我们每发一封邮件背后两台电脑之间的对话,就会觉得很他们可爱:
S: 220 foo.com Simple Mail Transfer Service Ready
C: EHLO bar.com
S: 250-foo.com greets bar.com
S: 250-8BITMIME
S: 250-SIZE
S: 250-DSN
S: 250 HELP
C: MAIL FROM:
S: 250 OK
C: RCPT TO:
S: 250 OK
C: RCPT TO:
S: 550 No such user here
C: RCPT TO:
S: 250 OK
C: DATA
S: 354 Start mail input; end with
C: Blah blah blah...
C: ...etc. etc. etc.
C: .
S: 250 OK
C: QUIT
S: 221 foo.com Service closing transmission channel
客户端要礼貌的跟服务器说HELO,并告知自己的域名,服务器端会礼貌的回复OLEH(就是HELO反过来写),也告知自己的名字。
客户端机器人会(可选的)向服务端机器人问好,并且告知自己的发件人,以及收件人,每说一句话,服务器端就礼貌的回复250OK,或者550没有这个人等等。然后客户端机器人会把信件内容告知对方,直到发信完毕,双方互道再见。
这是邮件机器人(邮件客户端和邮件服务器)从1980年就开始的一种沟通礼仪。我们很少有人注意到当时的工程师可爱的设计。现在浏览器的每一次请求,也是向服务器发送了符合HTTP/1.1协议的请求。据我来看,这个请求没有SMTP协议写的那么「礼貌」,直接省略了双方自我介绍和问候的环节。之后的服务器和服务器之间用API的方式相互沟通,但这些,都是机器人和机器人用规定死的方式进行。如果一个机器人有5种能力,就至少要提供5组API,完全无法扩展。
一旦LUI(Language UI)被大语言模型突破,我们发现我们所知道的互联网一下子就升级了,会以迅雷不及掩耳的速度升级到我们不认识的科幻世界。
未来的机器人的一天
我们的机器人首先需要一个类似于网址站的服务。请注意,不是我们需要,而是我们常用的机器人需要,他需要一个列表,帮助他找到他的好朋友们,如果遇到天气问题找谁,遇到数学问题找谁,遇到任何他不会解决的问题找谁,然后就可以自动的找到那些人。
Hao123一样的机器人列表服务会在未来三五年崛起,但是很快,会酝酿出新一代的Google。新一代的Google将是一个对机器人进行索引打分,供机器人使用的服务。因为当有1000个以上的机器人都提供天气服务的时候,我们的小阿旺已经无法通过别的机器人自己的描述来判别别人的服务质量了。所以需要有一个爬虫机制,去评估这个机器人。
这个爬虫会根据网址站的名单,一个个和机器人连接,然后礼貌的用自然语言介绍自己,然后询问对方的能力。然后根据这些能力描述把机器人分类,把天气类的放在一组,数学类的放在另外一组,然后对于天气类的,通过发放考试题的方式评估结果的准确性,响应速度等等指标,有一个类似RobotRank的机制排序。
这个结果对于我的阿旺机器人至关重要。有了个机器人专用,寻找别的机器人的搜索引擎,一个阿旺无所不能的时代就到来了。没有一个机器人可以解决所有问题,但是机器人和机器人之间如果可以协作,我们找到了一个机器人也就找到了整个机器人世界,他们之间会协作,共同为人类服务。
这就是我看到的世界。一个科幻,却已经到来的世界。