【小哈划重点:此前的机器人训练通常专注于单台机器学习单一任务,因为学习成果难以转移。然而,最近的学术研究表明,随着训练规模的扩大和精细调整,不同任务和机器人之间的学习可以相互转换。2023年,谷歌开展了一项名为Open X-Embodiment的项目,将22台不同的机器人放置在21个研究实验室间共享学习成果。】
Physical Intelligence是一家资金充足的初创公司,致力于在具身智能领域取得突破,现已研发出一款能够胜任多种家务的智能机器人。
从取出烘干机内的衣物到折叠衣服,再到清理凌乱的桌子,这样一个能够完成各种家务的机器人一直被视为科幻中的产物——其中最经典的形象莫过于1960年代动画《杰森一家》中的机器人女仆Rosey。
位于旧金山的一家初创公司Physical Intelligence以一己之力证明了这一梦想正在逐步成真,他们成功研发出了一种人工智能模型,能够通过前所未有的海量数据训练,掌握多项实用的家务技能。
这一重大进展证明了将ChatGPT等具有广泛功能的AI模型引入现实世界的可能性。
大语言模型(LLM)的出现赋予了聊天机器人更广泛的通用能力。Physical Intelligence的目标也正是通过训练类似的算法,利用大量的机器人数据,在物理世界中创造出同样强大的能力。
“我们开发的这一模型具备很强的通用性,能够整合多种形式的机器人数据,和训练语言模型有异曲同工之妙。”该公司首席执行官Karol Hausman表示。
在过去的八个月里,Physical Intelligence一直在研发他们的“基础模型”π0。π0通过利用来自多种机器人进行各种家务任务的大量数据进行训练,通常以人类遥控机器人的方式进行必要的教学。
Physical Intelligence(简称PI或π)由几位业内著名的机器人研究人员于今年早些时候成立,致力于将AI语言模型的成功经验推广到机器人领域,以打造具备更强通用能力的机器人。
“据我们所知,我们训练的数据量比以往任何机器人模型都要大得多,”PI联合创始人、加州大学伯克利分校副教授Sergey Levine说道。他补道,“尽管它还远不及ChatGPT,但大概可以与2018年OpenAI开发的第一代大语言模型GPT-1相媲美。”
Physical Intelligence发布的视频中展示了不同类型的机器人执行各种家务任务的熟练表现。一台轮式机器人从烘干机中取出衣物,一只机械臂收拾杯盘散乱的桌子,另一对机械臂则正拿起并折叠衣物。更为出色的是公司算法已学会如何组装纸箱,包括柔和地弯折箱子边角并小心地将部件拼接到一起。
豪斯曼指出,折叠衣物对机器人来说尤其具有挑战性,因为这涉及处理各种变形和褶皱不可预测的柔性物品。
这种算法往往需要具备更普遍的物理世界知识,展现出一些近似人类的习惯动作,例如为了平整衣物而摇晃T恤或短裤。
然而,Hausman表示,算法并非完美无瑕,就如同现代聊天机器人一样,偶尔也会有令人意外甚至有趣的失误,比如在放鸡蛋进盒子时装得过满,或者将一个纸箱甩下桌子而不是装填物品。
就此,打造具备更广泛能力的机器人不再仅仅只局限于科幻小说中的常见主题,更是成为了一个蕴含无限商机的崭新领域。
尽管近年来人工智能取得了惊人的进步,但机器人仍然愚笨而有限。工厂和仓库里的机器人通常只能按照精确编排的程序进行工作,几乎没有感知周围环境或自适应的能力。少数能够看到和抓取物体的工业机器人,由于并不具备物理世界知识,只能做有限的事情,且灵巧性有限。
拥有更多通用能力的机器人将能承担更广泛的工业任务,甚至在简单演示后即可迅速上手。要想适应人类家庭的各种变化和杂乱无章,机器人还需要具备更通用的能力。
随着人们对AI进展的普遍热情不断高涨,机器人领域的新突破也被寄予厚望。埃隆·马斯克的汽车公司特斯拉正在研发一款名为Optimus人形机器人,这款机器人将在2040年广泛上市,售价为2万到2.5万美元,并且能够完成大多数任务。
此前的机器人训练通常专注于单台机器学习单一任务,因为学习成果难以转移。然而,最近的学术研究表明,随着训练规模的扩大和精细调整,不同任务和机器人之间的学习可以相互转换。2023年,谷歌开展了一项名为Open X-Embodiment的项目,将22台不同的机器人放置在21个研究实验室间共享学习成果。
Physical Intelligence公司采用的策略面临的关键挑战在于,机器人领域缺乏与大语言模型相媲美的数据规模。因此,公司需要自己生成数据,并开发出新的方法以优化有限数据集的学习效果。为了开发π0,PI结合了视觉语言模型(训练于图像和文本之上)和AI图像生成中的扩散模型技术,以实现更具普适性的学习。
要让机器人能够全面胜任所有家务,未来的学习模型还需要进行大规模提升。“我们仍有很长的路要走,但我们已经拥有了描绘未来蓝图的基石。”Levine说道。
黑智编译。编译|杨雪涵