【小哈划重点:过去做什么应用都需要海量数据,现在很多基础数据通过预训练模型给你了,那么每家就可以结合自己的专有数据做fine-tuning(精调),做prompting(提示),做这种适应就行了。之前做个公司,最怕数据不够,因为数据散着或者在别的公司那里。】
“经过这两次大的产业升级之后,中国在数字化支付、网络、用户终端,基本上都和美国在同一阵线,比其他所有国家都要好。我们在最高端的计算芯片、算法系统和一些大的平台性技术方面,现在感觉到是有些距离。但我觉得中国的创业者、工程师和科研人员,一旦把资源集中,并且有耐心,是可以赶上的。有很多挑战,但我还是充满信心。”
尽管中国是ChatGPT未开放服务的区域之一,但2023年2月初,在ChatGPT正式发布两个月后,这一聊天机器人程序在中国的热度开始走高——与之相关的话题多次登上社交媒体热搜榜单,A股市场上ChatGPT概念股板块历经多番涨停潮,百度、阿里、京东、网易等科技公司相继宣布推出或研发对标产品的计划。
在ChatGPT和同类产品引发持续热议的当下,大模型技术正在触发IT行业怎样的变革?我们应该如何理解“中国版ChatGPT”的意义?在新一轮行业爆发期,中国AI产业会面临怎样的挑战与机遇?就这些问题,本刊专访了清华大学智能科学讲席教授、智能产业研究院(AIR)院长、中国工程院院士张亚勤。
在学术界和工业界,以及人工智能前沿研究与产业应用领域,张亚勤都有着堪称辉煌的履历。他在1997年成为IEEE(电气电子工程师学会)历史上获授会士荣誉最年轻的科学家;自上世纪90年代末起,曾在微软公司工作16年,历任微软亚洲研究院院长兼首席科学家、微软中国董事长等职位;在2014年9月到2019年10月之间担任百度公司总裁。2019年底,张亚勤正式受聘于清华大学,牵头组建清华大学智能产业研究院(AIR)。
大模型重构行业生态
三联生活周刊:ChatGPT的出圈代表了大模型的第一次成功吗?
张亚勤:如果ChatGPT是指的一个产品,那它是大模型产品化和大众化的最大成功。大模型已经做了多年了,2020年GPT3.0的出现可以算是大模型的第一次成功。只不过那个模型更多是给专业人员用的,但在技术界已经有很大的震动。ChatGPT第一次有一个界面让普通用户使用。去年12月初,它刚刚出来的时候,我也注册了,简单用了一下,第一感觉是做得真好,会出很多错,但语言能力很强,后面又看到它很大的进步。实际上,从GPT3.0到GPT3.5,做了两年多,算法本身当然改进很多,但数据工程和系统工程尤其成功。算法里很大的改善是InstructGPT以及多了有人类反馈的强化学习(reinforcement learning from human feedback),用的人越多,迭代越快。那么现在GPT4就更不得了,功能比GPT3.5大多了。
但对我来说,ChatGPT更大的震撼在于它如此受欢迎!不到两个月的时间就有了上亿个月活用户。其实生成式AI,在过去这两年是进展最快的技术。比如在AI作图方面,有DALL-E、Midjourney、Stable Diffusion这些产品出来。我们学院也研究这类技术,比如自动驾驶的仿真模拟,也需要在机器人里面做生成,学生也发表了这方面的论文。总之,这个领域发展十分快,但没有感觉跳变。
而ChatGPT确实是一次跳跃和质变,是AI的一个里程碑。人机对话已经做了半个多世纪了,进步很大,但整体没有实质性的飞跃,主要应用在某些垂直领域(比如聊天、客服等),整体感觉更多是玩具和工具,是个机器人,不能通过“图灵测试”。但ChatGPT是第一个可以通过“图灵测试”的智能体,我看到一个通用人工智能的雏形。
三联生活周刊:在整个职业生涯中,你还经历过哪些类似的新技术爆发的时刻?
张亚勤:类似的让我感到震撼的经历有几个。一次是1986年,我刚到美国的时候,第一次用了苹果Macintosh电脑。因为之前在国内,我们最初用的还是字符型的输入,一行一行、一闪一闪的。到了美国之后,在学校的系里面第一次看到了带鼠标的电脑,看到它显示得如此之清楚、漂亮。那时就感觉到,哇,原来电脑还可以这么做,图形无界面,可以把鼠标放在任何地方,相当于立体化了。不仅仅能打字符,还可以用来画图。特别是出国前我们申请学校时,每天还在用打字机打表格,一张一张地打,感觉很困难。到了美国看到这样一个界面,完全是一个全新的体验。
还有一次体验是90年代初期,那时我在Sarnoff(注:美国桑纳福研究院,现SRI研究院)。当时我们在做高清数字电视,做视频压缩。我们第一次把所有系统集成在一起,加上5.1的立体声关在一个黑屋子里,放了15分钟SONY高清摄像机专门拍的高尔夫比赛/滑雪片段视频,雪花和高尔夫球是那样清晰,色彩是那样鲜艳,大家都震撼于电视还可以这么清楚。那时候有很多人,包括政策制定者,反对数字电视,但那15分钟放完,大家从黑屋子里走出来,都改变想法了。
再有就是2016年AlphaGo出来的时候。我自己也下围棋,之前我不相信AlphaGo可以赢李世石,即使要赢,我想可能还需要至少5年左右。因为这是人类最难、最复杂的棋类,虽然我已经在做AI,我还是没法相信它能赢了世界最优秀的九段。那次确实是第一次感受到AI的强大。
三联生活周刊:过去相当长一段时间,科技圈似乎都在等待下一个颠覆性的技术。人工智能行业内也经历了所谓的寒潮。现在可以说这种停滞过去了?
张亚勤:对。2016年AlphaGo让大家都感到AI很厉害的时候,人脸识别、语音识别其实已经比较成熟,但大家仍然感觉AI只能做一件事。自动驾驶给人的感觉很酷,但一直没变成一个主流的东西。包括搜索也用了很多AI技术,但大家可能感觉不到。总之,普通老百姓没有感受到AI给生活带来什么改变。但这次大家发现,可以跟它直接对话了,它什么都知道,虽然有时候胡说八道,有时候说废话和套话,但人也会这样。而且它很多地方做得比普通人要好,比如写东西很顺畅,语法也很正确,还可以帮你写程序、规划任务,在认知层有了很大提升,开始有了通用人工智能的雏形。
《机器纪元》剧照
我们一直在探索,哪条技术路线会走向通用人工智能。GTP3.0出来的时候,我们有一批人感觉到,大数据和超大模型可能是一个正确的方向,ChatGPT和GPT4.0+ 给大家带来了信心。规模效应很重要。因为模型会自己进行in-context learning(上下文学习),这在规模不够大的时候看不出效果,但到一定规模会产生一些我们不知道的现象和能力。就像互联网,当年Metcalfe(今年的图灵奖获得者)定律提出,把N个人连在一块,创造的效益是N的平方,呈指数型增长。模型的规模效益也是如此。
三联生活周刊:大模型这条路走通后,会给整个AI行业带来什么?
张亚勤:我觉得可以把GPT这个系列的生成式AI模型看作一个由大模型组成的AI操作系统,和PC上的Windows,以及移动的安卓、iOS基本具有相似的意义。一个新的操作系统出来是什么意思?下面的硬件、上面的应用都会被重构、重塑,形成一个新的生态。如果说PC互联网的生态价值是1X,移动互联网的生态价值至少是10X,那么AI生态至少是100X。
在山东国瓷功能材料股份有限公司,员工用AI工业视觉识别品质检测系统操控蜂窝陶瓷颗粒捕捉器对产品进行质量检测(周广学 摄 / 视觉中国)
PC时代,底层用的是英特尔的x86,在Windows上建立了许许多多的应用,也因此被叫作温特尔(WinTel)时代。到了移动时代,Android和iOS的底层硬件都是ARM系统,上面是各种不同的APP(应用软件)。当然,APP公司本身可能变成巨大的公司,比操作系统更大,比如微信和TikTok这样的Super APP(超级软件)。
到现在这个云计算的时代,硬件有GPU、CPU、FPGA、ASIC,操作系统就是AI大模型,或许可以叫它GPTx或者基础模型(Foundation Model,FM)。在AI还没发展到这个阶段的时候,有很多算法、模型、框架等,现在有了FM,你可以做各种各样的应用开发:大模型上层还会有小模型,还可以有插件,和现有的APP组合在一块。微软目前在这方面做得最好,把能力组合到了搜索、Office和Azure云等每一个产品。
三联生活周刊:这样一个新的生态,已经在很快地形成了?
张亚勤:对,但我也不认为马上就定了。在美国的话,OpenAI和微软抢先了一步,但是谷歌实力也很强,因为这里面其实很多最核心的技术是谷歌发明的。微软和谷歌这两家公司目前可能在全球领先所有人,无论是规模效应也好,还是应用场景、算法的成熟程度和产品的生态。当然英伟达的GPU芯片和架构最有竞争力。那么在中国的话,百度应该是走在最前面的。
三联生活周刊:百度的CEO李彦宏在大模型产品文心一言的发布会上也提到,之前云计算行业比拼的是厂家的算力,以后可能会更看中模型本身。
张亚勤:对,大模型变成操作系统之后,就形成了一个抽象层,开发者和用户对下面用什么就不太关心了。比如你现在用电脑还会在乎下面是什么芯片吗?无论算力多少、存储多少,基本就被这个操作系统隔离了,你更关心的是模型能提供什么功能。所以对云公司来讲,这也是重塑云的时刻。
三联生活周刊:还有一种挺普遍的看法,认为生成式对话产品会颠覆搜索引擎现有的商业模式,科技公司不得不自我革命。你也会这么认为吗?
张亚勤:我觉得不是。要是你没有这个产品的话,别人会革你的命。我们在搜索的时候,其实是在找知识,那现在有了生成式技术,它确实提供了一种找到知识的新能力。所以没办法,新技术来的时候,一个公司说我没有,那只能说太糟了。
但是有这个技术的话,生成本身又需要花很多钱,这也是谷歌遇到的问题。谷歌在搜索市场占有93%的份额,微软只占3%,那3%的份额加点东西可能没关系,93%的份额就要用很多算力,就会影响利润。从这个角度说,所谓的颠覆市场可能是因为,我们俩做一模一样的生意,但你谷歌的份额太高了,要比我(微软)的成本高得多,微软等于没什么可失去的。在中国的话,百度可能会有优势,因为它正好搜索和人工智能都很强,短期里挑战它的公司不太多。但我想,有公司挑战不是坏事,还是需要一些竞争的。
后ChatGPT时代,中国AI产业的机遇
三联生活周刊:百度发布文心一言大模型后,吸引了大量的关注和讨论。实际上,自从ChatGPT推出,很多人就在问,国内什么时候能有一个自己的ChatGPT。中国一定需要能和ChatGPT对标的产品吗?国内大模型中文能力更强的原因可能是什么?
张亚勤:首先,我觉得这种多模态、预训练的大模型,特别是基于Transformer模型的,技术还会向前演进,所以不论是产品还是系统,肯定会出现不止一个。而由于地域的区别和限制,中国会有自己的类似ChatGPT的产品,或者自己的操作系统。就像云一样,美国有至少5个云,中国也有好多云,大家都会存在。
仔细看一下,你会发现ChatGPT中文做得也很好。这点其实很有意思,因为Transformer模型一开始是用于翻译的,在训练的时候就用了各种不同的语言。但它不仅仅是可以用很多语言工作,还在语言映射之间找到了结构,学到了语法、语义。所以,模型被训练的语言越多,其实会越好。如果要做中文大模型,最好里面也有英文和其他语言。
尽管我在百度曾经做过五年总裁,但我对百度目前的产品和技术不了解,所以关于文心一言的细节你要问李彦宏。百度是在2018年就开始做这个大模型(ERNIE),在那前一年,Google发布了Transformer模型(BERT)。百度在人工智能方面的实力最强,投入时间也最长。因为做搜索和推荐最需要AI,它也做各种各样的AI产品,比如小度、无人驾驶、智能云,等等。所以大模型背后的技术是它必然涉及的。我认为ChatGPT的“灯塔效应”使得包括百度在内的很多公司都发力了。中国最终会有多个横向的大模型,百度有先发优势。
三联生活周刊:有人会觉得文心一言很明显还不够成熟,推出得有点着急。当然,模型的迭代有赖于人的反馈,很多技术上的考虑,普通人可能之前不是很了解。
张亚勤:我觉得一个产品成熟起来的最好方式,就是让大家使用,用了之后,公司知道了反馈,相当于大家一起帮助这个产品做得更好。事实上,ChatGPT很好的一点就在于,它让整个行业意识到,原来很多不成熟的东西大家是可以接受的。谷歌研发这个东西的时间最长,它为什么不敢推一个产品出来?因为大公司会害怕产品不完善、会犯错,而ChatGPT相当于提供了一个用户的标准。包括ChatGPT为什么是由OpenAI推出来而不是和微软一起发布?其实微软已经一直在产品中集成GPT4.0,看到ChatGPT用户反馈好,微软马上光速推出,但它其实早就可以这么做。但大公司有时候会因为搞不清市场的接受度在哪里,比较谨慎。
因为我已经不在百度工作了,细节我不太知道,但我想,百度肯定是在比较之后,认为用户应该是可以接受的。推出之后,显然产品不完美,但是很多人会发现价值,会去使用。所以我觉得,这个推出的时间还是对的。GPT4和微软的搜索结合起来的时候,在美国也有各种各样的调侃。我觉得这些都正常,关键是要看主流是什么,它有没有价值。如果它有问题,也有价值,但价值大于问题,大家就会用。如果都是问题,没什么价值,这个产品自然而然就没人用了。
三联生活周刊:无论用ChatGPT还是文心一言,很多人都热衷于比较中英文回答的差异。一些分析也提出,中文的自然语言处理可能面临数据的局限,互联网上中文语料的数量和质量都不如英文语料。数据会成为中国研发这类大模型的限制吗?
张亚勤:这是个好问题。我不认为目前的模型用尽了所有的数据。现在我们生成的数据基本每一年都要翻倍,速度比摩尔定律要快,这适用于英文也适用于中文。中文语料的绝对数量可能少一些,但我不认为目前是个限制,也不认为以后会成为限制。有两个原因。第一,可以用英文以及别的语言去训练语言模型。第二,以后模型里面的大部分数据未必是语言,输入输出都可以是多模态的,视频、语音都可以放进去做训练。就像我们正在讲话,有语言的交互,但视觉所产生的信息量其实也很大。我们现在看到的数据很多都还是用户自然生成的数据、机器生成的数据,但还有很多关于物理世界的数据,比如说开车,车里产生的数据量每天是TB级别的,生物世界也产生很高量级的数据量。总之,数据量是很大的,我不认为这会是一个大的瓶颈。
但很重要的是,怎么用好数据。ChatGPT能做这么好,其实是在外围花了很多工夫。数据来了之后怎么清洗?怎样做半监督的学习?他们做了很多这类调试,包括在肯尼亚雇了很多人做各种标注、调试,还用了刚才提到的由人类反馈的强化学习,相当于我们每次用它都在反馈。所以,除了最重要的模型训练,这些环节也很重要。
三联生活周刊:关于哪几家公司会成为国内大模型的头部玩家,现在众说纷纭。有人说只有云计算厂家才有足够的算力基础,有人说拥有超级APP的公司掌握了独家优质数据。做大模型需要怎样的“入场券”?在后ChatGPT时代,国内科技行业的最大机会可能在哪里?
张亚勤:我可以画张图来说这个问题。ChatGPT之后,整个行业的结构会变成什么样。
首先,最下面一层是云,这里面可能会有上万个GPU(图形处理器)或者XPU(某种处理器),表示算力。
接着往上一层是现行的IaaS(Infrastructure- as-a-Service,基础设施即服务)操作系统,包括计算、存储、网络、数据、安全……
这一层上面,就是我们现在讨论的基础模型(foundational model),或者说MaaS(Model-as-a-Service,模型即服务)。
在这个上面,还会有很多垂直基础模型(Vertical Foundational Model,VFM)。比如,自动驾驶的、蛋白质解析的、气象预报的、面向教育的……
这些垂直模型还可以相互结合起来,再形成不同的应用,也就是SaaS(Software-as-a-Service,软件即服务)。
那么这样看下来,基础模型这一层当然是有机会,也需要具备底层才能有入场券,但其实不需要那么多人去做这一层。大部分的机会在垂直基础模型这一层及以上的SaaS。
同时,要在部署端(电话、个人电脑、物联网、机器人、智能汽车等等组成的)把人工智能用上,需要做边缘的模型部署,这一块也存在很多工作。而且在部署端,模型不是越大越好,而是越小越好,越快越好。比如自动驾驶,你把模型部署到车的时候,不会在乎它会不会写诗,而是要精确,在最短的时间内能把车开好,延时越短越好。边缘的机会其实很大,所以我们现在在做边缘计算、边缘模型、模型交互、联邦学习、小模型。
我觉得,可能有几家中国公司都会做自己的系统,最有可能就是BAT(指百度、阿里巴巴、腾讯),还有字节跳动、华为都可能做。当然,初创公司如果能拿到百亿的投资也可以做,OpenAI就是这样起来的。但我觉得,大家不一定都要一窝蜂去做操作系统这一层,主要的机会还是在上面的应用。就像手机时代,大家不能都去做安卓、iOS,不去做头条、滴滴、淘宝了。当然,这个操作系统可能也不只有一家。
还有,同一个App也可以接入不同的系统,和不同的基础大模型结合起来。所以我觉得以后要考虑模型和模型之间的互动,怎么把它运用起来,在模型之间工作,怎样在模型里面把知识收集起来。
这样做的一大好处是,过去做什么应用都需要海量数据,现在很多基础数据通过预训练模型给你了,那么每家就可以结合自己的专有数据做fine-tuning(精调),做prompting(提示),做这种适应就行了。之前做个公司,最怕数据不够,因为数据散着或者在别的公司那里。那在这个新的生态里面,它的模型已经建好,甚至以后模型都不再需要那么多,可能从模型里面再抽取知识去用就可以了。
总之,我觉得有好多事可以做。ChatGPT的成功促进了整个行业的生态改变,带来新范式,这可能才是它真正的含义。
三联生活周刊:目前行业各部分的参与者处在什么样的状态?
张亚勤:ChatGPT出来之前,GPT3.0/3.5和生成式AI已经在业界引起很大关注,但美国已经很快就形成了产品,比如做图的DALL-E、Stable Diffusion、Midjourney,还有帮助生成文案的Jasper.ai,这些应用马上就实现了盈收,变成真正的公司了。
图 | OpenAI官网
在中国的话,目前也有很多这样的公司。ChatGPT是一个信号,就是这东西行得通。所以现在中国的VC(风险投资)、高科技企业,都开始意识到这件事的重要性。反正这个月每天都有很多人找我,希望给我们学院的团队投资,因为我们一直在从事这方面的工作。
现在大家都说想做大模型,可能只是“大模型”听起来比较容易理解,未必是非要自己做那个平台性的大模型,而是要去做上面的应用,或者某一个垂直行业的模型。我想创业者最终都会调整好方向,找到不同的东西去做。目前大家都很兴奋,每天绝对不无聊。
在基础技术上下工夫
三联生活周刊:在大国竞争的背景下,GPT这类技术在早期就展现出这么强大的实力,战略意义不言而喻。但我们在某些环节上可能受到一定限制,比如芯片的进口。你会怎么看待这些问题?
张亚勤:这些都要考虑的。像2017年我还在百度的时候为什么决定自己做昆仑芯片?那时就是我们所有AI任务的训练都需要大量的算力,买的GPU太贵,供不应求,而且对我们的具体任务也不是最优的。我们就决定自己做,开始给内部业务,后来变成独立公司。
芯片的问题是个很复杂的问题。除了设计,还有光刻机、制程、EDA等问题。我们需要在基础的技术方面进行长期和有耐心的投入,以及扎扎实实的研发,没有捷径。
三联生活周刊:和之前几次行业变革发生时相比,这次中国的位置有什么不同,在积累上有什么不一样?
张亚勤:在PC和互联网时代刚开始的时候,中国基本上什么都没有,所以全是copy to China(复制到中国)的。美国有什么,我们copy什么。到了移动互联网的时代,中国在一些领域做得比美国要好,比如说5G、移动支付、微信、短视频等。
那么到现在,我们经过这两次大的产业升级之后,中国在数字化支付、网络、用户终端,基本上都和美国在同一阵线,比其他所有国家都要好。我们在最高端的计算芯片、算法系统和一些大的平台性技术方面,现在感觉到是有些距离。但我觉得中国的创业者、工程师和科研人员,一旦把资源集中,并且有耐心,是可以赶上的。有很多挑战,但我还是充满信心。
三联生活周刊:在清华大学智能产业研究院(AIR),产业内正在发生的变化会怎样体现在工作中?
张亚勤:对我们来讲,我们一直在做这事。我们没有做那种超大规模的模型,学校做不合适,我们也不可能买上万个A100/H100,但是我们一直在做多模态、强化学习、联邦学习、生成技术、自动驾驶和机器人。如果说改变的话,更多的是可以假定一个大的平台已经存在了,在这个平台上,可以做更多的新研究。我们现在很多东西不再用自己做,可以用横向的模型。实际上,我们每个团队都在研究,怎么能把这个东西融入到工作里面,这两三个月做了很多这样的讨论。对所有做研究、做产品开发的人来说,面对ChatGPT都一样震撼,我们看到大家对AI更有信心了,整个市场,不管是投资人也好,企业也好,政府也好,都知道这个东西是这样一个大的革新力量。我从2016年一直在讲,人工智能是第四次工业革命的技术引擎,是我们这个时代最大的技术变革力量,听的人有的信,有的不信,但现在大家都看到了AI的力量。而且AI现在所展现的只是冰山一角。
三联生活周刊:你之前一直在产业的前沿,但这次的变革发生时在学院里面,会感到稍有遗憾吗?还是说,在如今这个位置上,可以做你更感兴趣的事情?
张亚勤:其实有好多人问我,你怎么不下场?我觉得,现在只是处在这个场的不同地方了。培养人做研究、和企业一块创新,本来就是我这个时间想做的事。企业相当于前线,我们在后方和它们一起合作,都在“场”里面,也感觉挺好的。而且我们现在每天都在和公司一起讨论,一起规划,一起研发。这是我们和企业合作的模式。
三联生活周刊:这是清华大学智能产业研究院(AIR)比较独特的模式吗?国内的产学研结合目前处于一个怎样的水平?
张亚勤:我觉得是因为我们与产业联合得更紧密一些,这也是为什么我们叫智能产业研究院。
国内产学研的结合整个做得还是不好,我也不能讲美国做得有多好,但我觉得中国整体改善的空间还很大。因为大部分公司想的还是今天的产品,这样它就觉得离“研”比较远。如果公司很大,它能想到明天的下一代产品,甚至想到后天的产品,这个时候公司就会想到和学校合作,因为学校在做最前沿的研究。但如果你就想做今天的产品,学校也做不好,因为它不是做产品的地方。所以研究和产业自然就没法结合好。
在美国的话,很多公司像微软一样,自身就有研究院,想问题会想得很长远。还有很多制药公司对研发投入巨大,而且会看10年之后怎么办,可能是因为一种药只能占领市场10年。那么这个时候,产学研的合作就比较容易一些。国内还是需要时间。我觉得也是自然而然有的,10年甚至5年前,都很难和国内企业合作。现在发现比原来好一些了,但是没那么完美,一点一点来。
排版:小映/ 审核:小风
(原文标题:《大模型时代,中国AI行业的机遇与挑战——专访清华大学智能产业研究院(AIR)院长、中国工程院院士张亚勤》。文章部分插图未收录)
(https://www.lifeweek.com.cn/article/196669?origin=6)