【小哈划重点:最初的功能,是可以上传文档,然后针对文档向AI提问,请AI根据文档生成学习指南、提纲、自测题等。“音频概览”功能生成一段类似播客的音频,一男一女两位“主播”会一唱一和,将你文档中的内容“聊”一遍。】
9月,Google的NotebookLM“火”了。中文科技媒体的报道标题中充满了“出圈”“爆火”“下一个ChatGPT”这样的关键词,仿佛这就是AI的终极形态。
看,我的同行们就是这样的一惊一乍。“火”,是相对而言。按Google的说法,这个产品的日均用户量在9月增长了10倍。据第三方机构监测,整个9月,NotebookLM大约有1000万访问量。
听起来很多?折算一下,就是每天30万次。ChatGPT每天访问量在亿级,人们还在担忧它何时能跨越鸿沟、真正走向大众,NotebookLM所谓的“火”,只能说是引起了AI从业者的关注而已。
所以,如果你没有听说过它,那太正常不过了。NotebookLM其实不是一个新产品,这是Google去年在全面应对ChatGPT时,和Gemini同步推出的一个试验性产品,发布至今已经一年多了。其最初的功能,是可以上传文档,然后针对文档向AI提问,请AI根据文档生成学习指南、提纲、自测题等。我一直觉得Google对NotebookLM不太认真,一个证据就是NotebookLM这个普通人很难理解的名字——我还以为正式发布的时候会换一个名字呢。至于产品本身的完成度,按我一位在Google工作的朋友的吐槽,看起来就像是大一新生的计算机课作业。
话又说回来,ChatGPT这个名字也没有更好就是了。
但NotebookLM最新的功能的确让人耳目一新。9月初,Google在NotebookLM中增加了一个名为“音频概览”的功能,可以根据你上传的文档生成一段类似播客的音频,一男一女两位“主播”会一唱一和,将你文档中的内容“聊”一遍。
就是这个功能引发了行业关注。我尝试用不同的文章生成了一些播客,例如本专栏之前的作品,听两位“主播”对我自己写的东西评头论足,的确挺有趣的。它对我的启发是将文本自动转换为音频,过去的思路局限在类似有声书的朗读上,微信公众号现在就有这个功能。即使更进一步,比较容易想到的也是类似“七分钟听完一本书”这样的听书产品,重点在信息的浓缩提炼、节约时间上。NotebookLM将文本转换成双人对谈的播客,在省略了大量原文中的细节的同时也注了许多水。两位“主播”之间的互动,闲聊中夹杂的语气词、口头禅,甚至故意插入一些可有可无的“观点”和口水话……这些都没有带来新的信息量,却让人听起来更加轻松。
在NotebookLM的这个功能发布之前,我们做过一个小尝试,将阅览室每天推荐的5篇文章录制成一段大约10分钟的播客。读完这5篇文章需要的时间超过一小时。播客起的作用,既不是取代阅读,也不是提升效率,而是帮助读者用更轻松的方式来了解这些文章的大致内容,引发他们的阅读兴趣。只是我们没有使用AI生成,而是真实录制的,因此每天更新的话制作成本有些高。
我们不能仅从技术角度去探讨不同的媒介形式,还需要理解不同媒介形式在人们日常生活中所满足的不同场景——什么内容适合读,什么内容适合听?
NotebookLM只支持英文。我花了一个小时,简单尝试了一下能否使用市面上现成的技术来实现类似的效果,遇到的主要困难是语音合成的效果还不够自然。然后,我加入了一个研究如何复刻NotebookLM的群,里面竟然已经有差不多300人在摩拳擦掌。
现状似乎就是这样。隔一小段时间,就会有一个类似NotebookLM这样的海外产品引起国内从业者的注意(上一个是Cursor),被称赞为AI的终极形态,然后所有人一窝蜂地跟进。这个模式在20年前的Web 2.0时代是非常让人熟悉的,即所谓的“copy to China”。经过这些年的发展,中国市场在社交、娱乐、电商、移动支付等很多应用领域在全球已经遥遥领先,变成了“copy from China”。但面对AI这个最具革命性的技术趋势时,我们还是回到了老的模式。
实际上,早在今年5月,Google就在年度开发者大会Google I/O上展示过NotebookLM的这个新功能。当时展示的版本更加炫酷,听众甚至可以随时插话、打断两位主播,加入到聊天之中。不过,当时演示的场景是帮助中学生学习物理,我的确没有联想到可以用在别的场景。这是这项功能真正发布、上手使用后我才得到的启发。
这也说明产品真正上线的重要性。今年5月时,Google I/O的风头有一点被OpenAI突然举行的小型发布会(见6月刊本专栏)抢走,当时OpenAI展示了一个令人惊叹的实时音视频互动的能力。这个功能在最近终于上线了,买家秀和卖家秀效果差别巨大,令人失望。
只想到可以批量生成播客、上传到小宇宙,就有些大材小用了。生成式AI真正的潜力是能为每个人制作独一无二的个性化内容。将内容在不同媒介形式之间相互转换,是生成式AI一个比较直接的应用。
就播客而言,我觉得没有必要从非常概念的层面去探讨播客的本质是什么(这也许是传播学学者的工作),重要的是去理解,“播客”在用户的脑海中占据了哪个位置,用户在想到“播客”时会想到什么。我认为,在中国市场,“播客”代表的其实是一种内容质量属性,而不单纯是一种媒介形式。这些内容的核心受众阅读文字的动机和收听播客的动机是类似的,只是媒介形式本身的特点会影响其使用的场景。
举个例子,我们前几年投资了播客厂牌声动活泼,其旗下播客《声动早咖啡》在小宇宙日常占据“最热榜”第一名。这就不是一档传统的、长约1小时的对谈节目,而是周一到周五每天更新、每期只有十多分钟的商业资讯节目。每天在通勤路上通过音频这种形式快速了解当天需要知道的资讯,同时也获得一些和商业有关的新知识,这对许多人来说比阅读文本更轻松自然。而且,这也能发挥播客不需要占据眼睛的优势。
当然,不是所有人都喜欢这么做,不同人对媒介形式有强烈的偏好,有些人喜欢用眼睛,有些人喜欢用耳朵。在从业者探索如何通过文本生成音频、视频的同时,市场上也有许多AI工具可以帮助用户将播客、视频转化为文本,可谓形成闭环了。但人生下来就会用眼睛看东西,然后才学会听和说;至于读和写,直到几十年前还是少数人才能习得的能力。我们的确可以断言,看视频比听音频容易,听音频又比读文本轻松。不可否认,阅读需要耗费更多的脑力,但文字的效率、深度、准确性等优势仍然无法被取代,也有一部分人乐在其中。
内容本身不同,适用的媒介形式也不同。简单粗暴地将一种形式转换成另一种格式,效果并不好。罗永浩老师的演讲录音听起来让人捧腹大笑,结集出版后,读起来索然无味,很多访谈录也是如此。一些需要深度思考的、难度较高的文本,朗读出来几乎无法被理解,但转换成互动式的讲解,也许就容易理解得多。过去,文本的一大优势是制作和传输成本低廉。随着技术的进步,这些差距在逐步缩小。一些过去不得不由文本媒介承担的场景,已经被视频、音频等媒介形式接管。生成式AI会加速媒介形式自由转换的过程,我对未来的想象,是同样的内容会根据每个人不同的背景知识、理解能力和偏好,有完全个性化的呈现。
虽然我自己喜欢阅读,从事的工作也仍然聚焦在文本媒介上,但我并不认为这是问题。如果技术能用这种方式来降低更多信息的理解、接受门槛,对整个社会是有益的。另外,客观理解事物变化的规律,也有助于我们更明确文本媒介在人们日常生活场景中应当扮演的角色,理解文本的优势在哪里,而不是盲目去和视频、音频竞争。
NotebookLM给我们演示了一种充满想象力的可能性。不论它是否真的“火”了,Google至少也证明了自己有创新能力。Google CEO 桑达尔·皮查伊还特意在官方博客上“表扬”了NotebookLM——这样一来,至少这个项目暂时不会说停就停了。
但正如前面所说,场景很重要。NotebookLM更多是为研究、学习而设计的,适用面有限。人和人之间的差异,除了对媒介形式的偏好,对“阅读”的理解、阅读习惯、阅读目的都有很大区别。9月我参与了一次关于RSS阅读器的讨论(录音在播客《乱翻书》),传统的RSS阅读器满足的是“资讯狂人”不错过任何信息的需求,这也是很不同的场景。阅读小说也是很不同的场景,而阅览室中最常见的是需要耐心阅读的通识内容。
所以,尽管NotebookLM给了我不小的启发,但我对于复制一个NotebookLM没有任何的兴趣。设想的场景不同,即使最后的关键词都是“阅读”,产品设计的差别也会很大。重要的,还是要结合自己对用户的理解,从用户的场景出发,给出自己的答案,而不是盲目跟进。
当然,如果做不出来,一切都是废话。
(原标题:《你愿意读,还是愿意听?》)