【小哈划重点:大型语言模型(LLMs)是我们所见过的最强大的工具之一。我们仍然在集体测试这些模型的指令界限。巧妙的提示工程已迅速成为书呆子们的运动。(“让我们一步一步地思考”的提示几乎滑稽地增强了模型推理能力)。】
大佬、投资人们(Reid Hoffman, Saam Motamedi, Sarah Guo, Lan Xuezhao, Matt Turck, Leigh Marie Braswell, Nathan Benaich, Rob Toews, Cat Wu, and Michael Dempsey)强调了需要关注的人工智能趋势。
可行性见解
如果你只有几分钟的时间,下面是投资人、运营者和创始人应该了解的最令人兴奋的人工智能趋势。
- 一切的副驾驶。人工智能已经在简化插图、写作和编程。它可能很快成为所有知识工作者的助手。在未来,我们可能会有GitHub的 “Copilot”功能的版本,用于律师、金融分析师、建筑师,以及其他。
- 追踪价值累积。由于人工智能初创公司经常依赖公开可用的模型,如GPT-3或Codex,一些人质疑其可辩护性。根本的问题是围绕着价值累积的问题。利用GPT-3的应用会成功地获取价值吗?或者它将累积到基础设施层?
- 超越文字和图像。GPT-3和DALLE-2因其自动创建文本和图像的能力而引起了应有的关注。不过,人工智能最有影响的用途可能来自于生命科学。人工智能可以被用来设计更好的药品或进行更有效的临床试验。
- 改善界面。与人工智能的互动通常采取一个基本文本框的形式,用户在其中输入 “提示”。虽然使用简单,但可能需要更大的控制来释放技术的力量。挑战将是在不引入不必要的复杂性的情况下实现这种潜力。应用程序将需要流畅的、有创意的界面才能蓬勃发展。
- 解决劳动力短缺的问题。随着社会需求的增加,熟练的劳动者供不应求。例如,虽然对熟练焊工的需求每年增加4%,但供应却减少了7%。由人工智能驱动的机器人可能是解决方案的一部分,使焊接、建筑和其他手工任务自动化。
“这次是不同的。”
John Templeton爵士,1999年被《金钱》杂志评为 “世纪炒股者”,把上面这句话称为 “投资中最危险的四个字”。
这是一个很好的讽刺,也是一个公平的观点。市场充满了海市蜃楼,看似异常的情况可能表明自己只不过是平凡的投资者罢了,大家都在一个熟悉的、重复的周期中运动而已。
不过,有时候,事情真的不一样。有时,一个微小的、有希望的微光会产生持久的火焰。有时,世界会被真正地改变。
风险投资界的看法是,当涉及到人工智能(AI)时,我们可能正处于这样一个时刻中。在过去的一年里,新模式和初创企业遍地开花,公众的兴趣也在增加。虽然该领域的风险投资随着更广泛的市场回落而放缓,但今天与风险投资商谈论他们最兴奋的是什么,生成性人工智能经常被提及。
与以往一样,我们有可能把这段时间看成是虚假的黎明——资本在冷却中寻找热度的结果。但这感觉不太可能。我的第一份风险投资工作是在2016年,当时所有其他投标书都声称有一些人工智能的优势,而聊天机器人被视为用户体验的演变。玩DALLE-2、GPT-3和 Stable Diffusion的感觉与那个时代明显不同,相当于从一个会说话的娃娃变成了一个早熟的幼儿。人工智能正在释放真正的创造力和真正的商业价值,产生新颖的图像、合理的写作和可用的代码。随着改进后的模型取代前者,以及初创企业确定利用它们的新方法,创新和实验的庞大数量往往让人感到难以跟上。有一天,可能性的视野看起来很遥远,几周后又突然很接近。
为了更好地了解这个行业的状况,我请十位有思想的人工智能投资者分享他们认为值得关注的趋势。我希望这能帮助我们(包括我自己)更好地确定机会领域和值得进一步研究的话题。
关于这些合作是如何形成的,请注意:
虽然投资者知道其他投稿人在写什么,并被鼓励挑选不同的主题,但我发现某种程度的重叠往往是有趣的。两个投资者可能会对一个类似的主题进行非常不同的分析,而我发现他们的区别是有价值的。
此外,我有意不排除投资者提及他们所投资的公司。一切都是权衡利弊的问题,我相信好处多于感知的成本。这种做法的缺点是,投资者可能会被视为 “大谈特谈”。首先,我们选择我认为有思想和可靠的贡献者。其次,让投资者挑选他们最熟悉、研究最深入的公司,这更有意思。这也要求他们在喜爱的公司中进行选择。最后,这表明他们在游戏中占有一席之地,因为他们将他们的信念资本化了。
综上所述,让我们一起走进人工智能的兔子洞,了解新技术如何影响我们的思想、身体和机器。
趋势:人类工作的提升
AI有没有像“艺术家”那样典型的右脑职业?或者像 “程序员”那样的左脑?
对我们来说,过去一年的快速发展,特别是大型语言模型的快速发展,非常了不起,因为它们现在正在为辅助工具提供动力,从根本上提高了各行各业的生产力、影响力和价值。
对于艺术家来说,我们已经有了人工智能图像生成工具,如OpenAI的DALL-E、Midjourney和其他许多工具。对于程序员,我们已经有了微软的GitHub Copilot,它可以帮助软件开发者用许多目前最流行的计算机语言编写、测试和完善代码。
虽然一些人工智能怀疑论者将大型语言模型描述为粗暴的预测机器,不会给计算机注入任何类似人类智慧或意识的东西,但我们看到的是,在令人震惊的实践中,这些类型的人工智能工具已经开始深刻地提高人类的繁荣。
Copilot为开发者所做的,以及DALL-E为各种视觉创意者所做的,是减少或消除了他们工作中的重复的、耗时的、但仍然是关键的方面。当然,这种动力几乎不是软件开发者和艺术家所独有的。大型语言模型是在大量文本数据的基础上训练出来的,然后结合它们 “学到的东西”,为用户提供的提示生成统计上可能的(背景合理的)输出。因此,虽然Github Copilot是通过摄取大量的计算机代码来训练的,但不同版本的Copilot同样可能适用于几乎任何行业。
例如,律师的Copilot可以帮助他们根据自然语言查询、以前的案例和最佳做法起草合同、动议、简报和其他法律文件。它还可以建议相关的先例、法规和引文,或者指出现有文件中的潜在错误、不一致或风险。
建筑师的Copilot可以帮助他们设计、建模,并根据他们的规格、约束和目标来优化他们的建筑和结构。它还可以生成交互式可视化,并帮助确定项目的环境、社会和经济影响的范围。
想象一下,在这个世界里,数以千计的行业的专业人士使用特定领域的Copilot版本,以更快更高的速度达到生产力、准确性和创造性的新水平。在这样一个世界里,所有行业的专业人士都可以使用通用工具,如我们的投资组合公司Adept的Action Transformer,通过接口来利用每一个应用程序、API或软件程序的力量,使他们能够用简单的语言描述他们想要完成的任务。
在对未来的反乌托邦式的设想中,一般的技术,特别是人工智能,往往被描述为将导致一个更加两极分化的世界,即富人和穷人的世界,人类的大部分被剥夺了权利,被边缘化,被机器所迫害。
在我们今天实际看到的世界中,新的人工智能工具以前所未有的方式有效地使设施和效率民主化。在这样做的过程中,他们正在赋予个人专业人员实现新的生产力水平,同时使社会实现生产力的提高,可能会超过工业革命所释放出来的。不仅如此,人们还将发现他们的工作更有吸引力和成就感,因为他们将有更多的时间专注于最具创造性、战略性和新颖性的方面。
未来就在这里。在五年内,每个主要行业都会有一个人工智能放大工具。这些工具可以催化人类在各种职业中的卓越表现,它像人类的右脑、左脑和任何大脑。
—— Greylock公司联合创始人Reid Hoffman和Greylock公司合伙人Saam Motamedi
趋势:生成性人工智能和生命科学
这又是一个人工智能的热潮。我们看到新的研究集体的崛起,它们以前所未有的速度开放了由大型中心化实验室开发的突破性人工智能模型。虽然这些文本到图像/视频模型提供了病毒式的消费级产品,吸引了我们的想象力,但这些模型的最有影响力的应用不太可能是它们的一阶效应。我相信建设的地方是在人工智能和科学的交叉点,特别是在生命科学领域。
今天的科学方法深深扎根于数据驱动的实验。我们能够产生的解释生物系统的数据的分辨率和规模正在不断提高,同时我们继续开发能够对人类语言、自然图像或社交图谱进行建模的人工智能模型架构。这些架构可以直接转移到对蛋白质的语言、细胞的图像或化学分子图的建模。这种不可思议的泛化能力现在正在解锁蛋白质结构预测和药物分子设计方面的突破。人工智能正在推动新一代技术驱动的生物技术公司(“TechBio”)向价值数万亿美元的制药业发起进攻,以更快的速度和更低的成本提供改良药物。
通过Air Street Capital,我对推动这一行业发展的公司进行了大量投资。我支持的公司之一是Valence Discovery,该公司开发了生成设计方法,以创造新类别的有效药物分子,以前由于必要的设计复杂性而无法实现。Valence公司正在与领先的研究机构合作开展超大规模的生成化学计划,以推动当今用于药物设计的生成性人工智能方法的边界。
这个领域的一位创始人是Ali Madani,他在Salesforce Research领导了一个名为ProGen的人工智能蛋白质工程。在那里,他开发了大型语言模型,专门用于设计全新的人工蛋白质,以重现甚至超越其自然发生的同行的功能。该小组制作了第一个人工智能生成的蛋白质的三维晶体结构。蛋白质是所有生命的功能执行者,像这样的技术可能释放出巨大的可能性。
—— Nathan Benaich,Air Street Capital的普通合伙人
趋势:协作性界面
大型语言模型(LLMs)是我们所见过的最强大的工具之一。我们仍然在集体测试这些模型的指令界限。巧妙的提示工程已迅速成为书呆子们的运动。(“让我们一步一步地思考”的提示几乎滑稽地增强了模型推理能力)。
但是,自然语言并不是万能的,我们仍然在盲目地发布命令,没有什么使用手册。用户在提示中没有指导性的、连贯的抽象概念,没有明显的地图来导航模型的 “潜在空间”,有的只是大量的试错和巧妙的技巧。
那些已经开始为狭窄的用例找出用户体验简化的初创公司已经获得了回报。一个例子是Jasper的模板化提示,用于制作营销副本。我们还处于早期阶段,大多数语言模型产品向用户暴露了 “采样步骤”和 “种子”不透明的概念,就说明了这一点。
每个能上网的人很快就会在日常工作中间接地使用大型语言模型。至少,搜索将被破坏得面目全非,按需提供答案和摘要。我们还应该看到基于LLM的工具被设计为更多的掌握和更深入的互动。创意人已经希望生成的图像在结构上是可操作的,而工人们则希望有值得信赖的输出(没有乱七八糟的联想)。许多人可能希望他们的人工智能助手能接受特定知识的教育。这些都是复杂的“心灵自行车”,它将为知识工作者释放生产力。
Ilya Sutskever认为 “提示”是一个短暂的术语,只是由于我们模型中的缺陷才有意义。我希望他是对的(鉴于他通常是对的),我们的模型将越来越能够理解意图。但一个根本问题是,人类的意图并不总是确定的;它往往是反复的、探索性的。随着模型从事需要这种思考的更复杂的任务,我的预感是,理解工作流程并使更多的控制和反馈适合该工作流程将对创造最终用户价值至关重要。改善用户体验的早期想法包括模板、在各代人之间进行选择的用户界面、添加更多约束的能力、对上下文长度的控制、链式流程中的中间控制,以及暴露模型的 “思维过程”。
一些企业家和投资者对围绕别人的模型是否有商业价值感到绝望,但我们才开始了解如何与人工智能互动。围绕的领域可能会有变化,研究人员不太可能解决每个用户角色的需求。这些强大的模型的唯一界面将永远是一个简单的、静态的文本框吗?我认为不会!这就是一个产品机会。
—— Sarah Guo,Conviction的创始人
趋势:人工智能视频创作
生成式人工智能现在风头正劲,而且有充分的理由证明它如此的令人兴奋。撇开技术能力不谈,通常的商业问题也适用:你能不能用生成性人工智能打造一个解决问题的产品,而且比其他方式好10倍?你能随着时间的推移建立一个可防御的竞争优势吗?
在我(有偏见)看来,视频创作平台Synthesia是一个很好的例子,说明如何在生成性人工智能的基础上建立一个令人兴奋的业务。使用Synthesia,用户输入几行文字,点击几个按钮,然后就可以了。一个专业的视频就会出现,并有一个人类化身在几分钟内对文本进行叙述(注意,是用60种语言)。
Synthesia被用于各种企业用例,特别是在入职和培训方面有吸引力。对于许多客户来说,替代方案历来是发送很少有人阅读的长篇PDF文件,或者花费数十万美元使用演员、导演、摄像机和后期制作来制作专业视频。
Synthesia使用生成性人工智能,大大减少了制作商业视频所需的精力、时间和金钱,可能是100倍,并使任何人都能做到这一点。此外,它还建立了自己的专有人工智能技术——它的两位联合创始人是人工智能教授,而且它有一个强大的内部研究小组。虽然它已经利用了大型语言模型,但该公司避免了在GPT-3上直接构建应用的初创公司迟早会面临的平台依赖性,为长期可防御的竞争优势和类别领导地位铺平了道路。
—— Matt Turck,FirstMark的总经理
趋势:自动代码生成和应用开发
现代机器学习(ML)的进展速度似乎一直很快;仅在十年前,一个深度学习模型首次赢得了最受欢迎的计算机视觉比赛。然而,当GitHub在2021年底发布他们的 “AI pair programmer”Copilot产品时,许多人(甚至一些从事ML工作的人,比如我自己!)都感到震惊,今天的深度学习模型已经可以为高度熟练的软件开发者自动完成代码。在开发者用于编程的界面内,Copilot建议如何完成一行代码,甚至从对该代码应该做什么的纯文本描述中生成多行代码。一些使用第一版Copilot的工程师声称它每天为他们节省了几个小时,甚至写了40%的代码。
Copilot是使用OpenAI的Codex的大型语言模型(LLM)建立的,该模型将自然语言翻译成许多流行的编程语言,并使用数以千万计的公共GitHub代码库进行训练。就背景而言,OpenAI是一家位于旧金山的人工智能研究公司;它于2015年作为非营利机构成立,在2019年使自己成为营利机构,然后从微软(在2018年收购了Github)那里筹集了10亿美元,以资助其研究。作为回报,微软获得了对OpenAI的一些LLM的独家访问权,包括Codex。
最终,Copilot提供了令人信服的证明,即当前的ML能力可以自动生成越来越多的代码和应用开发。新成立的初创公司和成熟的公司已经开始解决产品建设经验的多个部分,包括自动代码审查、代码质量改进、shell命令自动完成、文档,甚至是前端和网站生成。
在这一领域建设的早期创业公司的一个例子是Grit。Grit完成了任何公司最可怕的工程任务,通常称为 “技术债务”。这种债务是在开发者为了更快地推出功能而采取编码捷径,牺牲长期可靠性和性能的情况下积累的。Grit的产品就像一个自动化的程序员,可以修复许多常见的问题,并通过人类对建议的代码修改的反馈进行改进。通过将静态分析与LLMs相结合,Grit的愿景是创建自我维护的软件。
鉴于这项技术有可能彻底改变软件开发,多个投资者已经编制了相关的公司名单,还有许多其他初创公司正在隐秘地建设。其中一些初创公司建立在Codex API的基础上,旨在通过独特的产品体验和专有数据飞轮来发展差异化。其他公司正在从头开始建立自己的模型,或对开源模型进行微调。随着这些公司的成熟,大部分的价值将在哪里产生将变得更加明显,要么是人工智能基础设施供应商,要么是人工智能应用程序本身。
* 免责声明:创始人基金和作者是Grit的投资者。
—— Leigh Marie Braswell, Founders Fund的负责人
趋势:临床试验中的数字孪生
人工智能将改变我们使用药品来治疗人类疾病的方式。
当人们想到人工智能和制药时,最常跳到脑海中的应用是人工智能用于药物发现。(理由很充分:人工智能驱动的药物发现具有巨大的潜力)。
但是,还有一个引人注目的机器学习用例,虽然没有被广泛报道(也没有被热心资助),但有望为数百万患者更快、更有效地将改变生命的疗法推向市场。这就是临床试验中数字孪生的使用。
众所周知,今天的临床试验是多么的低效和昂贵,一般的新药需要十年以上的时间和20亿美元才能推向市场。招募试验参与者是指导药物通过临床试验的一个主要绊脚石。一项临床试验需要招募数百或数千名志愿者来填充其实验和对照(或安慰剂)部分。这已经成为一个重要的瓶颈。80%的临床试验经历了与招募有关的延误,试验主办方每推迟一天,就会损失800万美元的潜在收入。每年有数以百计的临床试验因患者注册人数不足而终止;事实上,这是临床试验被终止的首要原因。
“数字孪生”为这一挑战提供了一个变革性的解决方案。基本概念很简单:生成的机器学习模型可以模拟临床试验中患者的安慰剂结果。这可以在患者个人层面上完成:可以为试验中实验组的每个人类试验参与者创建一个数字孪生,模拟他们在对照组的表现。
至关重要的是,这意味着制药公司需要招募的人类参与者要少得多,因为大部分对照组的病人可以被数字孪生所取代。这使得临床试验明显更快、更便宜,使改变生命的疗法能够更快地进入市场,并惠及数百万需要的患者。
总部位于旧金山的Unlearn是一家处于这一变革性技术前沿的人工智能初创公司。Unlearn目前正在与一些世界上最大的制药公司合作,包括默克公司,该公司正在部署该创业公司的数字孪生技术以加速其临床试验。今年早些时候,欧洲医疗机构(欧洲版的美国食品和药物管理局)正式签署了Unlearn的技术用于临床试验,这是对该技术准备广泛部署的主要监管验证。
几年后,预计制药和生物技术公司将把数字孪生作为其临床试验方案的一部分,以简化治疗方法的上市路径,这将成为标准做法。
值得注意的是,用于临床试验的数字孪生代表了生成性人工智能的一个引人注目的例子(尽管它与今天热闹的文本到图像模型毫无关系)。为单个病人产生模拟的安慰剂结果是一个很好的例子,说明生成式机器学习模型可以对现实世界产生巨大影响,并创造数十亿美元的价值。
* 免责声明:作者是Radical Ventures的合伙人,是Unlearn的投资者。
—— Rob Toews,Radical Ventures的合伙人
趋势:为工作流程而来,为个性化而去
随着越来越多的用户与生成性人工智能模型互动,我们对人工智能最能立即解决的问题有了更深入的了解:那些我们已经有大量训练数据的问题;那些99%的时候得到正确答案是非常有用的,而错误的1%不会是灾难性的;以及那些基础模型可以不断地吸收人类的反馈,并随着时间的推移变得更好。随着人工智能跨越鸿沟进入主流,直观的工作流程将推动大规模的采用,使那些不太熟悉人工智能的人能够迅速开始看到价值。
在下一代人工智能初创企业中,最好的产品将由专注于工作流程设计和基于用户反馈的模型微调的创始人创造。
符合这一模式的两类初创企业是人工智能代理和人工智能增强的SaaS。人工智能代理将完成重复性的知识工作——无论是作为一名律师、工程师、会计师还是医生。人工智能增强的SaaS将依赖于人工智能层,从现有的工作流程中获得更多的价值,例如,在已经收集音频数据的平台上增加转录和总结,或者增加语言界面以简化SaaS应用程序。在这两种情况下,人类仍将进行监督,以保证输出质量。用户将提供积极和消极的反馈,这些反馈将被捕获并用于调整模型。
胜出的创始人将设计出界面和工作流程,通过在目前的提示和自动完成模式的基础上进行创新,给予用户高度的控制和低认知开销。这些工作流程将通过模板或专门的可组合模式加速普通用例,同时确保为不常见的边缘用例提供 “break-glass”选项。用户不必了解模型是如何工作的,也不必为它塑造自己。而当用户与产品互动时,被接受的答案所产生的数据会自动反馈到数据飞轮中,从而推动个性化和保留。
这些初创公司将专注于他们的核心竞争力,并将通用人工智能模型的开发留给研究实验室和开源社区,后者已经发布了非常有能力的模型。我们已经看到像Stable Diffusion这样的文本到图像模型,像Whisper这样的音频转录模型,以及GPT-J和GPT-Neo这样的语言模型。初创公司将利用人工智能研究的最新进展,在新模型可用时将其换上,并根据历史上的专有用户反馈进行微调。今天的限制是产品设计师专注于界面,使非AI意识的消费者容易参与并迅速从模型中获得价值。护城河将在全面的工作流程和用户参与这些模型时收集的数据中,这将为更强大的未来模型提供信息。
—— Cat Wu, Index Ventures的合伙人
趋势:链式提示和多步骤自动化
现在,许多人已经体验到了提示界面的力量,以及大型语言模型(LLMs)所能带来的各种创造性和实用性的使用案例,现在是时候深入一层了。作为一个用户,提示界面和LLM的魅力在于它们可以解释意图并导致行动。到目前为止,我们主要看到的是单人游戏体验推动的非常具体或一对一的任务成就,如图像生成、文本完成等等。接下来,我们将看到人们建立起将提示链在一起的基础设施,使我们能够实现多步骤的行动(通过LLM和/或最终与API的互动),并解锁大量的投资回报率。
这对消费者和企业用例都有各种影响。虽然有些是简单的使用案例,可能没有风险规模(例如:“给我在布鲁克林南部的一家安静而浪漫的亚洲餐厅预订周二下午6-8点的座位”),但其他案例可以为运营、采购、数据分析等任务提供实质性的帮助。
在消费者方面,我们可能会看到这些用例中的每一个都成为更多横向游戏的楔子。在企业方面,这些行动可能被磨练得更加针对行业或背景,难以整合的或专有的数据管道将发挥更大作用。
将提示和不同类型的模型串联起来的概念(并不总是需要),也有助于绕过今天像GPT-3这样更多的API驱动的模型的一些现有限制,在那里,模型的记忆是相当静态的,因为你可以查询信息,总结它,然后以你想要的方式利用结果。这方面的一个例子是创建新的搜索引擎这样的用例,就像最近在webGPT上做的那样。
总的来说,我们才刚刚开始了解前者所实现的链式提示或连续行动如何在人工智能和可能的(一些)人类智慧的帮助下,推进更先进的工作流程、新型的软件产品,以及解决常见问题的新的界面范例。
—— Michael Dempsey, Compound公司的管理合伙人
趋势:解决现实世界挑战的工业自动化
我们都读过关于人工智能模型的最新突破,如DALL-E 2,GPT-3,等等。企业正在因为这些创新而被重新想象,一些开发者和设计师为他们的工作而担忧。与此同时,在办公室之外,在餐馆、建筑工地和工厂等地方,我们正面临着我们一生中最严重的劳动力短缺问题。
举例来说,焊工的平均年龄是55岁。每年,熟练的人类焊工减少7%,而对这些焊工的需求却增加4%。到2024年,仅在美国就会有40万个人类焊工的空缺。
这就是为什么像Path Robotics这样将熟练劳动力自动化的公司是如此关键。Path使公司能够使用现成的机器人来自主焊接新型零件,而不需要耗时和昂贵的重新编程。今天,Path为客户实现了各种金属应用的自主焊接,从电线杆到液压油箱到消声器。有了它的软件,机器人可以通过视觉来学习焊接,而不是用代码来教他们如何焊接。这使该公司能够通过视觉质量保证检查来提高性能。在未来,Path的核心技术适用于许多其他制造任务。
同样,当劳动力短缺与供应链挑战相结合时,事情会变得更加糟糕,正如现在建筑业所看到的那样。这种痛苦的组合使家庭或商业地产所有者无法按时完成建筑项目。Ergeon正在利用先进的人工智能实现围栏建设的整个施工过程的自动化,以实现远程测量和自动化设计、报价等。这项技术使该公司完成项目的速度比一般的承包商快10倍。他们已经建立了世界上最大的房屋建筑数据库之一,并授权任何人进行建设。
虽然不经常讨论,但许多1000亿美元的企业将在我们的办公室外建成。这是一个千载难逢的机会,可以重新想象我们办公桌和电脑之外的世界,我们对此感到无比兴奋。
* 免责声明:Basis Set是Path和Ergeon的投资者。
—— Lan Xuezhao,Basis Set公司的创始人
(来源老雅痞头条号)