吴恩达：AI在2022年创造了这些奇迹

核子可乐 ☉ 文来源：AI前线 2022-12-29 @ 哈希力量

【小哈划重点：过去一年来，Vision Transformer的应用范围得到了极大拓展。ViT已经能够生成真假难辨的连续视频帧，从2D图像序列到生成3D场景，并检测点云中的对象。如果没有这些成果，近期大火的Diffusion模型恐怕也无法达成如此惊艳的文本到图像生成进步。】

划重点

①吴恩达发布年终盘点，回顾2022年的AI技术。吴恩达认为，AI技术飞速发展，无论是目前已经颇有水准的文本、图像和代码生成能力，还是未来即将出现的视频与音乐创作前景，都让用户感到兴奋莫名。

②吴恩达表示，今年建立在监督学习技术之上的生成式AI也掀起新一波浪潮，让AI得以生成复杂且引人注目的丰富输出，包括自然顺畅的图像或文本段落等。

③吴恩达认为，虽然强化学习等前一阶段的新工具未能带来与炒作声量相符的成果，但生成式AI确实表现良好，也成为AI应用领域的又一崭新范例。

吴恩达在圣诞节当天发布了一年一度的年终盘点，他从纯技术的角度出发，回顾AI科技在2022年创造出的那些奇迹。在过去的一年，AI技术取得了巨大进步，生成式AI成为新一轮投资的热门去向，人工智能生成的文本、图像甚至是代码已经无处不在。Vision Transformer（ViT）在2022年同样迎来爆发式增长，今年之内有超17000篇ViT论文发布。研究人员突破了语言模型的边界，希望解决可信度、偏见和可更新性等老大难问题。

来自吴恩达的一封信

亲爱的朋友们，大家好：

随着新年的临近，又到了寒冬肆虐的时候。但于AI来说，如今的我们绝非身处寒冬，而是热浪席卷的盛夏。

如今AI创造出的大部分经济价值集中在监督学习工具方面，即经过训练即可生成各类短标签（垃圾邮件/非垃圾邮件）乃至一系列标签的集合（例如音频转录文本）。今年，建立在监督学习技术之上的生成式AI也掀起新一波浪潮，让AI得以生成复杂且引人注目的丰富输出，包括自然顺畅的图像或文本段落等。

虽然强化学习等前一阶段的新工具未能带来与炒作声量相符的成果，但生成式AI确实表现良好，也成为AI应用领域的又一崭新范例。

更重要的是，监督学习所发挥的还只是其全部潜力中的一小部分。相信还有数以百万计的监督学习潜在应用尚未成为现实。目前全球无数团队仍在尝试通过监督学习找到产品开发的最佳实践。

相信在新的一年乃至更久远的未来，生成式AI将继续腾飞，为每个人创造更多价值。我有幸能够生活在这个科技飞速发展的时代，也欣慰于有机会参与其中创造未来，更为自己能与各位好友分享这个瞬息万变的世界而高兴不已！

新年快乐！你的朋友，Andrew。

2022：令人眼花缭乱的AI之年

相信很多朋友正一手端着咖啡，一手跟ChatGPT闲聊，想让它为自己的亲朋好友推荐几样新年礼物。回顾这一年，AI技术无疑取得了巨大进步。无论是目前已经颇有水准的文本、图像和代码生成能力，还是未来即将出现的视频与音乐创作前景，都让用户感到兴奋莫名。

当然，人们对于AI创造力的下一步进展也提出了疑问。一方面，AI发展让更多化学与物理学模型成为可能，科学发现亦由此迎来又一股助力；而另一方面，政府则开始严格管控可用于AI创新的专用微处理器供应。在这个矛盾丛生、复杂多变的新时代，就让我们从纯技术的角度出发，回顾AI科技在2022年创造出的那些奇迹。

合成图像已无处不在

由AI生成的正广为流传、引发争议，同时也成为新一轮投资的热门去向。

趋势背景：新一代文本到图像生成器掀起实验热潮，如今普通人也能靠语言描述快速创作出迷人的艺术作品和幻想场景。商业企业迅速将这项技术投入使用，让AI图像生成成为图形创作和编辑软件中的又一必备功能。

关键驱力：凭借友好的用户界面、妙趣横生的输出结果和开放的API与模型，媒体生成类模型如今已经成为AI技术的“形象代言人”。

OpenAI于今年4月发布DALL-E 2，超过150万用户参与了这套模型的beta测试。到9月，DALL-E 2模型全面开放。微软通过资助OpenAI获得了对该成果的独家商业所有权，并迅速将模型集成到Azure AI即服务平台当中。

今年7月，各社交媒体平台上出现了大量一键式艺术创作方案，这些略显粗糙的图像背后依托的则是相对简单的Craiyon。

StabilityAI很快通过开源模型Stable Diffusion将AI图像创作推向新高潮——今年11月，此模型更新为2.0版，并最终吸引到超1亿美元新资本。

Adobe和照片存储业两大巨头Getty Images与Shutterstock，纷纷将图像生成模型集成到自家产品和服务当中。

此类程序可能根据给出的文本提示生成截然不同的结果。PromptBase则开辟出新的市场空间，可根据描述生成有趣的文本字符串图形。

一切都很美，只是：这类模型是根据抓取自网络的图像训练而成。与大语言模型一样，它们也同样继承了线上内容中的偏见和煽动性表达方式。

LensaAI是一款照片编辑应用，可根据用户的自拍照生成“魔法头像”。尽管在移动应用排行榜上迅速蹿红，但其成功也伴随着不少争议——不少用户，特别是女性用户，发现该应用会刻意在输出图像中添加性化元素。

视觉艺术家在线社区ArtStation也推出了自己的文本到图像功能。很多艺术家觉得，这种几秒钟内就能模仿艺术家个人风格的计算机程序可能威胁到他们的职业生涯，因此纷纷抵制该网站。

新闻背后：Diffusion模型最初的输出结果只能用噪音来形容，但随后会通过一系列步骤有选择地去除低质量内容。由加州大学伯克利分校和斯坦福大学研究人员于2015年推出的这套模型经历了数年开发，最终成果表明其已经能够创作出足以匹敌生成对抗网络（GAN）的高水平图像。StabilityAI的Stable Diffusion正是以Diffusion模型为核心。另一方面，作为基于GAN的DALL-E的缔造者，OpenAI也几乎在同一时间用Diffusion模型对自家成果进行了更新。

现状解读：新年中，相信计算机辅助创作革命将继续酝酿蓄力。生成式图像的风潮也绝不会止步于二维平面。谷歌和Meta今年都公布了令人印象深刻的文本到视频模型，而Open AI的文本到3D对象也将生成速度提升到了新的量级。

程序员的好朋友

编程助手大显身手，软件项目进度又落后了？别怕，AI新应用能帮忙。

趋势背景：事实证明，只要对代码做出微调，语言模型就能很快像经济丰富的开发者那样编写出软件例程……当然，输出质量仍然有待商榷。

关键驱力：AI驱动的代码生成器正登陆各大企业，甚至小开发商和非技术人士也能轻松使用。

今年伊始，Ebay就尝试将低代码工具交到非工程师的手中，让他们在无需AI或机器学习专业知识的情况下构建和部署模型。

今年2月，DeepMind推出了AlphaCode。这是一款转换器，接受了12种编程语言共8600万种程序的预训练，甚至针对编码竞赛的参赛作品进行了调优。在推理阶段，它能生成上百万种可能的解决方案并过滤掉低质量的条目。最终，它在10场编码比赛中击败了半数以上的参赛者。

今年6月，GitHub开放了Copilot功能。这是一款能实时提供编码建议的自动补全系统，普通用户须支付订阅费方可使用，但学生和经过认证的开源开发者可以免费访问。

新闻背后：OpenAIGPT-3语言模型的用户们早在2020年就发现，该模型完全可以生成能跑的代码。一年之后，Open AI又推出了名为Codex的调优版本，这就是如今GitHub Copilot的雏形。

一切都很美，但是：这项技术的公开可用版本还无法编写复杂的程序。而且其输出乍看之下往往正确，但跑起来的结果却是错的。此外，Copilot项目还身陷法律风险。针对GitHub、OpenAI和微软的集体诉讼认为，Codex的训练过程违反了开源许可协议。最终判决结果很可能对文本、图像和其他媒体的生成模型产生深远的法律影响。

现状解读：AI驱动型编码工具在短时间内还不太可能取代人类程序员，但它们确有可能顶替技术问答网站Stack Overflow，成为开发者们最喜爱的疑难问询小助手。

AI之眼也在进化

Vision Transformer（ViT）在2022年同样迎来爆发式增长。

趋势背景：研究人员们在今年之内发表了超17000篇ViT论文，它们的共同主题就是：将自注意力与卷积结合起来。

关键驱力：Google Brain的一支团队在2020年率先推出Vision Transformer（ViT），此后该架构经历了持续改进。最终的努力让ViT获得了适应新任务的能力，同时也解决了不少此前难以克服的短板。

ViT能够从海量数据中获得良好学习效果，因此Meta和索邦大学的研究人员希望能“仅”靠数百万示例数据集就让模型获得理想性能。他们使用数据增强和模型正则化等源自transformer模型的特定改造尝试提高性能。

韩国仁荷大学的研究人员修改了其中两个关键组件，使ViT更像卷积神经网络。他们首先将图像失势成具有更多重叠的小图块，之后修改了自注意力机制以关注每个图块的相邻图块、而非当前图块自身，这样模型就能了解该为相邻图块赋予均匀权重还是选择性权重。这些修改显著提高了模型准确性。

印度孟买理工学院的研究人员为ViT配备了卷积层。由于权重共享，卷积能够在本地处理像素、同时降低内存占用量。在准确性和速度方面，他们的卷积ViT也优于常规版本的ViT以及Performer、Nyströformer和Linear Transformer等transformers运行时优化方案。这种方法也得到了其他多支团队的采纳。

新闻背后：虽然不少ViT研究的目标在于最终取代卷积神经网络（CNN），但目前的主流趋势显然是将两者结合起来。ViT的优势，在于它能够从大、小两个尺度考量图像内所有像素间的关系。但它的缺点是，模型需要额外的训练才能在随机初始化后融入CNN架构以进行学习。CNN的局部上下文窗口（即其中只有局部像素较为重要）和权重共享（使其能够以相同的方式处理不同的图像位置）能帮助transformers从较少数据中学习到更多模式。

现状解读：过去一年来，Vision Transformer的应用范围得到了极大拓展。ViT已经能够生成真假难辨的连续视频帧，从2D图像序列到生成3D场景，并检测点云中的对象。如果没有这些成果，近期大火的Diffusion模型恐怕也无法达成如此惊艳的文本到图像生成进步。

语言模型持续扩展

研究人员突破了语言模型的边界，希望解决可信度、偏见和可更新性等老大难问题。

趋势背景：虽然不少AI实验室都想通过改进数据集和训练方法（包括训练单一transformer翻译上千种语言的方法）提升大语言模型的复杂度，但也有一些研究者尝试扩展模型架构，希望借此实现网络搜索、外部文档查询和更强的新信息适应效果。

关键驱力：如今的语言模型虽然表现出强大的文本生成能力，但在辨别事实、控制“脑洞”和消除社会偏见方面仍然孱弱。研究人员正努力让语言模型的输出更值得依赖，同时减少煽动性。

2021年底，DeepMind提出了RETRO，一种能从MassivText数据集中检索段落、并将其整合至输出中的模型。

Al21 Labs于春季推出的Jurassic-X引入了一套模块，包含一个计算器加一套维基百科查询系统，能够对语言模型就数学问题、历史事实等做出的回答执行事实验证。

斯坦福大学和洛桑联邦理工学院的研究人员创建了SERAC，这是一套无需重新训练、即可用新信息更新语言模型的系统。它有一套独立的系统，专门用于存储新数据并学习与之相关的查询结果，借此调整最终输出。

Meta构建的Atlas，是一种能从文档数据库中检索信息以回答问题的语言模型。此方案于今年8月发布，参数量仅为110亿的Atlas在回答问题时表现甚至优于包含5400亿参数的PaLM。

今年晚些时候，OpenAI对ChatGPT做出调优，以最大限度减少不真实、偏见性或有害性输出。由专人对该模型的训练数据质量进行排名，之后利用强化学习算法奖励模型优先生成与高排名结果相似的输出。

上述发展趋势，也让人们对语言模型提出了更加微妙且动态的基准要求。为响应号召，130多家机构在BIG-bench项目中展开合作，尝试联手解决通过表情符号推断电影自勉、参与模拟试验和检测逻辑谬误等一系列任务。

新闻背后：在取得进展的同时，语言模型也闹也不少乱子。Meta公开展示的Galactica是一套可生成关于科学及技术主题文本的语言模型。但在11月开放展示短短三天，该模型就由于倾向于生成虚假信息和引用并不存在的来源而遭到关停。今年8月，同样来自Meta的聊天机器人BlenderBot 3则因散布种族主义刻板印象和阴谋论而快速弄臭了名声。

现状解读：这一年以来，文本生成领域的靠谱工具可谓争相涌现。相信成功的技术将在不久的未来，凭借一鸣惊人的新模型从激烈竞争市场上杀出一条新路。

是否有全能模型

少数深度学习模型已经证明了自己解决几百种任务的能力。

趋势背景：过去一年，多任务模型的阵容也在急剧扩大。

关键驱力：研究人员突破了神经网络所能掌握的技能数量上限。他们的灵感来自大语言模型的新兴技能——例如无需架构调整就能创作诗歌加编写计算机程序，而利用文本和图像训练而成的模型也获得了在不同类型数据间找寻对应关系的能力。

今年春季，谷歌的PaLM在涉及语言理解和生成的数百项任务中，展示了小样本学习的最新成果。在某些情况下，其表现甚至优于经过调优的针对性模型或人类的平均水平。

不久之后，DeepMind发布了Gato。其能够处理600多种不同任务，包括玩雅达利游戏、用机械手堆积木、生成图像说明等等，而且并不需要借助专用于这些任务的单独模型。该系统同时接受了各种数据集的监督训练，包括文本和图像识别、基于强化学习智能体生成动作等等。

随着2022年接近尾声，谷歌研究人员又为机器人技术带来了类似的普适性能力。RT-1也是一种transformers模型，能够引导机器人执行700多项任务。该系统能够将动作和图像令牌化，在近一年半的周期内利用多台机器人收集的13万组数据完成了训练。与原有技术相比，它在新任务、新环境和新对象上都表现出了强大的零样本适应性能。

新闻背后：欧盟拟议的AI法案最新草案很可能在2023年通过为法律。该法案将要求通用AI系统用户向当局注册，由官方评估其系统是否存在潜在滥用行为，并定期接受审计。该草案将通用AI系统定义为“执行图像 / 语音识别、音频 / 视频生成、模式检测、问答、翻译等普适性功能”，且“具有多种预期之内 / 之外用途”的AI系统。一些观察家批评该定义过于宽泛，相信后续真正具备通用性的新兴模型可能会促使监管机构进一步完善定义内容。

现状解读：目前能够推广至数百种不同任务的AI算法仍处于早期发展阶段。但2022年的实际进展，再次表明深度学习具备帮助我们达成这一目标的潜力。

翻译丨核子可乐

策划丨刘燕

收录源追溯链接或暂略

本文收录后固定可引用URL链接

http://www.haxililiang.com/toutiao/shounaosiwei/35251.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 人机智能科普文库