产学研新算法为计算机视觉与自然语言处理统一“建模”

袁一雪 ☉ 文来源：中国科学报 2021-12-16 @ 哈希力量

【小哈划重点：自然语言是文字，研究者需要考虑文本的处理特点。例如，当文字中出现“远”“近”等词语时，自然语言只需理解字的含义即可，而无需考虑实际输入文本信号的尺度差异；但同样的“远”“近”概念，在计算机视觉中就要体现“近大远小”的尺度变化。】

日前，计算机视觉领域三大顶会之一的ICCV 2021在线上举行。来自微软亚洲研究院、中国科学技术大学、西安交通大学以及清华大学的研究者们关于Swin Transformer（移位窗口通用视觉神经网络）的研究，从全世界共6152篇投稿中脱颖而出，获得ICCV 2021马尔奖（最佳论文）。

Transformer是一种通用的建模单元，其中的技术来自人工智能（AI）的多个子领域，包括计算机视觉和自然语言处理等，并首先在自然语言处理领域取得了广泛应用，成为该领域最主流的基本神经网络。此次获得马尔奖的论文，证明Transformer经过改进后可以广泛应用于计算机视觉的各种任务中，并首次在计算机视觉的多个重要任务中显著超越此前主流的卷积神经网络方法。这一工作让自然语言处理（NLP）与计算机视觉（CV）领域的研究人员可以在同一基础神经网络上展开工作，让计算机向通用人工智能又迈进一步。

统一建模加速整合不同领域

“人工智能中有很多子领域，每个子领域都有各自的特点，使用各自的基本神经网络模型，围绕各自基本神经网络模型的生态包括优化器等都不一样，很难在同一平台上互相学习与合作。”Swin Transformer项目负责人、微软亚洲研究院研究员胡瀚在接受《中国科学报》采访时表示，“因此，我们一直都希望为统一人工智能各个子领域的研究平台做些贡献。”

“统一性”是很多学科追求的目标，人工智能领域也不例外。在深度学习的浪潮中，人工智能领域已经朝着统一性的目标前进了一大步。比如，一个新的任务基本都会遵循同样的流程来对新数据进行预测：收集数据，做标注，定义网络结构，训练网络参数，预测。但是，在人工智能的不同子领域中，基本建模的方式各种各样，并不统一。例如：在自然语言处理领域，此前的主导建模网络是Transformer；计算机视觉领域很长一段时间的主导网络是卷积神经网络；社交网络领域目前的主导网络则是图网络等。

尽管如此，从2020年年底开始，Transformer还是在计算机视觉领域中展现出革命性的性能提升。这表明计算机视觉与自然语言系统有望统一在Transformer 结构之下。

“其实，在计算机视觉领域甚至其他AI子领域，此前最成功的模型莫过于卷积神经网络，它已经流行了30余年。包括Transformer在内的很多模型都受到卷积神经网络大量的影响。”胡瀚表示，“我们认为Transformer有替代卷积神经网络的可行性，甚至在很多关键问题上，它能够显著超过卷积神经网络。”

不过，胡瀚介绍说，Transformer主要是针对处理自然语言任务设计的，那么若要让它“理解”计算机视觉，就先要让Transformer兼顾计算机视觉的特点。简单来说，自然语言是文字，研究者需要考虑文本的处理特点。例如，当文字中出现“远”“近”等词语时，自然语言只需理解字的含义即可，而无需考虑实际输入文本信号的尺度差异；但同样的“远”“近”概念，在计算机视觉中就要体现“近大远小”的尺度变化。

当然，实际情况远比这些复杂得多。除了没有尺度概念外，自然语言中也不涉及空间连续性的问题，因为词语之间没有连续的特点。而这点在计算机视觉中却很重要，如一个场景到另一个场景的过渡，同一场景颜色和纹理的平滑性。此外，相较于计算机视觉，自然语言对词语的绝对位置十分看重，会决定词语的词性，例如“书”在句子的开始，它通常是主语，在句子的末尾，通常是宾语。“绝对位置对于计算机视觉来说不是很重要，反而是相对位置更重要一些，因为不论书在人的视角的什么位置，只要它和其它物体的相对位置不变，我们对于书和场景的理解就不会变化。”胡瀚解释说。

为了让主导自然语言系统的Transformer适应计算机视觉，胡瀚等人开始了尝试。

两年前研究的延续

在ICCV 2019上，胡瀚就曾与另外几位研究者提出了一种新的完全无需卷积的神经网络。该新型神经网络在计算机视觉领域重要的图像分类基准数据集（ImageNet-1K）上取得了超越卷积神经网络的准确率。虽然精度很高，但胡瀚等人发现基于滑动窗口的自注意单元对图形处理器（GPU）显存访问不太友好，“它让计算速度变慢，不太实用”。

两年后的今天，他们解决了这个问题，解决方式就是将滑动窗口变成移位窗口。“不重叠的窗口，是对计算比较友好的方式。而为了让不同窗口之间存在联系，我们又在不同的层做了移位设计。事实证明这一新设计很实用。”胡瀚解释说，“而且，我们还找到了在计算机视觉很多下游任务训练Transformer的菜谱，包括优化器和数据增强方法等的设计，这一菜谱已被很多后续工作所采用。”胡瀚认为，这一菜谱（recipe）可能是该工作除了移位窗口外另一个重要的技术贡献，因为它将使得其他研究者可以在一个很好的基础上继续研究。另一个更长久的贡献可能是让计算机视觉的研究者普遍意识到Transformer可以在广泛的视觉任务中超越卷积神经网络。

“在投稿前最后一个月中，我们的主要精力就在于此，希望通过调试Transformer的训练菜谱来提升性能，证明Transformer能显著超越此前主导的卷积神经网络模型，最后我们确实也实现了这一目标。”

希望促进各领域研究者更紧密合作

在将新算法命名为Swin Transformer之前，研究人员也为它考虑了其他名字。“其实，Swin是移位窗口的英文缩写，这也是投稿前最后一天才确定下来的名字。此前我们曾想使用‘层次性’（Hierarchy）英文单词开头的H作为名字，后来还是考虑移动窗口是论文中最有意思的设计，也是实现局部性和层次性的关键所在，于是决定在方法的名字里强调这一点。”胡瀚说。

移位窗口对于这项研究很重要，而这一研究对于计算机视觉与自然语言的影响也是不容小觑的。自这篇论文3月中旬投稿后开源以来，半年时间内文章引用数量就已经超过了300次。“此前自然语言和计算机视觉的研究感觉有些割裂，我们希望Swin Transformer能激励两个领域开始采用更统一的建模方法，这样不同领域的研究人员就可以互相借鉴对方的研究成果，让人工智能领域进步更快。当然，这并不是最终目的，人工智能的目标是让计算机理解万事万物，并基于此进行推理和创新，所以我希望各个人工智能子领域的研究人员可以更紧密地合作。我们相信，这会让人工智能发展得更快，更好地造福社会。”胡瀚说。

《中国科学报》 (2021-12-16 第3版信息技术)

（文章原标题：《新算法为计算机视觉与自然语言处理统一“建模”》）

收录源追溯链接或暂略

本文收录后固定可引用URL链接

http://www.haxililiang.com/toutiao/kuaixun/34359.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 人机智能科普文库