哈希力量归集文库路径访问：首页 > AI+产业 > AI电商/出海跨境

多模态在AI大厂崛起——2022年人工智能5大发展趋势

丁广辉 ☉ 文来源：CSDN 2022-01-23 @ 哈希力量

【小哈划重点：“模态”（Modality）是德国理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。】

随着深度学习的开放，人工智能在几年中快速发展，尖端技术慢慢向普及应用到各行各业。以下是国外一家专注于开源和堆栈技术新闻网站TheNewStark盘点的2022年值得人们期待的五个人工智能发展趋势。

趋势1：大型语言模型（LLMs），定义交互式人工智能的下一个浪潮

人工智能的语言模型是基于自然语言处理技术和算法创建的。比如在某一句话说一半的时候，这个模型会根据以往记录的实例，来推断出这句话后面的几个字。总的来说就是总结文本信息，甚至从纯文本中创建视觉图表。

大型语言模型（LLMs）是在包含巨大数据量的大规模数据集上训练的。像是Google的BERT和OpenAI的GPT-2和GPT-3就是LLMs很好的例子。据了解，GPT-3中约有1750亿个参数，在570千兆字节的文本上进行训练。这些模型生成的东西可以从简单的文章到复杂的金融模型。现如今，包括OpenAI、Hugging Face、Cohere、AI21 Labs以及AI12在内的人工智能初创公司，正在通过训练具有数十亿参数的模型来推动LLMs的发展。

韩国一家叫做Naver的公司宣布，它已经建立了最全面的基于人工智能的语言模型之——HyperCLOVA，一个类似于GPT-3的韩语模型。与上述模型不同的是，华为的PanGu-Alpha以及百度的Ernie 3.0 Titan则是在由电子书、百科全书和社交媒体组成的海量中文数据集上进行训练的。

在2022年，我们将看到大型语言模型成为下一代交互式人工智能工具的基础模型。

趋势2：多模态人工智能的崛起

“模态”（Modality）是德国理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。

传统的深度学习算法专注于从一个单一的数据源训练其模型。例如，计算机视觉模型是在一组图像上训练的，NLP模型是在文本内容上训练的，语音处理则涉及声学模型的创建、唤醒词检测和噪音消除。这种类型的机器学习与单模态人工智能有关，其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合，为计算器提供更接近于人类感知的场景。

多模态人工智能的最新例子是OpenAI的DALL-E，该模型使用艺术家萨尔瓦多-达利和皮克斯的瓦力的谐音来命名。它可以从文本描述中生成对应图像。例如，当文本描述为"一个甜甜圈形状的时钟 "被发送到该模型时，它就可以生成以下图像。

多模态-哈希力量

图片来源TheNewStark

谷歌的多任务统一模型（MUM）是多模态人工智能的另一个例子。它承诺通过从75种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序，从而提高用户的搜索体验。MUM使用T5文本到文本框架，比BERT中流行的基于变换器的自然语言处理模型要强大1000倍。

英伟达的GauGAN2模型则将根据简单的文本输入生成照片般逼真的图像。它在一个单一的模型中结合了分割映射、内画和文本到图像的生成，使其成为一个强大的多模态工具，可以用文字和图画的混合来创造逼真的艺术。

在不远的未来我们就可以见到计算机视觉、语言以及语音模型的融合，这使得人工智能更丰富，更自然逼真。

趋势3：简化和精简MLOps

机器学习操作（MLOps），是一个将机器学习投入到工业生产中的实践，是机器学习和DevOPs在软件领域交叉的产物，所以它在许多方面与2012年的DevOps相似。在2012年DevOps上线的时候，许多企业就意识到了它的价值，但是他们在实施DevOps的时候很困难，工具链非常复杂，生态系统也不够完善。而MLOps相比来说更加复杂，它的软件包包括安装、配置训练、推理基础设施、配置特征存储、配置模型注册表、监控模型的衰减以及检测模型漂移等所有的相关内容。其庞大的软件包也导致MLOps的部署比DevOps还困难。

MLOps是被纳入基于云计算的ML平台的概念之一，平台包括如亚马逊网络服务的Amazon SageMaker,Azure ML, 以及谷歌的Vertex AI。然而，它所拥有的这些能力却不能用于混合和边缘计算这两个环境。因此，监测边缘计算的环境模型被证明是企业要面临的一个重大挑战。在处理计算机视觉系统和交互式人工智能系统时，创建一个为其服务的监测边缘计算的模型就变得更加具有挑战性。

随着Kubeflow和MLflow等开源项目的逐渐成熟，MLOps其实已经很容易就能获取到。在未来几年我们或许可以看到一个精简和简化的MLOps方法横跨云领域和边缘计算环境。

趋势4：AI驱动的开发者生产力

在未来，人工智能几乎会影响到IT行业的每个方面，包括编程和开发。在过去的几年里，我们已经看到了诸如亚马逊代码大师这样的工具，该产品会在开发者编程时，为其提供智能建议，以提高代码质量，并识别出应用程序中最重要的代码行。就在最近，Github Copilot作为一个 "人工智能配对程序员 "首次亮相，协助开发人员编写高效的代码。而Salesforce的研究团队也推出了CodeT5，这是一个开源项目，将帮助Apex开发人员进行由人工智能驱动的编码。Tabnine，即以前的Codata，将智能代码完全带到了主流开发环境。Ponicode也是一个AI驱动的工具，可以提供函数创建、可视化和运行单元测试的快捷方式。

AI模式-哈希力量

图片来源TheNewStark

大型语言模型（LLMs）的兴起和开源代码更广泛的可用性，使IDE供应商能够再其基础上建立智能代码生成和分析系统。

展望未来，人们期望看到能够从内联注释中生成高质量和紧凑代码的工具。它们甚至能够从一种语言编写的代码翻译成另一种语言，通过将传统代码转换为现代语言来实现应用程序的现代化。

趋势5：云平台新的垂直化人工智能解决方案

世界领先的人工智能供应商，包括亚马逊、谷歌和微软，都正专注于将研究和开发工作商业化。他们通过旗下的云平台提供托管服务，并建立硬件设备，配备人工智能加速器和针对特定场景的预训练模型。

亚马逊连接和谷歌联络中心AI是垂直整合的典型例子。两者都利用机器学习能力来执行智能路由，由机器人驱动的客服对话，以及对联络中心代理商的自动协助。AWS Panorama可以连接到现有的IP摄像机，以此来执行基于计算机视觉的推理。客户可以在其云平台训练新的模型，并将它们部署在全景设备的边缘。Azure Percept采用了类似的方法，在边缘提供计算机视觉模型和交互式人工智能。微软基于Azure上现有的物联网、人工智能和边缘计算服务建立了Percept。

最后，亚马逊Lookout for Equipment和谷歌Cloud Visual Inspection AI等服务，利用基于云的人工智能平台，对设备进行预测性维护和产品的异常检测。这些服务是专为零售和制造业定制的。

在2022年，我们将看到人工智能平台和云供应商利用前沿研究技术和现有的管理服务，提供针对特定的例子和场景的解决方案。

参考链接：https://thenewstack.io/5-ai-trends-to-watch-out-for-in-2022/

（译文原标题：《多模态AI崛起，2022年人工智能5大发展趋势》）

收录来源链接或附上。内容并不代表投资建议。

本文收录后固定可引用URL链接

http://www.haxililiang.com/zhengce/faguo/34470.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 通用人工智能文库