【小哈划重点:数据集是机器学习的核心。根据数据类型,可以分为数值数据、分类数据、时间序列数据和文字数据等。按照在机器学习过程中的用途,数据集被分为训练、验证和测试集,分别用于训练和测量模型的性能。】
“人工智能”是一个庞杂的动态概念,各种研究流派和新名词层出不穷。储备一些基本的专业词汇,能帮助我们更快理解人工智能领域的新突破究竟意味着什么。
—人工智能 主要流派—
1 符号主义(Symbolicism)
符号主义又称为逻辑主义、心理学派或计算机学派。符号主义人工智能是第一代人工智能,它主张人类思维的基本单元是符号,人类认知的过程是符号运算,表现为知识表示和推理,主要通过逻辑进路来研究。符号主义曾在很长一段时间内一枝独秀,为人工智能的发展做出过重要贡献。
2 连接主义(Connectionism)
又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。它的代表性成果是1943年由生理学家麦卡洛克(McCulloch)和数理逻辑学家皮茨(Pitts)创立的脑模型,开创了用电子装置模仿人脑结构和功能的新途径。由于受到当时理论模型、生物原型和技术条件的限制,脑模型研究在20世纪70年代后期至80年代初期落入低潮。1986年,鲁梅尔哈特(Rumelhart)等人提出多层网络中的反向传播(BP)算法,连接主义再次兴起。现在,对人工神经网络(ANN)的研究热情仍然较高。
3 行为主义(Actionism)
又称为进化主义或控制论学派,认为人工智能源于控制论。控制论思想早在20世纪40~50年代就影响了早期的人工智能工作者。早期的研究工作重点是模拟人在控制过程中的智能行为和作用,如对自寻优、自适应、自镇定、自组织和自学习等控制论系统的研究,并进行“控制论动物”的研制。这一学派的代表作是布鲁克斯(Brooks)的六足行走机器人,它被看作是新一代的“控制论动物”,是一个基于感知-动作模式模拟昆虫行为的控制系统。
—人工智能 如何训练—
4 数据集(Data Set)
数据集是机器学习的核心。根据数据类型,可以分为数值数据、分类数据、时间序列数据和文字数据等。按照在机器学习过程中的用途,数据集被分为训练、验证和测试集,分别用于训练和测量模型的性能。
5 基准测试(Benchmark)
基准测试可以理解为一套出给人工智能的能力水平测试题,用来衡量AI模型在特定问题上的性能。随着深度学习的流行,基准测试也成为关注焦点,目前主流的基准测试包括ImageNet(用于评估图像分类系统)和GLUE(公共语言理解评估)。但在这些基准测试中表现良好,并不等于AI拥有和人类一样的理解语言和视觉信息的能力,它们的评估范围仍然限于具体的、特定环境下的任务。
—热门深度 学习模型—
6 生成对抗网络(GANs)
GANs是一种能够自动判断生成结果好坏的机器学习模型,解决了人工标注成本高、效率低的问题。GANs主要用于图像生成技术,模型由生成器(Generator)和判别器(Discriminator)两个部分构成,前者生成数据(通常是图片),后者判断数据是真实的还是机器生成的“假数据”。通过不断训练,GANs能够生成越来越“真实”的图片。
7 变换器(Transformer)
变换器是一种使用“自注意力机制”的深度学习模型,各类变换器模型本质上都是预训练语言模型,均采用自监督的方式在大量的生语料(raw text)上进行训练。自监督学习是一种根据模型输入自动计算的训练方法,不需要人工标注数据。近年来变换器已经取代循环神经网络(RNN)等模型成为自然语言处理(NLP)领域的主要训练模型。ChatGPT中的GPT(Generative Pretrained Transformer)就是其中一种。
8 生成扩散模型(Diffussion Models)
生成扩散模型和GANs同属生成模型,它通过连续添加高斯噪声来破坏训练数据,然后反过来让机器学习去噪声过程来生成数据。生成扩散模型解决了GANs图像生成缺乏多样性、训练时间长等问题。通过在生成扩散模型中嵌入变换器,就能实现文字到图像的转换,结合二者优势,在保留图像的语义结构方面表现更好。
—人工智能的 学习方式—
9 机器学习(Machine Learning)
根据亚瑟·塞缪尔(Arthur Samuel)1959年提出的定义,机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。机器学习按照训练方法大致可以分为三类:监督式学习、无监督式学习和强化学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督式学习不给出正确答案,机器的任务是从输入数据中找出隐藏模式或内在结构;强化学习更接近生物学习的本质,关注的是智能体如何在环境中采取一系列行为。
10 人工神经网络(Artificial Neural Network)
一种教计算机以人脑运转的方式处理数据的架构。它是一个具有相连节点层的计算模型,其分层结构与大脑中的神经元网络结构相似,计算机使用该系统来从错误中进行学习并不断改进。人工神经网络可以尝试解决复杂的问题,特别适合执行模式识别,用以识别语音、视觉和控制系统中的对象或信号并对其分类。神经网络既可以是监督式也可以是非监督式学习,取决于训练集是否对输出结果进行标注。
11 深度学习(Deep Learning)
深度学习是一种以人工神经网络为架构,对数据进行表征学习的算法。与特征学习相对,表征学习不只让机器认识特征,也学习如何有效提取特征,可以理解为“教机器如何学习”。深度学习与20世纪90年代由认知神经科学研究者提出的大脑发育理论(尤其是皮层发育理论)密切相关,即大脑中的神经元组成相互连接的不同层次,层层传递信息。此处的“深度”是指使用多层神经网络,构建和人类大脑相似的结构。深度学习常常被看作是通向真正的人工智能的重要一步,目前它最广为人知的应用包括人脸识别和语音识别。
—热门人工智能 研究领域—
12 自然语言处理(Natural Language Processing)
自然语言处理(NLP)是一种机器学习技术,主要研究如何让计算机能够解读、处理、理解和运用人类语言,理想状态下是一种简单直接的人机交互方式。自然语言处理的难点包括分词、消除歧义、句法模糊性等等。早期自然语言处理的主要成果集中于翻译领域,深度学习的发展和语料库的建设推动了该领域的突破,目前自然语言处理越来越多地使用自动学习的方式让机器获取语言知识。
13 AIGC(AI Generated Content)
指利用人工智能技术生成的内容,也是当下最热门的新型内容生产方式之一。现在热议的“文字生成图像”和ChatGPT都属于AIGC的范畴。随着深度学习模型的完善、大模型商业化应用的实现,AIGC可能正在揭开机器创作时代的帷幕。
(原文标题:《理解人工智能的13个关键词》)