哈希力量归集存档：首页 > 通用人工智能 > 学界观察 • 研究分析/AGI哲学

人工智能解决数学题：“大力未必出奇迹”

张双虎 ☉ 文来源：中国科学报 2021-11-18 @ 哈希力量

【人工摘要：孙茂松解释说，让人工智能解决数学应用题还是有难度的。当前的人工智能技术都是基于大数据的一种概率式推断模型，其内部并没有深刻的理解机制。】

大模型可能是人工智能发展的一个突破口，但参数量并非是通向人工智能的唯一途径。

日前，人工智能研究机构OpenAI的研究人员使用新方法，训练出一个会做数学题的系统——GPT-f。它能像真正的学生一样，解决90%的数学应用题。在提供的数据集中进行的小样本测试表明，9至12岁学生测试正确率为60%，该系统测试正确率为55%。

这个仅60亿参数的GPT-f，在解决数学应用题方面，效果直逼参数规模高达1750亿的GPT-3。在业界认为人工智能的大模型时代已经到来的背景下，这是否能引发大家的一些“冷思考”？

不俗的成绩

去年6月，OpenAI推出GPT-3。这个能完成对话、搜索、写作等多项任务的大模型一面世就引起轰动。尤其在文本生成方面，GPT-3的表现几乎可以与人类的作品媲美。

在训练GPT-f时，研究人员创建了高质量、高多样性、中等难度和自然语言的答题形式的数据集（GSM8K）进行反复训练。测试结果发现，这个仅60亿参数的GPT-f准确率翻倍，甚至优于拥有1750亿参数、采用微调方法的GPT-3模型。

“GPT-f能达到这个效果还是有些出乎意料。”清华大学人工智能研究院常务副院长孙茂松对《中国科学报》说，“但它并未提出非常深刻的问题，没那么让人惊喜，也不必做过度解读。”

孙茂松解释说，让人工智能解决数学应用题还是有难度的。当前的人工智能技术都是基于大数据的一种概率式推断模型，其内部并没有深刻的理解机制。比如，曾轰动一时的GPT-3本身是个语言模型，它看过大量人类创作的作品，包括互联网上发表的文章，所以它能在写文章、自然对话、语义搜索甚至自动编程等方面有着不俗的表现。然而，它很难完成需要精细理解的多步骤推理任务，比如解决小学阶段的数学应用题。

“做数学应用题首先要正确理解题意，才能把题做出来。”孙茂松说，“虽然实现这一任务对人类来说很简单，但对人工智能而言目前尚缺乏一个有效的理解机制，尽管类似GPT-f这样的模型可以推导出正确的答案，但难免也会产生严重的逻辑错误。”

让人工智能在复杂逻辑条件下，具备解决问题的能力，模型必须具有判别自身错误的能力，并谨慎地执行之后的过程。为此，OpenAI的研究者用一个训练“验证器”来判断模型完成的正确性。

OpenAI的GSM8K数据集由8.5K高质量小学数学应用题组成，每个问题需要2到8步解决，涉及加减乘除运算，难度近乎9至12岁小学生的数学题。在测试阶段，这个验证器会生成多个候选解决方案并选择排名最高的一个。

“我没想到GPT-f能得这么高分，即使它取得30多分我也觉得合理。”孙茂松说，“它能把这件事做得跟小学生及格分数差不太多的确很不容易。”

不公平的对比

时至今日，参数规模达1750亿的GPT-3仍被人们视为“大力出奇迹”的结果。而仅凭新的“验证”方法，只有60亿参数的GPT-f就在数学“考试”中胜出。大模型的算力和数据的“千斤”，真的不如算法“四两”么？

专家认为，用更小的参数规模达到和大模型差不多的效果的确不错，但仅拿数学“考分”来对比并不公平。

“从论文上看，两者方法上并没有本质的不同。”孙茂松说，“GPT-f是针对特定的任务做了调整，针对数学语料做过专门训练，用验证的方法反复‘折腾’数据，让它发挥较大的效益。”

与之相比，GPT-3是自然语言处理方面的模型，就像一个擅长写作的“文科生”，做数学题不是它的强项，它也没有专门针对这个问题的语料库进行训练。

“这（GPT-f）算是一个算法的创新吧。”中科院自动化研究所模式识别国家重点实验室研究员王金桥对《中国科学报》说，“GPT-3相当于一个通用模型，有比较开放的数据集，里面数据杂乱，什么都有。现在GPT-f虽然只用8.5K的数据集和60亿参数，但它的数据质量特别高，而且针对于小学数学题进行训练，相当于一个专有领域的模型。”

虽然用了更小的参数量，但GPT-f在算法和数据两个方面都做了改善。为解决逻辑关系，GPT-f加了一个验证模块，但同时也带来了新的问题。

“现在它仍然缺乏可解释性。”王金桥说，“即使我知道它验证的答案是正确的，但不知道验证的中间步骤对错，不知道它是怎么推理出来的。”

OpenAI在论文中所展现的10个数学实例也表明，使用验证方法比单纯扩大参数表现得更加智能，但缺点是并不稳定。

专家认为，任何一项技术的发展，都要经历兴起、成熟再到落地的过程。从发展规律来看，大模型刚刚兴起，大家正在围绕模型体量及模型体量带来的推动效应展开探索。从目前发展阶段来说，这种拥有巨量数据和更强算力的大模型表现“更突出，贡献还是会更大一些”。

“大模型可能是人工智能发展的一个突破口，但参数量并非是通向人工智能的唯一途径。”清华大学教授、智源研究院学术副院长唐杰告诉《中国科学报》，“OpenAI 60亿参数的GPT-f表现出众，也说明算法、算力或数据任何一方面都有可能在未来发展中，在特定条件下取得优势。”

不可能精通所有领域

在人工智能技术解决数学问题方面，我国也有类似的研究，但国内多是用传统的小模型并针对具体问题进行研究。研究者要先知道问题是什么、其关键的逻辑关系是什么，然后针对这类题设计方法，“分而治之”。

这相当于一类题型用一种方法解决，而GPT-f的强大之处在于它能用一些中间标签进行验证推理，并根据中间结果总结出一套规律，应用于所有的数学题。

“从GPT-f的表现可以看出，高质量的数据资源非常重要。”王金桥说，“数据能让人工智能‘见多识广’。”就像人类想取得好成绩需要“刷题”一样，人工智能也需要见识各种“题型”（数据），然后从中总结规律和学习推理关系。

“对于提升人工智能效果来说，首先是数据规模要大、质量要高。”王金桥说，“其次，还要有大的参数规模，这样才能避免训练出一个‘死记硬背’的数学模型；第三，我们要利用计算中心的算力，发展专用和通用两类大模型。”

王金桥解释说，从利于实际应用的角度出发，目前应针对某一专门领域或场景来设计模型，每个模型解决一个或一类任务。

“即使像人类这样，有非常厉害的大脑，并最终拿到博士学位，也只能是某个小领域的专家，不可能精通所有领域。”王金桥说，“‘学得越好、领域越小’，大模型也是这样，因此要分两个层次发展，一是针对某一行业或领域的知识、数据形成的专用大模型；二是发展通用普适性的超级大模型。”

人类在掌握某项技能时，有个“1万小时”定律，即要成为某领域的专家，至少要学习和练习1万小时。同样，人工智能模型也需要针对某一领域的知识、数据进行专门训练，并结合大的算力取得优异的表现。