【小哈划重点:多模态在视觉和图像识别上特别有帮助。因为整个世界是由图片形成的,人们和其他动物都是视觉动物,人脑1/3的灰质都是用来处理图像的,GPT-4也能够去理解这些图像。】
3月23日凌晨,英伟达创始人兼CEO黄仁勋与OpenAI联合创始人兼首席科学家伊尔亚·苏茨克维针对ChatGPT进行了深入探讨。伊尔亚·苏茨克维指出,与之前的版本相比,ChatGPT-4最大的提升在于更强大的神经网络功能,它能通过逻辑推理对未来进行预测。但ChatGPT-4目前的推理能力还没有达到预期水平,如果能进一步扩大数据库,保持目前的商业运转模型,其推理能力将会得到进一步提升。
黄仁勋认为,ChatGPT是AI界的“iPhone时刻”,但这一时刻的到来并非一蹴而就。
黄仁勋:ChatGPT和OpenAI是否已经打破了过去计算机编辑图像的模式?
伊尔亚·苏茨克维:我认为ChatGPT和OpenAI不是打破了计算机图像的编辑,而是在用另外一种处理方式。大部分人都是用传统的思维模式去处理数据集,但是我们的处理方式更先进,是“超越式”的。曾经,我们也认为这是一件艰难的事情,甚至觉得几乎不可能完成,但如果我们能做好,就是让人类生活有了更大进步。
黄仁勋:扩大数据规模能够提高AI的表现能力,更多的数据、更大的数据集能够帮助生成式AI获得更好的结果。你觉得在GPT-1、GPT-2、GPT-3的演变过程中,是否符合这样的“摩尔定律”?
伊尔亚·苏茨克维:OpenAI的目标之一是解决扩大数据集的问题。刚开始面临的问题是如何提升数据的高精准度。因此,我们在做OpenAI的项目时,通过让它做一些策略性的游戏来提升精准度。作为一个AI模型,它需要不断重复基于人类反馈的强化学习过程。
我们的工作原理,就是通过不断培训神经网络体系,让神经网络去预测下一个单词。预测的单词和过去的单词之间,能够达成一定的逻辑上的一致。从神经网络来看,它更像是根据方方面面来得出一个结论。但我们的模型还没有达到这样的效果。人们的反馈很重要,越多的反馈能使AI更可靠。
黄仁勋:相较于以前的版本,GPT-4有哪些的升级?未来在哪些方面、哪些领域可能有更多的升级?
伊尔亚·苏茨克维:GPT-4基于ChatGPT的性能,做了很多改善。对GPT-4的训练大概是6~8个月之前开始,GPT-4与之前GPT版本最重要的区别是GPT-4有更强大的神经网络预测功能,能够更精确地去预测下一个单词是什么,意味着能够对人们说的话有更精准的理解。
这与人们此前常说的直觉有很大不同,GPT-4采用的是推理能力。比如,在一篇推理小说中,小说中有各种不同的人物和情节,有密室、有谜团,人们在读推理小说的过程中,完全不清楚接下来会发生什么。但是能通过小说中不同的人物和情节,来预测结局。GPT-4也是如此,能够像推理小说一样预测结果。
黄仁勋:语言模型是如何学习到推理和逻辑的?GPT-4现在有哪些缺陷,在后续的版本中将如何进一步完善?
伊尔亚·苏茨克维:虽然要想清楚语言模型的定义逻辑和推理并不容易,但是未来可通过将逻辑和推理定义得更精准,来获得更确切的答案。
神经网络是有一些缺陷,如果用神经网络去打破之前固有的思维模式,那么就需要考虑这个神经网络能够走多远的问题。
当前,神经网络依旧面临着一些挑战。比如,让神经网络去打破固有的思维模式,但这也就意味着人们要思考神经网络到底能走多远,也就是神经网络到底有多大潜力。目前GPT-4的推理能力确实还没有达到预期的水平,未来希望GPT-4的推理和逻辑能够达到更高的水平。未来如果能更进一步地扩大数据库,推理能力会进一步提高,我对此也很有信心。
黄仁勋:多模态学习如何能够加深GPT-4的理解能力?为什么多模态学习定义了ChatGPT和OpenAI?
伊尔亚·苏茨克维:多模态学习可以从两个维度来看:
第一,多模态在视觉和图像识别上特别有帮助。因为整个世界是由图片形成的,人们和其他动物都是视觉动物,人脑1/3的灰质都是用来处理图像的,GPT-4也能够去理解这些图像。
第二,随着人们对于世界认知的不断加深,通过图片或文字对世界的理解是一样的。他可能一生之中只会说10亿个单词,先通过计算人一生中有多少时间,以及1秒能处理多少个单词,再减去睡觉的时间,就能算出他一生处理了多少个单词。人和神经网络的不同之处在于,人如果无法理解10亿个单词,那么就可以用其他万亿级的单词来理解。对于AI神经网络而言,可以通过文本,将人们对于世界的认知和信息慢慢渗透给AI的神经网络。而外加视觉图片等其他元素,可以让神经网络更精准地进行学习。
(许子皓、沈丛整理)
(原文标题:《penAI联合创始人兼首席科学家伊尔亚·苏茨克维:ChatGPT-4的推理能力还未达到预期》)
http://epaper.cena.com.cn/content/2023-03/28/content_764350.htm