哈希力量归集文库路径访问: 首页 > 智族书院 > 百科/应用场景库/案例库/创新创意

关于OpenAI渲染的Q*热点 做一个面向产业界的初级“科普”

王兆洋 苗正 ☉ 文 来源:硅基立场 2023-12-03 @ 哈希力量

【小哈划重点:它背后的思路早在1989年就有了,后来最主要的进展是DeepMind等把神经网络技术用在了Q学习求最大奖励的过程中,发明了DQN(深度Q网络)。】

1.    围观了OpenAI的权力游戏后,人们依然期待它背后的真相跟AI技术的恐怖突破有关,而不完全是一场过家家的权力闹剧。而Q*的传闻就这么及时地来了。tOK哈希力量 | 消除一切智能鸿沟

2.    路透社最早把它捅了出来。据这些报道描述,Q*在庞大的计算资源支持下可以解决一些数学问题,虽然仅有小学生的水平,但OpenAI的人们认为会做数学就会威胁人类,OpenAI的技术团队也的确就此向董事会做了预警,而正是这封信导致董事会对Altman突然下手。tOK哈希力量 | 消除一切智能鸿沟

3.    在原本以为尘埃落定后,这个只有一个代号的技术再次引起热烈讨论。这个神秘技术究竟是什么?OpenAI同样没有对此做任何解释。对技术细节不熟悉的人们乐于想象Q*会成为AI毁灭人类的重要一步。但其实你要是真想关心这技术本身,它可能并不复杂。tOK哈希力量 | 消除一切智能鸿沟

4.    简单来说,Q*=Q+A*。我们拆开来,先解释“Q”。人工智能领域跟大写Q沾边的,本质都是Q学习,指的是在训练的过程中,告诉智能体下一步怎么选才能跟历史最高奖励值相同。tOK哈希力量 | 消除一切智能鸿沟

5.    打个比方,Q学习和智能体就像是一支球队的分析师和教练,分析师辅佐教练,教练真正负责指导球队。教练的决策是要反馈到环境中才能得到奖励值,而分析师只记录奖励值,因此不需要对环境建模。tOK哈希力量 | 消除一切智能鸿沟

6.    它背后的思路早在1989年就有了,后来最主要的进展是DeepMind等把神经网络技术用在了Q学习求最大奖励的过程中,发明了DQN(深度Q网络)。tOK哈希力量 | 消除一切智能鸿沟

7.    它也一直不是一个热门的技术。因为随着今天动辄几十亿几百亿参数的大模型流行,教练结合现实环境的反应能力异常强大,分析师就显得添乱了,Q学习看起来增加复杂性,降低鲁棒性,没什么帮助。tOK哈希力量 | 消除一切智能鸿沟

8.    然而Q学习体现的思想却一直在吸引着研究者,因为它和计算机的运行本质接近:它就像是高配版弗洛伊德求边长,而现代计算机中,处理器所使用的核心原理就是弗洛伊德算法,通过与历史最优值比对,求得两点之间最短的路径。tOK哈希力量 | 消除一切智能鸿沟

9.    Q说完了,再聊聊*背后的A*算法。这是一种启发式算法,我讲个笑话能帮你更好理解它:有一天A决定考考B,问到“请快速求出1928749189571*1982379176的乘积”,B立马就回答A说:“32”。这个A听了就很纳闷,这么大的两个数相乘,不可能答案是两位数。B反问A:“你就说快不快?”。tOK哈希力量 | 消除一切智能鸿沟

10.  看起来离谱,但这就是A*这种启发式算法在做的事,它的本质就是估算,先通过启发式算法估算一个大概的值,当然这个值很有可能极其偏离正解。估算完成后就会开始循环遍历,如果怎么都没办法求解那就重新估值,直到开始出现解。如此反复,最终得出最佳解。这样做的目的也很清楚,在效率和正解之间只能选择一个,那就选效率。tOK哈希力量 | 消除一切智能鸿沟

11.  于是问题也出现,它的答案对,耗时比较长,放在个人设备上就会导致内存溢出,产生系统问题,比如蓝屏。过往A*算法最典型的应用就是网络游戏中角色寻路。一些大型游戏中,角色在寻路开始的那一刹那出现卡顿,就是因为A*算法。tOK哈希力量 | 消除一切智能鸿沟

12.  Q和A*讲完了,它们都很简单。而Q*最有可能的样子就是,利用Q学习快速找到接近最优解的估值,再利用A*算法在小范围内求解,省去了大量没有意义的计算过程,以此达到快速求得最佳解的效果。两者取长补短,即节省算力、节省内存,并得到最佳解。当然OpenAI具体怎么做,还得等公开论文(如果能等到的话)。tOK哈希力量 | 消除一切智能鸿沟

13.  所以你会发现关于Q*的信息,其实很容易就讲清楚。而且,与它到底是什么相比,其实它所体现出来的趋势更加值得讨论:那就是当下人工智能发展中求解的过程比求解更有意义。tOK哈希力量 | 消除一切智能鸿沟

14.  OpenAI再次提出了Q*,让这老概念有了新意义,毕竟Agent、GPT Store、Q*等都是OpenAI一手捧红的,人们有理由相信,在Q和A这两个早就存在的算法思路里,OpenAI能再次创造奇迹。tOK哈希力量 | 消除一切智能鸿沟

15.  为什么人们指望OpenAI创造Q计算的奇迹,而不是依赖最早提出它的学术界?因为OpenAI垄断了算力。现在,算力资源的严重不平等是一个突出的问题,尤其是学术界和企业界之间。9月底,在一场活动结束后我遇到斯坦福大学的李飞飞,问了她一个问题:今天她最关心的AI问题是什么?她回答我说是学界和Google、OpenAI这样的企业之间的算力不匹配。这导致研究者无法复现或检视企业们开发的模型,作为一个一向是研究推动的领域,这种不平衡将会影响很大——学界显然更加倾向于推动安全相关的研究,这让模型的安全性风险增加。tOK哈希力量 | 消除一切智能鸿沟

16.  而第二天我有机会和OpenAI的Jason Wei交流,我把同样的问题也抛给了他。他是OpenAI的明星研究员,这个岗位理应是学界研究和业界实践的连接者,但他基本没有对李飞飞的担忧表现出共情。他给我的回答基本是,没有算力他们就去做那些不需要算力的研究好了。tOK哈希力量 | 消除一切智能鸿沟

17.  OpenAI们越来越不在意学术界对新算法带来的帮助和参与讨论的必要。OpenAI的Jason Wei们的研究,李飞飞们根本无法在实际环境里检测和基于它拓展研究,甚至他们自己的理论研究也越来越没有足够算力来真的落地,只能停留在论文里。于是无论是最热门的技术路线还是风险问题的主导权,彻底由OpenAI们掌握。tOK哈希力量 | 消除一切智能鸿沟

18.  所以,OpenAI成了最终将Q*发扬光大,甚至成为出圈跨界热门话题的搅局者:它随便一个动作,就能引爆一个概念,引起人们的广泛猜测,直指AI的超级能力和“毁灭人类”的可能。而最关键的真实信息和概念本质,却只会以各种“谜语”形式展示出来,并且最终也大概率不会有论文出现。tOK哈希力量 | 消除一切智能鸿沟

19.  因此,Q*被引爆的背后,是OpenAI在技术话语权上,对学术界的无情碾压。马斯克老师似乎非常不喜欢今天的OpenAI,但他对学术界的看法却与OpenAI的主流派如出一辙——他认为99%的学术论文毫无意义。OpenAI没人这么说过,但他们就是这么做的。tOK哈希力量 | 消除一切智能鸿沟

(原文标题:《OpenAI的Q*没有毁灭人类,却打脸了学术界》)tOK哈希力量 | 消除一切智能鸿沟



收录源追溯链接或暂略


本文收录后固定可引用URL链接
    http://www.haxililiang.com/xueyuan/baike/36208.html


☉ 文库同一主题内容智能推荐 ☉
哈希力量 ☉ 人机智能科普文库