【小哈划重点:第二届AI HW峰会于9月17日至18日在硅谷中心举行,近50位演讲者向500多位与会者(几乎是去年首届参会人数的两倍)发表了演讲。虽然我不可能在一个简短的博客中涵盖所有展示的公司,但我想分享几点看法。】
第二届AI HW峰会于9月17日至18日在硅谷中心举行,近50位演讲者向500多位与会者(几乎是去年首届参会人数的两倍)发表了演讲。虽然我不可能在一个简短的博客中涵盖所有展示的公司,但我想分享几点看法。
John Hennessy的观点
计算机架构传奇人物John Hennessy,Alphabet董事长兼斯坦福大学前校长。他介绍了半导体的历史趋势,其中摩尔定律和Dennard Scaling的过时消亡,引发了对“特定领域架构”(Domain-Specific Architectures)的需求和机遇。这个"DSA"概念不仅适用于新颖的硬件设计,也适用于深度神经网络的新软件架构。挑战是创建和训练大量的神经网络,然后优化这些网络,使其在DSA上高效运行,无论是CPU、GPU、TPU,ASIC、FPGA或ACAP,用于新输入数据的"推理"处理。大多数初创公司明智地决定专注于推理处理,而不是训练市场,避开挑战英伟达。
一种新的软件方法,即软件通过迭代学习过程创建“软件”(又称“模型”),需要超级计算性能。为了使这个问题更具挑战性,这些网络模型的规模呈指数级增长,每3.5个月翻一番,从而对性能的需求不断提高。因此,现在有100多家公司正在开发新的体系结构,以提高性能并降低计算成本。但是,他们的工作量很大。英特尔Naveen Rao指出,要实现每年所需的10倍改进,架构,芯片,互连,软件和封装方面都需要2倍的进步。
图1:IntelNaveen Rao表示,处理不断增加的模型复杂性所需的计算能力每年需要提高10倍。
观察#1:领导者很难被超越
初创企业可以并且将会发明出新颖架构,并在性能上击败老牌公司。但是它们仍需要与大型客户建立合作伙伴关系才能将这些技术大规模推向市场。尽管丰富的体系结构方法令人惊奇,但硬件和必备软件的开发速度都慢得令人沮丧。一年前,数十家创业公司在峰会上用PowerPoint展示了他们的计划。今年,数十家创业公司展示了更新的PowerPoint。但是,硬件在哪里?
事实上,自上次峰会以来,几乎没有新的芯片投入批量生产。高通的Snapdragon 855和阿里巴巴的含光800是个例外;Snapdragon当然是一款移动SoC,而含光只供阿里巴巴内部使用。在某种程度上,延迟的部分原因是这种材料比它最初看起来要难得多(不是所有的芯片吗?)。但我们也要现实一点:20、50甚至100名工程师不会排除NVIDIA,Google,Xilinx,Microsoft,Amazon AWS和Intel等公司。他们可以创新出令人惊叹的新架构,但执行是工程学,而不是艺术。尽管许多人可以使用很多TOPS来构建快速的芯片,但它将“吸引”研究人员,工程师,大学教授,互联网数据中心和社交网络公司,将这些TOPS转变为可用的性能,并为这些新芯片构建和优化模型。
以色列初创公司Habana Labs就是一个很好的例子。Habana在首届AI HW Summit峰会上推出了其首款令人印象深刻的芯片Goya,用于数据中心推理处理。然而,整整一年过去了,尽管Goya的性能非常出色,功耗非常低,但它并没有得到市场的认可。这并不是因为Goya不能正常工作,而是因为"故事的其余部分"需要花费一些时间和精力才能完成。
另一个例子是英特尔的Nervana神经网络处理器。即使有了创新的设计和世界一流的工程团队,该芯片在经历了3年的工作后被搁置。大约一年前,英特尔明智地选择了回到最初,并收集了更多的经验和客户反馈,以弄清楚它如何与NVIDIA已有3年历史的V100 TensorCore技术(仍是业界最快的AI芯片)竞争。与初创公司不同的是,英特尔可以耐心等待,直到它能够赢得胜利:英特尔的Nervana处理器(NNP-T和NNP-I)现在预计将在今年晚些时候提供样品。但是,NVIDIA也并没有停滞不前——我们应该在不久的将来看到它新的7nm设计(也许在11月的SC19,但更有可能在明年春天的GTC 20。)
展望未来,新芯片的生产部署速度将取决于生态系统投资的深度和广度,以及芯片本身的完成程度。请记住,尽管数据中心正在拥抱异构性,但他们更喜欢我所说的同类异构性-选择数量最少的芯片体系结构,以覆盖最广泛的工作负载。否则,由于碎片化的计算领域利用率低,并且管理成本高昂,这样做将无利可图的。
观察#2:有许多途径可以提高性能
当我在峰会上聆听演讲者的演讲时,他们所描绘的丰富的创新景观让我感到惊讶。除了使用较低的精度、张量核和Mac阵列(乘法累加核心)之外,这里还有几个亮点。顺便说一下,这些都不是正交方法。例如,基于奥斯汀的Mythic公司正在使用闪存阵列进行模拟脉冲神经网络的内存计算。
图2:为寻找更快更节能的DNN处理器而进行的一些创新的简短列表。有些创新,比如量子计算,需要几年时间才能实现。
这些体系结构有两个主要类别:冯·诺依曼(Von Neuman)的大规模并行设计使用代码(内核)来处理数字计算机传统领域中的矩阵运算(先执行,再执行……)。更激进的方法通常是将计算和内存融合在一个芯片上。或者使用组成神经网络的权重和激活的数字表示,或者或者使用更类似于人脑生物学功能的模拟技术。模拟技术的风险较高,但可能有很大的前景。
许多数字内存设计都使用数据流计算架构,包括Cerebras和Xilinx Versal,在这些架构中,AI核心被嵌入带芯片存储器的结构中,这些存储器将激活连接到后续的网络层或从后续的网络层传输。要使这些设计在推理中运行良好,玩家需要开发自定义编译器技术来优化网络,修整网络中未使用的部分,并消除零乘(当然,这里的答案是零)。
图3:一个有用且简单的分类法,可以帮助您正确看待公司和架构风格,尽管这忽略了FPGA。
别误会,这些公司中的大多数,无论大小,都会提供一些非常出色的设计。不过,请记住,一个新颖的DSA设备构建有用的可扩展解决方案所需的时间和投资规模。为了正确看待这项投资,我怀疑NVIDIA每年花费数亿美元来在全球范围内促进其芯片上AI研究与开发的创新。没有初创公司能与之相抗衡,因此他们需要通过一些设计上的巨大胜利来帮助他们跨越这个鸿沟。
观察#3:NVIDIA仍然领先
NVIDIA公司数据中心业务部副总裁兼总经理伊恩·巴克(Ian Buck)是这次活动的最后一位演讲者。他介绍道,NVIDIA公司通过其Saturn V超级计算机(在500强排行榜上名列第22位)支持的更快的软件和DNN研究,在扩展其推理技术方面取得了进展。Buck指出设计胜出的理由,包括一些知名度和广泛的用例。
图4:NVIDIA能够展示出12家采用GPU进行推断的公司,以及所有主要的云供应商。
为了帮助推动GPU上的推理应用,NVIDIA公司宣布推出TensorRT软件第6版,该软件包括一个优化器和运行时支持,可在经过训练的神经网络上部署经过训练的神经网络,以对各种NVIDIA硬件进行推理处理。它支持99美元的Jetson用于嵌入式处理,Xavier用于自动驾驶汽车,Turing T4用于数据中心应用等。
其次,亚马逊AWS宣布支持NVIDIA TensorCore T4 GPU,这是一种75瓦的PCIe卡,可以支持复杂的图像,语音,翻译和建议的复杂推理处理。NVIDIA T4将成为Habana Labs等初创公司和Intel Nervana等老牌公司的共同比较目标。虽然我认为新的芯片会带来出色的性能指标,但NVIDIA公司将辩称,这些设备在云中的实用性将取决于可用软件的数量以及能否在这些加速器上运行各种模型的用户群。
最终,NVIDIA证明了GPU可以在适当的位置不断发展(与许多初创公司所说的相反),它宣布了用于语言处理的83亿参数Megatron-LM变压器网络。这是使用512个GPU在NVIDIA Saturn V上开发的,这也显示了拥有自己的AI超级计算机时可以做什么。请注意,根据mlPerf基准测试,NVIDIA在短短7个月内也将其现有V100 GPU的性能提高了一倍。
有些人仍然认为推断是针对轻量级的。但NVIDIA公司表明,现代推理用例需要实时延迟的多个模型来满足用户的期望,20-30个容器协作回答一个简单的口头查询。
图5:本幻灯片描述了回答简单口头查询的工作流程
(翻译/半导体行业观察)