【小哈划重点:OpenAI科学家安德烈·卡帕西(Andrej Karpathy)曾表示:“预训练就是在超级计算机中使用数千个GPU以及可能进行数月时间来处理互联网规模数据集的地方,占据训练时间的99%。”】
人才备战将成为决定大模型胜负的重要因素。
「甲子光年」独家获悉,前谷歌TensorFlow核心创始成员潘欣去年加入「零一万物」,担任首席架构师,负责多模态研发。
潘欣毕业于北京邮电大学与滑铁卢大学计算机系,与深度学习框架打交道多年,曾任职于谷歌、百度、腾讯、字节跳动,在CVPR,ICCV,SoCC等会议发表论文。
在谷歌期间,潘欣先在Core Infra从事大数据系统开发,后在2015年底加入谷歌大脑团队(Google Brain),与谷歌大脑的联合创始人杰夫·迪恩(Jeff Dean)、萨米·本吉奥(Samy Bengio)等合作,为TensorFlow和Brain Research的核心创始成员之一,对Eager、TPU、Profiling和Model Zoo等技术做出重要贡献。
2017年底,潘欣带着“打造国产第一框架”的理想受邀加入百度,担任深度学习技术平台部架构师,负责PaddlePaddle框架开发。2019年,潘欣加入腾讯担任平台与内容事业群(PCG) AI平台技术负责人,打造了深度学习框架“无量”。
在加入零一万物之前,潘欣在字节跳动担任AIGC和视觉大模型AI平台负责人。
此外,「甲子光年」还独家获悉,前商汤科技AI总监聂鹏程,也于去年加入零一万物,担任首席技术专家,负责AI Agent与大模型研发。
聂鹏程毕业于西安电子科技大学,先后在IBM、华为担任资深技术专家,2019年加入智载云帆担任CTO,2021年加入商汤科技担任技术总监,负责AI超算、AI Infra等相关工作。
「甲子光年」了解到,聂鹏程在商汤科技期间负责过2.7万张GPU的AI数据中心,是在大模型爆火之前国内最大规模的算力集群,有丰富的AI Infra技术与经验。
零一万物是李开复博士在2023年3月底正式宣布筹办的大模型公司,由创新工场出资设立。2023年11月,据报道,零一万物已完成由阿里云领投的新一轮融资,估值达到10亿美元,跻身大模型独角兽之列。
大模型是一场资源密集、人才密集的竞争,其创业难度远非普通行业可比。为了招揽顶尖人才,去年李开复、王慧文、蓝振忠、周伯文等大佬广发“英雄帖”,为大模型创业预热。
零一万物在2023年7月首次官宣数十位核心成员到位,根据公开信息,包括前百度副总裁马杰,前微软副总裁祁瑞峰等。
在11月首次发布大模型之际,零一万物还公布了两位核心技术人员——黄文灏与戴宗宏。
黄文灏担任零一万物技术副总裁及Pretrain负责人,曾先后任职于微软亚洲研究院和智源研究院。在微软从事AI Agent研究工作时,曾得到比尔·盖茨与萨提亚·纳德拉的高度赞扬。
戴宗宏担任零一万物技术副总裁及AI Infra负责人,是前华为云AI CTO及技术创新部长、前阿里达摩院AI Infra总监。他负责的AI Infra团队成员主要来自于阿里、华为、微软、商汤,曾参与支持了4个千亿参数大模型规模化训练,管理过数万张GPU卡。
2023年6月份,在核心成员陆续就位之后,零一万物写下了第一行代码。零一万物选择基于开源模型架构,从大模型的预训练(Pre-train)开始做起,这是业内最难、最重的一条路。
OpenAI科学家安德烈·卡帕西(Andrej Karpathy)曾表示:“预训练就是在超级计算机中使用数千个GPU以及可能进行数月时间来处理互联网规模数据集的地方,占据训练时间的99%。”
为此,零一万物构建了一个数千卡GPU的集群。
零一万物将大模型平台研发拆解为七大模块技术,除了预训练之外,还包括Post-train、AI Infra、多模态、平台中间件及工具链、推理和服务部署。
在训练了三个月之后,零一万物在11月6日正式发布首款大模型Yi,开源了Yi-6B与Yi-34B两个版本模型与200K上下文窗口技术,并登顶了Hugging Face英文测试公开榜单Pretrained与C-Eval中文模型排行榜。11月24日,零一万物上线Yi-34B-Chat微调模型及量化版。
零一万物最新的模型迭代是在本周,上线了Yi-VL(Yi Vision Language)多模态语言模型并面向全球开源。其中,在MMMU与CMMMU数据集测试中,Yi-VL-34B模型的表现仅次于GPT-4V。
目前国产头部大模型整体处于追平GPT-3.5、追赶GPT-4的过程中,当前阶段模型的核心竞争力集中在AI Infra。
去年11月零一万物曾表示,经过几个月大量的建模和实验,自研了一套“科学训模”的方法论,把过去不确定性较高的“炼丹”过程变得极度细致和科学化,将Yi-34B的训练成本降低了40%。这套方法论的优势在于,当模型参数变大,训练过程也会“丝滑”平稳地扩大,保证迭代速度与稳定性。
基于此方法论,零一万物曾预告未来会推出千亿模型参数的闭源版本。零一万物的最终愿景,是构建面向to C市场的超级应用,做一款面向AI 2.0时代的微信、抖音。
(原文标题:《独家:前谷歌TensorFlow核心创始成员潘欣加入零一万物,大模型人才争夺成焦点》。文章插图未收录)
https://mp.weixin.qq.com/s/m0eaQE1v31TuikBUPzT7jg