【小哈划重点:比如,不少数据敏感的企业有本地化部署模型的需求。一般而言,业界主流的解决方案,是基于企业的数据,对“中心化”模型进行后训练(比如微调、强化学习)。】
杨红霞要走一条和阿里、字节截然不同的模型训练之路。
在阿里、字节接连做了近7年大模型的杨红霞,身上有一种鲜明的挑战精神。
在阿里早期,她从内部的业务阿里搜索推荐系统,投身于初期并不被看好的大模型研究之路。
后来,她带领林俊旸(现通义千问负责人)、周畅(前通义千问大模型负责人)等这一轮中国大模型的核心人才,在达摩院磕出了通义千问的前身,M6大模型。
2024年7月,杨红霞从字节离职创业后,被曝出仍要做模型相关技术的消息。
“阿里、字节大模型核心人物”的光环,没有盖住彼时市场上悲观的声音:入局太晚,创业公司怎么和大厂争?
时隔一年零三个月,杨红霞带着她的新AI公司InfiX.ai,杀回了大模型赛道。
当下主流的顶尖模型,包括GPT,都是由某个大机构主导的、“中心化”的。杨红霞解释,“(中心化的模型)需要集中投入非常多的数据、人力、算力资源”。
但InfiX.ai要做的恰恰相反:让大模型预训练“去中心化”,变成中小企业、研究机构,甚至个人都能参与的事。
这么做的核心原因在于,2023年中,彼时还在字节的杨红霞就发现,擅长解决通用领域问题的“中心化”模型,无法真正落地。
比如,不少数据敏感的企业有本地化部署模型的需求。一般而言,业界主流的解决方案,是基于企业的数据,对“中心化”模型进行后训练(比如微调、强化学习)。
然而,杨红霞对我们强调:“模型知识的注入只发生在预训练阶段,后训练提供的是规则。”就好比,预训练一段是8年制的医学博士生涯,后训练则是临床实习的过程。
这就导致,基于企业数据后训练的模型,在实际业务中仍然会出现不少“幻觉”。
采访|周鑫雨 邓咏仪,文|周鑫雨,编辑|苏建勋
(节选收录。原文标题:《前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛》)
https://www.36kr.com/p/3531409430174592