GPT以经验主义方式进行学习,其成功回应了一个悬而未决的语言学问题,即乔姆斯基的先验语法。GPT不需要先验语法,这个事实暗示,语言或许本来就没有先验语法。GPT不需要语言学就学到了语言,非常接近不需要语言学理论的维特根斯坦语言理论。
MosaicML的产品组合包括开源的、商业授权的MPT Foundation系列模型和MosaicML推理和训练服务。其推出的MosaicML Composer开源的深度学习库,提供20种用于计算机视觉和自然语言处理的方法,包括模型、数据集和基准。推出的MosaicML Explorer可以帮助开发人员探索和理解不同的云服务和硬件选项之间的时间、性
怎么具备观察和体验能力呢?那就需要机器算法不但要临摹人类的大脑,更需要临摹人类的身体,毕竟是人体在观察和体验这个世界,而大脑只不过是观察和体验结果的数据处理中枢。
2015年,在加利福尼亚的一家意大利餐厅,霍夫曼会见了马斯克和奥特曼,讨论创立OpenAI。霍夫曼为OpenAI找到微软这个金主,才是霍夫曼为ChatGPT敲边鼓的最大功绩。霍夫曼避免潜在的利益冲突,从OpenAI非营利性董事会辞职,下场亲自做AGI。
动物之间的语言和沟通方式因种类而异,它们可能使用声音、姿势、气味和其他形式的信号来传达信息。与人类语言不同的是,动物语言通常具有更为固定和有限的符号系统,并且其语义和语法结构可能更难以理解和解释。
泛化能力当然是一个问题,但更核心的问题是各行各业都有自己的Know-How。这些最有价值的Know-How很可能不在互联网上,而是在企业的私有数据库里,甚至在一部分专家的脑子里。ChatGPT连信息都没有,自然也不会形成这方面的知识。这也是Bloomberg推出BloombergGPT的意义。
在投资人的观察中,问题之一在于数据孤岛、清洗数据太贵,没有成为降低成本的有效平台。而ChatGPT出来后最大的贡献,就是解决了孤岛问题:用全世界的数据训练一个巨大模型,这个模型还可以迁移学习转换到每一个应用里去。
未来的工厂将由一个男人和一条狗来管理;男人的职责是喂狗,而狗的职责将是防止男人去碰机器。不过,其中一个最需要理解的是,这是因为工厂的老板比较有社会责任。为什么?因为,他知道机器决定公司的绩效,但是他又不能把人开除了。那该怎么办?他让这个人养这条狗。
AI大模型本身不存储数据,它存储的是参数。而参数代表着在算法、模型框架之下,数据之间的关系......在讨论该如何向ChatGPT收学费的同时,出版商或许更加担忧ChatGPT的生成能力可能会威胁到新闻出版集团的主业。这也使得AI在出版集团面前的形象成了——“吃我饭,还砸我碗”。
这一语言模型的技术是1972年就已经有了的。到现在,经过了五十年,现在行业内,其实大家并不觉得它是一个什么了不得的东西。在此以前,这个语言模型其实已经做了很多的事情。
提到语言模型,这个词,最初是由我的导师贾里尼克提出来的。他大概在1993年的时候到了约翰霍普金斯大学。
过去做什么应用都需要海量数据,现在很多基础数据通过预训练模型给你了,那么每家就可以结合自己的专有数据做fine-tuning(精调),做prompting(提示),做这种适应就行了。之前做个公司,最怕数据不够,因为数据散着或者在别的公司那里。
生成式AI终结了文牍主义。办公文书、八股文等固定格式的文本,是机器人最容易掌握,也最容易仿真和替代的。介乎宣传文稿和新闻作品之间的新闻内容,均具有固定格式,类似八股文。某种意义上说,生成式AI将会对新闻报道中文牍主义、形式主义形成冲击,同时也对僵化的官僚主义、科层制管理模式形成冲击。