【小哈划重点:论文中提到,LWM可以回答超过1小时的YouTube视频中的相关问题,还能在100万tokens的上下文窗口内实现高精度检索,并且性能优于GPT-4V和Gemini Pro。】
2月19日消息,昨天,AI音频生成创企ElevenLabs在社交平台X上,为Sora生成的多个视频添加了音效,如汽车行驶的引擎声、公共交通行驶声音、走路声、海浪声等。并且该公司还预告AI音效生成的相关功能即将上线。
UC伯克利大世界模型登GitHub热榜第一
智东西
2月19日消息,今天,UC伯克利大学研究人员提出的大世界模型(Large World Model,LWM)登上GitHub榜首,目前已经揽获3.2K星标。
为了应对内存限制、计算复杂性和数据集有限等挑战,研究人员从数百万个视频和语言序列的标记中学习,整理了一个包含各种视频和书籍的大型数据集,利用RingAttention技术对长序列进行可扩展训练,并逐渐将上下文大小从4000 tokens增加到100万tokens,并完全开源一系列7B参数模型。
论文中提到,LWM可以回答超过1小时的YouTube视频中的相关问题,还能在100万tokens的上下文窗口内实现高精度检索,并且性能优于GPT-4V和Gemini Pro。
论文地址:https://largeworldmodel.github.io/
项目地址:https://github.com/LargeWorldModel/LWM?tab=readme-ov-file