【小哈划重点:Luma AI已经推出了拍摄捕获3D图片和视频、Image to 3D(图片生3D)、Video to 3D(视频生3D)、Text to 3D(文字生3D)等功能。基于Luma AI的技术,用户只需用一台手机,就可以短时间、低成本生成所需的3D模型。】
根据输入的自然语言提示词,Genie可在10秒左右的时间生成相应的3D模型。
美国AI 3D创业公司「Luma AI」近日完成4300万美元B轮融资,由A16Z独家投资。
此前,Luma AI已经完成了2000万美元的A轮融资,投资方包括Amplify Partners、NVIDIA(NVentures)、General Catalyst。
成立于2021年,Luma AI是一家聚焦于3D内容生成的技术公司,提供3D内容生成和3D内容重建技术解决方案。
截至目前,Luma AI已经推出了拍摄捕获3D图片和视频、Image to 3D(图片生3D)、Video to 3D(视频生3D)、Text to 3D(文字生3D)等功能。基于Luma AI的技术,用户只需用一台手机,就可以短时间、低成本生成所需的3D模型。
Luma AI的核心团队,拥有海外头部大厂和高校的履历。创始人兼CEO Amit Jain出身Apple AR/VR 部门,在3D计算机视觉、深度技术产品等方面有丰富经验。创始人兼CTO Alex Yu毕业于UC Berkeley,曾与人工智能研究实验室教授Angjoo Kanazawa共同进行NeRF(Neural Radiance Fields,神经辐射场)相关的3D计算机视觉研究。
今年,来自Nvidia和斯坦福大学的Jiaming Song,来自UC Berkeley人工智能实验室、NeRF论文作者之一的Matt Tancik,分别加入Luma AI,担任首席科学家和应用研究团队的负责人。
随着技术的开源和更多玩家的涌入,3D内容生成行业的竞争也愈发激烈。对于3D行业而言,企业真正的“护城河”则在3D数据。
相较于文本和2D图像数据,可供训练的3D数据并不多,而经过标注和语义匹配的3D数据则更为稀缺。目前普遍的解决方案是利用2D扩散生成模型来指导3D表示的优化,从而实现3D内容生成。
所谓的NeRF技术,是Luma AI构建3D内容的核心。这一套最初由UC Berkeley和Google发布的深度学习系统,可以基于少量的2D图像,对3D场景的几何形状和外观进行建模。
Luma AI增长负责人Barkley Dai告诉36氪,基于NeRF和Gaussian Splatting 3D重建技术,Luma AI可以基于2D图像数据快速构建高质量3D数据,用于机器学习和算法训练。
减少生成高质量3D内容所需的算力资源和时间,则是AI 3D生成技术落地的关键。自今年以来,Text to 3D所耗时长已经从小时级,缩减到了分钟级。
2023年11月,Luma AI在Discord上发布了最新Text to 3D工具Genie,则将Text to 3D所耗时长缩减到秒级。基于大量3D形状、结构和场景数据进行深度神经网络训练,Genie建立了对语义和3D空间几何对应关系的理解能力。
根据输入的自然语言提示词,Genie可在10秒左右的时间生成相应的3D模型,并提供可下载的GLB、OBJ和FBX等3D数据的标准化文件格式。Barkley告诉36氪,目前市面上极少有厂商能做到10秒级的3D内容生成时间。
在Jain看来,所有视觉生成模型的推理和生成过程都要基于对3D现实场景的理解,互联网的视觉呈现是降维到2D后的表达成果。而随着XR等内容载体的发展,3D内容生成落地的场景也远不止游戏和影视,而是将成为消费级的内容生产和表达形式。
编辑 | 邓咏仪