澳大利亚国立大学、牛津大学和北京人工智能研究院的研究人员,合作开发了一种名为“3D-GPT”的新型人工智能系统,该系统可以简单地根据用户提供的基于文本的描述生成 3D 模型。相较传统的 3D 建模工作流,提供了一种更高效直观的方式来创建 3D 资产。
“为了减少工作量,我们引入了 3D-GPT,这是一种利用大语言模型 (LLM) 进行指令驱动的 3D 建模的框架。在此背景下,3D-GPT 使 LLM 能够成为熟练的问题解决者,将 3D 建模任务分解为可管理的部分,并为每个部分确定适当的代理。”
根据介绍,3D-GPT 包括三个关键代理:一个解析文本指令的“任务调度代理”,一个添加初始描述中缺失的细节的“概念化代理”,和一个设置参数并生成代码以驱动 Blender 等 3D软件的“建模代理”。
借此,3D-GPT 可以实现系统地增强简洁的初始场景描述,将其演变成复杂的形式,同时根据后续指令动态调整文本。以及无缝集成程序生成,从丰富的文本中提取参数值,轻松与 3D 软件连接以创建资产。
“我们的实证研究证实,3D-GPT不仅解释和执行指令,提供可靠的结果,而且还能与人类设计师有效合作。此外,它与 Blender 无缝集成,释放了扩展的操作可能性。我们的工作凸显了 LLM 在 3D 建模方面的潜力,为场景生成和动画的未来进步提供了基本框架。”
详情可查看完整论文。