从稀疏点到自由控制的3D生成：Points-to-3D的突破性进展

一、解决3D生成中的难题：视角一致性和形状可控性

最近，文本到3D生成技术引起了广泛关注，这得益于使用数十亿个图像-文本对训练的2D扩散模型。然而，现有的方法主要依赖于分数蒸馏来利用2D扩散先验，以监督生成3D模型，例如NeRF。然而，分数蒸馏容易受到视角不一致的问题困扰，而隐式NeRF建模也可能导致任意形状，从而导致生成的3D模型不够逼真和无法控制。在这项工作中，我们提出了一种灵活的Points-to-3D框架，通过从2D和3D扩散模型中蒸馏知识，来弥合稀疏但自由可用的3D点与逼真的形状可控3D生成之间的差距。Points-to-3D的核心思想是引入可控的稀疏3D点来指导文本到3D的生成。具体来说，我们使用从3D扩散模型Point-E生成的稀疏点云作为几何先验，以单个参考图像为条件。为了更好地利用稀疏3D点，我们提出了一种高效的点云引导损失，以自适应地驱动NeRF的几何形状与稀疏3D点的形状对齐。除了控制几何形状外，我们还提出了优化NeRF以获得更一致视角外观的方法。具体而言，我们对公开可用的2D图像扩散模型ControlNet进行分数蒸馏，以文本和学习到的紧凑几何的深度图为条件。定性和定量比较表明，Points-to-3D改善了视角一致性，并实现了文本到3D生成的良好形状可控性。Points-to-3D为用户提供了一种改进和控制文本到3D生成的新方法。

二、Points-to-3D的优势与应用

Points-to-3D通过引入稀疏3D点和视角一致性优化，为文本到3D生成带来了突破性的进展。通过融合2D和3D扩散模型的知识，Points-to-3D不仅提高了生成3D模型的逼真度，还实现了对形状的精确控制。用户可以根据自己的需求，灵活地生成具有不同形状和视角的3D模型。这一技术在虚拟现实、游戏开发、数字艺术等领域具有广泛的应用前景。