最近在文本到图像合成方面的突破是由在数十亿图像-文本对上训练的扩散模型推动的。将这种方法用于3D合成将需要标记的3D资产的大规模数据集和用于对3D数据去噪的有效架构,这两者目前都不存在。在这项工作中,我们通过使用预训练的2D文本到图像扩散模型来执行文本到3D合成,从而绕过这些限制。我们引入了基于概率密度提取的损失,使得能够使用2D扩散模型作为参数图像生成器优化的先验。在类似深梦的过程中使用这种损失,我们通过梯度下降优化随机初始化的3D模型(神经辐射场,或NeRF ),使得其从随机角度的2D渲染实现低损失。给定文本的最终3D模型可以从任何角度观看,由任意照明重新照亮,或者合成到任何3D环境中。我们的方法不需要3D训练数据,也不需要修改图像扩散模型,证明了预先训练的图像扩散模型的有效性。