HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation

Leng, Zhiying; Birdal, Tolga; Liang, Xiaohui; Tombari, Federico

计算机科学>计算机视觉与模式识别

arXiv:2403.00372号（个）

【于2024年3月1日提交(第1版)，最新修订日期：2024年4月30日（本版本，第3版）]

标题：HyperSDFusion：为增强的3D文本2形状生成桥接语言和几何中的层次结构

作者：致英冷,托尔加·比达尔,梁晓慧,费德里科·汤巴里

查看PDF

摘要：从文本中生成三维形状是三维表示学习中的一项基本任务。文本形状对显示出层次结构，其中像“椅子”这样的普通文本“涵盖了椅子的所有3D形状，而更详细的提示指的是更具体的形状。此外，文本和3D形状都是固有的层次结构。然而，现有的Text2Shape方法，如SDFusion，并没有利用这一点。在这项工作中，我们提出了HyperSDFusion这一双分支扩散模型，它从给定文本。由于双曲线空间适合处理层次数据，我们建议学习双曲线空间中文本和3D形状的层次表示。首先，我们引入双曲线文本图像编码器来学习双曲线空间中文本的顺序和多模态层次特征。此外，我们设计了一个双曲线文本纹理卷积模块来学习双曲线空间中文本的层次特征。为了充分利用这些文本特征，我们引入了一种双分支结构，将文本特征嵌入到三维特征空间中。最后，为了赋予生成的三维形状层次结构，我们设计了双曲线层次损失。我们的方法是首次探索用于文本到形状生成的双曲线层次表示。在现有的文本到形状配对数据集Text2Shape上的实验结果达到了最先进的结果。我们根据此http URL.

学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2403.00372号[cs.CV]
	（或 arXiv:2403.00372v3[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2403.00372
日志参考：	2024年IEEE/CVF计算机视觉和模式识别会议

提交历史记录

发件人：冷志英[查看电子邮件]
[第1版]2024年3月1日星期五08:57:28 UTC（1722 KB）
[版本2]2024年4月28日星期日18:45:32 UTC（1953 KB）
[第3版]2024年4月30日星期二05:32:01 UTC（1952 KB）

计算机科学>计算机视觉与模式识别

标题：HyperSDFusion：为增强的3D文本2形状生成桥接语言和几何中的层次结构

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉与模式识别

标题：HyperSDFusion：为增强的3D文本2形状生成桥接语言和几何中的层次结构

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目