斯坦福德-椭圆形/风暴 •2024年2月22日
我们研究如何应用大型语言模型从头开始撰写有基础、有组织的长篇文章,其广度和深度与维基百科页面相当。
检索
dvlab-research/minigemini • •2024年3月27日
我们试图从三个方面挖掘VLM的潜力,以获得更好的性能和任意工作流程,从而缩小差距,即高分辨率可视令牌、高质量数据和VLM引导生成。
排名第8可视问答MM-Vet上
图像理解 可视化对话框 +1个
openbmb/omnilmm • •2024年3月18日
为了应对这些挑战,我们提出了LLaVA-UHD,这是一种大型多模态模型,可以有效地感知任意纵横比和高分辨率的图像。
shinechen1024/magicclothing公司 • •2024年4月15日
我们提出了Magic Clothing,这是一种基于潜在扩散模型(LDM)的网络架构,用于未开发的服装驱动的图像合成任务。
图像生成
tencentarc/instantmesh • •2024年4月10日
我们推出了InstantMesh,这是一个用于从单个图像即时生成3D网格的前馈框架,具有最先进的生成质量和显著的训练可扩展性。
图像到3D
pku-yuan集团/魔幻 • •2024年4月7日
文本到视频生成(T2V)的最新进展在从文本描述合成高质量通用视频方面取得了显著的成功。
文本到视频生成 视频生成
mbanani/probe3d • •2024年4月12日
考虑到这些模型可以在2D中对对象进行分类、描绘和定位,我们问它们是否也能表示其3D结构?
基金会愿景/VAR • •2024年4月3日
我们提出了视觉自回归建模(VAR),这是一种新一代的范式,它将图像的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”,与标准光栅扫描的“下一标记预测”不同。
排名第7图像生成在ImageNet上256x256
图像生成 语言建模 +2
事件ahu/mamba_state_space_model_paper_list • •2024年4月15日
本文首先对这些工作进行了全面回顾,并进行了实验比较和分析,以更好地展示SSM的特点和优势。
zjugg/mygo公司 • •2024年4月15日
为了克服其固有的不完整性,多模态知识图完成(MMKGC)旨在利用来自三元组的结构信息和实体的多模态信息,从给定的MMKGs中发现未观察到的知识。
对比学习 描述的 +3