使用大型语言模型从头开始帮助撰写类似Wikipedia的文章

斯坦福德-椭圆形/风暴 2024年2月22日

我们研究如何应用大型语言模型从头开始撰写有基础、有组织的长篇文章,其广度和深度与维基百科页面相当。

检索

3,341
9.48星/小时

Mini-Gemini:挖掘多模式视觉语言模型的潜力

dvlab-research/minigemini 2024年3月27日

我们试图从三个方面挖掘VLM的潜力,以获得更好的性能和任意工作流程,从而缩小差距,即高分辨率可视令牌、高质量数据和VLM引导生成。

图像理解 可视化对话框 +1个

2,434
4.50星/小时

LLaVA-UHD:一种感知任意纵横比和高分辨率图像的LMM

openbmb/omnilmm 2024年3月18日

为了应对这些挑战,我们提出了LLaVA-UHD,这是一种大型多模态模型,可以有效地感知任意纵横比和高分辨率的图像。

1181个
3.10星/小时

魔法服装:可控服装驱动的图像合成

shinechen1024/magicclothing公司 2024年4月15日

我们提出了Magic Clothing,这是一种基于潜在扩散模型(LDM)的网络架构,用于未开发的服装驱动的图像合成任务。

图像生成

658
2.73星/小时

InstantMesh:利用稀疏视图大重建模型从单个图像高效生成三维网格

tencentarc/instantmesh 2024年4月10日

我们推出了InstantMesh,这是一个用于从单个图像即时生成3D网格的前馈框架,具有最先进的生成质量和显著的训练可扩展性。

图像到3D

872
2.52星/小时

MagicTime:作为变形模拟器的时变视频生成模型

pku-yuan集团/魔幻 2024年4月7日

文本到视频生成(T2V)的最新进展在从文本描述合成高质量通用视频方面取得了显著的成功。

文本到视频生成 视频生成

963
2.11星/小时

探索可视化基础模型的三维感知

mbanani/probe3d 2024年4月12日

考虑到这些模型可以在2D中对对象进行分类、描绘和定位,我们问它们是否也能表示其3D结构?

160
2.07星/小时

视觉自回归建模:基于下尺度预测的可缩放图像生成

基金会愿景/VAR 2024年4月3日

我们提出了视觉自回归建模(VAR),这是一种新一代的范式,它将图像的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”,与标准光栅扫描的“下一标记预测”不同。

图像生成 语言建模 +2

2,530
2.01星/小时

替代变压器的新一代网络状态空间模型综述

事件ahu/mamba_state_space_model_paper_list 2024年4月15日

本文首先对这些工作进行了全面回顾,并进行了实验比较和分析,以更好地展示SSM的特点和优势。

236
1.94星/小时

MyGO:离散模态信息作为多模态知识图完成的细粒度标记

zjugg/mygo公司 2024年4月15日

为了克服其固有的不完整性,多模态知识图完成(MMKGC)旨在利用来自三元组的结构信息和实体的多模态信息,从给定的MMKGs中发现未观察到的知识。

对比学习 描述的 +3

110
1.61星/小时