阿格尼特·查特吉 加布里埃拉·本·梅莱赫·斯坦 埃斯特尔·阿夫拉洛 沙亚克·保罗 德鲁巴·戈什 Tejas Gokhale公司 路德维希·施密特 Hannaneh Hajishirzi公司 瓦苏德夫·拉尔 奇塔·巴拉尔 杨叶洲 正确操作:改进文本到图像模型中的空间一致性。 2024 腹肌/2404.01197 CoRR公司 https://doi.org/10.48550/arXiv.2404.01197 数据库/期刊/corr/corr2404.html#abs-2404-01197
武藏欣克 马修·奥尔森 大卫·科布利 邵延曾 瓦苏德夫·拉尔 LLaVA-Gemma:使用紧凑语言模型加速多模态基础模型。 2024 abs/2404.01331 CoRR公司 https://doi.org/10.48550/arXiv.2404.01331 数据库/期刊/corr/corr2404.html#abs-2404-01331
加布里埃拉·本·梅莱赫·斯坦 Raanan Y.Yehezkel Rohekar先生 亚尼夫·古维茨 马修·莱尔·奥尔森 阿纳希塔·比万迪瓦拉 埃斯特尔·阿夫拉洛 吴晨飞 南区 邵延曾 瓦苏德夫·拉尔 LVLM-Intreplet:一个用于大型可视语言模型的可解释工具。 2024 abs/2404.03118 CoRR公司 https://doi.org/10.44850/arXiv.2404.03118 数据库/期刊/corr/corr2404.html#abs-2404-03118
阿维纳什·马达苏 埃斯特尔·阿夫拉洛 加布里埃拉·本·梅莱赫·斯坦 沙查尔·罗森曼 邵延曾 格达斯·贝尔塔修斯 瓦苏德夫·拉尔 MuMUR:多语言多模式通用检索。 5 2023 六月 26 Inf.Retr.(信息回收)。J。 1 https://doi.org/10.1007/s10791-023-09422-5 db/journals/ir/ir26.html#MadasuASRTBL23
阿维纳什·马达苏 瓦苏德夫·拉尔 多模态视觉监控对语言有益吗? 2023 abs/2302.05016 CoRR公司 https://doi.org/10.48550/arXiv.2302.05016 db/journals/cor/corr2302.html#abs-2302-05016数据库
加迪·辛格 乔沙·巴赫 特蒂亚娜·格林伯格 纳吉卜·哈基姆 菲利普·霍华德 瓦苏德夫·拉尔 泽夫·里夫林 Thrill-K体系结构:解决基于知识的理解问题。 2023 abs/2303.12084 CoRR公司 https://doi.org/10.48550/arXiv.2303.12084 数据库/期刊/corr/corr2303.html#abs-2303-12084
菲利普·霍华德 王俊林 瓦苏德夫·拉尔 加迪·辛格 叶金彩0001 Swabha Swayamdipta公司 神经比较:比较知识的神经符号提炼。 2023 abs/2305.04978 CoRR公司 https://doi.org/10.48550/arXiv.2305.04978 数据库/期刊/corr/corr2305.html#abs-2305-04978
加布里埃拉·本·梅莱赫·斯坦 戴安娜·沃夫克 斯科蒂·福克斯 亚历克斯·雷登 威尔·萨克斯顿 让·俞(Jean Yu) 埃斯特尔·阿夫拉洛 邵延曾 法比奥·诺纳托 马蒂亚斯·米勒0011 瓦苏德夫·拉尔 LDM3D:三维潜在扩散模型。 2023 abs/2305.10853 CoRR公司 https://doi.org/10.48550/arXiv.2305.10853 数据库/期刊/corr/corr2305.html#abs-2305-10853
杰里·唐 孟都 Vy A.Vo公司 瓦苏德夫·拉尔 亚历山大·胡特 基于多模态变换器的大脑编码模型可以跨语言和视觉进行转换。 2023 abs/2305.12248 CoRR公司 https://doi.org/10.48550/arXiv.2305.12248 数据库/期刊/corr/corr2305.html#abs-2305-12248
肖旭0005 贝莉 吴晨飞 邵延曾 阿纳希塔·比万迪瓦拉 沙查尔·罗森曼 瓦苏德夫·拉尔 万向车 南区 ManagerTower:汇集统一模式专家对视觉语言表征学习的见解。 2023 abs/2306.00103 CoRR公司 https://doi.org/10.48550/arXiv.2306.00103 数据库/期刊/corr/corr2306.html#abs-2306-00103
阿维纳什·马达苏 瓦苏德夫·拉尔 ICSVR:研究视频检索模型中的合成和语义理解。 2023 腹肌/2306.16533 CoRR公司 https://doi.org/10.48550/arXiv.2306.16533 db/journals/corr/corr2306.html#abs-2306-16533
Tiep Le公司 瓦苏德夫·拉尔 菲利普·霍华德 COCO-Counterfactals:自动构建的图像-文本对反事实示例。 2023 abs/2309.14356 CoRR公司 https://doi.org/10.48550/arXiv.2309.14356 数据库/期刊/corr/corr2309.html#abs-2309-14356
菲利普·霍华德 阿维纳什·马达苏 Tiep Le公司 古斯塔沃·A·卢扬·莫雷诺 瓦苏德夫·拉尔 用反事实例子探讨视觉语言模型中的交叉偏见。 2023 abs/2310.02988 CoRR公司 https://doi.org/10.48550/arXiv.2310.02988 db/journals/corr/corr2310.html#abs-2310-02988
阿维纳什·马达苏 Anahita比旺迪瓦拉 瓦苏德夫·拉尔 视频理解任务中视觉语言模型的零拍能力分析。 2023 abs/2310.04914 CoRR公司 https://doi.org/10.48550/arXiv.2310.04914 db/journals/corr/corr2310.html#abs-230-04914
加布里埃拉·本·梅莱赫·斯坦 戴安娜·沃夫克 埃斯特尔·阿夫拉洛 邵延曾 蔡志鹏 迈克尔·保利奇 瓦苏德夫·拉尔 LDM3D-VR:3D VR的潜在扩散模型。 2023 abs/2311.03226 CoRR公司 https://doi.org/10.48550/arXiv.2311.03226 db/journals/corr/corr2311.html#abs-2311-03226
沙查尔·罗森曼 瓦苏德夫·拉尔 菲利普·霍华德 NeuroPrompts:一个自适应框架,用于优化文本到图像生成的提示。 2023 abs/2311.12229 CoRR公司 https://doi.org/10.48550/arXiv.2311.12229 db/journals/corr/corr2311.html#abs-2311-12229
菲利普·霍华德 阿维纳什·马达苏 Tiep Le公司 古斯塔沃·A·卢扬·莫雷诺 阿纳希塔·比万迪瓦拉 瓦苏德夫·拉尔 用反事实的例子探讨和缓解视觉语言模型中的交叉社会偏见。 2023 腹肌/231200825 CoRR公司 https://doi.org/10.44850/arXiv.2312.00825网址 db/journals/corr/corr2312.html#abs-2312-00825
埃斯特尔·阿夫拉洛 孟都 邵延曾 刘永飞 吴晨飞 南区 瓦苏德夫·拉尔 VL InterpreT:一种用于解释视觉语言转换器的交互式可视化工具。 2022 abs/2203.17247 CoRR公司 https://doi.org/10.48550/arXiv.2203.17247 db/journals/corr/corr2203.html#abs-2203-17247
肖旭0005 吴晨飞 沙查尔·罗森曼 瓦苏德夫·拉尔 南区 桥塔:在视觉语言表征学习中构建编码器之间的桥梁。 2022 abs/2206.08657 CoRR公司 https://doi.org/10.48550/arXiv.2206.08657 db/journals/corr/corr2206.html#abs-2206-08657
阿维纳什·马达苏 埃斯特尔·阿夫拉洛 加布里埃拉·本·梅莱赫·斯坦 邵延曾 格达斯·贝尔塔修斯 瓦苏德夫·拉尔 使用多语言知识传输改进视频检索。 2022 abs/2208.11553 CoRR公司 https://doi.org/10.48550/arXiv.2208.11553 db/journals/corr/corr2208.html#abs-2208-11553
菲利普·霍华德 雅顿·马 瓦苏德夫·拉尔 安娜·保拉·西姆斯 丹尼尔·科拉特 奥伦·佩雷格 莫西·瓦瑟布拉特 加迪·辛格 使用知识图增强的变换器进行跨域方面提取。 2022 abs/2210.10144 CoRR公司 https://doi.org/10.48550/arXiv.2210.10144 db/journals/corr/corr2210.html#abs-2201-10144
菲利普·霍华德 加迪·辛格 瓦苏德夫·拉尔 叶金彩0001 Swabha Swayamdipta公司 神经反事实:超越最小编辑反事实,实现更丰富的数据增强。 2022 abs/2210.12365 CoRR公司 https://doi.org/10.44850/arXiv.2210.12365 db/journals/corr/corr2210.html#abs-220-12365
刘永飞 吴晨飞 邵延曾 瓦苏德夫·拉尔 何旭明0001 南区 KD-VLP:使用对象知识提取改进端到端的视觉和语言预训练。 2021 abs/2109.10504 CoRR公司 https://arxiv.org/abs/2109.10504 数据库/期刊/corr/corr2109.html#abs-2109-10504