×

RUBi公司

swMATH ID: 42505
软件作者: 雷米·卡迪内(Remi Cadene)、科伦蒂·丹塞特(Corentin Dancette)、赫迪·本·尤恩斯(Hedi Ben-younes)、马蒂厄·科尔德(Matthieu Cord)、德维·帕里赫(Devi Parikh)
说明: RUBi:减少视觉问答中的单峰偏倚。视觉问答(VQA)的任务是回答关于图像的问题。一些VQA模型经常利用单峰偏差来提供正确的答案,而不使用图像信息。因此,当根据训练集分布之外的数据进行评估时,他们的性能会大幅下降。这一关键问题使它们不适合实际设置。我们提出了RUBi,一种新的学习策略,以减少任何VQA模型中的偏差。它降低了最有偏见的示例的重要性,即可以在不看图像的情况下正确分类的示例。它隐含地迫使VQA模型使用两种输入模式,而不是依赖问题和答案之间的统计规律。我们利用了一个问题模型,通过识别何时使用这些不需要的规则来捕获语言偏见。它通过影响预测来阻止基本VQA模型学习它们。这导致动态地调整损失,以便补偿偏差。我们通过在VQA-CP v2上超越当前最先进的结果来验证我们的贡献。该数据集专门设计用于评估VQA模型在测试时与培训期间所见问题偏差不同时的稳健性。我们的代码可用:https://github.com/cdancette/rubi.bootstrap.pytorch
主页: https://arxiv.org/abs/1906.10169
源代码:  https://github.com/cdancette/rubi.bootstrap.pytorch
相关软件: 科瓦雷普;OpenFace(开放面);VL-接口;克莱沃;MDETR公司;振动LT;视觉BERT;多工作台;振动贝特;一角硬币;手套;Flickr30K手机;梯度-CAM;NBDT公司;更快的R-CNN;VQA公司;LXMERT公司;iMotions公司;蟒蛇;MultiViz公司
引用于: 0个文档