×

VQA公司

swMATH ID: 36506
软件作者: Aishwarya Agrawal、Jiasen Lu、Stanislaw Antol、Margaret Mitchell、C.Lawrence Zitnick、Dhruv Batra、Devi Parikh
描述: VQA:可视化问答。VQA是一个新的数据集,包含关于图像的开放式问题。这些问题需要对视觉、语言和常识的理解才能回答。265016幅图像(COCO和抽象场景)。每张图片至少有3个问题(平均5.4个问题)。每个问题回答10个基本事实。每个问题3个看似合理(但可能不正确)的答案。自动评估指标。
主页: https://visualqa.org
源代码:  https://github.com/GT-Vision-Lab/VQA
关键词: arXiv_cs。计算机视觉模式识别arXiv_cs。个人简历VQA公司可视问答
相关软件: 亚当更快的R-CNN克莱沃Flickr30K手机BERT(误码率)视觉7W苹果汁手套CLEVR数据集YOLO公司ImageNet公司梯度-CAM布鲁胭脂githubDeepProbLog(深度探测日志)NeurASP公司卡费振动贝特PyTorch公司
引用于: 10文件

标准条款

1出版物描述软件 年份
视觉问答arXiv公司
Aishwarya Agrawal、Jiasen Lu、Stanislaw Antol、Margaret Mitchell、C.Lawrence Zitnick、Druv Batra、Devi Parikh
2015

按年份列出的引文