视觉7W swMATH ID: 43632 软件作者: 朱宇科、奥利弗·格罗斯、迈克尔·伯恩斯坦、李飞飞 描述: 图7W:图像中的固定问题解答。我们看到,在物体识别和检测等基本感知任务方面取得了很大进展。然而,由于缺乏深层推理能力,人工智能模型在高级视觉任务中仍然无法与人类匹配。最近,人们提出了视觉问答(QA)的新任务,以评估模型对深度图像理解的能力。之前的工作已经在问答句子和图像之间建立了松散的、全球性的联系。然而,在实践中,许多问题和答案都与图像中的局部区域有关。我们通过对象级接地在文本描述和图像区域之间建立语义联系。除了以前的工作中使用的文本答案外,它还支持一种新型的问答方式,即使用视觉答案。我们在一个有大量7W多项选择问答对的扎根环境中研究视觉问答任务。此外,我们还评估了人员绩效和QA任务的几个基线模型。最后,我们提出了一种新的具有空间注意的LSTM模型来处理7W QA任务 主页: https://arxiv.org/abs/1511.03416 源代码: https://github.com/yukezhu/visual7w-toolkit 依赖项: 蟒蛇 关键词: 计算机视觉;模式识别;arXiv_cs。个人简历;机器学习;arXiv_cs。LG公司;神经和进化计算;arXiv_cs。氖;视觉7W;目视QA 相关软件: VQA公司;流量计;亚当;胭脂;苹果汁;手套;更快的R-CNN;BLEU公司;CheXpert公司;BioBERT公司;BERT(误码率);克莱沃;DeepProbLog(深度探测日志);水;NeurASP公司;CLEVR数据集;YOLO公司 引用于: 3文件 全部的 前5名12位作者引用 1 蔡毅 1 陈佳丽 1 方文浩 1 何晓海 1 尼尔森·希格拉 1 李清 1 Johannes Oetsch 1 迈克尔·普里茨 1 清、林波 1 谢佳元 1 张墨芝 1 朱,韩 3篇连载文章中引用 1 神经网络 1 逻辑程序设计理论与实践 1 数学生物科学与工程 在3个字段中引用 三 计算机科学(68至XX) 1 生物学和其他自然科学(92-XX) 1 系统论;控制(93至XX) 按年份列出的引文