软件搜索-zbMATH Open

×

视觉7W

swMATH ID:	43632
软件作者：	朱宇科、奥利弗·格罗斯、迈克尔·伯恩斯坦、李飞飞
描述：	图7W：图像中的固定问题解答。我们看到，在物体识别和检测等基本感知任务方面取得了很大进展。然而，由于缺乏深层推理能力，人工智能模型在高级视觉任务中仍然无法与人类匹配。最近，人们提出了视觉问答（QA）的新任务，以评估模型对深度图像理解的能力。之前的工作已经在问答句子和图像之间建立了松散的、全球性的联系。然而，在实践中，许多问题和答案都与图像中的局部区域有关。我们通过对象级接地在文本描述和图像区域之间建立语义联系。除了以前的工作中使用的文本答案外，它还支持一种新型的问答方式，即使用视觉答案。我们在一个有大量7W多项选择问答对的扎根环境中研究视觉问答任务。此外，我们还评估了人员绩效和QA任务的几个基线模型。最后，我们提出了一种新的具有空间注意的LSTM模型来处理7W QA任务
主页：	https://arxiv.org/abs/1511.03416
源代码：	https://github.com/yukezhu/visual7w-toolkit
依赖项：	蟒蛇
关键词：	计算机视觉;模式识别;arXiv_cs。个人简历;机器学习;arXiv_cs。LG公司;神经和进化计算;arXiv_cs。氖;视觉7W;目视QA
相关软件：	VQA公司;流量计;亚当;胭脂;苹果汁;手套;更快的R-CNN;BLEU公司;CheXpert公司;BioBERT公司;BERT（误码率）;克莱沃;DeepProbLog（深度探测日志）;水;NeurASP公司;CLEVR数据集;YOLO公司
引用于：	3文件

全部的前5名

12位作者引用

1	蔡毅
1	陈佳丽
1	方文浩
1	何晓海
1	尼尔森·希格拉
1	李清
1	Johannes Oetsch
1	迈克尔·普里茨
1	清、林波
1	谢佳元
1	张墨芝
1	朱，韩

3篇连载文章中引用

1	神经网络
1	逻辑程序设计理论与实践
1	数学生物科学与工程

在3个字段中引用

三	计算机科学（68至XX）
1	生物学和其他自然科学（92-XX）
1	系统论；控制（93至XX）

按年份列出的引文

© 2024FIZ卡尔斯鲁厄股份有限公司隐私政策法律声明条款和条件