{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期-部分”：[[2024,19]]，“日期-时间”：“2024-01-19T18:59:32Z”，“时间戳”：1705690772723}，“发布者位置”：“查姆”，“引用-计数”：40，“出版商”：“施普林格自然瑞士”，“isbn-type”：[{“值”：“9783031263156”，“类型”：”打印“}，{“值”：“9783031263163”，“类型”：“electronic”}]，“license”：[{“start”：{“date-parts”：[[2023,1,1]]，“date-time”：“2023-01-01T00:00:00Z”，“timestamp”：1672531200000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“https:\/\/www.springernature.com\/gp\/searners\/text-and-data-mining”}，{“tart”：1-01T00:00:00Z“，”时间戳“：1672531200000}，“content-version”：“vor”，“delay-in-days”：0，“URL”：“https:\/\/www.springernature.com//gp\/researters\/text-and-data-mining”}]，“content-domain”：{“domain”:[“link.springer.com”]，“crossmark-restriction”：false}，“short-container-title”：[]，“published-print”:{“date-parts”：[2023]}，”DOI“：”10.1007\/978-3-031-26316-3_39“，“type”：“book-chapter”，“created”用法：{“date-parts”：[[2023,3,1]]，“date-time”：“2023-03-01T08:02:32Z”，“timestamp”：1677657752000}，“page”：“658-674”，“update-policy”：”http://\/dx.doi.org\/10.1007\/springer_crossmark_policy“，”source“：”Crossref“，“is-referenced-by-count”：2，“title”：[“用于\u00a0高性能文本可视化问答的两阶段多模态融合”]，“前缀”：“10.1007”，“作者”：[{“给定”：“丙甲”，“家庭”：“李”，“序列”：“第一”，“从属关系”：[]}，{“给出”：“杰”，“家族”：“王”，“顺序”：“附加”，“附属关系”：[]}、{“给予”：“民义”，“家人”：“赵”，”序列“：“附加的”，“隶属关系”：【】}，}“给定的”：“水耕”，“家”：“周”，“次序”：“额外的”，”从属关系：[]}]，“成员”：“297”，“在线发布”：{“日期部分”：[[2023,3,2]}，“引用”：[{“问题”：“12”，“密钥”：“39_CR1”，“doi断言者”：“发布者”，“第一页”：“2552”，“doi”：“10.1109\/TPAMI.2042.2399814”，“卷”：“36”，“作者”：“J Almaz\u00e1n”，“年份”：“2014”，“非结构化”：“Almaz\u00e1n，J.，Gordo，A.，Forn\u00e9s，A.，Valveny，E.：嵌入属性的单词识别和识别。IEEE Trans.Pattern Anal.Mach.Intel.36（12），2552\u20132566（2014）”，“日志标题”：“IEEE Trans.Pattern Anal.Mach-Intell.”}，{“key”：“39_CR2”，“doi-asserted-by”：“crossref”，“非结构化”：“Anderson，P.等人：图像字幕和视觉问答的自下而上和自上而下关注。摘自：IEEE计算机视觉和模式识别会议记录，第6077\u20136086页（2018）”，“DOI”：“10.1109\/CVPR.2018.00636”}，{“key”：“39_CR3”，“DOI-asserted-by”：“crossref”，“unstructured”：“Antol，S.等人：VQA:可视化问答。摘自：IEEE国际计算机视觉会议记录，第2425\u20132433页（2015）”，“DOI”：“10.1109\/ICCV.2015.279”}，{“key”：“39_CR4”，“DOI-asserted-by”：“crossref”，“unstructured”：“Biten，A.F.，Litman，R.，Xie，Y.，Appalaraju，S.，Manmatha，R.：LATR：用于场景文本VQA的布局软件转换器。arXiv预打印arXiv:2112.12494（2021）”，“DOI”：“10.1109\/CVPR52688.2022.01605”}，{“key”：“39_CR5”，“DOI-asserted-by”：“crossref”，“unstructured”：“Biden，A.F，et al.：场景文本可视问答。收录于：IEEE计算机视觉国际会议论文集，第4291\u20134301（2019）页，“DOI”：“10.1109\/ICCV.2019.00439”}，{“key”：“39_CR6”，“DOI-asserted-by”：“publisher”，“first-page:”135“，”DOI“：”10.1162\/tacl_a_00051“，”volume“：”5“，”author“：”P Bojanowski“，”year“：”2017“，”unstructured“：”Bojanowski，P.，Grave，E.，Joulin，A.，Mikolov，T.：利用子词信息丰富词向量。事务处理。关联计算。语言学家。5，135\u2013146（2017）“，“期刊标题”：“翻译。关联计算。语言学家。“}，{”key“：”39_CR7“，”doi-asserted-by“：”crossref“，”unstructured“：”Borisyuk，F.，Gordo，A.，Sivakumar，V.：Rosetta:图像中文本检测和识别的大规模系统。摘自：《第24届ACM SIGKDD知识发现和数据挖掘国际会议论文集》，第71页\u201379（2018）“，”doi“：”10.1145\/3219819.3219861“}”，{“key”：“”39_CR8“，“非结构化”：“Devlin，J.，Chang，M.W.，Lee，K.，Toutanova，K.：Bert:语言理解深度双向变换器的预培训。arXiv预印本arXiv:1810.04805（2018）“}，{“问题”：“12”，“关键”：“39_CR9”，“doi-asserted-by”：“publisher”，“首页”：“9603”，“doi”：“10.1109\/TPAMI.2021.3132034”，“卷”：“44”，“作者”：“C Gao”，“年份”：“2021”，“非结构化”：“Gao，C.等：TextVQA.IEEE Trans.Pattern Anal.Mach.Intell.44（12），9603\u20139614（2021）“，”journal-title“：”IEEE Trans。模式分析。机器。智力。“｝，｛”key“：”39_CR10“，”doi asserted by“：”crossref“，”非结构化“：”Gao，D.，Li，K.，Wang，R.，Shan，S.，Chen，X.：用于视觉和场景文本联合推理的多模态图神经网络。在：IEEE\/CFF计算机视觉和模式识别会议论文集，pp.12746\u201312756（2020）“，”doi“：”10.1109\/CVPR4600.200.01276“｝，｛”key“：”39_CR11“，”doi-asserted-by“：”crossref“，”unstructured“：”Han，W.，Huang，H.，Han，T.：寻找证据：文本可视问答的本地化软件答案预测。arXiv预印本arXiv:2010.02582（2020）“，”doi“：”10.18653\/v1\/2020.coling-main.278“}，{“key”：“39_CR12”，“doi-assert-by”：“crossref.”，“unstructure”：“”Hu，R.，Singh，A.，Darrell，T.，Rohrbach，M.：针对TextVQA的带指针增强多模变压器的迭代答案预测。摘自：IEEE CVF计算机视觉和模式识别会议记录，第9992页，201310002（2020）“，“DOI”：“10.1109”，{“key”：“39_CR13”，“unstructured”：“Jiang，Y.，Natarajan，V.，Chen，X.，Rohrbach，M.，Batra，D.，Parikh，D.：Pythia v0。1：赢得2018年VQA挑战赛的参赛资格。arXiv预印本arXiv:1807.09956（2018）“}，{“key”：“39_CR14”，“series-title”：“计算机科学讲义”，“doi-asserted-by”：“publisher”，“first page”：”715“，“doi”：“10.1007\/978-3-030-58545-7_41”，“volume-title”：”Computer Vision\u2013 ECCV 2020“，“author”：“Y Kant”，“year”：“2020”，“unstructured”：“”Kant，Y.等人：TextVQA的空间感知多模变压器。收录人：Vedaldi，A.、Bischof，H.、Brox，T.、Frahm，J.-M.（编辑）ECCV 2020。LNCS，第12354卷，第715\u2013732页。查姆施普林格（2020）。https:\/\/doi.org\/10.1007\/978-3-030-58545-7_41“}，{“key”：“39_CR15”，“unstructured”：“Kim，W.，Son，B.，Kim，I.：VILT:视觉和语言转换器，无卷积或区域监督。In:国际机器学习会议，pp.5583\u20135594。PMLR（2021）“}，{“key”：“39_CR16”，“unstructured”：“Krasin，I.，et al.：Openimages:大规模多标签和多类图像分类的公共数据集，第2卷，第3期，第18页（2017）。数据集。https:\/\/github.com\/Openimages”}Lamb，A.M.，Alias Parth Goyal，A.G.，Zhang，Y.，Zhanng，S.，Courville，A.C.，Bengio，Y.：强制教授：训练递归网络的新算法。In:Advances In Neural Information Processing Systems，vol.29（2016）“}，{“key”：“39_CR18”，“doi-asserted-by”：“crossref”，“unstructured”：“Lewis，D.，Agam，G.，Argamon，S.，Frieder，O.，Grossman，D.，Heard，J.：构建复杂文档信息处理的测试集合。摘自：第29届ACM SIGIR国际信息检索研究与开发年会论文集，第665\u2013666页（2006）“，“DOI”：“10.1145\/1148170.1148307”}，{“key”：“39_CR19”，“DOI-asserted-by”：“crossref”，“unstructured”：“Liu，F.，Xu，G.，Wu，Q.，Du，Q，Jia，W.，Tan，M.：基于文本的可视问答级联推理网络。摘自：《第28届ACM国际多媒体会议论文集》，第4060\u20134069页（2020）“，“DOI”：“10.1145\/33941171.3413924”}，{“key”：“39_CR20”，“unstructured”：“Loshchilov，I.，Hutter，F.：解耦重量衰减正则化。arXiv预印本arXiv:1711.05101（2017）“}，{“key”：“39_CR21”，“doi-asserted-by”：“crossref”，“unstructured”：“Lu，X.，Fan，Z.，Wang，Y.，Oh，J.，Ros\u00e9，C.P.：本地化，分组，选择：通过场景文本建模增强文本-VQA。摘自：IEEE\/CVF计算机视觉国际会议论文集，第2631\u20132639（2021）页”，“doi”：“10.1109 \/ICCVW54120.2021.00297“}，{“key”：“39_CR22”，“unstructured”：“Van der Maaten，L.，Hinton，G.：使用t-SNE.J.Mach.Learn.Res.9（11）（2008）可视化数据”}，}，“key“：”39_CR23“，”doi-asserted-by“：”crossref“，”unstructure“：”Mishra，A.，Shekhar，S.，Singh，A.K.，Chakraborty，A.：OCR-VQA：通过阅读图像中的文本进行视觉问答。收录于：2019年国际文件分析与识别会议（ICDAR），第947\u2013952页。IEEE（2019）“，“DOI”：“10.1109\/ICDAR.2019.00156”}，{“key”：“39_CR24”，“DOI-asserted-by”：“crossref”，“unstructured”：“牛，Y.，唐，K.，张，H.，卢，Z.，华，X.S.，温，J.R.：反事实VQA:语言偏见的因果研究。摘自：IEEE\/CVF计算机视觉和模式识别会议记录，pp.12700\u201312710（2021）”，“DOI“：”10.1109\/CVPR4437.201.01251“｝，｛”key“：”39_CR25“，”非结构化“：”Raffel，C.等人：用统一的文本到文本转换器探索迁移学习的极限。arXiv预印本arXiv:1910.10683（2019）“｝，｛”key“：”39_CR26“，”非结构化“：”Ren，S.，He，K.，Girshick，R.，Sun，J.：更快的R-CNN：利用区域提议网络实现实时目标检测。In:Advances In Neural Information Processing Systems，vol.28（2015）“}，{”key“：”39_CR27“，”series-title“：”计算机科学讲座笔记“，”doi-asserted-by“：”publisher“，”first page“：“742”，”doi“：”10.1007\/978-3030-58536-5_44“，”volume-title“：“Computer Vision\u2013 ECCV 2020”，”author“：”O Sidorov“，”year“：”2020“，”unstructured“：”Sidorov，O.，Hu，R.，Rohrbach，M.，Singh，A.：文本字幕：一个用于阅读理解的图像字幕数据集。收录人：Vedaldi，A.、Bischof，H.、Brox，T.、Frahm，J.-M.（编辑）ECCV 2020。LNCS，第12347卷，第742\u2013758页。施普林格，查姆（2020）。https:\/\/doi.org\/10.1007\/978-3-030-58536-5_44“}，{“key”：“39_CR28”，“doi-asserted-by”：“crossref”，“unstructured”：“Singh，A.，et al.：走向可阅读的VQA模型。摘自：IEEE\/CVF计算机视觉和模式识别会议论文集，第8317\u20138326（2019）页”，“doi”：“10.1109\/CVPR.2019.00851”}，}“key”：“39 _CR29”，“doi-asserted-by“：”crossref“，”unstructured“：”Singh，A.，Pang，G.，Toh，M.，Huang，J.，Galuba，W.，Hassner，T.：TextOCR：面向任意形状场景文本的大规模端到端推理。收录于：IEEE计算机视觉和模式识别会议论文集，第8802\u20138812（2021）页“，”DOI“：”10.1109\/CVPR46437.2021.00869“}，{“key”：“39_CR30”，“unstructured”：“Su，W.，et al.：VL-BERT：通用视觉语言表征的预训练。收录于《国际学习表征会议（2019）》39_CR31“，”doi-asserted-by“：”crossref“，”unstructured“：”Wang，Q.，Xiao，L.，Lu，Y.，Jin，Y.、He，H.：走向情景文本视觉问答中的推理能力。摘自：《第29届ACM多媒体国际会议论文集》，第2281\u20132289（2021）页，“doi”：“10.1145\/3474085.3475390”}，{“key”：“39_CR32”，“doi-assert-by”：“Crosref”，“”非结构化”：“Wang，X.，et al.：关于证据的一般价值和双语场景文本视觉问答。摘自：IEEE计算机视觉和模式识别会议记录，第10126\u201310135页（2020）”，“DOI”：“10.1109\/CVPR42600.2020.01014”}，{“key”：“39_CR33”，“非结构化”Wolf，T.等人：Huggingface\u2019s transformers：最先进的自然语言处理。arXiv预印本arXiv:1910.03771（2019）“}，{“key”：“39_CR34”，“doi-asserted-by”：“crossref”，“unstructured”：“Xu，Y.，et al.：LayoutLMv2:多模态预训练，用于视觉丰富的文档理解。arXiv preprint arXiv:2012.4740“非结构化”：“Xu，Y.，Li，M.，Cui，L.，Huang，S.，Wei，F.，Zhou，M.：布局LM：用于理解文档图像的文本和布局的预培训。在：《第26届ACM SIGKDD知识发现和数据挖掘国际会议论文集》，第1192\u20131200页（2020），“DOI”：“10.1145\/3394486.3403172”｝，｛“key”：“39_CR36”，“DOI asserted by”：“crossref”，“nonstructured”：“Yang，Z.等：Tap:text-aware预培训，用于text-VQA和text-caption。摘自：IEEE计算机视觉和模式识别会议记录，第8751\u20138761（2021）页，“DOI”：“10.1109”，{“key”：“39_CR37”，“DOI-asserted-by”：“crossref”，“unstructured”：“Zeng，G.、Zhang，Y.、Zhou，Y.和Yang，X.：超越OCR+VQA：将OCR引入到流程中，以实现稳健和准确的TextVQA。摘自：第29届ACM国际多媒体会议记录，第376\u2013385（2021）页“，”DOI“：”10.1145\/3474085.3475606“}，{“key”：“39_CR38”，“DOI-asserted-by”：“crossref”，“unstructured”：“Zhang，X.，Yang，Q.：TextVQA的带有实体对齐网格的位置增强型变压器。摘自：《第29届ACM国际多媒体会议论文集》，第2519\u20132528（2021）页，“DOI”：“10.1145\/3474085.3475425”}，{“key”：“39_CR39”，“unstructured”：“赵明等：面向视频文本视觉问答：基准和基线。In:第三十六届神经信息处理系统会议数据集和基准跟踪（2022）“}，{“key”：“39_CR40”，“doi-asserted-by”：“crossref”，“unstructured”：“Zhu，Q.，Gao，C.，Wang，P.，Wu，Q.：简单并不容易：TextVQA和TextCaps的简单强大基线。摘自：《AAAI人工智能会议论文集》，第35卷，第3608\u20133615（2021）页“，”DOI“：”10.1609\/AAAI.v35i4.16476“}]，”container-title“：[”Computer Vision\u2013 ACCV 2022“，”Teach Notes In Computer Science“]，”original-title”：[]，“link”：[{“URL”：“https:\/\/link.springer.com\/content\/pdf\/10007\/978-31-26316-3_39”，“content-type“：”unspecified“，”content-version“：”vor“，”intended-application“：”similarity-checking“}]，”deposed“：{”date-parts“：[2023,3,1]]，”date-time“：“2023-03-01T08:37:25Z”，“timestamp”：1677659845000}，“score”：1，“resource”：{“primary”:{“URL”：“https:\/\/link.springer.com//10007\/978-3-031-26316-3_39”}}，”subtitle“：[]，“短标题”：[]，“已发布”：{date-parts“：[[2023]]}，”ISBN“：[”9783031263156“，”97830.31263163“]，”references-count“：40，”URL“：”http://\/dx.doi.org\/10.1007\/978-3-031-26316-3_39“，”relation“：{}，“ISSN”：[”0302-9743“，”1611-3349“]，“ISSN-type”：[{“value”：“0302-974”，“type”:“print”}，{“value”：“1611-3399”“，”type“：”electronic“}]，”subject“：[]，”published“：{”date-parts“：[2023]]}，”assertion“：[{”value“：”2023年3月2日“，”order“：1，”name“：”first_online“，”label“：”first online“，“group”：{“name”：“ChapterHistory”，“label”：“Chapter History“}}，{“value”：“ACCV”，“order”：1，“name”:“conference_acrombior”，“tabel”：”conference acronym“，”group“”：“ConferenceInfo”，：2，“name“：”conference_name“，”label“：”会议名称“，”group“：“”group“：{”name“：”ConferenceInfo“，”label“：”Meeting Information“}}，{”value“：”2022“，”order“：5，”name“:”Conference_year“，”标签“：”会议年份“，”group“:信息“，”label“：”Conference Information“}}，{“value”：“2022年12月8日”，“order”：8，“name”：“Conference_end_date”，“label”：“ConferenceEnd date”，“group”：{“name”:“ConferenceInformation”，“标签”：“会议信息”}}“”value“：”accv2022“，”order“：10，”name“：”conference_id“，”label“：”会议id“，”group“：双盲“，”顺序“：1，”name“：”type“，”label“：”type“，”group“：同行评审信息（由会议组织者提供）“}}，{“value”：“836”，“order”：3，“name”：“number_of_submissions_sent_for_Review”，“label”：“发送供评审的提交数”，“group”：{“name”:“ConfEventPeerReviewInformation”，“table”：“同行评审信息”（由会议主办方提供）number_of_full_papers_accepted“，”label“：”接受的全文数“，”group“：{”name“：”ConfEventPeerReviewInformation“，”标签“：”同行评审信息（由会议组织者提供）“}}，{”value“：”0“，”order“：5，”name“:”number_ of_short_papers_Accepteded“，”table“：”已接受的短文数“，“group”：{“name”：“”ConfEventPeerReviewInformation“，”label“：”同行评审信息（由会议组织者提供）“}}，{”value“：”33%-该值由等式“接受的全文数”/“发送供评审的提交数*100”计算，然后四舍五入为整数。“，”order“：6，”name“：”acceptance_rate_of_Full_Papers“，”标签“：”全文接受率“，”group“：{”name“：”ConfEventPeerReviewInformation“，”label“：”Peer Review Information（由会议组织者提供）“}}，{”value“：”3.3“，”order“：7，”name“:”average_number_of_reviews_per_paper“，”标签“：”每篇论文的平均评论数“，”google“：同行评审信息（由会议组织者提供）external_reviewers_involved“，”label“：”涉及的外部审阅者“，”group“：评审过程附加信息“，”组“：{“name”：“ConfEventPeerReviewInformation”，“label”：“同行评审信息（由会议组织者提供）”}}]}}