{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2024,19]],“日期-时间”:“2024-01-19T18:59:32Z”,“时间戳”:1705690772723},“发布者位置”:“查姆”,“引用-计数”:40,“出版商”:“施普林格自然瑞士”,“isbn-type”:[{“值”:“9783031263156”,“类型”:”打印“},{“值”:“9783031263163”,“类型”:“electronic”}],“license”:[{“start”:{“date-parts”:[[2023,1,1]],“date-time”:“2023-01-01T00:00:00Z”,“timestamp”:1672531200000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“https:\/\/www.springernature.com\/gp\/searners\/text-and-data-mining”},{“tart”:1-01T00:00:00Z“,”时间戳“:1672531200000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“https:\/\/www.springernature.com//gp\/researters\/text-and-data-mining”}],“content-domain”:{“domain”:[“link.springer.com”],“crossmark-restriction”:false},“short-container-title”:[],“published-print”:{“date-parts”:[2023]},”DOI“:”10.1007\/978-3-031-26316-3_39“,“type”:“book-chapter”,“created”用法:{“date-parts”:[[2023,3,1]],“date-time”:“2023-03-01T08:02:32Z”,“timestamp”:1677657752000},“page”:“658-674”,“update-policy”:”http://\/dx.doi.org\/10.1007\/springer_crossmark_policy“,”source“:”Crossref“,“is-referenced-by-count”:2,“title”:[“用于\u00a0高性能文本可视化问答的两阶段多模态融合”],“前缀”:“10.1007”,“作者”:[{“给定”:“丙甲”,“家庭”:“李”,“序列”:“第一”,“从属关系”:[]},{“给出”:“杰”,“家族”:“王”,“顺序”:“附加”,“附属关系”:[]}、{“给予”:“民义”,“家人”:“赵”,”序列“:“附加的”,“隶属关系”:【】},}“给定的”:“水耕”,“家”:“周”,“次序”:“额外的”,”从属关系:[]}],“成员”:“297”,“在线发布”:{“日期部分”:[[2023,3,2]},“引用”:[{“问题”:“12”,“密钥”:“39_CR1”,“doi断言者”:“发布者”,“第一页”:“2552”,“doi”:“10.1109\/TPAMI.2042.2399814”,“卷”:“36”,“作者”:“J Almaz\u00e1n”,“年份”:“2014”,“非结构化”:“Almaz\u00e1n,J.,Gordo,A.,Forn\u00e9s,A.,Valveny,E.:嵌入属性的单词识别和识别。IEEE Trans.Pattern Anal.Mach.Intel.36(12),2552\u20132566(2014)”,“日志标题”:“IEEE Trans.Pattern Anal.Mach-Intell.”},{“key”:“39_CR2”,“doi-asserted-by”:“crossref”,“非结构化”:“Anderson,P.等人:图像字幕和视觉问答的自下而上和自上而下关注。摘自:IEEE计算机视觉和模式识别会议记录,第6077\u20136086页(2018)”,“DOI”:“10.1109\/CVPR.2018.00636”},{“key”:“39_CR3”,“DOI-asserted-by”:“crossref”,“unstructured”:“Antol,S.等人:VQA:可视化问答。摘自:IEEE国际计算机视觉会议记录,第2425\u20132433页(2015)”,“DOI”:“10.1109\/ICCV.2015.279”},{“key”:“39_CR4”,“DOI-asserted-by”:“crossref”,“unstructured”:“Biten,A.F.,Litman,R.,Xie,Y.,Appalaraju,S.,Manmatha,R.:LATR:用于场景文本VQA的布局软件转换器。arXiv预打印arXiv:2112.12494(2021)”,“DOI”:“10.1109\/CVPR52688.2022.01605”},{“key”:“39_CR5”,“DOI-asserted-by”:“crossref”,“unstructured”:“Biden,A.F,et al.:场景文本可视问答。收录于:IEEE计算机视觉国际会议论文集,第4291\u20134301(2019)页,“DOI”:“10.1109\/ICCV.2019.00439”},{“key”:“39_CR6”,“DOI-asserted-by”:“publisher”,“first-page:”135“,”DOI“:”10.1162\/tacl_a_00051“,”volume“:”5“,”author“:”P Bojanowski“,”year“:”2017“,”unstructured“:”Bojanowski,P.,Grave,E.,Joulin,A.,Mikolov,T.:利用子词信息丰富词向量。事务处理。关联计算。语言学家。5,135\u2013146(2017)“,“期刊标题”:“翻译。关联计算。语言学家。“},{”key“:”39_CR7“,”doi-asserted-by“:”crossref“,”unstructured“:”Borisyuk,F.,Gordo,A.,Sivakumar,V.:Rosetta:图像中文本检测和识别的大规模系统。摘自:《第24届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,第71页\u201379(2018)“,”doi“:”10.1145\/3219819.3219861“}”,{“key”:“”39_CR8“,“非结构化”:“Devlin,J.,Chang,M.W.,Lee,K.,Toutanova,K.:Bert:语言理解深度双向变换器的预培训。arXiv预印本arXiv:1810.04805(2018)“},{“问题”:“12”,“关键”:“39_CR9”,“doi-asserted-by”:“publisher”,“首页”:“9603”,“doi”:“10.1109\/TPAMI.2021.3132034”,“卷”:“44”,“作者”:“C Gao”,“年份”:“2021”,“非结构化”:“Gao,C.等:TextVQA.IEEE Trans.Pattern Anal.Mach.Intell.44(12),9603\u20139614(2021)“,”journal-title“:”IEEE Trans。模式分析。机器。智力。“},{”key“:”39_CR10“,”doi asserted by“:”crossref“,”非结构化“:”Gao,D.,Li,K.,Wang,R.,Shan,S.,Chen,X.:用于视觉和场景文本联合推理的多模态图神经网络。在:IEEE\/CFF计算机视觉和模式识别会议论文集,pp.12746\u201312756(2020)“,”doi“:”10.1109\/CVPR4600.200.01276“},{”key“:”39_CR11“,”doi-asserted-by“:”crossref“,”unstructured“:”Han,W.,Huang,H.,Han,T.:寻找证据:文本可视问答的本地化软件答案预测。arXiv预印本arXiv:2010.02582(2020)“,”doi“:”10.18653\/v1\/2020.coling-main.278“},{“key”:“39_CR12”,“doi-assert-by”:“crossref.”,“unstructure”:“”Hu,R.,Singh,A.,Darrell,T.,Rohrbach,M.:针对TextVQA的带指针增强多模变压器的迭代答案预测。摘自:IEEE CVF计算机视觉和模式识别会议记录,第9992页,201310002(2020)“,“DOI”:“10.1109”,{“key”:“39_CR13”,“unstructured”:“Jiang,Y.,Natarajan,V.,Chen,X.,Rohrbach,M.,Batra,D.,Parikh,D.:Pythia v0。1:赢得2018年VQA挑战赛的参赛资格。arXiv预印本arXiv:1807.09956(2018)“},{“key”:“39_CR14”,“series-title”:“计算机科学讲义”,“doi-asserted-by”:“publisher”,“first page”:”715“,“doi”:“10.1007\/978-3-030-58545-7_41”,“volume-title”:”Computer Vision\u2013 ECCV 2020“,“author”:“Y Kant”,“year”:“2020”,“unstructured”:“”Kant,Y.等人:TextVQA的空间感知多模变压器。收录人:Vedaldi,A.、Bischof,H.、Brox,T.、Frahm,J.-M.(编辑)ECCV 2020。LNCS,第12354卷,第715\u2013732页。查姆施普林格(2020)。https:\/\/doi.org\/10.1007\/978-3-030-58545-7_41“},{“key”:“39_CR15”,“unstructured”:“Kim,W.,Son,B.,Kim,I.:VILT:视觉和语言转换器,无卷积或区域监督。In:国际机器学习会议,pp.5583\u20135594。PMLR(2021)“},{“key”:“39_CR16”,“unstructured”:“Krasin,I.,et al.:Openimages:大规模多标签和多类图像分类的公共数据集,第2卷,第3期,第18页(2017)。数据集。https:\/\/github.com\/Openimages”}Lamb,A.M.,Alias Parth Goyal,A.G.,Zhang,Y.,Zhanng,S.,Courville,A.C.,Bengio,Y.:强制教授:训练递归网络的新算法。In:Advances In Neural Information Processing Systems,vol.29(2016)“},{“key”:“39_CR18”,“doi-asserted-by”:“crossref”,“unstructured”:“Lewis,D.,Agam,G.,Argamon,S.,Frieder,O.,Grossman,D.,Heard,J.:构建复杂文档信息处理的测试集合。摘自:第29届ACM SIGIR国际信息检索研究与开发年会论文集,第665\u2013666页(2006)“,“DOI”:“10.1145\/1148170.1148307”},{“key”:“39_CR19”,“DOI-asserted-by”:“crossref”,“unstructured”:“Liu,F.,Xu,G.,Wu,Q.,Du,Q,Jia,W.,Tan,M.:基于文本的可视问答级联推理网络。摘自:《第28届ACM国际多媒体会议论文集》,第4060\u20134069页(2020)“,“DOI”:“10.1145\/33941171.3413924”},{“key”:“39_CR20”,“unstructured”:“Loshchilov,I.,Hutter,F.:解耦重量衰减正则化。arXiv预印本arXiv:1711.05101(2017)“},{“key”:“39_CR21”,“doi-asserted-by”:“crossref”,“unstructured”:“Lu,X.,Fan,Z.,Wang,Y.,Oh,J.,Ros\u00e9,C.P.:本地化,分组,选择:通过场景文本建模增强文本-VQA。摘自:IEEE\/CVF计算机视觉国际会议论文集,第2631\u20132639(2021)页”,“doi”:“10.1109 \/ICCVW54120.2021.00297“},{“key”:“39_CR22”,“unstructured”:“Van der Maaten,L.,Hinton,G.:使用t-SNE.J.Mach.Learn.Res.9(11)(2008)可视化数据”},},“key“:”39_CR23“,”doi-asserted-by“:”crossref“,”unstructure“:”Mishra,A.,Shekhar,S.,Singh,A.K.,Chakraborty,A.:OCR-VQA:通过阅读图像中的文本进行视觉问答。收录于:2019年国际文件分析与识别会议(ICDAR),第947\u2013952页。IEEE(2019)“,“DOI”:“10.1109\/ICDAR.2019.00156”},{“key”:“39_CR24”,“DOI-asserted-by”:“crossref”,“unstructured”:“牛,Y.,唐,K.,张,H.,卢,Z.,华,X.S.,温,J.R.:反事实VQA:语言偏见的因果研究。摘自:IEEE\/CVF计算机视觉和模式识别会议记录,pp.12700\u201312710(2021)”,“DOI“:”10.1109\/CVPR4437.201.01251“},{”key“:”39_CR25“,”非结构化“:”Raffel,C.等人:用统一的文本到文本转换器探索迁移学习的极限。arXiv预印本arXiv:1910.10683(2019)“},{”key“:”39_CR26“,”非结构化“:”Ren,S.,He,K.,Girshick,R.,Sun,J.:更快的R-CNN:利用区域提议网络实现实时目标检测。In:Advances In Neural Information Processing Systems,vol.28(2015)“},{”key“:”39_CR27“,”series-title“:”计算机科学讲座笔记“,”doi-asserted-by“:”publisher“,”first page“:“742”,”doi“:”10.1007\/978-3030-58536-5_44“,”volume-title“:“Computer Vision\u2013 ECCV 2020”,”author“:”O Sidorov“,”year“:”2020“,”unstructured“:”Sidorov,O.,Hu,R.,Rohrbach,M.,Singh,A.:文本字幕:一个用于阅读理解的图像字幕数据集。收录人:Vedaldi,A.、Bischof,H.、Brox,T.、Frahm,J.-M.(编辑)ECCV 2020。LNCS,第12347卷,第742\u2013758页。施普林格,查姆(2020)。https:\/\/doi.org\/10.1007\/978-3-030-58536-5_44“},{“key”:“39_CR28”,“doi-asserted-by”:“crossref”,“unstructured”:“Singh,A.,et al.:走向可阅读的VQA模型。摘自:IEEE\/CVF计算机视觉和模式识别会议论文集,第8317\u20138326(2019)页”,“doi”:“10.1109\/CVPR.2019.00851”},}“key”:“39 _CR29”,“doi-asserted-by“:”crossref“,”unstructured“:”Singh,A.,Pang,G.,Toh,M.,Huang,J.,Galuba,W.,Hassner,T.:TextOCR:面向任意形状场景文本的大规模端到端推理。收录于:IEEE计算机视觉和模式识别会议论文集,第8802\u20138812(2021)页“,”DOI“:”10.1109\/CVPR46437.2021.00869“},{“key”:“39_CR30”,“unstructured”:“Su,W.,et al.:VL-BERT:通用视觉语言表征的预训练。收录于《国际学习表征会议(2019)》39_CR31“,”doi-asserted-by“:”crossref“,”unstructured“:”Wang,Q.,Xiao,L.,Lu,Y.,Jin,Y.、He,H.:走向情景文本视觉问答中的推理能力。摘自:《第29届ACM多媒体国际会议论文集》,第2281\u20132289(2021)页,“doi”:“10.1145\/3474085.3475390”},{“key”:“39_CR32”,“doi-assert-by”:“Crosref”,“”非结构化”:“Wang,X.,et al.:关于证据的一般价值和双语场景文本视觉问答。摘自:IEEE计算机视觉和模式识别会议记录,第10126\u201310135页(2020)”,“DOI”:“10.1109\/CVPR42600.2020.01014”},{“key”:“39_CR33”,“非结构化”Wolf,T.等人:Huggingface\u2019s transformers:最先进的自然语言处理。arXiv预印本arXiv:1910.03771(2019)“},{“key”:“39_CR34”,“doi-asserted-by”:“crossref”,“unstructured”:“Xu,Y.,et al.:LayoutLMv2:多模态预训练,用于视觉丰富的文档理解。arXiv preprint arXiv:2012.4740“非结构化”:“Xu,Y.,Li,M.,Cui,L.,Huang,S.,Wei,F.,Zhou,M.:布局LM:用于理解文档图像的文本和布局的预培训。在:《第26届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,第1192\u20131200页(2020),“DOI”:“10.1145\/3394486.3403172”},{“key”:“39_CR36”,“DOI asserted by”:“crossref”,“nonstructured”:“Yang,Z.等:Tap:text-aware预培训,用于text-VQA和text-caption。摘自:IEEE计算机视觉和模式识别会议记录,第8751\u20138761(2021)页,“DOI”:“10.1109”,{“key”:“39_CR37”,“DOI-asserted-by”:“crossref”,“unstructured”:“Zeng,G.、Zhang,Y.、Zhou,Y.和Yang,X.:超越OCR+VQA:将OCR引入到流程中,以实现稳健和准确的TextVQA。摘自:第29届ACM国际多媒体会议记录,第376\u2013385(2021)页“,”DOI“:”10.1145\/3474085.3475606“},{“key”:“39_CR38”,“DOI-asserted-by”:“crossref”,“unstructured”:“Zhang,X.,Yang,Q.:TextVQA的带有实体对齐网格的位置增强型变压器。摘自:《第29届ACM国际多媒体会议论文集》,第2519\u20132528(2021)页,“DOI”:“10.1145\/3474085.3475425”},{“key”:“39_CR39”,“unstructured”:“赵明等:面向视频文本视觉问答:基准和基线。In:第三十六届神经信息处理系统会议数据集和基准跟踪(2022)“},{“key”:“39_CR40”,“doi-asserted-by”:“crossref”,“unstructured”:“Zhu,Q.,Gao,C.,Wang,P.,Wu,Q.:简单并不容易:TextVQA和TextCaps的简单强大基线。摘自:《AAAI人工智能会议论文集》,第35卷,第3608\u20133615(2021)页“,”DOI“:”10.1609\/AAAI.v35i4.16476“}],”container-title“:[”Computer Vision\u2013 ACCV 2022“,”Teach Notes In Computer Science“],”original-title”:[],“link”:[{“URL”:“https:\/\/link.springer.com\/content\/pdf\/10007\/978-31-26316-3_39”,“content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[2023,3,1]],”date-time“:“2023-03-01T08:37:25Z”,“timestamp”:1677659845000},“score”:1,“resource”:{“primary”:{“URL”:“https:\/\/link.springer.com//10007\/978-3-031-26316-3_39”}},”subtitle“:[],“短标题”:[],“已发布”:{date-parts“:[[2023]]},”ISBN“:[”9783031263156“,”97830.31263163“],”references-count“:40,”URL“:”http://\/dx.doi.org\/10.1007\/978-3-031-26316-3_39“,”relation“:{},“ISSN”:[”0302-9743“,”1611-3349“],“ISSN-type”:[{“value”:“0302-974”,“type”:“print”},{“value”:“1611-3399”“,”type“:”electronic“}],”subject“:[],”published“:{”date-parts“:[2023]]},”assertion“:[{”value“:”2023年3月2日“,”order“:1,”name“:”first_online“,”label“:”first online“,“group”:{“name”:“ChapterHistory”,“label”:“Chapter History“}},{“value”:“ACCV”,“order”:1,“name”:“conference_acrombior”,“tabel”:”conference acronym“,”group“”:“ConferenceInfo”,:2,“name“:”conference_name“,”label“:”会议名称“,”group“:“”group“:{”name“:”ConferenceInfo“,”label“:”Meeting Information“}},{”value“:”2022“,”order“:5,”name“:”Conference_year“,”标签“:”会议年份“,”group“:信息“,”label“:”Conference Information“}},{“value”:“2022年12月8日”,“order”:8,“name”:“Conference_end_date”,“label”:“ConferenceEnd date”,“group”:{“name”:“ConferenceInformation”,“标签”:“会议信息”}}“”value“:”accv2022“,”order“:10,”name“:”conference_id“,”label“:”会议id“,”group“:双盲“,”顺序“:1,”name“:”type“,”label“:”type“,”group“:同行评审信息(由会议组织者提供)“}},{“value”:“836”,“order”:3,“name”:“number_of_submissions_sent_for_Review”,“label”:“发送供评审的提交数”,“group”:{“name”:“ConfEventPeerReviewInformation”,“table”:“同行评审信息”(由会议主办方提供)number_of_full_papers_accepted“,”label“:”接受的全文数“,”group“:{”name“:”ConfEventPeerReviewInformation“,”标签“:”同行评审信息(由会议组织者提供)“}},{”value“:”0“,”order“:5,”name“:”number_ of_short_papers_Accepteded“,”table“:”已接受的短文数“,“group”:{“name”:“”ConfEventPeerReviewInformation“,”label“:”同行评审信息(由会议组织者提供)“}},{”value“:”33%-该值由等式“接受的全文数”/“发送供评审的提交数*100”计算,然后四舍五入为整数。“,”order“:6,”name“:”acceptance_rate_of_Full_Papers“,”标签“:”全文接受率“,”group“:{”name“:”ConfEventPeerReviewInformation“,”label“:”Peer Review Information(由会议组织者提供)“}},{”value“:”3.3“,”order“:7,”name“:”average_number_of_reviews_per_paper“,”标签“:”每篇论文的平均评论数“,”google“:同行评审信息(由会议组织者提供)external_reviewers_involved“,”label“:”涉及的外部审阅者“,”group“:评审过程附加信息“,”组“:{“name”:“ConfEventPeerReviewInformation”,“label”:“同行评审信息(由会议组织者提供)”}}]}}