{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,2,20]],“日期-时间”:“2024-02-20T11:44:40Z”,“时间戳”:1708429480566},“参考-计数”:62,“出版商”:“Springer Science and Business Media LLC”,“问题”:“22”,“许可证”:[{“开始”:{-“日期-零件”:[2021,6,27]],”日期-时间“:”2021-06-27T00:00:00Z“,“timestamp”:162475200000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“https:\/\/creativecommons.org\/licenses\/by\/4.0”},{“start”:{“date-parts”:[[2021,6,27]],“date-time”:“2021-06-27T00:00:00Z”,“timetamp”:16347520000},”content-versions“:”vor“,“delay-in-daies”:0”,“URL“https:\\/”creativecommons.org\/licenses\/by\/4.0“}],“出资人”:[{“DOI”:“10.13039\/50100003170”,“name”:“Stiftelsen f\u00f6r Kunskaps-och Kompetensutveckling”,“doi-asserted-by”:“publisher”,“award”:[“20140032”]},{“doi”:“10.130.39\/501100001728”,“name”:“瑞典研究与高等教育国际合作基金会”,“doi-asserted-by”:“publishers”,“adward”:[”AF2020-8892“]}”,{”doi“10.13029\/5011000006359“”,“name”:“Blekinge Institute of Technology”,“doi-asserted-by”:“crossref”}],“content-domain”:{“domain”:[“link.springer.com”],“crossmark-restriction”:false},“short-container-title”:[“Neural Compute&Applic”],”published-print“:{”date-parts“:[2021,11]},”abstract“:”摘要<\/jats:title>本文介绍了存储在瑞典多个教区档案中的历史手写出生记录的数字图像数据集,以及支持评估文档分析算法性能的相应元数据。该数据集称为SHIBR(瑞典历史出生记录)。本文的贡献是双重的。首先,我们认为它是第一个也是最大的瑞典开放存取数据集(1800年至1840年间15000张高分辨率彩色图像)。我们还对数据集进行了一些数据挖掘,以发现一些可能会引起系谱学家兴趣和使用的统计数据和事实。其次,我们提供了一份对该领域公开的当代数据集的全面调查,并对单词识别技术进行了简要回顾。单词转录文件包含17列与每个图像相关的信息(例如,孩子的名字、出生日期、洗礼日期、父亲的姓、母亲的姓、死亡记录、城镇、父亲的职称等)。此外,我们评估了一些深度学习模型,这些模型是在另外两个著名的数据集上预先训练的,用于SHIBR中的单词识别。然而,由于独特的手写风格,我们的数据集被证明具有挑战性。因此,该数据集还可以用于专门处理大量文档分析问题的比赛,包括单词识别<\/jats:p>“,”DOI“:”10.1007\/s0521-021-06207-z“,”type“:”期刊文章“,”created“:{”日期部分“:[[2021,6,27]],”日期时间“:”2021-06-27T18:20:46Z“,”时间戳“:1624818046000},”page“:”15863-15875“,”update policy“:”http:\/\/dx.DOI.org/10.1007\/springer_crosmark_policy“,”source“:”Crossref“,”被count引用“:8,”title“:[”SHIBR\u2014The Swedish Historical Birth Records:a semi-annotated dataset“],”prefix“:“10.1007”,”volume“:“33”,”author“:[{”ORCID“:”http://\/ORCID.org\/0000-0002-4390-411X“,”authenticated-ORCID“:false,”given“:Abbas”,“family”:“Cheddad”,“sequence”:“first”,“affiliation”:[]},{“given”:“H\u00fcseyin”,“家庭”:“Kusetogullari”,“序列”:“additional”“,”affiliation“:[]},{“给定”:“Agrin”,“family”:“Hilmkil”,“sequence”:“additional”,“affiliance”:[]{“已知”:“Lena”,“家族”:“Sundin”,“序列”:“附加”,“从属”:[]},}“给定的”:“Amir”,“家庭”:“Yavariabdi”,附加“,”从属“:[]},{“给定”:“Johan”,“family”:“Hall”,“sequence”:“additional”,“affiliation”:[]}],“member”:“297”,“在线发布”:{“date parts”:[[2021,6,27]]},“reference”:[{“key”:“6207_CR1”,“doi asserted by”:“crossref”,“nonstructured”:“H Balk,A Conteh(2011)影响:文本数字化的能力中心。摘自:2011年历史文件成像和处理研讨会论文集(第155\u2013160页)”,“DOI”:“10.1145\/2037342.2037369”},{“key”:“6207_CR2”,“DOI-asserted-by”:“crossref”,“unstructured”:“H Balk(2009)数字化历史文本获取困难:IMPACT项目的解决方案。摘自:第三届含噪非结构化文本数据分析研讨会论文集(第1\u20131页)”,“DOI”:“10.1145”,{“key”:“6207_CR3”,“unstructured”:“M Krysyna,AH Qasem(2009)数字化东耶路撒冷阿克萨清真寺图书馆的历史期刊收藏。摘自:《IFLA世界图书馆和信息大会论文集》,意大利米兰,8月24日“},{“key”:“6207_CR4”,“doi-asserted-by”:“publisher”,“unstructured”:“Z Zakariah,N Janom,NH Arshad,SS Salleh,SRS Aris(2014)众包:先前研究的趋势。摘自:2014年第四届人工智能与工程技术应用国际会议论文集(ICAIET\u201914)。IEEE计算机学会,美国,129\u2013133。DOI:https:\/\/DOI.org\/10.109\/ICAIET.2014.30“,”DOI“:”10.1109\/ICAEET.2014.30.“},{”key“:”6207_CR5“,”DOI-asserted-by“:”publisher“,”unstructured“:”C Clausner,J Hayes,A Antonacopoulos(2019)众包历史表格数据:1961年英格兰和威尔士人口普查。摘自:第五届历史文献成像与处理国际研讨会论文集(HIP\u201919)。计算机械协会,美国纽约州纽约市,42\u201347。DOI:https:\/\/DOI.org/10.1145\/3352631.3352643.“,”DOI“:”10.1145\/3352631.3352643“},{”key“:”6207_CR6“,”DOI断言“:”publisher“,”DOI“:”10.1007\/s0521-019-04163-3“,”author“:”H Kusetogullari“,”year“:”2019“,”unstructured“:”Kusetogullari H,Yavariandi A,Cheddad A et al(2019)ARDIS:瑞典历史手写数字数据集。神经计算应用。https:\/\/doi.org\/10.1007\/s00521-019-04163-3“,”journal-title“:”Neural Compute Applic“},{”key“:”6207_CR7“,”doi-asserted-by“:”crossref“,”unstructured“:”A Sanchez,PD Suarez,CAB Mello,ALI Oliveira,VMO Alves(2008)手写历史文献图像中的文本行分割。摘自:2008年第一届图像处理理论、工具和应用研讨会论文集,Sousse,(pp.1\u20136)“,”DOI“:”10.1109\/IPTA.2008.4743758“},{“问题”:“8”,“关键”:“6207_CR8”,”DOI-asserted-by“:”publisher“,”first page“:”4032“,”DOI“:“10.1109\/TIP.2017.2700721”,“卷”:“26”,“作者”:“K Zagoris”,“年份”:“2017”,“非结构化”:“Zagoris K,Pratikakis I,Gatos B(2017),使用面向文档的本地特征在历史手写文档图像中进行无监督单词识别。IEEE跨图像处理26(8):4032\u20134041。https:\/\/doi.org\/10.109\/TIP.2017.2700721“,“journal-title”:“IEEE Trans-Image Process”},{“key”:“6207_CR9”,“doi-asserted-by”:“crossref”,“unstructured”:“C Djeddi,S Al-Maaded,A Gattal,I Siddiqi,A Ennaji,HE Abed(2016)ICFHR2016使用\u201cQUWI\u201d数据库进行多脚本作者人口统计分类竞赛。摘自:IEEE笔迹识别前沿国际会议论文集,(第602\u2013606页)“,”DOI“:”10.1109\/ICFHR.2016.0115“},{”key“:”6207_CR10“,”DOI-asserted-by“:”publisher“,”first page“:“2554”,“DOI”:“10.1016\/j.procs.2020.03.309”,“volume”:“167”,“author”:“S Ahlawat”,“year”:“2020”,“unstructured”:“Ahlawat-S,Choudhary A(2020年)用于手写数字识别的混合CNN-SVM分类器。《Procedia Computer Science》167:2554\u20132560“,“journal-title”:“Procedia计算机科学”},{“key”:“6207_CR11”,“doi-asserted-by”:“crossref”,“unstructured”:“R Alaasam,B Kurar,M Kassis,J El-Sana(2017)利用卷积神经网络识别历史阿拉伯手写文本的实验研究。摘自:2017年第一届阿拉伯文字分析与识别国际研讨会论文集,Nancy,(第124\u2013128页)“,”DOI“:”10.1109\/ASAR.2017.8067773“},{“key”:“6207_CR12”,”DOI-asserted-by“:”publisher“,”first page“:”567“,”DOI“:“10.1007\/s10032-0185-9”,”volume“:“16”,”author“:”FC Ribas“,”year“:”2013“,”unstructured“:”Ribas FC、Oliveira LS、Britto AS、Sabourin R(2013)《手写数字分割:比较研究》。Int J Doc Anal Recognit 16:567\u2013578“,”journal-title“:”Int J Doc Anal Recoignit“},{“key”:“6207_CR13”,“doi-asserted-by”:“publisher”,“first page”:”3“,”doi“:”10.1016\/J.patrec.2012.09.026“,”volume“:”35“,”author“:”K Ntirogannis“,”year“:”2014“,”unstructured“:”Ntirogiannis K,Gatos B,Pratikakis I(2014年)手写文档图像二值化的组合方法。Pattern Recogn Lett 35:3\u201315“,”journal-title“:”Pattern Reign Lett“},{”key“:”6207_CR14“,”doi-asserted-by“:”crossref“,”unstructured“:”DJ Kennard,AM Kent,WA Barrett(2011)链接过去:从文档中发现历史社交网络并链接到系谱数据库。摘自:《2011年历史文件成像与处理研讨会论文集》(HIP 2011),美国纽约,(第43页\u201350)“,“DOI”:“10.1145”:“2037342.2037351”},{“key”:”6207_CR15“,“DOI-asserted-by”:“crossref”,“unstructured”:“DW Embley,S Machado,T Packer,J Park,A Zitzelberger,SW Liddle,N Tate,DW Lonsdale(2011)允许搜索历史文档中的事实和隐含事实。摘自:2011年历史文件成像和处理研讨会论文集(HIP 2011),美国纽约,(第59\u201366页)“,”DOI“:”10.1145\/2037342.2037353“},{“key”:“6207_CR16”,“unstructured”:“S Athenikos,(2009)WikiPhiloSofia和PanHumanopon:数字人文知识门户的事实、关系和网络的提取和可视化。在:第20届美国计算机学会会议论文集超文本和超媒体(超文本2009),意大利都灵,2009年“},{“key”:“6207_CR17”,“非结构化”:“华盛顿数据库,检索日期:2020\u2201306\u201320,自:http:\/\/www.fki.inf.unibe.ch\/databases\/iam historical document Database\/westhington Database”},{“key”:“6207_CR18”,“非结构化”:”G·华盛顿,乔治·华盛顿论文集,第二辑,1754至1799年的信件集:信件集1-1755年12月25日。[手稿\/混合材料]从国会图书馆检索。https:\/\/www.loc.gov\/item\/mgw2.001\/“},{“key”:“6207_CR19”,“doi-asserted-by”:“publisher”,“首页”:“71”,“doi”:“10.1007\/s10032-011-0148-6”,“卷”:“15”,“作者”:“R Sarkar”,“年份”:“2012”,“非结构化”:“Sarkar R,Das N,Basu S等人(2012)CMATERdb1:无约束手写孟加拉语和孟加拉语-英语混合脚本文档图像数据库。IJDAR 15:71\u201383“,”journal-title“:”IJDAR“},{“key”:“6207_CR20”,“unstructured”:“手写关键词识别比赛(H-KWS\/ICFHR 2016),检索日期:2020年\u201306\u201320,来源:https:\/\/www.prhlt.upv.es\/contestues\/icfhr2016-KWS\/data.html”},“key“:”6207_CR11“,”unstructure“:”ICFHR2016年竞赛,2020年\u201306\u201305检索自:http://www.nlpr.ia.ac.cn \/ICFHR2016\/competings.htm“},{“key”:“6207_CR22”,“unstructured”:“IAM手写数据库,2020年检索自\u201306 \u201320,检索自:http:\\/www.IAM.unibe.ch \/fki \/databases\/IAM-Handwriting-Database”},}“密钥”:“6.207_CR23”,“doi-asserted-by”:“publisher”“,”第一页“:”39“,”DOI“:”10.1007\/s10032000071“,”volume“:”5“,”author“:”U Marti“,”year“:”2002“,”unstructured“:”Marti U,Bunke H(2002)IAM数据库:用于脱机手写识别的英语句子数据库。Int J Doc Ana Recognit 5:39\u201346“,”journal-title“:”Int J Doc Ana Recoignit“},{“key”:“6207_CR24”,“doi-asserted-by”:“crossref”,“unstructured”:“M Kassis(2018)VML-HD:识别系统的历史阿拉伯文档集(VML-HD).1,ID:VML-HD1,URL:http:\\/tc11.cvc.uab.es\/datasets\/VML-HD_1.”,“doi”:“10.1109\/ASAR.2017.806.”7751“},{”key”:“6207_CR25”,“doi asserted by”:“publisher”,“nonstructured”:“W Pantke,M Dennhardt,D Fecker,V M\u00e4rgner T Fingscheidt(2014)一个用于无分词分词的历史手写阿拉伯语数据集-HARA80P。摘自:《第十四届笔迹识别前沿国际会议论文集》,赫拉克利翁,(第15页\u201320)。doi:https:\/\/doi.org\/10.109\/ICFHR.2014.11“,“doi”:“10.1109\/ICFUR.2014.11”},{“key”:“6207_CR26”,“doi-asserted-by”:“publisher”,“unstructured”:“B Kiessling,DS Ben Ezra,MT Miller BADAM,阿拉伯文字手稿中基线检测的公共数据集。第五届历史文献成像与处理国际研讨会论文集(HIP\u201919),ACM,13\u201318。DOI:https:\/\/DOI.org/10.1145\/3352631.3352648。”,“DOI”:“10.1145\/3352631.3352648”},{“key”:“6207_CR27”,“非结构化”:“ESPOSALLES数据库,于2020\u2201306\u201320检索,来源:http:\/\/dag.cvc.uab.es\/ESPOSALLES数据库\/”},{“key”:“6207_CR28”,DOI断言者:“publisher”,“首页”:“1658”,“DOI”:“10.1016\/j.patcog.2012.11.024”,“volume“:”46“,”author“:”V Romero“,”year“:”2013“,”unstructured“:”Romero V,Forn\u00e9s A,Serrano N,S\u00e1nchez JA,Toselli AH,Frinken V,Vidal E,Llad\u00f3s J(2013)《ESPOSALLES数据库:离线手写识别的古代婚姻许可证语料库》。Pattern Recogn 46:1658\u20131669“,”journal-title“:”Pattern Reign“},{”key“:”6207_CR29“,”unstructured“:”The IFN\/ENIT-database,Retrieved on 2020 \u201306\u201320,from:http://www.ifnenit.com\/download.htm“}.,{“issue”:“1”,“key”:“6207_CR10”,“first page”:”1“”,“volume”:“46”,“author”:“R Hussain”,“year”:“2015”,“非结构化“:”Hussain R、Raza A、Siddiqi I等人(2015)《手写文档基准的综合调查:结构、使用和评估》。J图像视频处理。46(1):1\u201324“,“新闻标题”:“J图像视频处理。},{“key”:“6207_CR31”,“unstructured”:“T Rath,R Manmatha(2003)历史手稿中单词识别的特征。摘自:第七届国际文档分析与识别会议论文集(ICDAR),(第218\u2013222页)”},“{”key“:“62007_CR32”,“doi-asserted-by”:“crossref”,“非结构化”:“T Mondal,N Ragot,JY Ramel,U Pal(2015)DTW及其变体在降级文档中识别单词的性能评估。摘自:《第十三届国际文档分析与识别会议论文集》(第1141\u20131145页)“,”DOI“:”10.1109\/ICDAR.2015.7333939“},{“key”:“6207_CR33”,“first page”:”403“,”volume-title“:”Artificial Intelligence 5402“,”author“:”A Bhardwaj“,”year“:”2009“,”unstructured“:”Bhardwaj A,Setlur S,Govindaraju V(2009)梵语文档的关键词识别技术。收录:Huet G,Kulkarni A,Scharf P(编辑)人工智能5402课堂讲稿。Springer,Berlin,pp 403\u2013416“},{“key”:“6207_CR34”,“doi-asserted-by”:“crossref”,“unstructured”:“E Ataer,P Duygulu(2006)《奥斯曼文献检索》。摘自:第八届ACM多媒体信息检索国际研讨会论文集,(pp.155\u2013162)”,“doi”:“10.1145\/11788677.1178700”},“key“:”6207_CR15“,“doi-asserted-by”:”crossref”,“非结构化”:“I Rabaev,I Dinstein,J El-Sana,K Kedem(2014)历史文档图像中的无分段关键词检索。In:A Campilho,M Kamel(编辑)图像分析和识别ICIAR 2014。计算机科学课堂讲稿,Springer“,”DOI“:”10.1007\/978-3-319-11758-4_40“},{“key”:“6207_CR36”,“DOI-asserted-by”:“publisher”,“first page”:”3552“,“DOI”:“10.1016\/j.patcog.2007.04.024“,”volume“:”40“,”author“:”Y Leydier“,”year“:”2007“,”unstructured“:”Leydier-Y,Le资产阶级F,Emptoz H(2007)中世纪手稿图像的文本搜索。Pattern Recogn 40:3552\u20133567“,”journal-title“:”Pattern Reign“},{”key“:”6207_CR37“,”doi-asserted-by“:”crossref“,”unstructured“:”V Mane,L,Ragha(2009)《使用弹性匹配和PCA的手写字符识别》。In:Proceedings of the Int.Conf.Adv Compute,Commun Control,(pp.410\u2013415)“,”doi“:”10.1145 \/1523103.1523184“}”,{“key”:“”6207_CR38“,”doi asserted by“:”crossref“,”nonstructured“:”Y Lu,CL Tan(2002)使用单词部分匹配在文档图像中进行单词搜索。摘自:《文件分析系统国际研讨会论文集》(DAS 2002),Springer-Verlag,Berlin,Heidelberg,LNCS 2423,(pp.319\u2013328,2002),“DOI”:“10.1007\/3-540-45869-7_37”},{“key”:“6207_CR39”,“DOI-asserted-by”:“crossref”,“unstructured”:“A Fischer,A Keller,V Frinken,H Bunke(2010)。使用子单词模型在手写文档中基于HMM的单词识别。摘自:《第20届模式识别国际会议论文集》,IEEE,(pp.3416\u20133419)“,”DOI“:”10.1109\/ICPR.2010.834“},{“问题”:“10”,“关键”:“6207_CR40”,“DOI-asserted-by”:“出版商”,“首页”:“2066”,“DOI”:“10.1109\/TPAMI.2011.22”,“卷”:“33”,“作者”:“AL Bianne-Bernard”,“年份”:“2011”,“非结构化”:“Biane Bernard AL,Menasri F,Mohamad RH,Mokbel C,Kermorvant C,Likrorman Sulem L(2011)手写单词识别HMM建模中的动态和上下文信息。IEEE Trans-Pattern Ana Mach Intell 33(10):2066\u20132080“,“journal-title”:“IEEE Trans-Pattern ANA Mach Intel},{“key”:“6207_CR41”,“doi-asserted-by”:“crossref”,“unstructured”:“A Ahmad,C Viard-Gaudin,M Khalid(2009)基于支持向量机和隐马尔可夫模型的词汇识别。在:《第十届国际文件分析与识别会议记录》(ICDAR),(第161\u2013165页),“DOI”:“10.1109\/ICDAR.2009.248”},{“issue”:“4”,“key”:“6207_CR42”,“DOI asserted by”:“publisher”,“first page”:“767”,“DOI”:“10.1109\/TPAMI.200.141”,“volume”:“33”,“author”:“S Espana Boquera”,“year”:“2011”,“nonstructured”:“Espana-Boquera S、Castro-Bleda M、Gorbe-Moya J、Zamora-Martinez F(2011)使用混合HMM/ANN模型改进脱机手写文本识别。IEEE Trans-Pattern Ana Mach Intell 33(4):767\u2013779“,“journal-title”:“IEEE Trans-Pattern ANA Mach Intel},{“key”:“6207_CR43”,“doi-asserted-by”:“publisher”,“unstructured”:“A C Rouhou,YK Kanoun(2019)用于阿拉伯语手写关键词识别的混合HMM/DNN系统。摘自:《第十六届图像分析与识别国际会议论文集》,加拿大斯普林格(第216\u2013227页),2013年8月27日29。DOI:https:\/\/DOI.org\/10.1007\/978-3-030-27202-9_19“,”DOI“:”10.1007\/978-30-27202-9_19“},{“key”:“6207_CR44”,“DOI-asserted-by”:“publisher”,“unstructured”:“MW Sagheer,N Nobile,CL.He,CY Suen(2010)一种新的基于连通成分分析的手写乌尔都语单词识别方法。摘自:《第20届模式识别国际会议论文集》,伊斯坦布尔(2013\u20132016)。Doi:https:\/\/Doi.org\/10.109\/ICPR.2010.496“,”Doi“:”10.1109\/ICPR.2010.496“},{“key”:“6207_CR45”,“Doi-asserted-by”:“publisher”,“unstructured”:“J Almaz\u00e1n,A Gordo,A Forn\u00e9s,E Valveny(2013)具有更正属性的手写单词识别。摘自:澳大利亚悉尼IEEE计算机视觉国际会议论文集。(第1017\u20131024页)。DOI:https:\/\/DOI.org\/10.109\/ICCV.2013.130“,”DOI“:”10.1109\/ICCV.2013.130“},{“问题”:“2”,“密钥”:“6207_CR46”,“DOI-asserted-by”:“发布者”,“首页”:“211”,“DOI”:“10.1109\/TPAMI.201.113”,“卷”:“34”,“作者”:“V Frinken”,“年份”:“2012”,“非结构化”:“Frinken-V,Fischer A、Manmatha R、Bunke H(2012)一种新的基于递归神经网络的单词识别方法。IEEE Trans Pattern Anal Mach Intell 34(2):211\u2013224“,”期刊标题“:”IEEE Trans Pattern Anal Mach Intell“},{”密钥“:”6207_CR47“,”doi断言“:”出版商“,”首页“:”387“,”doi“:”10.1007\\s10032-019-000336-x“,”卷“:”22“,”作者“:”P Krishnan“,”年份“:”2019“,”非结构化“:”Krishnan P,Jawahar CV(2019)HWNet v2:手写文档的高效文字图像表示。IJDAR 22:387\u2013405“,“journal-title”:“IJDAR”},{“key”:“6207_CR48”,“doi-asserted-by”:“publisher”,“unstructured”:“S Sudholt,GA Fink(2016)PHOCNet:手写文档中单词识别的深度卷积神经网络。in:第十五届手写识别前沿国际会议(ICFHR)论文集,深圳,(第277\u2013282页)。DOI:https:\/\/DOI.org\/10.109\/ICFHR.2016.0060“,”DOI“:”10.1109\/ICFUR.2016.060“},{“key”:“6207_CR49”,“DOI-asserted-by”:“publisher”,“first page”:”31“,“DOI”:“10.1007\/s13735-016-010-y”,“volume”::“6”,“author”:“R Ahmed”,“year”:“2017”,“unstructured”:“Ahmed R,Al-Khatib WG,Mahmoud S(2017)手写文档文字识别研究综述。Int J Multimed Info Ret 6:31\u201347“,”journal-title“:”Int J多重信息检索“},{”key“:”6207_CR50“,”doi-asserted-by“:”publisher“,”first page“:“192”,”doi“:”10.1007\/s42979-020-00187-y“,”volume“:1”,“author”:“AAA Ali”,“year”:“2020”,“unstructured”:“Ali AAA,Suresha M(2020)”手写阿拉伯文字分割与识别研究综述。SN COMPUT SCI 1:192“,”journal-title“:”SN COMPUT SCI“},{”issue“:”2\u20134“,”key“:”6207_CR51“,”doi-asserted-by“:”publisher“,”first-page:“139”,”doi“:”10.1007\/s10032-006-0027-8“,”volume“:“9”,”author“:”T Rath“,”year“:”2007“,”unstructured“:”Rath T,Manmatha R(2007)历史文档的文字识别。IJDAR 9(2\u2013 4):139\u2013152“,”journal-title“:”IJDAR“},{”issue“:”2“,”key“:”6207_CR52“,”doi-asserted-by“:”publisher“,”first page“:“119”,“doi”:“10.1007 \/s10462-010-9187-5”,“volume”:“35”,“author”:“A Murugappan”,“year”:“2011”,“unstructured”:“Murugaappan A,Ramachandran B,Dhavachelvan P(2011)印刷文档图像关键词识别技术调查。Artif Intell Rev 35(2):119\u2013136“,“journal-title”:“Artif Intell Rev”},{“key”:“6207_CR53”,“doi-asserted-by”:“crossref”,“unstructured”:“M Boualam,G Khaissidi,M Mrabti,Y Elfakir(2019)手写文档文字识别概述。摘自:无线技术、嵌入式和智能系统(WITS)国际会议论文集,20134年4月3日,2019年4月”,“DOI”:“10.1109\/WITS.2019.8723745”},{“key”:“6207_CR54”,“unstructured”:“S Ren,KHe,R Girshick,J Sun(2015)Faster R-CNN:使用区域提议网络实现实时目标检测。摘自:C Cortes,ND Lawrence,DD Lee,M Sugiyama,R Garnett(eds.),《神经信息处理系统的进展》28(Curran Associates,Inc.)(第91\u201399页)“},{“key”:“6207_CR55”,“unstructured”:“T Wilkinson,J Lindstr\u00f6m,A Brun(2018)《历史手稿收藏中的神经词搜索》。arXiv prefintarXiv:1812.02771”},}“issue”:“1”,“key“6207-CR56”,“doi-asserted-by”:“publisher”,“first page”:DOI“:”10.3390\/genealogy3010002“,”volume“:”3“,”author“:”SB Hatton“,”year“:”2019“,”unstructured“:”Hatton SB(2019)History,kinship,identity,and technology:To to assembly the question \u201c what is(family)genelogy?\u201d系谱3(1):2。https:\/\/doi.org\/10.3390\/genealogy3010002“,”journal-title“:”Generalogy“},{”issue“:”3\/4“,”key“:”6207_CR57“,”doi-asserted-by“:”publisher“,“首页”:“259”,“doi”:“10.1108\/DLP-07-2019-0025”,“volume”:“35”,“author”:“K Abildgren”,“year”:“2019”,”unstructured“:”Abildgren K(2019)挖掘档案系谱数据库,以获得对更广泛历史问题的新见解。数字图书馆展望35(3\/4):259\u2013270。https:\/\/doi.org\/10.108\/DLP-07-2019-0025“,”journal-title“:”Digit-Libr-Perspect“},{”key“:”6207_CR58“,”unstructured“:”Zhu(2020)中国传统家谱的内容挖掘和可视化\u2013部署在浙江高迁的吴2019家谱上。摘自:《2020年可持续数字社区国际会议论文集》。2013年3月23日,27,Bor\u00e5s,瑞典”,{“key”:“6207_CR59”,“volume title”:“计算机科学中的模式检测和发现讲义”,“author”:“M Wojciechowski”,“year”:“2002”,“nonstructured”:“Wojciechowski M,Zakrzewicz M(2002)基于约束的频繁模式挖掘中的数据集过滤技术。in:Hand DJ,Adams NM,Bolton RJ(eds)计算机科学中的模式检测和发现课堂讲稿。Springer,Berlin“},{”key“:”6207_CR60“,”unstructured“:”Statistiska Centralbyr\u00e5n[国家中央统计局]。(1969)。瑞典历史统计:第1部分。人口1720\u20131967,斯德哥尔摩(第2版)。可从http://\/share.scb.se\/OV9993\/Data\/Historisk%20statistik\/Historisk%20statistik%20f%C3%B6r%20Sverige%201700-1900-tal\/Del1-Befolkning-1720-1967.pdf“}”,{“key”:“6207_CR61”,“doi-asserted-by”:“publisher”,“first page”:”310“,“doi”:“10.1016\/j.patcog.2017.02.023”,“volume”::“68”,“author”:“AP Giotis”获得“,”年份“:”2017年“,”非结构化“:”Giotis AP、Sfikas G、Gatos B、Nikou C(2017)《文档图像文字识别技术调查》。Pattern Recogn 68:310\u2013332“,”journal-title“:”Pattern Reign“},{”key“:”6207_CR62“,”doi-asserted-by“:”publisher“,”unstructured“:”A Cheddad(2016)Towards query by text example for Pattern spotting in historical documents.in:Proceedings of the 7th international conference on computer science and information technology(CSIT),2013年7月13日\u201314日,约旦安曼,(第1\u20136页),doi:https:\\/doi.org\/10.109\/CSIT.2016.7549479.06207-z.pdf“,”内容类型“:”application\/pdf“,”content-version“:”vor“,”intended-application“:”text-mining“},{“URL”:”https:\/\/link.springer.com/article\/10.1007\/s00521-06207-z\/fulltext.html“,”content-type“:”文本\/html“,”内容-version”:“vor”,“intended-application”:“text-miniing”},”{“URL”:“https:\//link.springer\com/content\/pdf\/10007\/s00 521-021-06207-z.pdf“,”content-type“:”application\/pdf“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[2021,10,24]],”date-time“:“2021-10-24T11:25:52Z”,”timestamp“:1635074752000},”score“:1,”resource:{“primary”:{“URL”:“https:\/\/link.springer.com\/10007\/s00521-06207-z”}},“副标题”:[],“短标题”:[]date-parts“:[[2021,6,27]]},“references-count”:62,“journal-issue”:{“issue”:“22”,“published-print”:{“date-part”:[[2021,11]]}},”alternative-id“:[”6207“],”URL“:”http://\/dx.doi.org\/10.10007\/s00521-06207-z“,”relation“:{},‘ISSN’:[”0941-0643“,”1433-3058“],“iss”n型“:[{”值“:”0941-0643“,”类型“:”打印“},{”价值“:”1433-3058“,”型号“:”电子“}],“subject“:[],”published“:{”date-parts“:[2021,6,27]]},”assertion“:[{”value“:“2020年11月23日”,”order“:1,”name“:”received“,”label“:”received“,“group”:{“name”:“Article History”,“label”:“文章历史”}},{“value”:“2021年6月8日”历史“}},{”值“:”2021年6月27日“,”order“:3,”name“:”first_online“,”label“:”first online“,“group”:{“name”:“Article History”,“label”:“Article Hiology”}},{“order”:1,”name”:”Ethics“,”group“:Arkiv Digital AD AB(瑞典),该数据集的提供商。Agrin Hilmkil是Peltarion AB(瑞典)公司的员工。其余作者声明,他们没有利益冲突。“,”“order”:2,”“name”:“Ethics”,”“group”:{”name“:”EthicsHeading“,”label“:”利益冲突“}},”{“value”“:”SHIBR数据集是由1800\u20131840年期间的随机样本组成的子集,这些样本被选为遵守GDPR(欧洲一般数据保护条例)法律,因此被开放访问。“,”order“:3,”name“,”group”:{“name”:“EthicsHeading”,“label”:“Ethical Approval”}}]}