{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2023,3,24]],“日期-时间”:“2023-03-24T17:53:59Z”,“时间戳”:1679680439888},“参考-计数”:38,“出版商”:“计算机协会(ACM)”,“问题”:“6”,“资助者”:[{“名称”:“欧盟”},{“姓名”:“西班牙语MCI/AEI”,“奖项”:[“TIN2016-76843-C41-R和PID2019-104735RB-C41”]},{“DOI”:“10.13039\/50110003359”,“name”:“Generalita Valenciana”,“DOI-asserted-by”:“crossref”,“award”:[“Prometeo\/2019\/098(DeepTrust)”]}.,{”name“:”TAILOR“},”name“GA下的EU Horizon 2020研究与创新计划”,“adward”:[”952215“]}],“content-domain”:{“域”:[“dl.acm.org”],“crossmark-restriction”:true},“short-container-title”:[“ACM Trans.Knowl.Discov.Data”],“published-print”:{“date-parts”:[[2021,6,28]]},”抽象“:”网页的主要内容通常由与模板相关的其他样板文件元素包围,例如菜单、广告、版权声明和评论。对于爬虫和索引器来说,将主要内容与模板和其他噪声信息隔离开来是一项基本任务,因为处理和存储噪声信息会浪费带宽、存储空间和计算时间等资源。此外,主要内容的检测和提取在不同的领域也很有用,例如数据挖掘、web摘要和低分辨率内容自适应。本文介绍了一种新的主要内容提取技术。与大多数技术相比,此技术不仅提取文本,还提取其他类型的内容,如图像和动画。这是一种基于文档对象模型的页面级技术,因此只需加载一个网页即可提取主要内容。因此,它足够高效,可以在线使用(实时)。我们使用一套真实的异构基准测试对该技术进行了实证评估,与其他著名的内容提取技术相比,取得了非常好的结果<\/jats:p>“,”DOI“:”10.1145\/3451168“,”type“:”journal-article“,”created“:{”date-parts“:[2021,6,28]],”date-time“:”2021-06-28T14:02:52Z“,”timestamp“:1624888972000},”page“:“标题”:[“从异构网页中提取页面级主要内容“],”前缀“:”10.1145“,”卷“:”15“,”作者“:[{”给定“:”Juli\u00e1n“,”家族“:”Alarte“,”sequence“:”first“,”affiliation“:[}”name“:”Universitat Polit\u00e 8cnica de Val\u00e_8ncia,Spain“}]},{”given“:”Josep“,”family“:”Silva“,”序列“:”additional“,”从属“:[{”name“:”西班牙中央政治大学“}]}],“成员”:“320”,“在线发布”:{“日期-部件”:[[2021,6,28]]},“参考”:[{“密钥”:“e_1_1_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1109\/WAINA.2009.60”},{“key”:“e_1_2_1_1_1”,”doi-assert-by“:”publisher“,”doi“I“:”10.1007\/978-3-319-51963-0_32“},{“key”:“e_1_2_1_3_1”,“volume-title”:“PSI 2015“,“作者”:“Alarte Juli\u00e1n”,“年份”:“2015”,“非结构化”:“Juli\u 00e1n-Alarte,David Insa,Josep Silva,and Salvador Tamarit。2015年。基于DOM分析的站点级web模板提取。《系统信息学的观点——第十届国际安德烈·埃尔肖夫信息学会议》,PSI 2015,纪念赫尔穆特·维思,喀山和Innopolis,俄罗斯,2015年8月24日至27日,修订论文集(计算机科学讲稿,第9609卷),曼努埃尔·马扎拉和安德烈·沃伦科夫(编辑)。施普林格,36\u201349。内政部:https:\/\/DOI.org\/10.1007\/978-3-319-41579-6_4 10.1007\/9783-319-41579-6_4Juli\u00e1n Alarte、David Insa、Josep Silva和Salvador Tamarit.2015。基于DOM分析的站点级web模板提取。《系统信息学的观点——第十届国际安德烈·埃尔肖夫信息学会议》,PSI 2015,纪念赫尔穆特·维思,喀山和Innopolis,俄罗斯,2015年8月24日至27日,修订论文集(计算机科学讲稿,第9609卷),曼努埃尔·马扎拉和安德烈·沃伦科夫(编辑)。施普林格,36\u201349。DOI:https:\/\/DOI.org\/10.1007\/978-3-319-41579-6_4“},{“key”:“e_1_2_1_4_1”,“volume-title”:“Web信息系统工程学报,Hakim Hacid,Wojciech Cellary,Hua Wang,Hye Young Paik”,“作者”:“Alarte Julian”,“非结构化”:“Julian Alarte,David Insa,Josep Silva,and Salvador Tamarit.2018。从异构网页中提取主要内容。《网络信息系统工程学报》,Hakim Hacid、Wojciech Cellary、Hua Wang、Hye Young Paik和Rui Zhou(编辑)。施普林格国际出版社,查姆,393\u2013407。朱利安·阿拉尔特、大卫·英萨、何塞普·席尔瓦和萨尔瓦多·塔马里特。2018。从异构网页中提取主要内容。在《网络信息系统工程学报》中,Hakim Hacid、Wojciech Cellary、Hua Wang、Hye Young Paik和Rui Zhou(编辑)。Springer International Publishing,Cham,393\u2013407。“},{”key“:”e_1_1_5_1“,”doi-asserted-by“:”publisher“,“doi”:“10.5120\/869-1219”},“key”:“e_2_1_6_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/51146.511522“}”,{语言资源和评价国际会议记录(摩洛哥马拉喀什)。欧洲语言资源协会,638\u2013643”,“作者”:“Baroni Marco”,“年份”:“2008”,“非结构化”:“Marco Baroni、Francis Chantree、Adam Kilgarriff和Serge Sharoff。2008 . Cleaneval:清理网页的竞赛。《语言资源和评价国际会议记录》(摩洛哥马拉喀什)。欧洲语言资源协会,638\u2013643。马可·巴罗尼(Marco Baroni)、弗朗西斯·钱特里(Francis Chantree)、亚当·基尔加里夫(Adam Kilgarriff)和谢尔盖·沙洛夫(Serge Sharoff)。2008年。清洁评估:清洁网页的竞赛。《语言资源和评价国际会议记录》(摩洛哥马拉喀什)。欧洲语言资源协会,638\u2013643。“},{”key“:”e_1_2_1_8_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ACIIDS.2009.71”},“key”:“e_1_i_1_9_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/2034691.2034720“}”,{“key“:”e_2_1/10_1“”,“unstructured”:“W3C Consortium.1997。文档对象模型(DOM)。网址:http://www.w3.org\/DOM\/。W3C联盟。1997.文档对象模型(DOM)。网址:http://www.w3.org\/DOM\/。“},{”key“:”e_1_1_11_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/106677.1067065”},“key”:“e_2_1_12_1”,“doi-assert-by”:“publisher”,”doi“:”10.1007\/1145274_30“}”,{年份“:”2008“,”非结构化“:”阿德里亚诺·费拉雷西(Adriano Ferraresi)、厄洛斯·赞切塔(Eros Zanchetta)、马可·巴罗尼(Marco Baroni)和西尔维亚·贝尔纳迪尼(Silvia Bernardini)。2008 . 介绍和评估ukWaC,一个非常大的网络衍生英语语料库。第四届网络语料库研讨会论文集。47\u201354。阿德里亚诺·费拉雷西(Adriano Ferraresi)、厄洛斯·赞切塔(Eros Zanchetta)、马可·巴罗尼(Marco Baroni)和西尔维亚·贝尔纳迪尼(Silvia Bernardini)。2008年。介绍和评估ukWaC,一个非常大的网络衍生英语语料库。第四届网络语料库研讨会论文集。47\u201354.“},{”key“:”e_1_2_1_14_1“,”volume-title“:”DELOS Workshop:数字图书馆中的个性化和推荐系统“,”author“:”Finn Aidan“,”year“:”2001“,”unstructured“:”艾丹·芬恩(Aidan Finn)、尼古拉斯·库什梅里克(Nicholas Kushmerick)和巴里·史密斯(Barry Smyth)。2001 . 事实或虚构:数字图书馆的内容分类。DELOS研讨会:数字图书馆中的个性化和推荐系统(都柏林(爱尔兰))。2013年1月。http://www.ercim.org\/publication\/ws-proceedings\/DelNoe02\/AidanFinn.pdf。艾丹·芬恩(Aidan Finn)、尼古拉斯·库什梅里克(Nicholas Kushmerick)和巴里·史密斯(Barry Smyth)。2001.事实还是虚构:数字图书馆的内容分类。DELOS研讨会:数字图书馆中的个性化和推荐系统(都柏林(爱尔兰))。2013年1月。http://www.ercim.org\/publication\/ws-proceedings\/DelNoe02\/AidanFinn.pdf。“},{”key“:”e_1_2_1_15_1“,”volume title“:”Unfluff-node.js的自动网页内容提取器!“,”author“:”Geitgey-Albert“,”year“:”2014“,”unstructured“:”Albert Geitgey.2014。Unfuff-一个用于node.js的自动网页内容提取器!(2014年)。阿尔伯特·盖特基。2014.Unfuff-一个用于node.js的自动网页内容提取器!(2014).“},{“key”:“e_1_2_1_16_1”,“doi由”:“publisher”断言,“doi”:“10.1145\\1062745.1062763”},{“key”:“e_1_2_1_17_1”,“doi由”:“publisher”断言,“doi”:“10.1109\\/DEXA.2008.43”},{“key”:“e_1_2_18_1”,“doi由”:“publisher”断言,“doi”:“10.1109\\/DEXA.2008.43”},{“key”:“e_1_1_19_1”,“doi由”:“publisher”断言,“doi”:“10.1016\/j.jrap.2013.01.002”},{”key“:”e_1_1_20_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145 \/1526709.1526909”},{“key”:“e_2_1_21_1”,“volume-title”:“Boilerpipe\u2013从HTML页面删除样板文件和全文提取。谷歌代码”,“作者”:“\u00a0al Christian Kohlsch\u00fctter”,“年份”:“2010”,“非结构化”:“Christian Kohlsch\u 00fcter et \u00a 0al.2010”。从HTML页面中删除Boilerpipe\u2013样板文件和全文提取。谷歌代码(2010)。Christian Kohlsch\u00fctter等人。2010.从HTML页面中删除Boilerpipe\u2013样板文件和全文提取。谷歌代码(2010)。“},{”key“:”e_1_1_22_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/1718487.1718542”},“key”:“e_2_1_23_1”,“volume-title”:“Wee Keong Ng,and Aixin Sun”,“author”:“Li Zhao”,“year”:“2005”,“unstructured”:“赵丽、吴伟强和孙爱欣。2005 . 基于结构相似性的Web数据提取。知识与信息系统8,4(2005年11月1日),438\u2013461。内政部:https:\/\/DOI.org\/10.1007\/s10115-004-0188-z 10.1007\/s10115-004-0188-z Zhao Li、Wee Keong Ng和Aixin Sun。2005.基于结构相似性的Web数据提取。知识与信息系统8,4(2005年11月1日),438\u2013461。DOI:https:\/\/DOI.org\/10.1007\/s10115-004-0188-z“},{“key”:“e_1_1_24_1”,“DOI-asserted-by”:“publisher”、“DOI”:“10.5555\/1215470”}、{“密钥”:“e_1_2_1_25_1”、”DOI-assert-by“:”publisher“,”DOI“:”10.1145\/1083356.1083384,“DOI”:“10.1145\/1526709.1526840”},{“key”:“e_1_2_1_27_1”,“DOI-asserted-by”:“publisher“,”DOI“:”10.1145\/544220.544228“},{“key”:“e_1_2_1_28_1”,“DOI-asserted-by”:“publisher”,”DOI:“10.1016\/j.jcss.2011.10.012”},“{”key“:”e_1_i_1_29_1“,“doiasserted-by第四届网络语料库研讨会——我们可以击败Google.12\u201317“,”作者“:”斯波斯塔·米罗斯拉夫”,“年份”:“2008年”,“非结构化”:“米罗斯拉夫·斯波斯塔、米查尔·马雷克和帕维尔·佩西纳。2008 . 维克多:网页清理工具。在第四届网络语料库研讨会上,我们击败了谷歌。2013年12月17日。米罗斯拉夫·斯波斯塔(Miroslav Spousta)、米查尔·马雷克(Michal Marek)和帕维尔·佩奇纳(Pavel Pecina)。2008年。维克多:网页清理工具。在第四届网络语料库研讨会上,我们击败了谷歌。12\u201317.“},{”key“:”e_1_1_31_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/2009916.200952”},“key”:“e_2_1_32_1”,“doi-assert-by”:“publisher”,”doi“:”10.1007\/s11280-009-0059-3},{“键”:“e_1_2_1_34_1”,“doi-asserted-by”:“出版商”,“doi”:“10.1007\/978-3-319-76941-7_13“},{“key”:“e_1_2_1_35_1”,“doi-asserted-by”:“publisher”、“doi”:“10.1145\/1367497.1367749”}、{“密钥”:“e_1_2_1_36_1”、”doi-assert-by“:”publisher“,”doi“:”10.1145\/1772690.1772789 2736277.2741659“},{”key“:”e_1_2_1_38_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/956750.956785“}],”container-title“:[”ACM Transactions on Knowledge Discovery from Data“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/dl.ACM.org\/doi\/pdf\/10.1145\/3451168“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}”,“deposed”:{“date-parts”:[2023,1,1,1]],“date-time“:”2023-01-01T18:58:15Z“,”timestamp“:1672599495000},”score“:1,”resource“:{主要”:{“URL”:“https:\/\/dl.acm.org\/doi\/10.1145\/3451168”}},“subtitle”:[],“shorttitle”:[],“issued”:int“:{“date-parts”:[[2021,6,28]]}},“alternative-id”:[“10.1145\/3451168“],”URL“:”http://\/dx.doi.org\/10.1145\/345118“,”关系“:{},”ISSN“:[”1556-4681“,”1556-472X“],“ISSN-type”:[{“value”:“1556-4681',”type“:”print“},{“value”:“1156-472X”,“type”:“electronic”}],“subject”:[],“published”:{“date-parts”:[2021,6,28]]},“断言”:[{“value”:“2020-06-01”,“order”:0,“name”:“received”,“label”:“received”group“:{”name“:”publication_history“,”label“:”publication history“}},{”value“:”2021-02-01“,”order“:1,”name“:”accepted“,“label”:“accepted”,“group”:{“}”}]}}