{“id”:“https://openalex.org/W1991565788“,”doi“:”https://doi.org/10.1145/1600193.1600208“,”title“:”Web文章提取用于Web打印“,”display_name“:”Web文章提取用于Web打印“,“publication_year”:2009,”publication_date“:”2009-09-16“,”ids“:{”openalex“:”https://openalex.org/W1991565788“,”doi“:”https://doi.org/10.1145/1600193.1600208“,”mag“:”1991565788“},”language“:”en“,”primary_location“:{”is_oa“:false,”landing_page_url“:”https://doi.org/10.1145/1600193.1600208“,”pdf_url“:null,”source“:null,”license“:null',”licence_id“:null,”version“:nuller,”is_accepted“:false,”is_published“:false},”type“:”article“,”type_crossref“:“procesdings-article”,”indexed_in“:[”crossref“],”open_access“:{”is_oa“:false,”oa_status“:”closed“,”oa_url”:null“,”any_repository_has_fulltext“:false}”,”authorships“:[{”author_position“:”first“,”作者“:{”id“:”https://openalex.org/A5064240230“,”display_name“:”Ping Luo“,”orcid“:”https://orcid.org/0000-0002-0039-747X“},”机构“:[],”国家“:[”CN“],”is_corresponding“:false,”raw_author_name“:”Ping Luo“,”raw_affiliation_strings“:[“中国北京惠普实验室”],”从属关系“:[{“raw_affilition_string”:“中国北京HP实验室”,“institution_ids”:[]},{“author_position”:“middle”,“author”:{“id”https://openalex.org/A5043206151“,”display_name“:”简凡“,”兽人“:”https://orcid.org/0000-0001-7775-4204},“机构”:[{“id”:https://openalex.org/I1324840837“,”display_name“:”Hewlett-Packard(美国)“,”ror“:”https://ror.org/059rn9488“,”country_code“:”US“,”type“:“company”,”lineage“:[”https://openalex.org/I1324840837“]}],”国家“:[”美国“],”is_corresponding“:false,”raw_author_name“:”Jian Fan“,”raw _affiliation_strings“:[“HP Labs,Palo Alto,CA,USA”],“affiliations”:[{“raw_affiliation _string”:“HP Lab,Palo Alto,CA,US”,“institution_ids”:[”https://openalex.org/I1324840837“]}]},{”author_position“:”middle“,”author“:{”id“:”https://openalex.org/A5039468987“,”display_name“:”Sam Liu“,”orcid“:”https://orcid.org/0000-0003-2364-7774},“机构”:[{“id”:https://openalex.org/I1324840837“,”display_name“:”Hewlett-Packard(美国)“,”ror“:”https://ror.org/059rn9488“,”country_code“:”US“,”type“:“company”,”lineage“:[”https://openalex.org/I1324840837“]}],”国家“:[”美国“],”is_corresponding“:false,”raw_author_name“:”Sam Liu“,”raw _affiliation_strings“:[“HP Labs,Palo Alto,CA,USA”],“affiliations”:[{“raw_affiliation _string”:“HP Lab,Palo Alto,CA,US”,“institution_ids”:[”https://openalex.org/I1324840837“]}]},{”author_position“:”middle“,”author“:{”id“:”https://openalex.org/A5060361805“,”display_name“:”林芳“,”兽人“:”https://orcid.org/0000-0003-2179-7031“},”机构“:[],”国家“:[”CN“],”is_corresponding“:false,”raw_author_name“:”Fen Lin“,”raw_affiliation_strings“:[“中国北京惠普实验室”],”从属关系“:[{”raw_affiliation_string“:”中国北京惠普实验”,“institution_ids”:[]},{“author_position”:“middle”,“author”:{“id”https://openalex.org/A5066457130“,”display_name“:”燕雄“,”兽人“:”https://orcid.org/0000-0002-8672-0193“},”机构“:[],”国家“:[”CN“],”is_corresponding“:false,”raw_author_name“:”Yuhong Xiong“,”raw _ afiliation_strings“:[“HP Labs,Beijing,China”],“affiliations”:[{“raw_affiliation_string”:“HP Labs,Beichina”,“institution_ids”:[]},{“author_position”:“last”,“author”:{“id”https://openalex.org/A5089978533“,”display_name“:”Jerry Liu“,”orcid“:null},”institutions“:[{”id“:”https://openalex.org/I1324840837“,”display_name“:”Hewlett-Packard(美国)“,”ror“:”https://ror.org/059rn9488“,”country_code“:”US“,”type“:“company”,”lineage“:[”https://openalex.org/I1324840837“]}],”国家“:[”美国“],”is_corresponding“:false,”raw_author_name“:”Jerry Liu“,”raw _affiliation_strings“:[“惠普实验室,加州帕洛阿尔托”],”affiliations“:[{”raw _affiliation_string“:”惠普实验室,加利福尼亚州帕洛阿尔多,美国“,”institution_ids“:[https://openalex.org/I1324840837“]}]}],”countries_distinct_count“:2,”institutions_disting_count”:1,”corresponding_author_ids“:[],”corresponding_institution_ids”:[]“apc_list”:null,”apc_payed“:null”,“fwci”:2.348,”has_fulltext“:true,”fulltext_origin“:”ngrams“,”cited_by_count“:{”volume“:null,”issue“:nul,”first_page“:null,”last_page“:null},”is_retracted“:false,”is_paratext“:fase,”primary_topic“:{”id“:”https://openalex.org/T2016“,”“display_name”:“Web数据提取和爬网技术”,“score”:1.0,“subfield”:{“id”:“https://openalex.org/subfields/1710“,”display_name“:”Information Systems“},”field“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}},”主题“:[{”id“:”https://openalex.org/T2016“,”“display_name”:“Web数据提取和爬网技术”,“score”:1.0,“subfield”:{“id”:“https://openalex.org/subfields/1710“,”display_name“:”Information Systems“},”field“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}},{”id“:”https://openalex.org/T11269“,”display_name“:”文本压缩和索引算法“,”score“:0.9778,”subfield“:{”id“:”https://openalex.org/subfields/s702“,”display_name“:”Artificial Intelligence“},”field“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}},{”id“:”https://openalex.org/T11550“,”“display_name”:“机器学习中的多标签文本分类”,“score”:0.9615,“subfield”:{“id”:“https://openalex.org/subfields/s702“,”display_name“:”Artificial Intelligence“},”field“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}}],”关键词“:[{”id“:”https://openalex.org/keywords/web-data-extraction网站“,”display_name“:”Web数据提取“,”score“:0.65772},{”id“:”https://openalex.org/keywords/page-segmentation(https://openalex.org/keywords/page-segmentation)“,”display_name“:”页面分割“,”score“:0.608276},{”id“:”https://openalex.org/keywords/web-crawling网站“,”display_name“:”Web爬行“,”score“:0.519463},{”id“:”https://openalex.org/keywords/text-indexing网站“,”display_name“:”文本索引“,”score“:0.509737},{”id“:”https://openalex.org/keywords/content-adaptation网站“,”display_name“:”内容调整“,”score“:0.503357}],”概念“:[{”id“:”https://openalex.org/C41008148,“wikidata”:https://www.wikidata.org/wiki/Q21198“,”display_name“:”计算机科学“,”level“:0,”score“:0.8259188},{”id“:”https://openalex.org/C2777206241,“wikidata”:https://www.wikidata.org/wiki/Q194431“,”display_name“:”Paragraph“,”level“:2,”score“:0.7177951},{”id“:”https://openalex.org/C23123220,“wikidata”:https://www.wikidata.org/wiki/Q816826“,”display_name“:”信息检索“,”level“:1,”score“:0.6229312},{”id“:”https://openalex.org/C21959979,“wikidata”:https://www.wikidata.org/wiki/Q36774“,”display_name“:”网页“,”级别“:2,”分数“:0.6009518},{”id“:”https://openalex.org/C116834253,“wikidata”:https://www.wikidata.org/wiki/Q2039217“,”display_name“:”Identification(biology)“,”level“:2,”score“:0.5255274},{”id“:”https://openalex.org/C2781238097,“wikidata”:https://www.wikidata.org/wiki/Q175026“,”display_name“:”Object(grammar)“,”level“:2,”score“:0.50215054},{”id“:”https://openalex.org/C100368936,“wikidata”:https://www.wikidata.org/wiki/Q1411725“,”display_name“:”Crawling“,”level“:2,”score“:0.4649424},{”id“:”https://openalex.org/C62354387,“wikidata”:https://www.wikidata.org/wiki/Q875399“,”display_name“:”Boundary(topology)“,”level“:2,”score“:0.45483607},{”id“:”https://openalex.org/C81669768,“wikidata”:https://www.wikidata.org/wiki/Q2359161“,”display_name“:”精度和召回“,”级别“:2,”分数“:0.45293266},{”id“:”https://openalex.org/C79337645,“wikidata”:https://www.wikidata.org/wiki/Q779824“,”display_name“:”Outlier“,”level“:2,”score“:0.43842757},{”id“:”https://openalex.org/C195409031,“wikidata”:https://www.wikidata.org/wiki/Q1031957“,”display_name“:”HITS算法“,”level“:5,”score“:0.4378883},{”id“:”https://openalex.org/C106131492,“wikidata”:https://www.wikidata.org/wiki/Q3072260“,”display_name“:”筛选器(信号处理)“,”级别“:2,”score“:0.41427833},{”id“:”https://openalex.org/C136764020,“wikidata”:https://www.wikidata.org/wiki/Q466“,”display_name“:”万维网“,”level“:1,”score“:0.41305816},{”id“:”https://openalex.org/C154945302,“wikidata”:https://www.wikidata.org/wiki/Q11660“,”display_name“:”人工智能“,”level“:1,”score“:0.37446404},{”id“:”https://openalex.org/C173576120,“wikidata”:https://www.wikidata.org/wiki/Q2641220“,”display_name“:”静态网页“,”level“:4,”score“:0.28263026},{”id“:”https://openalex.org/C61096286,“wikidata”:https://www.wikidata.org/wiki/Q7978592“,”display_name“:”Web导航“,”level“:3,”score“:0.2008715},{”id“:”https://openalex.org/C31972630,“wikidata”:https://www.wikidata.org/wiki/Q844240“,”display_name“:”计算机视觉“,”level“:1,”score“:0.1892167},{”id“:”https://openalex.org/C71924100,“wikidata”:https://www.wikidata.org/wiki/Q11190“,”display_name“:”Medicine“,”level“:0,”score“:0.0},{”id“:”https://openalex.org/C134306372,“wikidata”:https://www.wikidata.org/wiki/Q7754“,”display_name“:”数学分析“,”level“:1,”score“:0.0},{”id“:”https://openalex.org/C59822182,“wikidata”:https://www.wikidata.org/wiki/Q441“,”display_name“:”植物学“,”level“:1,”score“:0.0},{”id“:”https://openalex.org/C33923547,“wikidata”:https://www.wikidata.org/wiki/Q395“,”display_name“:”数学“,”等级“:0,”分数“:0.0},{”id“:”https://openalex.org/C105702510,“wikidata”:https://www.wikidata.org/wiki/Q514“,”display_name“:”Anatomy“,”level“:1,”score“:0.0},{”id“:”https://openalex.org/C86803240,“wikidata”:https://www.wikidata.org/wiki/Q420“,”display_name“:”Biology“,”level“:0,”score“:0.0}],”mesh“:[],”locations_count“:1,”location“:[{”is_oa“:false,”landing_page_url“:”https://doi.org/10.1145/1600193.1600208“,”pdf_url“:null,”source“:null,”license“:null,”liccense_id“:nuld,”version“:nully,”is_accepted“:false,”is_published“:false}],”best_oa_location“:nul,”sustainable_development_goals“:[{”score“:0.59,”id“:”https://metadata.un.org/sdg/4“,”display_name“:”素质教育“}],”grants“:[],”datasets“:[],”versions“:[】,”referenced_works_count“:2,”referrenced_works“:【”https://openalex.org/W2051141368","https://openalex.org/W2140208587“],”related_works“:[”https://openalex.org/W4237528028","https://openalex.org/W3216588747","https://openalex.org/W2161927007","https://openalex.org/W2156893245","https://openalex.org/W2146990843","https://openalex.org/W2051135816","https://openalex.org/W1990964992","https://openalex.org/W1967941145","https://openalex.org/W19676055331","https://openalex.org/W1587535619“],”ngrams_url“:”https://api.openalex.org/works/W1991565788/ngrams网站“,”“abstract_inverted_index”:{“This”:[0],“work”:[1],“studies”:[2],“the”:[3,30,33,37,75,81149152170176188],“problem”:[4],“of”:[5,18,77,80,89106121151166183190],“extracting”:[6],“articles”:[7],“from”:[8,15],“Web”:[9,21,95],“pages”:[10],“for”:[11,74147],“better”:[12,78],“打印”:[13],“不同”:[14],“现有”:[16],“方法”:[17],“文章”:[19,41107153171],“提取”:[20],“打印”:[22],“姿势”:[23],“多个”:[24],“唯一”:[25],“要求:”:[26],“1)”:[27125],“识别”:[28],“只是”:[29],“边界”:[31150],“周围”:[32],“正文”:[34],“是”:[35,44,60179],“不是”:[36,67],“理想”:[38],“溶液“:[39],“提取”:[42],“它”:[43,59],“高度”:[45],“理想”:[46],“to”:[47,62],“filter”:[48],“out”:[49],“some”:[50],“uninformative”:[51],“links”:[52],“and”:[53,94115185],“adverties”:[54],“within”:[55],“this”:[P6],“boundary.”:[57],“2)”:[58135],“necessary”:[61],“identified”:[63],“paragraphis,”:[64],“which”:[65],“may”:[66],“be”:[68,87],“ready”:[69],“separated”:[70],“as”:[71],“DOM”:[72111],“nodes”:[73],“目的”:[76],“布局”:[79],“文章”:[82],“3)”:[83155],“它的”:[84],“性能”:[85],“应该”:[86],“独立”:[88],“内容”:[90],“领域”:[91],“书面”:[92],“语言”:[93],“页面”:[96],“模板。”:[97],“走向”:[98],“这些”:[99],“目标”:[100],“我们”:[101],“提议”:[102],“a”:[103126136],“新颖”:[104],“方法”:[105123178],“提取”:[108],“使用”:[109],“两者”:[110],“(文档”:[112],“对象”:[113],“模型)”:[114],“视觉”:[116],“特征”:[117],“The”:[118],“main”:[119],“components”:[120],“our”:[122],“include:”:[124],“text”:%127145167191],“segment/pragment”:[128],“identification”:/129],“algorithmic”:[130],“based”:[131143160],“on”:[132144161],“line-breaking”:[133],“特征”,:[134],“全局”:[137],“优化”:[138],“方法”,:%139],“最大值”:[140],“评分”:[141],“子序列”:[142],“分段”:[146168],“识别”:[148],“正文”:[154],“an”:[156],“离群值”:%157],“消除”:[158],“步长”:[159],“左”:[162],“或”:[163],“右”:[164],“对齐”:[165],“with”:[169],“body.”:[172],“Our”:%173],“实验”:[174],“显示”:[175],“建议”:[177],“有效”:[180],“in”:[181],“术语”:[182],“精度”:[184],“召回”:[186],“at”:[187],“级别”:[189],“段。”:[192]},“引用_by_api_url”:“https://api.openalex.org/works?filter=cites:W1991565788“,”counts_by_year“:[{”年份“:2018,”cited_by_count“:1},{”年“:2016,”ciped_by_cunt“:1\n,{“年份”:2015,”cited_by_count”:4},”年度“:2014,”citted_by_count“:2},“年份”:2013,”citecd_by_count“:3},创建日期“:”2016-06-24“}