计算机应用》唯一官方网站››2023,第43卷››问题(6): 1779-1784.DOI(操作界面):10.11772/j.issn.1001-9081.2022060929

•CCF第37条届中国计算机应用大会 (CCF NCCA 2022)• 上一篇   下一篇

基于网页源码结构理解的自适应爬虫代码生成方法

刘耀1(),刘茹2,翟雨2  

  1. 1中国科学技术信息研究所 信息技术支持中心,北京 100038
    2北京大学 软件与微电子学院,北京 102600
  • 收稿日期:2022-06-28 修回日期:2022-08-22 接受日期:2022-08-25 发布日期:2022-09-22 出版日期:2023-06-10
  • 通讯作者:刘耀
  • 作者简介:刘耀(1972—),男,山东菏泽人,研究员,博士,共因失效杰出会员,主要研究方向:自然语言处理、知识工程电子邮件:liuy@istic.ac.cn
    刘茹(1998—),女,安徽亳州人,硕士,主要研究方向:自然语言处理、网络爬虫
    翟雨(1998—),女,山东菏泽人,硕士研究生,主要研究方向:自然语言处理、计算机辅助翻译。
  • 基金资助:
    国家社会科学基金资助项目(21BTQ011);国家重点研发计划项目(2018YFB143502)

基于网页源代码结构理解的自适应网络爬虫代码生成方法

姚柳1(),如刘2,于扎2  

  1. 1中国科学技术信息研究所信息技术支持中心,北京100038
    2北京大学软件与微电子学院,北京102600
  • 收到:2022-06-28 修订过的:2022-08-22 认可的:2022-08-25 在线:2022-09-22 出版:2023-06-10
  • 联系人:姚柳
  • 关于作者:刘如,1998年出生,硕士。她的研究兴趣包括自然语言处理、网络爬虫。
    ZHAI Yu,1998年出生,硕士研究生。她的研究兴趣包括自然语言处理、计算机辅助翻译。
  • 支持单位:
    国家社会科学基金项目(21BTQ011);国家重点研发计划(2018YFB143502)

摘要:

针对网页频繁改版带来的网页源码变动,尤其是文章日期、正文或来源机构等网页源码中目标实体的元素结构或属性标识变动所引起的爬虫代码失效、人力维护成本过高的问题,提出一种基于网页源码结构理解的自适应爬虫代码生成方法。首先,通过分析网页结构特征变动规律提取相应爬虫代码;然后,利用编码器-解码器模型表征网页源码及代码的变动,通过融合网页源码自身结构语义特征、网页源码变动特征及网页代码变动特征,得到自适应代码生成模型;最后,完善自适应系统的感知、生成和激活机制,从而形成具有自适应处理能力的爬虫系统。经实验验证,所提自适应代码生成模型的最终准确率为78.5%,TF-IDF+Seq2Seq和TriDNR+Seq2Seq两种生成模型相比,所提模型在网页源码变动的表示和代码生成的有效性上具有一定的优越性。因此,所提方法能够解决网页源码变动引起的爬虫代码运行问题,为网络资源获取即爬虫技术的自适应处理能力提供新思路。

关键词: 资源获取, 网页改版, 超文本标记语言, 网页源码理解, 自适应网络爬虫

摘要:

为了解决由于频繁的网页重新设计导致的网页源代码更改,特别是目标实体的元素结构或属性标识符(如文章日期、文本主体或源组织)的更改而导致的网页爬虫代码故障和高手动维护成本的问题,一种自适应的Web爬虫代码提出了基于网页源代码结构理解的生成方法。首先,通过分析网页结构特征的变化模式,提取相应的网络爬虫代码。其次,用编码器-解码器模型表示网页源代码和代码的变化。通过融合网页源代码结构的语义特征、网页源代码变化的特征和网页代码变化的特点,得到了一种自适应的代码生成模型。最后,改进了自适应系统的感知、生成和激活机制,形成具有自适应处理能力的网络爬虫系统。通过与TF-IDF+Seq2Seq和TriDNR+Seq_2Seq模型的比较,实验验证了所提出的自适应代码生成模型在表示网页源代码更改和代码生成有效性方面的优势,最终准确率为78.5%。通过该方法,可以解决网页源代码更改导致的Web爬虫代码操作问题,为Web资源获取的自适应处理能力提供了一种新的思路——Web爬虫技术。

关键词: 资源获取, 网页重新设计, 超文本标记语言(HTML), 网页源代码理解, 自适应网络爬虫

中图分类号: