基于网页源码结构理解的自适应爬虫代码生成方法

doi:10.11772/j.issn.1001-9081.2022060929

《计算机应用》唯一官方网站››2023,第43卷››问题（6）: 1779-1784.DOI（操作界面）：10.11772/j.issn.1001-9081.2022060929

•CCF第37条届中国计算机应用大会（CCF NCCA 2022）• 上一篇下一篇

基于网页源码结构理解的自适应爬虫代码生成方法

刘耀¹(),刘茹²,翟雨²

¹中国科学技术信息研究所信息技术支持中心，北京 100038
²北京大学软件与微电子学院，北京 102600

收稿日期:2022-06-28 修回日期:2022-08-22 接受日期:2022-08-25 发布日期:2022-09-22 出版日期:2023-06-10
通讯作者:刘耀
作者简介:刘耀（1972—），男，山东菏泽人，研究员，博士，共因失效杰出会员，主要研究方向：自然语言处理、知识工程电子邮件：liuy@istic.ac.cn
刘茹（1998—），女，安徽亳州人，硕士，主要研究方向：自然语言处理、网络爬虫
翟雨（1998—），女，山东菏泽人，硕士研究生，主要研究方向：自然语言处理、计算机辅助翻译。
基金资助:
国家社会科学基金资助项目（21BTQ011）；国家重点研发计划项目（2018YFB143502）

基于网页源代码结构理解的自适应网络爬虫代码生成方法

姚柳¹(),如刘²,于扎²

¹中国科学技术信息研究所信息技术支持中心，北京100038
²北京大学软件与微电子学院，北京102600

收到：2022-06-28 修订过的：2022-08-22 认可的：2022-08-25 在线：2022-09-22 出版：2023-06-10
联系人：姚柳
关于作者：刘如，1998年出生，硕士。她的研究兴趣包括自然语言处理、网络爬虫。
ZHAI Yu，1998年出生，硕士研究生。她的研究兴趣包括自然语言处理、计算机辅助翻译。
支持单位：
国家社会科学基金项目（21BTQ011）；国家重点研发计划（2018YFB143502）

摘要/摘要

摘要：

针对网页频繁改版带来的网页源码变动，尤其是文章日期、正文或来源机构等网页源码中目标实体的元素结构或属性标识变动所引起的爬虫代码失效、人力维护成本过高的问题，提出一种基于网页源码结构理解的自适应爬虫代码生成方法。首先，通过分析网页结构特征变动规律提取相应爬虫代码；然后，利用编码器-解码器模型表征网页源码及代码的变动，通过融合网页源码自身结构语义特征、网页源码变动特征及网页代码变动特征，得到自适应代码生成模型；最后，完善自适应系统的感知、生成和激活机制，从而形成具有自适应处理能力的爬虫系统。经实验验证，所提自适应代码生成模型的最终准确率为78.5%，TF-IDF+Seq2Seq和TriDNR+Seq2Seq两种生成模型相比，所提模型在网页源码变动的表示和代码生成的有效性上具有一定的优越性。因此，所提方法能够解决网页源码变动引起的爬虫代码运行问题，为网络资源获取即爬虫技术的自适应处理能力提供新思路。

关键词: 资源获取, 网页改版, 超文本标记语言, 网页源码理解, 自适应网络爬虫

摘要：

为了解决由于频繁的网页重新设计导致的网页源代码更改，特别是目标实体的元素结构或属性标识符（如文章日期、文本主体或源组织）的更改而导致的网页爬虫代码故障和高手动维护成本的问题，一种自适应的Web爬虫代码提出了基于网页源代码结构理解的生成方法。首先，通过分析网页结构特征的变化模式，提取相应的网络爬虫代码。其次，用编码器-解码器模型表示网页源代码和代码的变化。通过融合网页源代码结构的语义特征、网页源代码变化的特征和网页代码变化的特点，得到了一种自适应的代码生成模型。最后，改进了自适应系统的感知、生成和激活机制，形成具有自适应处理能力的网络爬虫系统。通过与TF-IDF+Seq2Seq和TriDNR+Seq_2Seq模型的比较，实验验证了所提出的自适应代码生成模型在表示网页源代码更改和代码生成有效性方面的优势，最终准确率为78.5%。通过该方法，可以解决网页源代码更改导致的Web爬虫代码操作问题，为Web资源获取的自适应处理能力提供了一种新的思路——Web爬虫技术。

关键词： 资源获取，网页重新设计，超文本标记语言（HTML），网页源代码理解，自适应网络爬虫

中图分类号:

第391.1页

刘耀, 刘茹, 翟雨. 基于网页源码结构理解的自适应爬虫代码生成方法[J] ●●●●。计算机应用, 2023, 43(6): 1779-1784.

姚柳，如柳，余寨。基于网页源代码结构理解的自适应网络爬虫代码生成方法[J]。计算机应用杂志，2023，43（6）：1779-1784。

图/表8

参考文献19

1	张明悦，金芝，赵海燕，等. 机器学习赋能的软件自适应性综述［记者：。软件学报，2020，31（8）：2404-2431.
	张敏英，金姿，赵海英，等.基于机器学习的软件自适应研究综述〔J〕。软件杂志，2020，31（8）： 2404-2431.
2	LEOTTA M，STOCCO A，RICCA F，et al.ROBULA+：一种用于web测试的鲁棒XPath定位器生成算法〔J〕。软件杂志：进化与过程，2016，28（3）： 177-204.10.1002/smr.1771
三	EDWARDS J，McCURLEY K，TOMLIN J。优化增量网络爬虫性能的自适应模型〔C〕//第十届国际万维网会议论文集。纽约：ACM2001： 106-113.10.1145/371920.371960
4	SHARMA D K，KHAN M A.SAFSB:一种自适应聚焦爬虫〔C〕//第一届下一代计算技术国际会议论文集。皮斯卡塔韦：IEEE2015： 719-724.10.1109/ngct.2015.7375215
5	COHEN J P，DING W，BAGHERJEIRAN A.XTreePath：XPath的推广，用于处理现实世界的结构变化〔EB/OL〕。（2017-12-27）［2022-08-01］..
6	CHOUDHARY S R，ZHAO D，VERSEE H，et al.WATER:web应用程序测试修复〔C〕//首届端到端测试脚本工程国际研讨会论文集.纽约：ACM2011： 24-29.10.1145/2002931.2002935
7	JUNDT O，van KEULEN M.基于XPath的Web信息抽取抽样排序〔C〕//欧洲模糊逻辑与技术学会第八届会议论文集。多德雷赫特：亚特兰蒂斯出版社2013： 187-194.10.2991/eusflat.2013.27
8	吴共庆，胡骏，李莉，等. 基于标签路径特征融合的在线网状物新闻内容抽取［记者：。软件学报，2016，27（3）：714-735.
	吴国强，胡军，李磊，等.基于标签路径特征融合的在线网络新闻提取〔J〕。软件杂志，2016，27（3）：714-735.
9	GOGAR T，HUBACEK O，SEDIVY J.深度神经网络用于网页信息提取〔C〕//2016国际人工智能应用与创新大会论文集，IFIPAICT475查姆：施普林格，2016:154-163。10.1007/978-3-319-44944-9_14
10	TAN C L，CHIEW K L，YONG K S C.网络钓鱼网页检测的图论方法〔J〕。计算机和安全，2020，95:第101793号。2016年10月10日/j.cose.2020.101793
11	ALON U，BRODY S，LEVY O，et al.code2seq:从代码的结构化表示生成序列[EB/OL]。（2019-02-21）［2022-08-02］..
12	李小川，姜浩，KAMEI Y，等.用词嵌入技术弥合自然语言和API之间的语义鸿沟〔J〕。IEEE软件工程汇刊，2020，46（10）： 1081-1097.10.1109/tes.2018.2876006
13	金伟光，杨凯，巴兹拉伊R，等.分子优化中的多模态图到图转换学习〔EB/OL〕。（2019-01-28）［2022-08-02］..
14	胡斌T，LU Z D，LI H，等.自然语言句子匹配的卷积神经网络体系结构〔C〕//第27届神经信息处理系统国际会议论文集。剑桥：麻省理工学院出版社2014，2： 2042-2050.
15	HAMILTON W L，YING R，LESKOVEC J.大图的归纳表示学习〔C〕//第31届神经信息处理系统国际会议论文集。纽约州Red Hook:Curran Associates Inc2017： 1025-1035.10.7551/吨压力/11474.003.0014
16	汪洋，代浩，任宏帅. 人机物融合环境下数据驱动的应用自适应初探［记者：。中国计算机学会通讯，2020，16（4）：25-30.
	王毅，戴赫，任海生.人机融合环境下数据驱动应用适应性的初步研究〔J〕。CCF通信，2020，16（4）： 25-30.
17	杨启亮，马晓星，邢建春，等. 软件自适应：基于控制理论的方法［记者：。计算机学报，2016，39（11）：2189-2215.10.11897/SP.J.1016.2016.02189
	杨庆林，马X X，邢建中，等.软件自适应：基于控制理论的方法〔J〕。中国计算机杂志，2016，39（11）： 2189-2215.10.11897/SP.J.1016.2016.02189
18	CHEN T，GUESTRIN C.XGBoost:一个可扩展的树提升系统[C]//第22届SIGKDD知识发现和数据挖掘会议论文集。纽约：ACM2016： 785-794.10.1145/2939672.2939785
19	魏伟，郭崇慧，陈静锋. 国务院政府工作报告（1954—2017）文本挖掘及社会变迁研究［记者：。情报学报，2018，37（4）：406-421.
	魏伟，郭春华，陈建芳.国务院政府工作报告（1954-2017）文本挖掘与社会转型研究〔J〕。中国科学技术情报学会学报，2018，37（4）： 406-421.

源码变动类型	源码变动类型细分	源码变动特征	解决方法
大规模结构变动	大规模结构变动	1）整体布局结构发生变动，原父元素移动，目标元素随父元素移动	重新识别网页布局结构，锁定父节点范围，子节点分类
小规模结构变动	原父元素不移动，目标仍在原有的布局结构之中	2）以次序为标识的目标发生横向移动	锁定父节点，子节点分类
	原父元素不移动，目标仍在原有的布局结构之中	3）以属性为标识的目标发生纵向移动
	目标元素位置不变	4）元素标识变动
	目标元素位置不变	5）结构增加：目标数据存在于多个标签中	以父节点代替多个子节点
结构不变动	元素标识不变动	6）日期格式变动	重新识别内容格式
结构不变动	数据内容变动	7）数据内容被删除	重新识别内容格式

源码变动类型	源码变动类型细分	源码变动特征	解决方法
大规模结构变动	大规模结构变动	1）整体布局结构发生变动，原父元素移动，目标元素随父元素移动	重新识别网页布局结构，锁定父节点范围，子节点分类
小规模结构变动	原父元素不移动，目标仍在原有的布局结构之中	2）以次序为标识的目标发生横向移动	锁定父节点，子节点分类
	原父元素不移动，目标仍在原有的布局结构之中	3）以属性为标识的目标发生纵向移动
	目标元素位置不变	4）元素标识变动
	目标元素位置不变	5）结构增加：目标数据存在于多个标签中	以父节点代替多个子节点
结构不变动	元素标识不变动	6）日期格式变动	重新识别内容格式
结构不变动	数据内容变动	7）数据内容被删除	重新识别内容格式

日期	日志报错数（去重）	报错网站数	错误实体类型数				准确率/%	召回率/%
日期	日志报错数（去重）	报错网站数	标题	日期	正文	其他	准确率/%	召回率/%
02-22	22	7	40	422	210		92.6	95.6
02-23	25	8	33	357	180		89.9	97
02-24	19	4	27	293	148		90.1	97.2
02-25	23	5	21	234	118		91.6	96.3
02-26	22	5	15	173	89		90	96.1
02-27	18	4	10	119	57	11	88.5	95.4
02-28	13	三	5	58	28	5	88.7	94.8

日期	日志报错数（去重）	报错网站数	错误实体类型数				准确率/%	召回率/%
日期	日志报错数（去重）	报错网站数	标题	日期	正文	其他	准确率/%	召回率/%
02-22	22	7	40	422	210		92.6	95.6
02-23	25	8	33	357	180		89.9	97
02-24	19	4	27	293	148		90.1	97.2
02-25	23	5	21	234	118		91.6	96.3
02-26	22	5	15	173	89		90	96.1
02-27	18	4	10	119	57	11	88.5	95.4
02-28	13	三	5	58	28	5	88.7	94.8

日期	分类准确率/%	XPath“”/%	代码生成准确率/%
02-22	82.1	95	70.4
02-23	80.5	91.9	67.6
02-24	73.3	94.2	72.1
02-25	79.9	96.3	71.8
02-26	75.4	97.1	75.5
02-27	83	93.6	79.3
02-28	79.8	94.9	73.8

基于网页源码结构理解的自适应爬虫代码生成方法

基于网页源代码结构理解的自适应网络爬虫代码生成方法

RichHTML格式

PDF格式

可视化

摘要/摘要

引用本文

使用本文

图/表8

参考文献19

相关文章15

编辑推荐

韵律学

模型	准确率	召回率	最终准确率
TF-IDF+序列2Seq	75.58	68.31	61.7
TriDNR+Seq2Seq	81.32	79.49	69.9
（TriDNR+ED）+Seq2Seq	83.70	80.06	78.5

模型	准确率	召回率	最终准确率
TF-IDF+Seq2当量	75.58	68.31	61.7
TriDNR+Seq2Seq	81.32	79.49	69.9
（TriDNR+ED）+Seq2Seq	83.70	80.06	78.5

[1]	陈清化, 薛书琦, 龚壮壮, 曹润康.基于文本挖掘的物流服务水平评价方法[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：88-94。
[2]	王佳睿, 彭程, 范敏.面向长文本的两阶段文本匹配模型TP-TM公司[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：33-38。
[3]	李佳欣, 苏曙光.基于BERT（误码率）的图像和文本多模态融合分类模型[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：39-44。
[4]	倪铭远, 邓宏涛, 高望.基于图卷积神经网络的虚假新闻检测[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：49-55。
[5]	陈田, 黄泓毓, 杨东升, 董淑婷.基于相互学习和SoftLexicon软件的中文命名实体识别模型[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：61-66。
[6]	赵嘉昕, 崔喆.面向法律判决文书的长文档抽取式文摘方法——北京有线电视新闻网[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：67-74。
[7]	周涛, 谢立华, 王啸飞.基于改进宽&深的卷烟焦油指标预测模型[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：95-99。
[8]	尤庆丽, 李国勇.基于孪生网络的离线手写签名鉴别算法[J] ●●●●。《计算机应用》唯一官方网站, 2023年，43（S1）：45-48。
[9]	劳景欢, 黄栋, 王昌栋, 赖剑煌.基于视图互信息加权的多视图集成聚类算法[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(6): 1713-1718.
[10]	高智慧, 韩萌, 刘淑娟, 李昂, 穆栋梁.基于智能优化算法的高效用项集挖掘方法综述[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(6): 1676-1686.
[11]	穆栋梁, 韩萌, 李昂, 刘淑娟, 高智慧.概念漂移复杂数据流分类方法综述[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(6): 1664-1675.
[12]	郑智雄, 刘建华, 孙水华, 徐戈, 林鸿辉.融合多窗口局部信息的方面级情感分析模型[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(6): 1796-1802.
[13]	宗传玉张纯鹤夏秀峰.有向图上基于层次树索引的最大自行车桁架[J] ●●●●。《计算机应用》唯一官方网站, 0, (): 0-0.
[14]	张雨宁阿布都克力木·阿布力孜梅悌胜徐春麦尔达娜·买买提热依木哈里旦木·阿布都克里木侯钰涛.基于自监督特征提取的骨骼X（X）线影像异常检测方法[J] ●●●●。《计算机应用》唯一官方网站, 0, (): 0-.
[15]	董永峰白佳明王利琴王旭.融合先验知识和字形特征的中文命名实体识别[J] ●●●●。《计算机应用》唯一官方网站, 0, (): 0-0.