×

HinPage:使用转导分类进行非法有害网页识别。 (英语) Zbl 07730531号

邓毅(编辑)等,《信息安全与密码学》。2022年12月11日至13日,第18届国际会议,Inscrypt 2022,中国北京。修订了选定的论文。查姆:斯普林格。莱克特。注释计算。科学。13837, 373-390 (2023).
摘要:随着互联网的日益普及,网站可以通过托管暴力、性行为、非法赌博、吸毒等非法有害内容来赚取巨额利润。它们严重威胁着互联网的安全,对未成年人尤其有害。政府机构、互联网服务提供商、各级网络管理员和家长一直在寻求准确可靠的解决方案,以阻止此类非法和有害的网页。现有解决方案基于内容检测不适当的页面,例如,使用关键字匹配或基于内容的图像分类。通过改变文本或图像的内部格式(例如,混合不同的字母),可以很容易地对其进行转义。在本文中,我们建议利用从目标非法/有害网页之间的关系中提取的相对稳定的特征来发现和识别非法网页。我们引入了一种新的机制,即HinPage,该机制利用这些特性对PG(色情和赌博)页面进行可靠识别。HinPage使用异构信息网络(HIN)对候选PG页面和页面上的资源进行建模。然后在HIN中应用一种转导式分类算法来识别PG页面。
通过对10033个候选PG页面的实验,我们证明HinPage在PG页面识别上达到了83.5%的准确率。特别是,它能够识别SOTA商业产品无法识别的非法/有害PG页面。
关于整个系列,请参见[Zbl 1517.94007号].

MSC公司:

68英里11 互联网主题

软件:

metatah2vec
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 罗,C。;关,R。;王,Z。;林,C。;de Rijke,M.,HetPathMine:异构信息网络上的一种新的转导式分类算法,《信息检索进展》,210-221(2014),Cham:Springer,Cham·doi:10.1007/978-3-319-06028-6_18
[2] Yang,H.,Du,K.,Zhang,Y.等人:皇家赌场:对非法在线赌博的深入探索。摘自:第35届年度计算机安全应用会议记录,第500-513页(2019年)
[3] Farman,A.、Pervez,K.、Kashif,R.等人:基于模糊本体和SVM的Web内容分类系统。IEEE访问25781-25797(2017)
[4] 李,L。;郭台铭。;熊,G。;曹,Z。;李,Z。;曾,B。;黄,Q。;El Saddik,A。;李,H。;江,S。;Fan,X.,《通过图像识别识别赌博和色情网站》,《多媒体信息处理进展-PCM 2017》,488-497(2018),Cham:Springer,Cham·doi:10.1007/978-3-319-77383-448
[5] 胡伟,吴欧,陈中,等:通过文本和图像分类识别色情网页。IEEE传输。模式分析。1019-1034 (2007)
[6] Huang,Y.,Liu,D.,Yan,Z.,et al.:一种基于截图文本识别的滥用网页检测方法。摘自:《2021年ACM智能计算及其新兴应用国际会议论文集》,第106-110页(2021)
[7] Chen,Y.,Zheng,R.,Zhou,A.等人:使用决策机制基于视觉和文本内容自动检测色情和赌博网站。传感器(2020年)
[8] Yang,R.,Liu,J.,Gu,L.等:搜索与捕获:通过搜索引擎检测地下促销感染。收录于:IEEE TrustCom,第1566-1571页(2020年)
[9] Starov,O.,Zhou,Y.,Zhang,X.等人:被仪表板背叛:通过网络分析发现恶意活动。摘自:《万维网会议记录》,第227-236页(2018年)
[10] 萨拉姆,H。;马萨诸塞州Maarof;Zainal,A。;亚伯拉罕。;阿拉斯加州穆达;Choo,Y-H,改进色情网站术语权重方案的设计考虑,模式分析,智能安全和物联网,275-285(2015),Cham:Springer,Cham·doi:10.1007/978-3-319-17398-6_25
[11] Wang,L。;张杰。;王,M。;田,J。;Zhuo,L.,用于实时视频中色情流识别的多模式深层特征的多级融合,模式识别。莱特。,140, 150-157 (2020) ·doi:10.1016/j.parec.2020.09.027
[12] Ahmadi,A。;Fotouhi,M。;Khaleghi,M.,使用上下文和视觉特征对网页进行智能分类,应用。软计算。,11, 1638-1647 (2011) ·doi:10.1016/j.asoc.2010.05.003
[13] Maktabar,M。;Zainal,A。;马萨诸塞州Maarof;明尼苏达州卡斯姆;亚伯拉罕。;Muhuri,PK;阿拉斯加州穆达;Gandhi,N.,使用监督机器学习技术进行基于内容的欺诈网站检测,混合智能系统,294-304(2018),商会:施普林格,商会·文件编号:10.1007/978-3-319-76351-4_30
[14] 欧洲委员会。互联网上的非法和有害内容COM(96)487最终版本(1996)
[15] Shin,J.、Lee,S.、Wang,T.:使用链接关系识别有害网站的语义方法。2014年IEEE语义计算国际会议论文集,第16-18页(2014)
[16] Farooq,M.S.,Khan,M.A.,Abbas,S.等人:使用自适应反向传播神经网络进行基于皮肤检测的色情过滤。摘自:第八届信息和通信技术国际会议,第106-112页(2019年)
[17] Yaqub,W.,Mohanty,M.等人:用于色情图像过滤的加密域肤色检测。摘自:第15届IEEE高级视频和信号监控国际会议,第1-5页(2018年)
[18] 格拉尼佐,S.L.,阿拉巴马州卡拉圭。L.,López,L.I.,Hernández-Alvarez,M.:在推特和链接网站上使用自然语言处理和计算机视觉检测可能的非法信息。IEEE接入(2020)
[19] Lee,P.Y.,Hui,S.C.,Fong,A.C.M.:双语网页内容过滤的智能分类引擎。IEEE Trans。Multimed公司。1183-1190 (2005)
[20] Sae-Bae,N.、Sun,X.等人:走向儿童色情制品的自动检测。2014 IEEE图像处理国际会议(ICIP),第5332-5336页(2014)
[21] Zhou,D.,Bousquet,O.,Lal,T.N.,Weston,J.,Schölkopf,B.:学习与本地和全球一致性。摘自:《神经信息处理系统进展》,第321-328页(2004年)
[22] Chrome开发工具。https://chromedevtools.github.io/devtools-protocol/1-3/页面/
[23] 打开CV。https://opencv.org/
[24] 孙,Y。;Han,J。;Yan,X.,PathSim:异构信息网络中基于元路径的top-k相似性搜索,Proc。荷兰VLDB。,4, 992-1003 (2011) ·数字对象标识代码:10.14778/3402707.3402736
[25] 赛门铁克网站审查。https://sitereview.bluecoat.com网站/
[26] 百度安全平台。https://bsb.baidu.com/
[27] 百度安全平台评估标准。https://bsb.baidu.com/standard网站
[28] 野村证券。;Oyama,S。;Hayamizu,T.,检测网络社区的HITS算法分析与改进,系统。计算。,35, 32-42 (2004) ·doi:10.1002/scj.10425
[29] Dong,Y.,Chawla,N.V.,Swami,A.:metatath2vec:异构网络的可扩展表示学习。摘自:第23届ACM SIGKDD知识发现和数据挖掘国际会议记录,第135-144页(2017)
[30] Sokolov,M.、Olufowobi,K.、Herndon,N.:基于内容的垃圾邮件检测中的视觉欺骗。参加:第十三届信息和网络安全国际会议(2020年)
[31] Yuan,K.等人:《隐秘的色情:了解现实世界中用于非法网络推广的敌对图像》。在:IEEE安全与隐私研讨会(SP)(2019)
[32] Tong,S.,Zhang,H,Shen,B.等人:从帖子行为中检测赌博网站。摘自:IEEE第11届工业电子与应用会议,第2495-2500页(2016年)
[33] Moustafa,M.等人:应用深度学习对色情图像和视频进行分类。arXiv预印arXiv:1511.08899(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。