×

网络访问历史分析。二: 通过嵌套STUMP回归树预测导航。 (英语) Zbl 1382.68024号

摘要:本文通过一个新的web使用方法框架,即考虑关联规则理论的结构挖掘,构成了对web访问历史分析的贡献的第二部分。其目的是通过树状结构探索直接规则(即路径)的序列,这些规则描述了一个网页导航员在网页上站立的时间更长,而路径则描述了提前离开网页的导航员的特征。引入了一种新颖的基于树的结构,以考虑到学习样本会逐个点击进行更改,而忽略了在任何点击后从web上退出的导航器。每个时间点的响应变量是离开web之前的剩余点击次数。分裂是由描述首选腹板截面的预测因子引起的。引入的方法产生了嵌套树桩回归树,它是树桩树的层次结构,其中树桩是只有一个分割的树,或者等效地,只有两个终端节点。概述了合适的特性。正如对网络访问历史分析贡献的第一部分,通过考虑一个具有固定网页部分集的门户网站,即来自UCI机器学习库的数据集,提供了方法描述。
第一部分见[提交人,同上33,第2号,298-324(2016;Zbl 1351.68034号)].

MSC公司:

68英里11 互联网主题
62H25个 因子分析和主成分;对应分析
第62页第25页 统计学在社会科学中的应用
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] AGRAWAL,R.和SRIKANT,R.(1994),“挖掘关联规则的快速算法”,《第20届超大数据库国际会议论文集》,VLDB,第1215卷,第487-499页。
[2] 布拉克,E。;GIUDICI,P.,《网络点击流分析的序列规则》,1-14(2002),柏林,海德堡·Zbl 1063.68628号
[3] BREIMAN,L.(1996),“打包预测”,机器学习,24(2),123-140·Zbl 0858.68080号
[4] BREIMAN,L.(2001),“随机森林”,机器学习,45(1),5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[5] BREIMAN,L.、FRIEDMAN,J.、OLSHEN,R.A.和STONE,C.J.(1984),《分类和回归树》,博卡拉顿:CRC出版社·Zbl 0541.62042号
[6] CAPPELLI,C.、MOLA,F.和SICILIANO,R.(2002),“一种生长可靠诚实树的统计方法”,计算统计学和数据分析,38(3),285-299·Zbl 1079.62516号 ·doi:10.1016/S0167-9473(01)00044-5
[7] CHAKRABARTI,S.(2002),《挖掘网络:从超文本数据中发现知识》,荷兰:爱思唯尔出版社。
[8] COOLEY,R.、MOBASHER,B.和SRIVASTAVA,J.(1999),“挖掘万维网浏览模式的数据准备”,知识和信息系统,1(1),5-32·doi:10.1007/BF03325089
[9] D’AMBROSIO,A.、ARIA,M.和SICILIANO,R.(2012),“统计学习范式中基于树的精确缺失数据插补和数据融合”,《分类杂志》,29(2),227-258·Zbl 1360.62324号 ·doi:10.1007/s00357-012-9108-1
[10] 达姆布罗西奥,A。;PECORARO,M.,作为Web序列规则可视化工具的多维缩放,309-316(2011),柏林,海德堡·doi:10.1007/978-3-642-13312-1_32
[11] D’AMBROSIO,A.、PECORARO,M.和SICILIANO,R.(2008),“通过多维缩放和树实现Web偏好可视化”,摘自DATAVIZ VI国际会议:统计图形:当今多媒体社会的数据和信息可视化,不来梅,2008年6月25-28日。
[12] DIETTERICH,TG,机器学习中的集成方法,1-15(2000),柏林
[13] ETZIONI,O.(1996),“世界范围的网络:困境还是金矿?”,《ACM通讯》,39(11),65-68·数字对象标识代码:10.1145/240455.240473
[14] FOKKEMA,M.、SMITS,N.、ZEILEIS,A.、HOTHORN,T.和KELDERMAN,H.(2015),“用广义线性混合效应模型树检测聚类数据中的处理-子组相互作用”,因斯布鲁克大学经济与统计学院工作论文,ftp://ftp.repec.org/opt/ReDIF/repec/inn/wpaper/2015-10.pdf。
[15] FREUND,Y.,和SCHAPIRE,R.E.(1997),“在线学习的决策理论推广及其应用”,《计算机与系统科学杂志》,55(1),119-139·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[16] FU,W.和SIMONOFF,J.S.(2015),“纵向和聚类数据的无偏回归树”,计算统计和数据分析,88,53-74·Zbl 1468.62058号 ·doi:10.1016/j.csda.2015.02.004
[17] GIUDICI,P.和FIGINI,S.(2009),《应用数据挖掘:商业和工业统计方法》,纽约:John Wiley and Sons出版社·Zbl 1168.6202号 ·doi:10.1002/9780470745830
[18] HASTIE,T.、TIBSHIRANI,R.和FRIEDMAN,J.(2009),《统计学习的要素:数据挖掘、推断和预测》,柏林:施普林格出版社·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[19] IBA,W.和LANGLEY,P.(1992),“一级决策树的归纳”,《第九届机器学习国际会议论文集》,第233-240页。
[20] KOSALA,R.和BLOCKEEL,H.(2000),“网络挖掘研究:调查”,ACM SIGKDD Explorations,2,1-15。
[21] LINOFF,G.S和BERRY,M.J.(2001),《挖掘网络:将客户数据转化为客户价值》,纽约:John Wiley and Sons,Inc。
[22] MOLA,F.和SICILIANO,R.(1997),“分类和回归树的快速分割程序”,《统计与计算》,第7期,第208-216页·doi:10.1023/A:1018590219790
[23] PECORARO,M.和SICILIANO,R.(2008),“Web使用挖掘中用户特征分析的统计方法”,载于《文本和Web挖掘技术研究手册》,M.Song和Y.B.Wu编辑,宾夕法尼亚州好时:Idea Group Inc.,第359-368页·Zbl 0940.62002号
[24] SICILIANO,R.、D’AMBROSIO,A.、ARIA,M.和AMODIO,S.(2016),“网络访问历史分析,第一部分:基于距离的序列规则可视化”,《分类杂志》,33(2),298-324·Zbl 1351.68034号 ·doi:10.1007/s00357-016-9204-8
[25] SICILIANO,R.和MOLA,F.(1996),“快速回归树程序”,载于第十一届统计建模国际研讨会论文集,编辑A.Forcina、G.M.Marchetti、R.Hatzinger和G.Galmacci,Citta’di Castello IT:Graphos,第332-340页·Zbl 1063.68628号
[26] SICILIANO,R.和MOLA,F.(2000),“通过分类和回归树进行多变量数据分析”,计算统计学和数据分析,32285-301·Zbl 0940.62002号 ·doi:10.1016/S0167-9473(99)00082-1
[27] SRIVASTAVA,J.、COOLEY,R.、DESHPANDE,M.和PANG-NING T.,(2000),“Web使用挖掘:从Web数据中发现和应用使用模式”,ACM SIGKDD探索新闻稿,1(2),12-23·doi:10.1145/846183.846188
[28] VEZZOLI,M.(2011),“通过新型集成学习探索整体工作满意度的各个方面”,《应用统计分析电子期刊》,4(1),23-38。
[29] 张,C.和张,S.(2002),《关联规则挖掘:模型和算法》,海德堡:施普林格出版社·Zbl 0998.68047号 ·数字对象标识代码:10.1007/3-540-46027-6
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。