{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,6,15]],“日期-时间”:“2024-06-15T12:34:08Z”,“时间戳”:17184848964},“引用-计数”:50,“发布者”:“计算机协会(ACM)”,“问题”:“4”,“内容-域”:{“域”:[“dl.ACM.org”],“交叉标记-限制“:true},“short-container-title”:[“ACM Trans.Knowl.Discov.Data”],“published-print”:{“date-parts”:[[2021,8,31]]},“abstract”:“\n本文介绍了一种用于属性网络的新型任务相关采样器。这个问题很重要,因为虽然网络内容的数据挖掘任务很常见,但在互联网规模的网络上进行采样的成本很高。链接跟踪采样器(如雪球采样、森林火灾、随机漫步和大都会2013黑斯廷斯随机漫步)广泛用于网络采样。这些属性无关采样器的设计侧重于保持网络结构的显著属性,而不是针对节点内容的任务进行优化。这篇文章有三个贡献。首先,我们提出了一个任务依赖、属性感知的\nlink-trace基于信息论的sampler。我们的取样器贪婪地将信息量最大(即令人惊讶)的节点添加到样本中。采样器倾向于快速探索属性空间,最大限度地减少了看不见的节点带来的惊喜。其次,我们证明了内容抽样是一个NP-hard问题。一个著名的算法在1\u2212 1\/\n内最接近优化解e<\/jats:italic>\n,但需要对整个图形进行完全访问。第三,我们通过实证反事实分析表明,在许多真实数据集中,网络结构不会影响基于惊喜的链接跟踪采样器的性能。18个真实数据集的实验结果表明:基于惊奇的采样器具有很高的采样效率,远远优于最先进的属性无关采样器(例如,聚类任务的性能提高了45%)。\n<\/jats:p>“,”DOI“:”10.1145\/3441445“,”type“:”期刊文章“,”created“:{”日期部分“:[[2021,4,18],”日期时间“:”2021-04-18T16:05:45Z“,”时间戳“:1618761945000},”page“:”1-24“,”update policy“:”http:\/\/dx.DOI.org/10.1145\/crosmark policy“,”source“:”Crossref“,”由count引用“:4,”title“:[”属性引导网络抽样机制“],”前缀“:”10.1145“,”卷“:”15“,”作者“:[{”给定“:”Suhansanu“,”家族“:”Kumar“,”sequence“:”first“,”affiliation“:[}”name“:伊利诺伊大学,伊利诺伊香槟分校”}]},{”given“:”Hari“,”family“:”Sundaram“,”序列“:”additional“,”filiation]}],“成员”:“320”,“在线发布”:{“日期部分”:[[2021,4,18]},“引用”:[{“密钥”:“e_1_2_1_1”,“doi断言者”:“publisher”,“doi”:“10.1145\/2601438”},{“密钥”:“e_1_2_2_1”,“doi断言者”:“publisher”,“doi”:“10.1038\/nature09182”},{“密钥”:“e_1_2_1_3_1”,“doi断言者”:“publisher”,“doi”:“10.3390\/a2031031“},{”键“:”e_1_2_1_4_1“,“doi-asserted-by”:“publisher”,“doi”:“10.1109\/ICDM.2012.87”},{“key”:“e_1_1_5_1”,”doi-assert-by“:”publisher“,”doi“:”10.1016\/S1389-1286(99)00052-3“},”{“密钥”:“e_1_2_1_6_1”、“doi-sserted-by“”:“publisher”,“doi”:”10.1145\/2872427.2883045“}、{“key”:”e_2_2_7_1“,“”doi-asserted-by“:”publisher“,”doi“:”10.1016\/S0378-8733(03)00012-1“},{”key“:”e_1_2_1_8_1“,“first page”:“1”,“article-title”:“The igraph software package for complex network research”,“卷”:“1695”,“作者”:“Csardi Gabor”,“年份”:“2006年”,“非结构化”:“Gabor Csardi.and Tamas Nepusz.2006。复杂网络研究的igraph软件包。InterJournal,complex Systems 1695,5(2006), 1 -- 9 . Gabor Csardi和Tamas Nepusz。2006.用于复杂网络研究的igraph软件包。InterJournal,Complex Systems 1695,5(2006),1-9.“,”journal-title“:”Complex System“},{”key“:”e_1_2_1_9_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1006\/jcss.1995.1065”},}“key”:“e_1_i_10_1”,“doi-assert-by”:“publisher”,”doi“:”10.1016\/j.physrep.2016.09.002“}”,{“key”:“e_1_11_11_1”、“doi-as”serted-by“:”publisher“,”doi“:”10.1016\/j.engappai.2017.01.004“},{“key”:“e_1_2_1_12_1”,“volume-title”:“2010 IEEE INFOCOM.1-9.会议记录”,“author”:“Gjoka M.”、“unstructured”:“M.Gjoka,M.Kurant,C.T.Butts,A.Markopoulou.2010b.在脸书中行走:OSN无偏采样的案例研究。摘自2010 IEEE信息通信会议记录。1-9。M.Gjoka、M.Kurant、C.T.Butts和A.Markopoulou。2010年b。在脸书上行走:OSN无偏见抽样的案例研究。2010年IEEE INFOCOM会议记录。1-9.“},{”key“:”e_1_2_1_13_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/INFCOM.2010.5462078”},“key”:“e_1_i_14_1”,“volume-title”:“Butts”,“author”:“Gjoka Minas”,“year”:“2015”,“unstructured”:“米纳斯·格约卡、艾米莉·史密斯和卡特·T。臀部。2015 . 从以自我为中心的采样数据估计具有或不具有属性的子图频率。arXiv预印arXiv:1510.08119(2015)。米纳斯·乔卡、艾米莉·史密斯和卡特·巴特斯。2015.从以自我为中心的采样数据中估计具有或不具有属性的子图频率。arXiv预印arXiv:1510.08119(2015)。“},{”key“:”e_1_2_1_15_1“,”volume-title“:”Grzymala-Busse and Ming Hu“,“author”:“Jerzy”,“year”:“2000”,“unstructured”:“JRzy W。Grzymala-Busse和Ming Hu。2000 . 数据挖掘中缺失属性值的几种方法的比较。《粗糙集与当前计算趋势国际会议论文集》。施普林格,378-385。Jerzy W.Grzymala-Busse和Ming Hu.2000。数据挖掘中缺失属性值的几种方法的比较。《粗糙集与当前计算趋势国际会议论文集》。Springer,378--385.“},{”key“:”e_1_1_16_1“,”doi-asserted-by“:”publisher“,“doi”:“10.2307\/3096941”},“key”:“e_1_i_17_1”,“doi-assert-by”:“publisher”,”doi“:”10.1016\/j.physa.2008.01.073“}”,{“key“:”e_2_1_18_1“、”volume-title“:”图形采样的调查和分类。arXiv预印本arXiv:1303 8.5865“,”作者“:”胡培力“,”年份“:”2013“,”非结构化“:”胡培丽和刘永昌。2013年,图表抽样调查和分类。arXiv预印本arXiv:1308.5865(2013)。胡培丽和刘永昌。2013年,图表抽样调查和分类。arXiv预印本arXiv:1308.5865(2013)。“},{”key“:”e_1_2_1_19_1“,”volume-title“:”第一届亚太知识发现与数据挖掘会议论文集(PAKDD\u201997)“,”author“:”黄哲学“,”year“:”1997“,”unstructured“:”黄哲雪。1997 . 使用混合的数值和分类值对大型数据集进行聚类。《第一届亚太知识发现和数据挖掘会议论文集》(PAKDD\u201997)。新加坡,21-34。黄哲雪。1997年。使用混合数值和类别值对大型数据集进行聚类。《第一届亚太知识发现和数据挖掘会议论文集》(PAKDD\u201997)。新加坡,21-34.“},{”key“:”e_1_2_1_20_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ICDM.2008.124”},“key”:“e_1_i_1_21_1”,“volume-title”:“第八届IEEE数据挖掘国际会议论文集。283--292”,“author”:“Hubler C.”,“unstructured”:“C.Hubler,H.-P.Kriegel,K.Borgwardt,and Z.Ghahramani.2008。代表性子图采样的Metropolis算法。第八届IEEE数据挖掘国际会议论文集。283--292 . C.Hubler、H.-P.Kriegel、K.Borgwardt和Z.Ghahramani。2008.代表性子图采样的Metropolis算法。第八届IEEE数据挖掘国际会议论文集。283--292.“},{”key“:”e_1_2_1_22_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/956750.956769”},“key”:“e_1_i_1_23_1”,“doi-assert-by”:“publisher”,”doi“:”10.1109\/ITC.2010.5608727“}”,{016118“},{”键“:”e_1_1_25_1“,”卷时间“:”关于ML Meets Fashion的KDD研讨会会议记录。“,”author“:”Jung-Lin Lee Doris“,”year“:”2017“,”unstructured“:”Doris Jung-Line Lee、Jinda Han、Dana Chambourova和Ranjitha Kumar“。2017 . 识别社交网络中的时尚账户。在KDD ML Meets Fashion研讨会的会议记录中。Doris Jung-Lin Lee、Jinda Han、Dana Chambourova和Ranjitha Kumar。2017.识别社交网络中的时尚账户。在KDD ML Meets Fashion研讨会的会议记录中。“},{”key“:”e_1_1_26_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/1150402.1150479”},“key”:“e_1_cu1_27_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/1081870.10883“}”,{“key“:”e_2_1_28_1“:“e_1_2_1_29_1”,“doi-asserted-by”:“出版商”,“doi”:“10.1080\/15427951.2009.10129177“},{“key”:“e_1_2_1_30_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1007\/978-3642-20847-8_10“}”,{”key“:”e_1_i_1_31_1“,”volume-title“:”第17届ACM SIGKDD国际知识发现与数据挖掘会议论文集。ACM,105-113“,”author“:”Arun“,”unstructured“:”aron S.Maiya and Tanya Y。伯格·沃尔夫。2011.偏见的好处:更好地描述网络抽样。第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集。美国医学会,105-113。Arun S.Maiya和Tanya Y.Berger-Wolf。2011.偏见的好处:更好地描述网络抽样。第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,105-113.“},{”key“:”e_1_2_1_32_1“,”volume-title“:”第25届神经信息处理系统国际会议论文集“,”卷“:”2012“,”作者“:”朱利安“,”非结构化“:”Julian J.McAuley和Jure Leskovec.2012。学习发现自我网络中的社交圈。第25届神经信息处理系统国际会议论文集。2012年第卷。548--56. 朱利安·麦考利和朱尔·莱斯科维奇。2012.学会在自我网络中发现社交圈。第25届神经信息处理系统国际会议论文集。第2012卷。548--56.“},{”key“:”e_1_2_1_33_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1007\/s10618-017-0523-0“}”,{“key”:“e_1_i_1_34_1”,“doi-assert-by”:“publisher”,”doi“:”10.1103\/PhysRevE.99.052304“}“},{”key“:”e_1_2_1_36_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1103\/PhysRevE.67.026126“},{”key“:”e_1_2_1_37_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/248788.24877880”},“key”:“e_1_i_1_38_1”,“volume-title”:“定性研究”,“作者”:“Patton Michael Quinn”,“非结构化”:“Michael Quin Patton。2005。定性研究。威利在线图书馆。迈克尔·奎恩·巴顿。2005年,定性研究。威利在线图书馆。“},{”key“:”e_1_1_39_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ISIT.2008.4595271”},},“key”:“e_2_1_40_1”,“volume-title”:“第23届万维网国际会议论文集.831-842”,“author”:“Joseph J.”,”year“:”2014“,”unstructured“:”Joseph J。菲佛三世、塞巴斯蒂安·莫雷诺、蒂莫西·拉丰、詹妮弗·内维尔和布莱恩·加拉赫。2014 . 属性图模型:使用相关属性建模网络结构。第23届万维网国际会议论文集。831--842 . 约瑟夫·普菲费尔三世(Joseph J.Pfeiffer III)、塞巴斯蒂安·莫雷诺(Sebastian Moreno)、蒂莫西·拉丰(Timothy La Fond)、詹妮弗·内维尔(Jennifer Neville)和布莱恩·加拉赫(Brian Gallagher)。2014.属性图模型:使用相关属性建模网络结构。第23届万维网国际会议论文集。831--842.“},{”key“:”e_1_2_1_41_1“,”volume-title“:”ICML结构化学习研讨会会议记录“,”author“:”Joseph J.“,“unstructured”:“Joseph J·Pfeiffer III,Jennifer Neville,and Paul N.Bennett.2013。在单个网络中,将主动采样与参数估计和预测相结合。ICML结构化学习研讨会论文集。约瑟夫·普菲费尔三世(Joseph J.Pfeiffer III)、詹妮弗·内维尔(Jennifer Neville)和保罗·贝内特(Paul N.Bennett)。2013年,在单个网络中将主动采样与参数估计和预测相结合。ICML结构化学习研讨会论文集。“},{”key“:”e_1_2_1_42_1“,”volume-title“:”IEEE VIS会议(海报)。Citeseer。“,”author“:”Pienta Robert“,”year“:”2015“,”unstructured“:”Robert Pienta,Zhiyuan Lin,Minsuk Kahng,Jilles Vreeken,Partha P。Talukdar、James Abello、Ganesh Parameswaran和Duen Hong Polo Chau。2015 . AdaptiveNav:在大型图中发现本地有趣且令人惊讶的节点。IEEE VIS会议(海报)。Citeser。Robert Pienta、Lin Zhiyuan、Minsuk Kahng、Jilles Vreeken、Partha P.Talukdar、James Abello、Ganesh Parameswaran和Duen Hong Polo Chau。2015.AdaptiveNav:在大型图形中发现本地有趣且令人惊讶的节点。IEEE VIS会议(海报)。Citeser。“},{”key“:”e_1_1_43_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/2939672.2939808”},“{”key“:“e_2_1_44_1”,“volume-title”:“第26届VLDB会议论文集.307-316”,“作者”:“Sarawagi Sunita”,“年份”:“2000”,“非结构化”:“苏尼塔·萨拉瓦吉。2000 . 多维数据的用户自适应探索。第26届VLDB会议记录。307--316 . 苏妮塔·萨拉瓦吉。2000.多维数据的用户自适应探索。在第26届VLDB会议记录中。307--316.“},{”key“:”e_1_2_1_45_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1137\/080734029”},}“key”:“e_1_i_1_46_1”,“volume-title”:“国际科学会议论文集和国际研讨会当代创新趋势”,“author”:“Takac Lubos”,”year“:“2012”,“unstructured”:“卢博斯·塔卡奇(Lubos Takac)和米查尔·扎博夫斯基(Michal Zabovsky)。2012 . 公共社交网络中的数据分析。《国际科学会议和国际研讨会论文集——当今创新趋势》。卢博斯·塔卡奇(Lubos Takac)和米查尔·扎博夫斯基(Michal Zabovsky)。2012年,公共社交网络数据分析。《国际科学会议和国际研讨会论文集——当今创新趋势》。“},{”key“:”e_1_1_47_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/3038912.3052665”},“key”:“e_2_1_48_1”,“doi-assert-by”:“publisher”,”doi“:”10.1109\/ISIT.2006.261842“}”,{“:”e_1_2_1_50_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ICDM.2013.167”}],“container-title“:[“ACM Transactions on Knowledge Discovery from Data”],“original-title”:[],“language”:“en”,“link”:[{“URL”:“https:\/\/dl.ACM.org\/doi\/pdf\/10.1145\/344145”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“similarity-checking”}],“deposed”:{“date-parts”:[2023,1]],“date-time”:”2023-01-01T21:28:16Z“,”timestamp“:1672608496000},”score“:1,”resource“:{”primary”:{“URL”:“https:\/\/dl.acm.org\/doi\/10.1145\/344145”}},“subtitle”:[],“shorttitle”:[],“issued”:}“date-parts”:[[2021,4,18]]},《references-count》:50,“journal-issue”:{“issue”:“4”,“published-print”:{-“date-ports”:[2021,8,31]]}},“alternative-id”:[“10.1145\/344145”],“URL”:“http:\/\/dx.doi.org\/10.1145\/344145“,”关系“:{},”ISSN“:[”1556-4681“,”1556-472X“],”ISSN-type“:[{”值“:”1556-481“,”类型“:”打印“},{”价值“:”2556-472X“,”类别“:”电子“}],”主题“:[],”已发布“:{”日期部分“:[2021,4,18]]},“断言”:[{“价值”:“2019-08-01“,”订单“:0,”名称“:”已接收“,”标签“:”接收“,“组”:{“名称”:“publication_history“,”label“:”publication history“}},”value“:”2020-12-01“,”order“:1,”name“:”accepted“,”tabel“:“accepted”,“group”:{“name”:“publication_history”,“label”:“publication-history”},{“value”:“2021-04-18”,”orders“:2,”name:“published”,”label:“published”,”group“: