{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期-部件”：[[2024,6,15]]，“日期-时间”：“2024-06-15T12:34:08Z”，“时间戳”：17184848964}，“引用-计数”：50，“发布者”：“计算机协会（ACM）”，“问题”：“4”，“内容-域”:{“域”：[“dl.ACM.org”]，“交叉标记-限制“：true}，“short-container-title”：[“ACM Trans.Knowl.Discov.Data”]，“published-print”：{“date-parts”：[[2021,8,31]]}，“abstract”：“\n本文介绍了一种用于属性网络的新型任务相关采样器。这个问题很重要，因为虽然网络内容的数据挖掘任务很常见，但在互联网规模的网络上进行采样的成本很高。链接跟踪采样器（如雪球采样、森林火灾、随机漫步和大都会2013黑斯廷斯随机漫步）广泛用于网络采样。这些属性无关采样器的设计侧重于保持网络结构的显著属性，而不是针对节点内容的任务进行优化。这篇文章有三个贡献。首先，我们提出了一个任务依赖、属性感知的\nlink-trace基于信息论的sampler。我们的取样器贪婪地将信息量最大（即令人惊讶）的节点添加到样本中。采样器倾向于快速探索属性空间，最大限度地减少了看不见的节点带来的惊喜。其次，我们证明了内容抽样是一个NP-hard问题。一个著名的算法在1\u2212 1\/\n内最接近优化解e<\/jats:italic>\n，但需要对整个图形进行完全访问。第三，我们通过实证反事实分析表明，在许多真实数据集中，网络结构不会影响基于惊喜的链接跟踪采样器的性能。18个真实数据集的实验结果表明：基于惊奇的采样器具有很高的采样效率，远远优于最先进的属性无关采样器（例如，聚类任务的性能提高了45%）。\n<\/jats:p>“，”DOI“：”10.1145\/3441445“，”type“：”期刊文章“，”created“：｛”日期部分“：[[2021,4,18]，”日期时间“：”2021-04-18T16:05:45Z“，”时间戳“：1618761945000｝，”page“：”1-24“，”update policy“：”http:\/\/dx.DOI.org/10.1145\/crosmark policy“，”source“：”Crossref“，”由count引用“：4，”title“：[”属性引导网络抽样机制“]，”前缀“：”10.1145“，”卷“：”15“，”作者“：[{”给定“：”Suhansanu“，”家族“：”Kumar“，”sequence“：”first“，”affiliation“：[}”name“：伊利诺伊大学，伊利诺伊香槟分校”}]}，{”given“：”Hari“，”family“：”Sundaram“，”序列“：”additional“，”filiation]}]，“成员”：“320”，“在线发布”：｛“日期部分”：[[2021,4,18]｝，“引用”：[｛“密钥”：“e_1_2_1_1”，“doi断言者”：“publisher”，“doi”：“10.1145\/2601438”｝，｛“密钥”：“e_1_2_2_1”，“doi断言者”：“publisher”，“doi”：“10.1038\/nature09182”｝，｛“密钥”：“e_1_2_1_3_1”，“doi断言者”：“publisher”，“doi”：“10.3390\/a2031031“｝，｛”键“：”e_1_2_1_4_1“，“doi-asserted-by”：“publisher”，“doi”：“10.1109\/ICDM.2012.87”}，{“key”：“e_1_1_5_1”，”doi-assert-by“：”publisher“，”doi“：”10.1016\/S1389-1286（99）00052-3“}，”{“密钥”：“e_1_2_1_6_1”、“doi-sserted-by“”：“publisher”，“doi”：”10.1145\/2872427.2883045“}、{“key”：”e_2_2_7_1“，“”doi-asserted-by“：”publisher“，”doi“：”10.1016\/S0378-8733（03）00012-1“}，{”key“：”e_1_2_1_8_1“，“first page”：“1”，“article-title”：“The igraph software package for complex network research”，“卷”：“1695”，“作者”：“Csardi Gabor”，“年份”：“2006年”，“非结构化”：“Gabor Csardi.and Tamas Nepusz.2006。复杂网络研究的igraph软件包。InterJournal，complex Systems 1695，5（2006）, 1 -- 9 . Gabor Csardi和Tamas Nepusz。2006.用于复杂网络研究的igraph软件包。InterJournal，Complex Systems 1695，5（2006），1-9.“，”journal-title“：”Complex System“}，{”key“：”e_1_2_1_9_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1006\/jcss.1995.1065”}，}“key”：“e_1_i_10_1”，“doi-assert-by”：“publisher”，”doi“：”10.1016\/j.physrep.2016.09.002“}”，{“key”：“e_1_11_11_1”、“doi-as”serted-by“：”publisher“，”doi“：”10.1016\/j.engappai.2017.01.004“}，{“key”：“e_1_2_1_12_1”，“volume-title”：“2010 IEEE INFOCOM.1-9.会议记录”，“author”：“Gjoka M.”、“unstructured”：“M.Gjoka，M.Kurant，C.T.Butts，A.Markopoulou.2010b.在脸书中行走：OSN无偏采样的案例研究。摘自2010 IEEE信息通信会议记录。1-9。M.Gjoka、M.Kurant、C.T.Butts和A.Markopoulou。2010年b。在脸书上行走：OSN无偏见抽样的案例研究。2010年IEEE INFOCOM会议记录。1-9.“}，{”key“：”e_1_2_1_13_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/INFCOM.2010.5462078”}，“key”：“e_1_i_14_1”，“volume-title”：“Butts”，“author”：“Gjoka Minas”，“year”：“2015”，“unstructured”：“米纳斯·格约卡、艾米莉·史密斯和卡特·T。臀部。2015 . 从以自我为中心的采样数据估计具有或不具有属性的子图频率。arXiv预印arXiv:1510.08119（2015）。米纳斯·乔卡、艾米莉·史密斯和卡特·巴特斯。2015.从以自我为中心的采样数据中估计具有或不具有属性的子图频率。arXiv预印arXiv:1510.08119（2015）。“}，{”key“：”e_1_2_1_15_1“，”volume-title“：”Grzymala-Busse and Ming Hu“，“author”：“Jerzy”，“year”：“2000”，“unstructured”：“JRzy W。Grzymala-Busse和Ming Hu。2000 . 数据挖掘中缺失属性值的几种方法的比较。《粗糙集与当前计算趋势国际会议论文集》。施普林格，378-385。Jerzy W.Grzymala-Busse和Ming Hu.2000。数据挖掘中缺失属性值的几种方法的比较。《粗糙集与当前计算趋势国际会议论文集》。Springer，378--385.“}，{”key“：”e_1_1_16_1“，”doi-asserted-by“：”publisher“，“doi”：“10.2307\/3096941”}，“key”：“e_1_i_17_1”，“doi-assert-by”：“publisher”，”doi“：”10.1016\/j.physa.2008.01.073“}”，{“key“:”e_2_1_18_1“、”volume-title“：”图形采样的调查和分类。arXiv预印本arXiv:1303 8.5865“，”作者“：”胡培力“，”年份“：”2013“，”非结构化“：”胡培丽和刘永昌。2013年，图表抽样调查和分类。arXiv预印本arXiv:1308.5865（2013）。胡培丽和刘永昌。2013年，图表抽样调查和分类。arXiv预印本arXiv:1308.5865（2013）。“}，{”key“：”e_1_2_1_19_1“，”volume-title“：”第一届亚太知识发现与数据挖掘会议论文集（PAKDD\u201997）“，”author“：”黄哲学“，”year“：”1997“，”unstructured“：”黄哲雪。1997 . 使用混合的数值和分类值对大型数据集进行聚类。《第一届亚太知识发现和数据挖掘会议论文集》（PAKDD\u201997）。新加坡，21-34。黄哲雪。1997年。使用混合数值和类别值对大型数据集进行聚类。《第一届亚太知识发现和数据挖掘会议论文集》（PAKDD\u201997）。新加坡，21-34.“}，{”key“：”e_1_2_1_20_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/ICDM.2008.124”}，“key”：“e_1_i_1_21_1”，“volume-title”：“第八届IEEE数据挖掘国际会议论文集。283--292”，“author”：“Hubler C.”，“unstructured”：“C.Hubler，H.-P.Kriegel，K.Borgwardt，and Z.Ghahramani.2008。代表性子图采样的Metropolis算法。第八届IEEE数据挖掘国际会议论文集。283--292 . C.Hubler、H.-P.Kriegel、K.Borgwardt和Z.Ghahramani。2008.代表性子图采样的Metropolis算法。第八届IEEE数据挖掘国际会议论文集。283--292.“}，{”key“：”e_1_2_1_22_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1145\/956750.956769”}，“key”：“e_1_i_1_23_1”，“doi-assert-by”：“publisher”，”doi“：”10.1109\/ITC.2010.5608727“}”，{016118“}，{”键“：”e_1_1_25_1“，”卷时间“：”关于ML Meets Fashion的KDD研讨会会议记录。“，”author“：”Jung-Lin Lee Doris“，”year“：”2017“，”unstructured“：”Doris Jung-Line Lee、Jinda Han、Dana Chambourova和Ranjitha Kumar“。2017 . 识别社交网络中的时尚账户。在KDD ML Meets Fashion研讨会的会议记录中。Doris Jung-Lin Lee、Jinda Han、Dana Chambourova和Ranjitha Kumar。2017.识别社交网络中的时尚账户。在KDD ML Meets Fashion研讨会的会议记录中。“}，{”key“：”e_1_1_26_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1145\/1150402.1150479”}，“key”：“e_1_cu1_27_1”，“doi-assert-by”：“publisher”，”doi“：”10.1145\/1081870.10883“}”，{“key“:”e_2_1_28_1“：“e_1_2_1_29_1”，“doi-asserted-by”：“出版商”，“doi”：“10.1080\/15427951.2009.10129177“}，{“key”：“e_1_2_1_30_1”，“doi-asserted-by”：“publisher”，”doi“：”10.1007\/978-3642-20847-8_10“}”，{”key“：”e_1_i_1_31_1“，”volume-title“：”第17届ACM SIGKDD国际知识发现与数据挖掘会议论文集。ACM，105-113“，”author“：”Arun“，”unstructured“：”aron S.Maiya and Tanya Y。伯格·沃尔夫。2011.偏见的好处：更好地描述网络抽样。第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集。美国医学会，105-113。Arun S.Maiya和Tanya Y.Berger-Wolf。2011.偏见的好处：更好地描述网络抽样。第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM，105-113.“}，{”key“：”e_1_2_1_32_1“，”volume-title“：”第25届神经信息处理系统国际会议论文集“，”卷“：”2012“，”作者“：”朱利安“，”非结构化“：”Julian J.McAuley和Jure Leskovec.2012。学习发现自我网络中的社交圈。第25届神经信息处理系统国际会议论文集。2012年第卷。548--56. 朱利安·麦考利和朱尔·莱斯科维奇。2012.学会在自我网络中发现社交圈。第25届神经信息处理系统国际会议论文集。第2012卷。548--56.“}，{”key“：”e_1_2_1_33_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1007\/s10618-017-0523-0“}”，{“key”：“e_1_i_1_34_1”，“doi-assert-by”：“publisher”，”doi“：”10.1103\/PhysRevE.99.052304“}“}，{”key“：”e_1_2_1_36_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1103\/PhysRevE.67.026126“}，{”key“：”e_1_2_1_37_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1145\/248788.24877880”}，“key”：“e_1_i_1_38_1”，“volume-title”：“定性研究”，“作者”：“Patton Michael Quinn”，“非结构化”：“Michael Quin Patton。2005。定性研究。威利在线图书馆。迈克尔·奎恩·巴顿。2005年，定性研究。威利在线图书馆。“}，{”key“：”e_1_1_39_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/ISIT.2008.4595271”}，}，“key”：“e_2_1_40_1”，“volume-title”：“第23届万维网国际会议论文集.831-842”，“author”：“Joseph J.”，”year“：”2014“，”unstructured“：”Joseph J。菲佛三世、塞巴斯蒂安·莫雷诺、蒂莫西·拉丰、詹妮弗·内维尔和布莱恩·加拉赫。2014 . 属性图模型：使用相关属性建模网络结构。第23届万维网国际会议论文集。831--842 . 约瑟夫·普菲费尔三世（Joseph J.Pfeiffer III）、塞巴斯蒂安·莫雷诺（Sebastian Moreno）、蒂莫西·拉丰（Timothy La Fond）、詹妮弗·内维尔（Jennifer Neville）和布莱恩·加拉赫（Brian Gallagher）。2014.属性图模型：使用相关属性建模网络结构。第23届万维网国际会议论文集。831--842.“}，{”key“：”e_1_2_1_41_1“，”volume-title“：”ICML结构化学习研讨会会议记录“，”author“：”Joseph J.“，“unstructured”：“Joseph J·Pfeiffer III，Jennifer Neville，and Paul N.Bennett.2013。在单个网络中，将主动采样与参数估计和预测相结合。ICML结构化学习研讨会论文集。约瑟夫·普菲费尔三世（Joseph J.Pfeiffer III）、詹妮弗·内维尔（Jennifer Neville）和保罗·贝内特（Paul N.Bennett）。2013年，在单个网络中将主动采样与参数估计和预测相结合。ICML结构化学习研讨会论文集。“}，{”key“：”e_1_2_1_42_1“，”volume-title“：”IEEE VIS会议（海报）。Citeseer。“，”author“：”Pienta Robert“，”year“：”2015“，”unstructured“：”Robert Pienta，Zhiyuan Lin，Minsuk Kahng，Jilles Vreeken，Partha P。Talukdar、James Abello、Ganesh Parameswaran和Duen Hong Polo Chau。2015 . AdaptiveNav：在大型图中发现本地有趣且令人惊讶的节点。IEEE VIS会议（海报）。Citeser。Robert Pienta、Lin Zhiyuan、Minsuk Kahng、Jilles Vreeken、Partha P.Talukdar、James Abello、Ganesh Parameswaran和Duen Hong Polo Chau。2015.AdaptiveNav：在大型图形中发现本地有趣且令人惊讶的节点。IEEE VIS会议（海报）。Citeser。“}，{”key“：”e_1_1_43_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1145\/2939672.2939808”}，“{”key“：“e_2_1_44_1”，“volume-title”：“第26届VLDB会议论文集.307-316”，“作者”：“Sarawagi Sunita”，“年份”：“2000”，“非结构化”：“苏尼塔·萨拉瓦吉。2000 . 多维数据的用户自适应探索。第26届VLDB会议记录。307--316 . 苏妮塔·萨拉瓦吉。2000.多维数据的用户自适应探索。在第26届VLDB会议记录中。307--316.“}，{”key“：”e_1_2_1_45_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1137\/080734029”}，}“key”：“e_1_i_1_46_1”，“volume-title”：“国际科学会议论文集和国际研讨会当代创新趋势”，“author”：“Takac Lubos”，”year“：“2012”，“unstructured”：“卢博斯·塔卡奇（Lubos Takac）和米查尔·扎博夫斯基（Michal Zabovsky）。2012 . 公共社交网络中的数据分析。《国际科学会议和国际研讨会论文集——当今创新趋势》。卢博斯·塔卡奇（Lubos Takac）和米查尔·扎博夫斯基（Michal Zabovsky）。2012年，公共社交网络数据分析。《国际科学会议和国际研讨会论文集——当今创新趋势》。“}，{”key“：”e_1_1_47_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1145\/3038912.3052665”}，“key”：“e_2_1_48_1”，“doi-assert-by”：“publisher”，”doi“：”10.1109\/ISIT.2006.261842“}”，{“：”e_1_2_1_50_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/ICDM.2013.167”}]，“container-title“：[“ACM Transactions on Knowledge Discovery from Data”]，“original-title”：[]，“language”：“en”，“link”：[{“URL”：“https:\/\/dl.ACM.org\/doi\/pdf\/10.1145\/344145”，“content-type”：“unspecified”，“content-version”：“vor”，“intended-application”：“similarity-checking”}]，“deposed”：{“date-parts”：[2023,1]]，“date-time”：”2023-01-01T21:28:16Z“，”timestamp“：1672608496000}，”score“：1，”resource“：{”primary”：{“URL”：“https:\/\/dl.acm.org\/doi\/10.1145\/344145”}}，“subtitle”：[]，“shorttitle”：[]，“issued”：}“date-parts”：[[2021,4,18]]}，《references-count》：50，“journal-issue”：{“issue”：“4”，“published-print”：{-“date-ports”：[2021,8,31]]}}，“alternative-id”：[“10.1145\/344145”]，“URL”：“http:\/\/dx.doi.org\/10.1145\/344145“，”关系“：{}，”ISSN“：[”1556-4681“，”1556-472X“]，”ISSN-type“：[{”值“：”1556-481“，”类型“：”打印“}，{”价值“：”2556-472X“，”类别“：”电子“}]，”主题“：[]，”已发布“：{”日期部分“：[2021,4,18]]}，“断言”：[{“价值”：“2019-08-01“，”订单“：0，”名称“：”已接收“，”标签“：”接收“，“组”：{“名称”：“publication_history“，”label“：”publication history“}}，”value“：”2020-12-01“，”order“：1，”name“：”accepted“，”tabel“：“accepted”，“group”：{“name”：“publication_history”，“label”：“publication-history”}，{“value”：“2021-04-18”，”orders“：2，”name：“published”，”label:“published”，”group“：