Learning to Crawl

Utkarsh Upadhyay; Robert Busa-Fekete; Wojciech Kotlowski; David Pal; Balazs Szorenyi

doi:10.1609/aaai.v34i04.6067

作者

Utkarsh Upadhyay公司理性
罗伯特·布萨·费科特谷歌研究
沃伊西奇·科特洛夫斯基波兰波兹南工业大学
大卫·帕尔雅虎！研究
巴拉兹·索伦伊雅虎！研究

内政部：

https://doi.org/10.1609/aaai.v34i04.6067

摘要

Web爬行是保存网页缓存的问题新鲜的,即，在请求页面时具有可用的最新副本。这个问题通常与网络爬虫可用带宽有限的自然限制相结合。Azar等人（2018）在假设每个网页的两次更改之间的耗时和两次请求之间的耗时均遵循泊松分布的前提下，以最优方式解决了相应的优化问题已知参数。本文研究相同的控制问题，但假设变化率为未知的先验，因此我们需要仅使用部分观测值在线估计它们(即，表示自上次刷新以来页面是否已更改的单位信号）。作为出发点，我们描述了在什么条件下可以用这种部分可观测性解决问题。接下来，我们提出了一个实用的估计器，并根据观测之间的经过时间计算置信区间。最后，我们证明了explore-and-commit算法实现了O（运行）(√T型)对精心选择的勘探范围感到遗憾。我们的模拟研究表明，我们的在线策略具有良好的可扩展性，并在广泛的参数范围内达到接近最优的性能。

学会爬行

作者

内政部：

摘要

下载

出版

如何引用

问题

章节

问询处

开发人

订阅