导航菜单

跳到内容

danielmiessler/不允许机器人

存储库文件导航

不允许机器人

RobotsDisallowed项目是对世界顶级网站的robots.txt禁止目录的收获,特别是Alexa 100K和Majestic 100K的目录。

这个不允许目录列表是在web安全评估或漏洞奖励期间补充内容发现的一个很好的方法,因为网站所有者基本上是这样说的:,

“别走,里面有敏感的东西!

换句话说,这是一个潜在的高价值目标列表。

项目

因此,我们所做的是获取Alexa Top 100000网站,下载他们的robots.txt文件,提取所有不允许的目录,然后对它们进行一系列清理(它们乱七八糟),使列表在web评估期间尽可能有用。

历史记录和更新

  • 该项目最初创建于2017年,使用Alexa 100K。
  • 该项目最后一次更新是在2019年3月,并使用了10万美元前10万美元。除了使用Majestic列表而不是Alexa(Alexa采用付费模式)之外,我们还切换到Chromium作为用户代理(而不是curl),简化了文件结构,并创建了/archive目录,以便可以保存旧版本的文件。旧代码目录也在其中。最后,我们删除了实际的robots.txt文件,因为……好吧,它们很大而且毫无价值。

如何使用项目

  1. 将目录克隆到您的系统。
  2. 根据您正在进行的评估选择要使用的文件。如果你有很多时间,也许可以选择一件较大的上衣-N个列表——如果你有较少的时间,使用较小的列表。

然而,我个人最喜欢的选择是策划.txt列表,因为它只有大约500个项目,并且是包含以下字符串和内容的目录集合:

  • “管理员”
  • “用户”
  • “帐户”
  • “密码”
  • “忘记”
  • “登录”
  • “备份”
  • 完整列表中的前25项

简而言之,这是最好中的最好。我在博客上写了更多关于在这里.

TL;博士:如果你想充分利用你的时间策划.txt.

信用卡

这个概念并不新鲜。RAFT项目是第一个这样做的项目,我们感谢他们开创了这一想法。但是这个项目现在已经过时了,而且由于这个想法在保持最新的情况下效果最好,我们决定以RobotsDisallowed的形式对其进行更新。

大喊大叫

非常感谢杰森·哈迪克斯蒂姆·汤姆斯在推特上和他们在世界各地的赏金/侦察/黑客演讲中谈论该项目。

反馈

如果您对需要改进的方面有任何想法,请发送电子邮件至github@danielmiessler.com或提交拉取请求。

谢谢你,祝你黑客愉快!

关于

最常见和最有趣的robots.txt目录的管理列表不允许使用。

资源

星星

观察者

叉子

发布

未发布版本

包装

未发布包