关于LogEc


LogEc从使用经济学研究论文最大的在线数据集收集经济学工作论文、期刊文章和软件组件。LogEc提供了一种方便的方法来跟踪专业(在RePEc中可以找到它,然后它会出现在期刊上)和你自己工作的影响。

请联系如果你对这个网站或统计数据有任何疑问。

贡献和宣传您的工作

出版商和工作底稿提供商:
打开RePEc存档去拿你的材料在下面的RePEc服务和LogEc的使用统计中列出。

作者:
在中注册您自己和您的作品RePEc作者服务.这些注册是作者第页。

如果您的组织没有向RePEc提供数据(应该!),您可以将您的作品上传至RePEc和EconPapers这个慕尼黑个人RePEc档案(MPRA),接受个人贡献的特殊RePEc档案。
经济学论文检索,经济工作文件档案,过去常常扮演这个角色,但现在不再接受新的论文。

网站

LogEc目前从以下站点和服务收集访问统计信息提供对RePEc数据集的访问

  • 经济学家在线(2010年1月至2013年12月的统计数据)
  • 经济用纸(2001年至2007年的统计数据)
  • 思想(1998年至2005年的统计数据,2000年至2010年的下载量)
  • NetEc(1998年1月至2005年3月的统计数据)
  • 新经济论文(2002-2006年的统计数据)
  • 社交网络(2001年至2001年的统计数据)

统计数据

收集并合并来自参与站点的服务器日志。

为访问web服务器生成有意义的统计数据是一项困难的任务,特别是因为我们正在合并来自几个不同站点的数据。而不是只需计算页面或文件被访问的次数(由人或软件索引web)的目标是尽可能接近度量通过阅读摘要页对论文表示兴趣的人数或下载全文文件。

为了实现这一点,我们

  1. 移除机器人和蜘蛛的通道。
  2. 避免重复计数。
  3. 应用额外的试探法以通过自动化流程和下载删除访问滥用权力。

虽然这些步骤的净效果并不完美,但它们产生的统计数据与观看论文摘要的实际人数非常接近或下载全文文件。请注意,下载计数仅包括下载通过单击参与RePEc服务中的下载链接进行。

机器人

机器人和蜘蛛(索引的软件网络)约占这些网站点击量的60%。统计数据是如果我们不删除机器人的访问权限,那么这完全是一种误导。

主要通过检查主机是否请求了/Robots.txt来识别机器人文件。机器人依附于机器人排除标准检查此文件以查看不应索引网站的哪些部分。

此外,还努力识别不请求/robots.txt和显示机器人行为的主机。这是统计数据的一个新特性引入了2002年11月的访问统计数据,同时历史数据对其进行了修订,使其具有可比性。这些“机器人式”主机通过查看用于访问次数过多的主机或主机组。主机是声明了一个robot,如果出现以下情况,则从统计数据中排除访问

  • 它访问了过多的项目
  • 它所属的C类网络的访问次数和项数过多。
  • 它属于googlebot.com或inktomisearch.com等已知包含机器人的域。
  • 还有一些我们不愿透露的其他启发。。。

2010年7月,这项调查确定了大约600个机器人,791000个抽象视图和5600个下载。除此之外,还有4300个机器人通过访问robots.txt来识别自己并进行计算超过2400万个抽象视图和大约600000个下载。
2007年7月,除了7900个访问过的机器人外,还发现了约1600个机器人robots.txt。新增的机器人有超过1260000个抽象视图和1500个全文下载。机器人的抽象视图总数超过400万(占总数的74%),超过25000个参与RePEc服务的全文下载(占总下载量的7%)。
2002年11月,除1400个机器人外,还确定了约150个机器人请求robots.txt。新增的机器人拥有超过600000个抽象视图和超过15000个抽象视图下载。对数据的检查证实这些确实是真正的机器人,或者,在少数情况下,人们会下载网站的大部分内容进行离线查看。总体这一额外步骤使抽象视图的累计数量减少了约45%并且对全文下载的影响很小。

机器人活动

显然,搜索引擎机器人占RePEc站点流量的很大一部分以及一般的互联网。很明显,这是由于希望有一个新的指数以及尽可能广泛的覆盖面。看看有多少请求来自不同的搜索引擎显示了它们在这方面的优势。
从顶级robot域访问
2007年7月2010年7月
摘要全文 摘要全文
inktomisearch.com1,240,7511636年 谷歌机器人网站4,993,788257,386
ask.com网站935242个0 雅虎网2,348,18813,767
谷歌机器人网站878,78710,460 scoutjet.com网站1,698,9913,246
attens.net网站*137,4950 msn.com网站1,458,308936
msn.com网站101,2690 扬德克斯.ru403,7348,553
exabot.com网站241,78315
百度185,2802
ask.com网站171,2765
亚马逊网站128,19824
*这是一个奇怪的怪兽,似乎不支持公开的搜索引擎。用户代理字符串为“ConveraCrawler/0.9d(http://www.authoritativeweb.com/crawl)"但它是从属于AT&T的网络上运行的。该URL没有提供任何有用的信息。

重复计数

当一个人多次浏览一个抽象页面时,就会发生重复计数或者,可能是因为不耐烦,多次点击下载链接。在每种情况下如果将其视为一个以上的抽象视图或文件下载,则会产生误导。为了避免重复计算,我们跟踪每次访问的原始IP编号并且对于每个IP号码仅计数对特定资源的一次访问。

避免重复计数的策略引入了例如,当防火墙后面的多台计算机共享同一台计算机时,计算不足外部IP编号。通过与通过使用cookie识别用户获得的统计数据进行比较与其说他们的IP号码,我们可以估计这一数字不足约2%浏览量和1%的下载量。

其他启发式

随着时间的推移,人们已经清楚地认识到,对机器人的简单过滤和消除双击的讨论以上是不够的。网络上开发了许多新的实践,有些是出于良好目的,有些是为了更多可疑目的。有垃圾邮件机器人、referer垃圾邮件(一个愚蠢的想法,如果有的话)、反恶意软件检查网页链接并警告用户危险链接的软件不计算在内。是的,似乎偶尔有人试图操纵统计数据。

从2010年7月开始,我们应用了一组额外的启发式方法来过滤这些访问。联合在此基础上,我们还重新计算了2008年1月的统计数据。整体效果相对较小但少量论文的访问次数大幅减少。

2017年1月,一种新型的系统下载主要影响了NEP公司检测到当前的感知服务。这导致了一套新的启发式方法,也应用于前几个月。一些因此,在未来几个月内,报纸的下载量或抽象浏览量将大幅减少。

2022年1月更新:类似机器人的访问量大幅增加,似乎与传统(大多数)性能良好的搜索引擎。相反,这看起来像是收集RePEc数据的努力出于不明确的目的(有更好的方法可以做到这一点,数据是免费提供).还有DDOS攻击的问题,如果没有正确识别,可能会扭曲统计数据。正确地从2022年1月起,将应用一组额外的过滤器来识别这些非人工访问。虽然也可能丢弃一些合法流量将提供更准确的计数。总的来说,这减少了摘要的数量访问量增加了54%,下载量增加了7%。这套新规则尚未追溯适用因此,时间序列中有一个中断,主要影响抽象访问。此更新到统计数据也在RePEc博客.

我们正在不断改进统计数据,并将随着时间的推移添加新的过滤器。

统计中的奇怪之处

有时下载的内容比为论文注册的抽象视图多。这主要是到期的有两个原因。新的论文在新经济学论文服务。该服务定期发送包含新论文信息的电子邮件,读者可以下载通过单击电子邮件中的链接可以查看论文,并且没有为此论文注册的抽象视图。此外,谷歌学者有时会直接链接到RePEc服务的下载链接而不是抽象页面。这可能导致比抽象视图更多的下载也注册了旧报纸。

数据的编程访问

有时我们会收到出于研究目的的数据请求。虽然我们没有资源来运行特殊创建自定义数据集的查询我们在web上显示的所有结果都以机器可读的形式提供作为标准的html表示。

只需附加参数“format=csv”,数据将作为选项卡分隔的文件返回。例如http://logec.repc.org/scripts/itemstat.pf?topnum=50;type=再生纸;排序=td;格式=csv将返回总下载量最高的50份工作文件。这适用于顶级工作论文、期刊文章、,书籍、章节、软件、作者、工作论文系列、期刊以及工作论文系列和期刊中的排名。

此外,还有一个工具可以获取作者声称的作品列表。这是authorworks.pf脚本。它接受一个参数id(作者的RePEc短id),并返回一个文本文件,其中包含作者声称的作品句柄。例如,http://logec.repc.org/scripts/authorworks.pf?id=pka1.然后可以使用paperstat.pf脚本获取每项工作的详细下载统计信息。

构造查询

使用web界面构造所需的查询,然后添加format=csv参数以获得可下载的文件。此外,一些脚本采用了无法通过web界面直接获得的参数:
authorstat.pf文件
作者-作者的短id。显示单个作者的统计信息。

信用

LogEc由运行卡我森由提供的硬件瑞典商学院厄勒布罗大学.

没有维护人员的协助和支持,LogEc是不可能实现的参与服务的托马斯·克里切尔(Thomas Krichel)、克里斯蒂安·齐默尔曼(Christian Zimmermann)、谢尔盖·帕里诺夫(Sergei Parinov)和何塞·曼纽尔·巴鲁科。

如果没有所有RePEc存档的工作,整个练习当然毫无意义提供有关工作文件、文章和软件项的数据的维护人员。而且如果没有RePEc团队.

还要感谢德国商业日报的Olaf Storbeck汉德尔斯布拉特关于如何改进统计数据的许多有用建议。Handelsblatt每周都有一个“经济学”页面它经常具有排名基于LogEc数据的《经济学人》论文。


第2022-02-08页更新