二○○七年四月二十七日(星期五)

本周特色:信息提取支持从主页导入参考

本周帖子的今天功能将为您指出系统的一个隐藏功能。众所周知,获取出版物元数据的一种方法是使用BibSonomy的屏幕抓取功能。可以找到支持的站点列表在这里并不断扩展。今天我们发布了一款新的刮板Highwire公司LibraryThing图书馆。也可以编写自己的扩展。提供了内部刮板接口的说明在这里并允许您为BibSonomy实现scraper。

在列表的末尾,您可以找到IEScraper,它不是为特殊网页设计的,而是通过导入“常用”格式的出版物元数据来支持您,如以下所示:

Emma Tonkin和Marieke Guy。民间分类法:整理标签。D-Lib,第12卷(1),2006年1月。
您可以在以下位置找到:
http://www.cs.bris.ac.uk/Publications/pub_info.jsp?id=2000478
要使用此刮板,您必须突出显示要复制的引用的文本,然后按post_publication按钮。背景中发生的情况是:标记的引用被发送到BibSonomy服务器,由于没有其他刮板能够处理此类条目,IEScraper处理条目并尝试查找引用的不同部分,例如:作者、标题或年份。最后在发布输入掩码中找到一个预填充表单,其中包含scraper能够提取的所有信息。现在您可以添加标签并调整条目。例如,BibSonomy中的上述条目:

http://www.bibsonomy.org/bibtex/29488117bf156fe15b2fb3b8ab4376dec/hotho

不幸的是,信息提取技术无法正确处理所有条目。对于以下条目:

菲利普·西米亚诺(Philipp Cimiano)、安德烈亚斯·霍托(Andreas Hotho)、斯特芬·斯塔布(Steffen Staab)。比较概念聚类、分区聚类和聚合聚类,以便从文本中学习分类法。欧洲人工智能会议记录(ECAI'04)。2004

标题和作者提取正确,但书名错误。它也包含了缺失的年份。你必须手动纠正这个错误。我们正在记录此更正并使用此类信息来调整IEScraper。目前,我们必须手动启动培训过程,但我们正在进行自动学习设置。

我们希望这一功能能够支持那些在普通数字档案馆而不是研究人员主页上找到参考文献的所有人。由于IEScraper并不完美,它承担了相当多的工作,我们希望您觉得这个功能很有用。


玩得高兴!

安德烈亚斯

热门帖子