显示带有标签的帖子侦查.显示所有帖子
显示带有标签的帖子侦查.显示所有帖子

2007年11月2日星期五

在BibSonomy中检测重复项

我们最近添加的一个功能是检测用户出版物列表中的重复引用。在系统的设计过程中,我们讨论了如何在不同用户的引用不相同时找到它们之间的链接。因此,我们必须解决两个问题:首先,我们必须找到重复的条目,其次,它必须快速,因为几乎所有页面都要检查重复的条目以提供良好的浏览效果。

我们提出的解决方案是散列键。该系统能够处理四个不同的哈希键。目前我们使用其中的两个,内部散列和内部散列。

这个内部散列避免用户库中的重复项,并尝试只查找大致相同的条目。为了计算这个散列值,我们使用标题、类型、作者、编辑、年份、期刊、书名、卷、数字字段,只进行了轻微的规范化。该散列还确保用户在其库中只能有一次特定的出版物,但条目必须几乎100%相同。

这个内部散列key旨在找到尽可能多的相似出版物,以支持系统内的浏览,并将用户指向具有相似兴趣的其他用户。因此,哈希键仅基于高度规范化的标题、年份和作者/编辑信息。通过这种方式,我们还可以识别依赖于不同拼写的条目,例如作者姓名。

这个新的重复检测该特性基于interhash进行重复检测,以检测用户库中的重复项。由于内部散列键对条目中的几乎每一个更改都起作用,因此它允许存储非常相似的条目,例如只对书名进行小的更改。interhash键能够检测到这些类似的条目,并列出用户发布列表中至少出现两次的所有用户发布。选中此列表可以删除不需要的重复项并清理出版物列表。

我们希望此功能有帮助。玩得高兴

安德烈亚斯

热门帖子