标题
BibSonomy博客
关于的新闻
www.bibsonomy.org
显示带有标签的帖子
侦查
.
显示所有帖子
显示带有标签的帖子
侦查
.
显示所有帖子
2007年11月2日星期五
在BibSonomy中检测重复项
我们最近添加的一个功能是检测用户出版物列表中的重复引用。
在系统的设计过程中,我们讨论了如何在不同用户的引用不相同时找到它们之间的链接。
因此,我们必须解决两个问题:首先,我们必须找到重复的条目,其次,它必须快速,因为几乎所有页面都要检查重复的条目以提供良好的浏览效果。
我们提出的解决方案是散列键。
该系统能够处理四个不同的哈希键。
目前我们使用其中的两个,内部散列和内部散列。
这个
内部散列
避免用户库中的重复项,并尝试只查找大致相同的条目。
为了计算这个散列值,我们使用标题、类型、作者、编辑、年份、期刊、书名、卷、数字字段,只进行了轻微的规范化。
该散列还确保用户在其库中只能有一次特定的出版物,但条目必须几乎100%相同。
这个
内部散列
key旨在找到尽可能多的相似出版物,以支持系统内的浏览,并将用户指向具有相似兴趣的其他用户。
因此,哈希键仅基于高度规范化的标题、年份和作者/编辑信息。
通过这种方式,我们还可以识别依赖于不同拼写的条目,例如作者姓名。
这个
新的重复检测
该特性基于interhash进行重复检测,以检测用户库中的重复项。
由于内部散列键对条目中的几乎每一个更改都起作用,因此它允许存储非常相似的条目,例如只对书名进行小的更改。
interhash键能够检测到这些类似的条目,并列出用户发布列表中至少出现两次的所有用户发布。
选中此列表可以删除不需要的重复项并清理出版物列表。
我们希望此功能有帮助。
玩得高兴
安德烈亚斯
较旧的帖子
主页
订阅:
立柱(原子)
热门帖子
本周特色:在推特上分享BibEconomic的新帖子
不久前,我们在推特上被问及关于BibSonomy的推特集成(顺便说一下,请关注推特上的@BibSonomyCrew,了解最新。。。
本周特色:回顾与讨论
处理文学作品的两个重要方面是在同事之间分享文学作品的过程以及交流思想和想法。。。
本周特色:个人实体
现在是假期,因此我们本周的活动比较零星,但本周我们想让您了解一下当前的发展情况。。。
版本3.9.2
亲爱的BibSonomy用户,在圣诞节/节假日的时候,我们完成了BibSonomy 3.9版的工作。。。。