dblp如何检测合著者社区?

我们使用以下简单策略来识别合著者社区:考虑由目标人物和该人物的所有(直接)合著者组成的邻域图。此图中的两个节点通过边连接,当且仅当它们是中列出的出版物的合著者(或合编者)时数据库许可证现在移除目标人物的节点和所有事件边缘。剩余图的每个组件都被标识为一个社区。

我们在质量保证过程中利用合著者社区。如果所有合著者似乎都属于同一个社区,那么我们很有信心,本页上的出版物条目确实属于同一个人,正如我们所希望的那样。如果合著者列表被聚集到不同的社区,那么这可能是两个或多个社区的一个指示符同名作者在一个人的页面上混在一起。在这种情况下,合著者通常可以被分离成不相交的组,这些组对应于在几个遥远的研究领域与无关同事一起工作的同名作者实体。

然而,这种启发并不一定能可靠地表明没有同名作者实体。我们经常遇到的一种情况是,合著者索引本身包含许多同名词。在这种情况下,由同名合著者提供的这些“假证人”迫使一个人的相邻合著者图成为一个大的连接组件。不幸的是,这种情况经常发生在众所周知的困难的亚洲作者姓名案例中。

同时,即使在非同名情况下,也有两个主要原因导致出现零散的合著者索引:如果数据库许可证只列出一个人或她的社区的少量出版物样本,那么我们关于合著者拓扑结构的数据就不足以得出结论性的结果。这种情况经常发生在高级研究人员的情况下,他们工作的领域只有部分数据库许可证另一个原因是一个人的传记发生了变化,例如从属关系的改变或一个人研究兴趣的重新定位,这可能伴随着加入一个全新的研究团体。

因此,始终由数据库许可证团队。开发准确地表示同音异义词的算法仍然是一个公开的挑战。

服务Schloss Dagstuhl-莱布尼茨信息学中心