%0论文%1辆奔驰2012捕获%多米尼克·A·奔驰%D 2012年%K bibsonomy citeulike美味flickr语义社交stackoverflow%从社会注释系统捕获涌现语义%X万维网的持续增长,加上通过各种设备无处不在的访问可能性的增加,继续加强其作为我们普遍的信息和通信媒介的作用。然而,尽管像搜索引擎这样的工具有助于检索,但最终理解Web内容的任务仍然常常留给人类来解释。在这种基于知识的活动中支持人和机器的愿景导致了不同系统的开发,这些系统允许通过元数据注释来构造Web资源。有趣的是,获得大量关注的两种主要方法是从几乎相反的方向解决问题:一方面,语义网的思想建议通过定义本体的“自顶向下”方法将特定领域中的知识形式化。另一方面,作为所谓的Web2.0运动的一部分,Social Annotation Systems使用任意关键字实现了一种“自下而上”的分类风格。经验和对这两个系统特征的研究表明,它们的优缺点似乎是相反的:虽然社会注释存在诸如歧义、缺乏或精确等问题,但本体论是专门为消除这些问题而设计的。相反,后者面临着知识获取瓶颈,而社会注释系统的大量用户成功地克服了这一瓶颈。这两种积极的方法结合在一起,以“弥合”两者之间的差距,从而产生明显的潜在协同效应,而不是被视为相互竞争的范式。这些都是由涌现语义的证据支持的,即社会注释数据中隐含概念结构的自组织演化。虽然提出了几种利用涌现模式的技术,但仍然缺少系统分析,尤其是本体学习领域的范式。这还包括对影响进化过程的环境的深入理解。这项工作旨在通过深入研究从社会注释系统捕获涌现语义的方法和影响因素来解决这一差距。我们在此关注从关键字、用户和资源的底层网络中获取词汇语义。根据不同的本体学习任务,我们使用语义基础方法来表征和评估不同方法捕获的语义关系。在所有情况下,我们的研究都是基于几个社会注释系统的数据集。具体来说,我们首先分析关键字之间的语义相关性,并确定检测不同相关性概念的度量。这些构成了概念学习算法的输入,然后重点关注同义词和歧义词的发现。在此,我们评估了各种聚类技术的有用性。作为诱导层次关系的先决条件,我们的下一步是研究量化特定关键字通用性水平的度量。我们发现,相对简单的度量可以近似于参考分类法中编码的一般性信息。这些见解用于通知最终任务,即创建概念层次结构。为此,与聚类方法相比,基于泛型的算法具有优势。为了补充识别合适的方法来捕获语义结构,我们下一步分析了影响它们出现的几个因素。经验证据表明,可用数据的数量对确定关键字含义起着至关重要的作用。从不同的角度,我们通过考虑用户之间的不同注释模式来检查语用方面。基于“分类者”和“描述者”之间的广泛区别,我们发现后者产生了更准确的结果。这表明关键词注释的语用和语义方面存在因果关系。作为一种特殊的使用模式,我们接下来将研究系统滥用和垃圾邮件。在观察到一个复杂的情况时,我们建议应该做出单独的决定,而不是在原则上忽视垃圾邮件发送者。最后,我们讨论了一组应用程序,这些应用程序将我们的研究结果运用于增强社会注释和语义系统。这些工具一方面包括促进语义出现的工具,另一方面包括利用社会诱导关系来改进的应用程序,例如搜索、浏览或用户分析工具。总之,这项工作的贡献突出了设计增强的基于知识的社会语义网服务的可行方法和关键方面。