识别语义组件

首席研究员:
科林·贝克

在潜在的大规模毁灭性武器相关威胁出现之前,需要有能力从包括社交媒体在内的所有类型的数据中发现和分析低可观测的大规模杀伤性武器相关信息。为了帮助构建实现这一目标所需的健壮自然语言理解(NLU)系统,本项目研究了语义组件的自动识别,即可能以不同方式组成的语言意义的子词汇元素,以捕获单词的含义。它特别关注词汇意义方面的理论和表征,词汇意义是语言理解所依赖的认知结构的重要组成部分,但不容易在体派生的分布语义表征中捕获。ICSI研究人员将使用相互注册的三种现有资源自动识别语义组件。第一个是一组跨语言数据集,记录了跨语言语义类别的变化;这些允许识别跨语言重复出现的语义成分,这些语义成分形成了语义构建块的通用或近通用库,在不同的语言中进行不同的组合。第二种是非常详细的词汇资源,如FrameNet和WordNet,它们明确地捕捉单词之间的语义关系,包括对语言理解至关重要但很少直接表达的潜在概念格式塔或意义“束”。第三个是语体派生词共现统计。本项目将使用机器学习方法从这些资源的并置中识别语义组件,并根据人类单词相似性判断评估这些语义表示,以与其他语义表示方法的性能进行比较。

由DTRA资助。