×

CCGbank:从Penn树库中提取的CCG派生和依赖结构语料库。 (英语) 兹比尔12346.8412

摘要:本文提出了一种将Penn Treebank翻译为组合范畴文法(CCG)派生语料库的算法,该语料库增加了局部和远程单词依赖性。由此产生的语料库CCGbank包含宾夕法尼亚树库中99.4%的句子。它可从语言数据联盟获得,并用于训练覆盖范围广的统计解析器,以获得最先进的依赖恢复率。为了获得足够的CCG语言分析,并消除原始注释中的噪音和不一致,需要对Penn Treebank中的结构和注释进行广泛分析,并且需要对Treebank进行大量更改。我们讨论了我们的发现对从树库中提取其他语言表达语法以及设计未来树库的意义。

MSC公司:

68T50型 自然语言处理
第68季度第42季度 语法和重写系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Ajdukiewicz Kazimierz,《波兰逻辑》第1920页–(1935)
[2] 内政部:10.2307/410452·doi:10.2307/410452
[3] 内政部:10.1007/BF00370157·Zbl 0718.03020号 ·doi:10.1007/BF00370157
[4] Carpenter Bob,计算语言学17(3),第301页–(1991)
[5] 内政部:10.1017/S1351324905003943·doi:10.1017/S1351324905003943
[6] Dowty David,《语言学研究》第9页,第393页–(1978年)
[7] DOI:10.1023/B:ROLC.0000016736.80096.76·Zbl 1076.68100号 ·doi:10.1023/B:ROLC.0000016736.80096.76
[8] 霍夫曼·贝里尔,IRCS报告第95页–(1995)
[9] DOI:10.1023/A:1005311532280·doi:10.1023/A:1005311532280
[10] 内政部:10.1007/BF00984961·doi:10.1007/BF00984961
[11] DOI:10.1093/logcom/4.1.1·Zbl 0802.68100号 ·doi:10.1093/logcom/4.1.1
[12] 马库斯·米切尔(Marcus Mitchell P),《计算语言学》(Computational Linguistics)19,第313页–(1993)
[13] 内政部:10.2307/413534·doi:10.2307/413534
[14] 内政部:10.1162/089120105774321073·Zbl 1234.68430号 ·doi:10.1162/089120105774321073
[15] 内政部:10.1162/0891201053630264·doi:10.1162/0891201053630264
[16] 波拉德·卡尔,《语言学研究》,第23页,第261页–(1992年)
[17] DOI:10.1016/j.cogsci.2004.05.002·doi:10.1016/j.cogsci.2004.05.002
[18] 内政部:10.2307/414385·数字对象标识代码:10.2307/414385
[19] DOI:10.1023/A:1006409422158·doi:10.1023/A:1006409422158
[20] 内政部:10.1007/s11168-006-9010-2·doi:10.1007/s11168-006-9010-2
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。