句子的结构可以表示为一个网络,其中顶点是单词,边表示句法依赖。有趣的是,交叉句法依赖在人类语言中并不常见。这就引出了一个问题,即语言过境点的稀缺是否源于对过境点的独立和具体限制。我们提供的统计证据表明,情况并非如此,因为可以通过一个简单的预测器,根据两个依赖项在给定长度的情况下交叉的局部概率的零假设,准确估计来自多种语言的句子的依赖项交叉比例。该预测器的相对误差从未超过平均而言,而假设句子中单词的随机顺序的基线预测值的误差至少要大六倍。我们的结果表明,自然语言中交叉频率低既不是由语言的隐藏知识引起的,也不是由交叉的不受欢迎引起的就其本身而言但这仅仅是依赖长度最小化原则的副作用。
内政部:https://doi.org/10.103/PhysRevE.96.062304(物理版)
网络