计算机科学>计算与语言
标题: 一个国家,700多种语言:印尼NLP对代表性不足的语言和方言的挑战
摘要: 由于缺乏资源和对代表性不足的语言和方言所带来的挑战的认识,NLP研究受到阻碍。 我们以印尼所说的语言为重点,概述了印尼700多种语言的NLP研究现状。印尼是世界上语言多样性第二大、人口第四大的国家。 我们强调印尼NLP面临的挑战以及这些挑战如何影响当前NLP系统的性能。 最后,我们提供了一般性建议,以帮助开发NLP技术,不仅适用于印度尼西亚语言,也适用于其他代表性不足的语言。