创建匈牙利电子邮件阅读器的实际挑战启动了我们的统计文本分析工作。起点是文本语言自动识别的统计分析。后来它被扩展到自动重新生成变音符号和更详细的语言结构分析。对三种不同语言(匈牙利语、德语和英语)进行平行研究,使用相似大小的文本语料库,可以探索相似性和差异性。使用了可公开获取的互联网资源的公司。所有语言的语料库大小都相同(约20Mbytes,25-350万单词形式)。除了传统的语料库覆盖率、字长和出现次数统计外,还计算了韵律边界的一些新特征(句子的起始位置和结束位置,逗号前后)。除此之外,研究发现,在40-85%的覆盖范围内,语料库中最常见单词的覆盖率对所有语言都遵循平行对数规则,这就是语言学中的Zipf定律。英语和德语的函数比匈牙利语的函数更接近。还得出了进一步的结论。文中详细讨论了语言检测和变音符号再生的应用,以及对匈牙利语语音生成的影响。此外,还可以预见各种进一步的应用领域,如预测文本输入、单词连字、语音识别中的语言建模、基于体的语音合成等。
[1] Dafydd Gibbon-Roger Moore-Richard Winski 1998年。口语特征。Mouton de Gruyter,海牙。
口语特征 , ().
古腾堡项目。
(HTTP://WWW.GUTENBERG.AOL.DE)
[hel]匈牙利电子图书馆。
(HTTP://WWW.MEK.IIF.HU)
[kat]卡托利库斯·比布利亚。
(HTTP://WWW.EXTRA.HU/zentiras)
[2] 基尔加里夫,亚当,2002年。BNC数据库和词频列表。
(HTTP://WWW.ITRI.BTON.AC.UK/~Adam.Kilgarriff/BNC-README.HTML)
詹姆斯国王的圣经。
(HTTP://WWW2.CCIM.ORG/BIBLE/DCB.HTML)
[3] 李文田,2002。参考Zipf定律的书目。
(HTTP://LINKAGE.ROCKEFELLER.EDU/WLI/ZIPF/)
[4] Németh,Géza-Csaba Zainkó,2001年。基于词单元的文本语料库多语种对比分析。收录于:《欧洲演讲会论文集》20012035-8。丹麦奥尔堡。
'基于词单元的文本语料库多语种对比分析 ' , .
[am]美国标准版圣经。
(HTTP://EBIBLE.ORG/BIBLE/ASV)
[dig]数字图书馆学院。
(HTTP://ALFRED.NEUMANN-HAZ.HU)
埃尔伯费尔德圣经。
(HTTP://HEILIGE-SCHRIFT.SYTES.NET)
[5] Németh,Géza-Csaba Zainkó-LászlóFekete-Gábor Olaszy-Gаbor Endrédi-Péter Olaszi-Gézza Kiss-Pèter Kis 2000。匈牙利电子邮件阅读器的设计、实现和操作。摘自:《国际语音技术杂志》3:217-36。
匈牙利电子邮件阅读器的设计、实现和操作 , ()217 -36 .
[6] Popescu,Ioan-Iovitz 2002年。关于拉瓦莱特非线性齐夫定律。
(HTTP://WWW.GEOCITIES.COM/IIPOPESCU/Zipfs_LAW.HTML)
[7] Roukos,Salim,1996年。语言表达。收录:Ronald A.Cole-Joseph Mariani-Hans Uszkoreit-Annie Zaenen-Victor Zue(编辑)人类语言技术现状调查。剑桥大学出版社,剑桥。
语言表达 , ().
(HTTP://CSLU.CSE.OGI.EDU/HLT#SURVEY/CH1NODE8.HTML#SECTION16)
[8] Petr Sojka,1995年。TEX中复合词连字符的注释。收录:《TUG’95学报》,1995年9月,290-6。
TEX中复合词连字符的注意事项 , ()290 -6 .
[9] 瓦拉迪,塔马斯,1999年。关于开发匈牙利国家语料库。摘自:《佩拉·文塔尔(编辑)语言技术-多语言方面研讨会论文集》,第32届欧洲语言学会年会,斯洛文尼亚卢布贾纳,57-63。卢布尔雅那大学艺术学院。
关于匈牙利民族语料库的开发 , ().
编辑
主编:Katalin等人。亲吻,费伦斯·基弗
编辑: 埃瓦·德卡尼
技术编辑: 佐尔坦·G·基斯
评论编辑: 贝塔·居里(Beáta Gyuris)
编辑委员会
语言学院学报 地址:Benczür u.33。匈牙利布达佩斯HU–1068 电话:(+36 1)351 0413;(+36 1)321 4830转154 传真:(36 1)322 9297 电子邮件:ala@nytud.mta.hu
索引和抽象服务:
字符限制500/500