×

自然语言的熵:理论与实验。 (英语) Zbl 0817.94003号

摘要:自然语言熵的概念,首先由引入C.E.香农【通信数学理论,贝尔系统技术杂志27,379-423(1948)】及其意义进行了讨论。本文综述了语言熵的各种已知方法和前人的研究成果。提出了一种新的改进的印刷文本熵上下界计算方法。该方法是香农预测(猜测)方法的改进[C.E.香农《印刷英语的预测和熵》,贝尔系统。《科技期刊》30,50-64(1951)]。下界的计算被证明是一个经典的线性规划问题。给出了边界估计的统计分析,并阐述了实验数据的统计处理程序(包括统计有效性和重要性的验证)。该方法已在一个大型实验(1000个独立样本)中应用于印刷希伯来文文本,以评估希伯来语的熵和其他信息理论特征。结果证明了新方法的有效性:与原始Shannon方法相比,熵的上下限之间的差距缩小了2.25倍。给出了与其他语言的比较。简要讨论了该方法的可能应用。

MSC公司:

第94页第17页 信息的度量,熵
62B10型 信息理论主题的统计方面
68T50型 自然语言处理
68立方英尺 知识表示
94-01 与信息与传播理论相关的介绍性说明(教科书、教程论文等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Shannon,C.E.,《通信数学理论》,贝尔系统。《技术期刊》,27,379-423(1948)·Zbl 1154.94303号
[2] Shannon,C.E.,《印刷英语的预测和熵》,贝尔系统。《技术期刊》,第30卷,第50-64页(1951年)·Zbl 1165.94313号
[3] Mandelbrot,B.,《语言统计结构的信息论》(Jackson,W.,《传播理论》(1953),学术出版社:纽约学术出版社),486-502
[4] Yaglom,A.M。;亚格罗姆,I.M。;Dobrushin,R.L.,《信息理论与语言学》,Voprosy Yazykoznaniya(语言学问题),1100-110(1960)
[5] Herdan,G.,《语言作为选择和机会的高级理论》(1966),施普林格:施普林格柏林·Zbl 0070.14805号
[6] Rychkova,N.,语言学和数学,Nauka Zhizn(科学与生活),第9期,76-77页(1961年)
[7] 康德拉托夫,A.M.,《信息理论与诗学》,Probl。赛博。,9,279-286(1963),(俄语节奏的熵)
[8] Reingold,Z.,通过改进的预测方法评估语言的熵,并将其应用于印刷希伯来语,(理学硕士论文(1980),Tel-Avi大学)
[9] Hillberg,W.,Der bekannte Grenzwert Der redundanzfreien Information in Texten-eine Fehlinterlation Der Shanonschen Experimente?,《频率》,44,243-248(1990)
[10] 埃贝林,W。;Nicolis,G.,《符号序列的世界频率和熵:动态透视》,《混沌、孤子和分形》,2635-650(1992)·Zbl 0795.68160号
[11] 尼科利斯,J.S。;Katsikas,A.A.,《句法和语义层面上语言类过程的混沌动力学:追求多重分形生成器》(West,B.,《生命科学非线性研究》(1992),世界科学:世界科学新加坡)
[12] Kuepfmueller,K.,《德语的熵》,Fernmeldetechnische Zeitschrift(J.Telecommun.),VII,265-272(1954)
[13] Ladany,S.P.,希伯来语信息处理设备设计的有效数据,第37届ASIS年会论文集,11(1974),华盛顿特区
[14] Y.Choueka。;Yeshurun,S.,《现代希伯来文散文的统计方面》,以色列信息处理协会第五届全国会议记录(1969年),耶路撒冷
[15] Grassberg,P.,估计符号序列和有效代码的信息上下文,IEEE Trans。通知。理论,IT-35669-675(1989)
[16] N.G.伯顿。;Licklider,J.C.R,印刷英语统计结构中的长期约束,Amer。心理学杂志。,68, 650-653 (1955)
[17] Piotrovskaia,A.A。;彼得罗夫斯基,R.G。;Razzhivin,K.A.,《俄语的熵》,Voprosy Yazykoznaniya(语言学问题),第6期,第115-130页(1962年)
[18] Yaglom,A.M。;Yaglom,J.M.,《概率与信息》(1973),科学出版社:科学出版社列宁格勒·Zbl 0544.94001号
[19] 盖,T.M。;King,R.C.,《英语熵的收敛赌博估计》,IEEE Trans。通知。理论,IT-24,413-421(1978)·Zbl 0382.94013号
[20] Piotrovski,R.G.,《语言的信息测量》(1968),科学出版社:科学出版社列宁格勒
[21] Piotrovski,R.G.,《四种欧洲语言的熵和冗余》,语言学统计方法,第5卷(1969年),斯德哥尔摩
[22] Piotrovski,R.G.,《文本、计算机、人》(1975),科学出版社:科学出版社列宁格勒
[23] Petrova,N。;彼得罗夫斯基,R.G。;Giraud,R.,书面法语的熵,公牛。学会语言学家。巴黎,59130-152(1964)
[24] 博古斯拉夫斯卡娅,G.P。;诺瓦克,洛杉矶,《英语和罗马尼亚语言的熵》,《语音统计》,第二期(1968年),明斯克
[25] Boguslavskia,G。;科泽内克,T。;Piotrovski,R.G.,《文本的信息估计》,ZPhSK(J.语音,语言学委员会研究),24(1970)
[26] 洛杉矶诺瓦克。;彼得罗夫斯基,R.G。;Tagliavani,C.,罗马尼亚语言熵预测实验,统计语言学,第3卷(1971),博洛尼亚
[27] 科罗连科,I.A。;马特科夫斯基,I.V。;洛杉矶诺瓦克。;Piotrovski,R.G.,《罗马尼亚语和摩尔多瓦语文本的熵》,罗马尼亚语言比较和类型学研究协调会议(1964年),列宁格勒
[28] Baytanaieva,D.A。;Bektaiv,K.B.,《哈萨克语文本的熵》,SKT(哈萨克文本统计),第三期(1973年),阿拉木图
[29] Kazarian,R.A.,《亚美尼亚语文本熵的评估》,新闻学院。科学。亚美尼亚(物理和数学科学),第14卷,第161-173页(1961年)
[30] Lenskoi,D.N.,《关于Adyghe印刷文本熵的评估》,卡巴迪诺·巴尔卡尔斯基大学科学笔记(物理和数学系列),第16期,165-166(1962),纳尔契克
[31] Doleíel,L.,《捷克语书面语的熵和冗余预测》,斯洛文尼亚语,24,165-175(1963)
[32] Savchuk,A.P.,《俄语熵的实验评估》(数学方法在小说语言研究中的应用会议(1961年),苏联科学院),戈尔基·Zbl 0147.38403号
[33] Gut,A.V.,《波兰印刷文本的熵》,(理学硕士论文(1966年),列宁格勒州立大学:列宁格鲁州立大学)
[34] C.Georgiev,Ch,保加利亚语的信息测量,博士论文(1973年),列宁格勒
[35] Fano,R.M.,《信息传输》(1960年),麻省理工学院出版社:麻省理学院出版社剑桥和纽约威利出版社·Zbl 0151.24402号
[36] 布尔巴吉,N.,《拓扑总论》,《数学元素》,利夫雷三世(1960),赫尔曼:赫尔曼·巴黎,第一部分·Zbl 0102.27104号
[37] Danzig,G.B.,《线性规划与扩展》(1963年),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·兹伯利0108.33103
[38] Basharin,G.P.,《关于独立随机变量序列熵的统计估计》,理论探索。申请。,4, 333-336 (1959)
[39] 莱维汀,L.B。;Reingold,Z.,《离散随机变量熵的改进估计》(1978年),以色列统计协会年会,Tel-Aviv大学:以色列统计协会年度会议,Tel-Aviv大学
[40] der Waerden,B.L.Van,《数理统计》(1957),《施普林格:柏林施普林格》·Zbl 0077.12901号
[41] Lehmann,E.L.,《非参数:基于等级的统计方法》(1975),《霍尔登·戴:霍尔登·戴旧金山》·Zbl 0354.62038号
[42] Y.Choueka,《私人通信》(1979年)。;Y.Choueka,《私人通信》(1979年)。
[43] Bar-Hillel,Y.,《语言与信息》(1964),艾迪森·卫斯理和学术出版社:艾迪森·卫斯理和学术出版社耶路撒冷,(关于其理论和应用的论文选集)·Zbl 0158.24102号
[44] Dobrushin,R.L.,《语言学中的数学方法》(《数学教育》(1961年),Phizmatgiz:Phizmatgiz Moscow),第37-60页,第6期
[45] 加马什,V.A。;基里洛夫,东北部。;Lebedev,D.S.,《消息源统计特性的实验研究》,Problemy Pered。Inf.(图书:信息传输问题),第5000-000期(1960年),莫斯科
[46] Barnard,G.A.,四种西方语言单词熵的统计计算,IRE Trans。通知。理论,IT-1,49-53(1955)
[47] Ladany,S.P.,《印刷希伯来语的结构及其传输信息的效率》,《希伯来文计算》。语言学家,469-82(1971)
[48] Wanas,文学硕士。;扎耶德,A.I。;Shaker,M.M。;Taha,E.H.,阿拉伯语文本的一阶、二阶和三阶熵,IEEE Trans。通知。理论,IT-22000-123(1978)
[49] Manfrino,R.,《葡萄牙印刷熵:统计计算》,IEEE Trans。通知。理论,IT-16000-122(1970)
[50] 莱维汀,L.B。;Reingold,Z.,用改进的预测方法评估印刷希伯来语的熵,IEEE会议论文集(1979),以色列Tel-Avi
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。