×

使用解密外交文件挖掘事件。 (英语) Zbl 1498.62345号

摘要:自1973年以来,美国国务院一直在使用电子记录系统来保存机密通信。最近,美国国家档案馆(U.S.National Archives)提供了1973-77年间大约190万份此类记录。虽然其中一些通信流具有传输速率加速的周期,但其他通信流在通信强度方面没有任何显著的模式。考虑到这些通信的数量之大,远远超过了迄今为止的可用数量,学者们需要自动化统计技术来确定需要进行更深入研究的通信。我们开发了一个统计框架,可以从大量文档中识别出历史学家认为更有趣的少数文档。我们的方法将非参数信号估计、统计假设检验和现代优化方法的技术结合在一起,形成了一套工具,帮助我们识别和分析通信流的各种几何方面。通过这些方法确定的活动加剧的主要时期,与20世纪70年代标准参考文献确定的历史事件非常吻合。

MSC公司:

62页99 统计学的应用
91F10层 历史、政治学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Atefeh,F.和Khreich,W.(2015)。Twitter中事件检测技术的调查。计算。智力。31 132-164.
[2] Auger,I.E.和Lawrence,C.E.(1989)。段邻域的最佳识别算法。牛市。数学。生物。第51页第39页第54页·Zbl 0658.92010号 ·doi:10.1007/BF02458835
[3] Beck,A.和Teboulle,M.(2009年)。线性反问题的快速迭代收缩阈值算法。SIAM J.成像科学。2 183-202. ·兹比尔1175.94009 ·doi:10.1137/080716542
[4] Beieler,J.、Brandt,P.T.、Halterman,A.、Schrodt,P.A.和Simpson,E.M.(2016)。近实时生成政治事件数据:机遇与挑战。计算社会科学(R.M.Alvarez编辑)98-120。剑桥大学出版社,剑桥。
[5] Bellman,R.和Roth,R.(1969年)。分段直线拟合曲线。J.艾默。统计师。协会。64 1079-1084. ·Zbl 1302.90239号 ·doi:10.1080/01621459.1969.10501038
[6] Bertsimas,D.、King,A.和Mazumder,R.(2016)。通过现代优化透镜选择最佳子集。安。统计师。44 813-852. ·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388
[7] Boysen,L.、Kempe,A.、Liebscher,V.、Munk,A.和Wittich,O.(2009年)。跳跃型最小二乘估计量的一致性和收敛速度。安。统计师。37 157-183. ·Zbl 1155.62034号 ·doi:10.1214/07-AOS558
[8] Brodsky,B.E.和Darkhovsky,B.S.(1993年)。变点问题中的非参数方法.数学及其应用243.多德雷赫特Kluwer学院·Zbl 0779.62031号
[9] Bruce,W.、Jentleson、Paterson,T.G.和Rizopoulos,N.X.(1997)。美国外交关系百科全书2.牛津大学出版社,纽约。
[10] Brune,L.H.和Burns,R.D.(2003)。美国对外关系年表:1933-1988。劳特利奇。国际标准图书编号9780415939164。可在https://books.google.com/books?id=nS0gs-YaTkC公司。
[11] De Conde,A.、Burns,R.D.、Logevall,F.和Ketz,L.B.(2002年)。美国外交政策百科全书纽约斯克里布纳。
[12] 佛兰德斯S.A.和佛兰德斯C.N.(1993)。美国外交辞典。麦克米伦图书馆参考。
[13] Gao,Y.、Goetz,J.、Connelly,M.和Mazumder,R.(2020年)。补充“使用解密外交文件挖掘事件”https://doi.org/10.1214/20-AOAAS1344补充, https://doi.org/10.1214/20-AOAS1344SUPPB
[14] Glaz,J.、Naus,J.和Wallenstein,S.(2001年)。扫描统计信息.统计学中的斯普林格系列纽约州施普林格·Zbl 0983.62075号
[15] Hanna,A.(2014)。使用手工编码的抗议数据评估gdelt。(访问日期:2016年7月29日)。网址:www.badhesian.org。
[16] Harmer,T.(2011)。阿连德的智利与美国冷战北卡罗莱纳大学出版社,北卡罗来纳州教堂山。
[17] Hastie,T.、Tibshirani,R.和Friedman,J.(2009)。统计学习的要素:数据挖掘、推理和预测,第2版。统计学中的斯普林格系列纽约州施普林格·Zbl 1273.62005年
[18] Hazimeh,H.和Mazumder,R.(2018年)。快速最佳子集选择:坐标下降和局部组合优化算法。预印。arXiv:1803.01454提供·Zbl 1457.90153号
[19] 何琪、张凯和林永平(2007)。分析事件检测的特征轨迹。第30届国际ACM SIGIR信息检索研究与开发会议记录207-214. 纽约ACM。
[20] Jackson,B.、Scargle,J.D.、Barnes,D.、Arabhi,S.、Alt,A.、Gioumousis,P.、Gwin,E.、Sangtrakulcharoen,P.、Tan,L.等人(2005年)。一种在区间上对数据进行优化分区的算法。IEEE信号处理。莱特。12 105-108.
[21] Jenkins,J.C.和Maher,T.V.(2016)。我们应该如何处理事件数据中的源选择?挑战、进展和可能的解决方案。国际社会学杂志。46 42-57.
[22] Johnson,N.A.(2013)。一种用于融合套索和L_0分割的动态规划算法。J.计算。图表。统计师。22 246-260.
[23] Killick,R.、Fearnhead,P.和Eckley,I.A.(2012年)。具有线性计算成本的最佳变化点检测。J.艾默。统计师。协会。107 1590-1598. ·Zbl 1258.62091号 ·doi:10.1080/016214592012.737745
[24] Kim,S.-J.、Koh,K.、Boyd,S.和Gorinevsky,D.(2009年)\(l_1)趋势过滤。SIAM版本。51 339-360. ·Zbl 1171.37033号 ·doi:10.1137/070690274
[25] Kleinberg,J.(2003)。流中的突发性和层次结构。数据最小知识。发现。7 373-397.
[26] Langbart,D.、Fischer,W.和Roberson,L.(2007年)。国家度量衡实验室。N1-59-07-3-P技术报告涵盖的记录评估,技术代表,大学公园:国家档案馆。
[27] Mammen,E.和van de Geer,S.(1997年)。局部自适应回归样条。安。统计师。25 387-413. ·兹比尔0871.62040 ·doi:10.1214/aos/1034276635
[28] Mazumder,R.、Friedman,J.H.和Hastie,T.(2011年)。备用网络:协调下降与非凸惩罚。J.艾默。统计师。协会。106 1125-1138. ·Zbl 1229.62091号 ·doi:10.1198/jasa.2011.tm09738
[29] Mazumder,R.、Radchenko,P.和Dedieu,A.(2017年)。带收缩的子集选择:信噪比低时稀疏线性建模。预打印。可从arXiv:1708.03288获取。
[30] Nesterov,Y.(2004)。凸优化入门讲座:基础课程.应用的优化87.Kluwer Academic,马萨诸塞州波士顿·Zbl 1086.90045号
[31] 于内斯特罗夫。(2013). 用于最小化复合函数的梯度方法。数学。程序。140 125-161. ·Zbl 1287.90067号 ·doi:10.1007/s10107-012-0629-5
[32] Olshen,A.B.、Venkatraman,E.S.、Lucito,R.和Wigler,M.(2004)。用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计学5 557-572. ·Zbl 1155.62478号 ·doi:10.1093/biostatistics/kxh008
[33] 佩奇·E.S.(1954)。连续检查计划。生物特征41 100-115. ·Zbl 0056.38002号 ·doi:10.1093/biomet/41.1-2.100
[34] 裴长丰,G.,徐瑜,J.,于,P.S.和卢,H.(2005)。文本流中的无参数突发事件检测。第31届超大数据库国际会议记录181-192. VLDB捐赠。
[35] Scott,A.J.和Knott,M.(1974年)。一种聚类分析方法,用于对方差分析中的均值进行分组。生物计量学507-512. ·Zbl 0284.62044号 ·doi:10.2307/2529204
[36] Tibshirani,R.J.(2014)。通过趋势滤波的自适应分段多项式估计。安。统计师。42 285-323. ·Zbl 1307.62118号 ·doi:10.1214/13-AOS1189
[37] Tibshirani,R.、Saunders,M.、Rosset,S.、Zhu,J.和K.奈特(2005)。通过融合套索实现轻盈流畅。J.R.统计社会服务。B.统计方法。67 91-108页·Zbl 1060.62049号 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[38] Truong,C.、Oudre,L.和Vayatis,N.(2018年)。变化点检测方法综述。CoRR.可从abs/1801.00718获得·Zbl 07160286号 ·doi:10.1109/TSP.2019.2953670
[39] Wasserman,L.和Roeder,K.(2009年)。高维变量选择。安。统计师。37 2178-2201 ·Zbl 1173.62054号 ·doi:10.1214/08-AOS646
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。