×

将信号与噪音分离——推特的金融机器学习。 (英语) Zbl 1517.91232号

摘要:学术文献中的大多数统计套利策略仅依赖于价格时间序列。相比之下,替代数据源对专业投资者来说越来越重要。我们通过评估2014年和2015年标普500指数成份股日内收益数百万条推文的价格预测价值,为弥合这一差距做出了贡献。为此,我们设计了一个机器学习系统来解决此任务固有的特定挑战。首先,在金融词典文献的基础上,我们将特定领域的特征分为三类,即方向性指标、相关性指标和元特征。接下来,我们利用一个随机森林,在低信噪比环境中提取这些特征与后续股票回报之间的关系。为了进行绩效评估,我们对所有推文和股票进行了严格的基于事件的回溯测试研究。我们发现年化回报率为6.4%,扣除交易成本后的夏普比率为2.2。最后,我们阐明了机器学习的黑匣子并揭示了盈利来源:首先,结果受到推文时间聚类的驱动和限制,即大多数利润来源于及时紧密聚集在一起的推文,对应于高发泄情况。其次,所包含功能的重要性遵循经济原理,例如,情绪积极的推文往往会产生积极的回报,反之亦然。第三,我们发现中等市值的股票以及来自消费者和技术部门的股票对我们的结果贡献最大,我们将其解释为推特报道和推特相关性之间的权衡。

MSC公司:

91G15型 金融市场
68T05型 人工智能中的学习和自适应系统
62P05号 统计学在精算学和金融数学中的应用
91天30分 社交网络;意见动态
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 安特卫勒,W。;弗兰克,M.Z.,所有的谈话都是噪音吗?互联网股票留言板的信息内容,J.Financ。,59, 3, 1259-1294 (2005)
[2] Asness,C.S.,价值和动量策略的相互作用,金融学。分析。J.,53,2,29-36(1997)
[3] Asness,C.S。;莫斯科维茨,T.J。;Pedersen,L.H.,《到处都是价值和动力》,J.Financ。,68, 3, 929-985 (2013)
[4] Avellaneda,M。;Lee,J.-H.,《美国股市的统计套利》,Quant。财务。,10, 7, 761-782 (2010) ·Zbl 1194.91196号
[5] Bekiros,S.D.,《具有自适应模糊actor-critic强化学习的异质交易策略:行为方法》,J.Econ。动态。控制,34,6,1153-1170(2010)·Zbl 1230.91052号
[6] Biau,G。;Scornet,E.,《随机森林导览》,TEST,25,2,197-227(2016)·Zbl 1402.62133号
[7] Bird,S。;克莱因,E。;Loper,E.,《使用Python进行自然语言处理》(2009),O'Reilly:O'Relly北京·Zbl 1187.68630号
[8] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·Zbl 1007.68152号
[9] Bybee,L。;Kelly,B.T。;Manela,A。;秀,D.,《经济新闻结构》,SSRN Electron。2019年(2019年)
[10] 达斯·S·R。;Chen,M.Y.,雅虎!对于亚马逊:从网上聊天中提取情感,Manag。科学。,53, 9, 1375-1388 (2007)
[11] Dudoit,S。;Fridlyand,J.,微阵列实验中的分类,(Speed,T.,基因表达微阵列数据的统计分析(2003),查普曼和霍尔/CRC:查普曼与霍尔/CRC纽约),93-158·Zbl 1108.62331号
[12] 恩克博士。;Thawornwong,S.,《使用数据挖掘和神经网络预测股市收益》,专家系统。申请。,29, 4, 927-940 (2005)
[13] Fama,E.F.,《有效资本市场:理论与实证研究综述》,J.Financ。,25, 2, 383-417 (1970)
[14] 菲舍尔,T.G。;Krauss,C.,《金融市场预测的长短期记忆网络深度学习》,欧洲期刊Oper。Res.,270,2,654-669(2018)·Zbl 1403.91387号
[15] Fischer,T.G。;克劳斯,C。;De惰性,A.,《加密货币市场的统计套利》,J.Risk Financ。管理。,12,1,31(2019)
[16] Fung,G.P.C。;于建新。;Lam,W.,《股票预测:利用实时新闻整合文本挖掘方法》,IEEE金融工程计算智能国际会议论文集,395-402(2003)
[17] Gatev,E。;Goetzmann,W.N。;Rouwenhorst,K.G.,《巴黎交易:相对价值套利规则的表现》,《金融评论》。螺柱,19,3,797-827(2006)
[18] Groth,S.S。;Muntermann,J.,基于文本分析的日内市场风险管理方法,Decis。支持系统。,50, 4, 680-691 (2011)
[19] Hagenau,M。;利伯曼,M。;Neumann,D.,《自动新闻阅读:基于使用上下文捕获功能的金融新闻的股价预测》,Decis。支持系统。,55, 3, 685-697 (2013)
[20] 标准普尔道琼斯指数,2018年。标准普尔500指数。网址:https://us.spindices.com/indices/equity/sp-500。
[21] 高盛,2016年。大数据在投资中的作用。网址:https://www.gsam.com/content/gsam/global/en/market-insights/gsam-insights/gsam-perspectives/2016/big-data/gsam-roundtable.html。
[22] Harish,B.S。;Guru,D.S。;Manjunath,S.,《文本文档的表示和分类:简要回顾》,《国际计算机杂志》。申请。特殊问题近期趋势图像处理。模式识别。,2, 110-119 (2010)
[23] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》,《统计学中的斯普林格系列》(2009),斯普林格-弗拉格:纽约斯普林格·Zbl 1273.62005年
[24] Henry,E.,收益新闻稿的撰写方式是否影响投资者?,J.总线。社区。,45, 4, 363-407 (2008)
[25] 黄,A.H。;勒哈维,R。;Zang,A.Y。;Zheng,R.,《分析师信息发现和解释角色:主题建模方法》,Manag。科学。,64, 2833-2855 (2018)
[26] Huck,N.,《大数据集和机器学习:统计套利的应用》,Eur.J.Oper。研究,278,1,330-342(2019)·Zbl 1414.91435号
[27] Jegadeesh,N。;Livnat,J.,《收入惊喜与股票回报》,J.Account。经济。,41, 1, 147-171 (2006)
[28] Jha,V.,《利用短期阿尔法对股权数量头寸进行计时》,J.Trading,11,3,53-59(2016)
[29] Halls Moore,M.,2014年。成功的算法交易。网址:https://www.quantstart.com/successful-algorithmic-trading-ebook。
[30] Ke,Z.T。;凯利,B。;Xiu,D.,用文本数据预测回报,芝加哥大学贝克·弗里德曼经济研究所工作文件,2019-69(2019)
[31] Khoshgoftaar,T.M。;胡尔斯,J.V。;Napolitano,A.,《增压和装袋技术与噪声和不平衡数据的比较》,IEEE Trans。系统。人类网络。A部分系统。Hum.,41,3,552-568(2011)
[32] 摩根大通,2018年。通过新的合作伙伴关系,在投资过程中测试自然语言处理。网址:https://www.jpmorgan.com/global/detail/1320565833239?source=cib_di_jp_mal0418。
[33] Kingma,D.P.,Ba,J.,2017年。亚当:一种随机优化方法。arXiv:1412.6980。
[34] Knoll,J。;Stübinger,J。;Grottke,M.,利用高阶因式分解机开发社交媒体:标准普尔500指数高频数据的统计套利,Quant。财务。,19, 4, 571-585 (2018) ·Zbl 1420.91548号
[35] 克劳斯,M。;Feuerriegel,S.,利用深度神经网络和转移学习从财务披露中获得决策支持,Decis。支持系统。,104, 38-48 (2017)
[36] 克劳斯,C。;Do,X.A。;哈克,N.,《深层神经网络、梯度增强树、随机森林:标准普尔500指数的统计套利》,《欧洲期刊·Oper》。决议,259,2689-702(2017)·Zbl 1395.91514号
[37] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436(2015)
[38] Leung,M.T。;Daouk,H。;Chen,A.-S.,预测股指:分类和水平估计模型的比较,国际预测杂志。,16, 2, 173-190 (2000)
[39] Loughran,T。;McDonald,B.,什么时候负债不是负债?文本分析、词典和10-ks,J.Financ。,66,1,35-65(2011年)
[40] McKinney,W.,《Python中统计计算的数据结构》,《第九届Pythons科学会议论文集》,445,51-56(2010)
[41] Nassirtoussi,A。;Aghabozorgi,S。;Ying Wah,T。;Ngo,D.C.L.,《市场预测的文本挖掘:系统综述》,专家系统。申请。,第41页,第16页,第7653-7670页(2014年)
[42] Oliveira,N。;科尔特斯,P。;Areal,N.,使用微博数据和统计方法获取股市情绪词汇,Decis。支持系统。,85, 62-73 (2016)
[43] Oliveira,N。;科尔特斯,P。;Areal,N.,《微博数据对股市预测的影响:使用推特预测回报、波动性、交易量和调查情绪指数》,专家系统。申请。,73, 125-144 (2017)
[44] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J.Mach。学习。第122825-2830号决议(2011年)·Zbl 1280.68189号
[45] Peramunetileke,D。;Wong,R.,澳大利亚新闻标题中的货币汇率预测。计算。科学。社区。,24, 2, 131-139 (2002)
[46] Statista,2018年a。2018年推特用户最多的国家。网址:https://www.statista.com/statistics/242606/number-of-active-twitter-users-in-selected-countries/。
[47] Statista,2018年b。推特:2010-2018年活跃用户数量。网址:https://www.statista.com/statistics/282087/number-of-monthly-active-twitter-users/。
[48] 纽约证券交易所,2018年。纽约证券交易所:节假日和交易时间。网址:https://www.nyse.com/markets/hours-calendars。
[49] 布拉格,R。;Vedbrat,S。;沃格尔,C。;Watt,E.,有流动性吗?,《技术报告》(2012),贝莱德投资研究所
[50] 北卡罗来纳州普洛赫斯。;Feuerriegel,S。;Neumann,D.,《使用贝叶斯学习生成特定领域的词典》,《ECIS 2015年已完成研究论文汇编》(2015年)
[51] Python软件基金会,2016年。Python 3.5.2文档。网址:https://docs.python.org/3.5/。
[52] R核心团队,R:统计计算的语言和环境(2016),R统计计算基金会:R统计计算基础,奥地利维也纳
[53] Schmidhuber,J.,《神经网络中的深度学习:概述》,神经网络。,61, 85-117 (2015)
[54] 舒梅克,R.P。;Chen,H.,基于金融新闻的定量股票预测系统,Inf.Process。管理。,45571-583(2009年)
[55] 舒梅克,R.P。;Zhang,Y。;黄,C.-N。;Chen,H.,评估金融新闻文章中的情绪,Decis。支持系统。,53, 3, 458-464 (2012)
[56] Segal,M.R.,机器学习基准和随机森林回归,加州大学旧金山分校:生物信息学和分子生物统计学中心(2004)
[57] QuantQuote,2018年。QuantQuote-日间股票历史数据。网址:https://quantquote.com。
[58] PostgreSQL全球发展集团,2018年。PostgreSQL数据库管理系统。网址:http://www.postgresql.org。
[59] Sprenger,T.O。;Sandner,P.G。;图马斯詹,A。;Welpe,I.M.,新闻还是噪音?使用推特识别和理解公司特定的新闻流,J.Bus。财务。账户。,41, 7-8, 791-830 (2014)
[60] Sprenger,T.O。;图马斯詹,A。;Sandner,P.G。;Welpe,I.M.,《推特和交易:股票微博的信息内容》,《欧洲金融》。管理。,20, 5, 926-957 (2013)
[61] Tetlock,P.C.,《为投资者情绪提供内容:媒体在股市中的作用》,J.Financ。,62, 3, 1139-1168 (2007)
[62] 泰特洛克,P.C。;Saar-Tschechansky,M。;Macskassy,S.,《不仅仅是文字:量化语言以衡量公司的基本面》,J.Financ。,63, 3, 1437-1467 (2008)
[63] 塔克,J.W。;Zarowin,P.A.,《收入平滑是否提高了收入的信息性?》?,账户。修订版,81,1,251-270(2006)
[64] Van Der Walt,S。;科尔伯特,S.C。;Varoquaux,G.,《numpy数组:高效数值计算的结构》,计算。科学。工程,13,2,22-30(2011)
[65] Varazzo,D.,2011年。psycopg2.网址:http://initd.org/psycopg/。
[66] 推特,2017年。给你更多的角色来表达自己。网址:https://blog.twitter.com/official/en_us/topics/product/2017/Giving-you-more-characters-to-express-yourself.html。
[67] 王,Y。;黄,M。;朱,X。;赵,L.,面向方面情感分类的基于注意的LSTM,《2016年自然语言处理实证方法会议论文集》,606-615(2016),计算语言学协会:计算语言学协会,德克萨斯州奥斯汀
[68] Wilson,J.,《从太空观察》,《玉米产量轨迹政府估算》,2015年(2015年),彭博新闻社
[69] 徐伟(Xu,W.)。;陈,Y。;科尔曼,C。;科尔曼,T.F.,《用于大型可变年金投资组合风险管理的矩匹配机器学习方法》,J.Econ。动态。对照,87,1-20(2018)·Zbl 1401.91525号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。