×

具有约束的预测性电子表格自动完成。 (英语) Zbl 1440.68218号

摘要:电子表格可以说是最容易访问的数据分析工具,被数百万人使用。尽管它们是大多数商业实践的核心,但使用电子表格可能容易出错,公式的使用需要培训,而且至关重要的是,电子表格用户无法使用机器学习提供的最先进的分析技术。为了解决这些问题,我们引入了预测性电子表格自动完成的新任务,其目标是自动预测电子表格中缺少的条目。这项任务非常重要:单元格可以保存异构数据类型,并且它们的值之间可能存在未观察到的关系,例如约束或概率依赖。关键的是,没有给出准确的预测任务本身。我们考虑一个简化但非平凡的设置,并提出一个原则性概率模型来解决它。我们的方法结合了专门用于不同预测任务(例如分类、回归)的黑盒预测模型以及约束学习器检测到的约束和公式,并为所有目标细胞生成符合约束条件的最大可能预测。总的来说,我们的方法使我们离允许最终用户在其工作流中利用机器学习更近了一步,而无需编写一行代码。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H22个 概率图形模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arora,S。;哈赞,E。;Kale,S.,乘法权重更新方法:元算法和应用,计算理论,8,1,121-164(2012)·Zbl 1283.68414号 ·doi:10.4086/toc.2012.v008a006
[2] Beldiceanu,N.和Simonis,H.(2012年)。模型寻求者:从正面示例中提取全局约束模型。《约束编程的原理和实践》(第141-157页)。斯普林格。
[3] Bessiere,C。;Daoudi,A。;希伯拉德,E。;Katsirelos,G。;拉扎尔,N。;Mechqrane,Y。;北卡罗来纳州纳罗迪茨卡。;昆珀,CG;沃尔什,T。;Bessiere,C.,约束获取的新方法,数据挖掘和约束编程,51-76(2016),Cham:Springer,Cham
[4] Bessiere,C.、Coletta,R.、Koriche,F.和O'Sullivan,B.(2005)。获取约束满足问题的基于sat的版本空间算法。J.Gama、R.Camacho、P.B.Braddil、A.M.Jorge和L.Torgo(编辑),《机器学习:ECML 2005》(第23-34页)。柏林:斯普林格。
[5] BigML主页。2019年4月30日检索https://bigml.com。
[6] Bishop,CM,模式识别和机器学习(2006),柏林:Springer,柏林·Zbl 1107.68072号
[7] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号
[8] Breiman,L.,分类和回归树(2017),阿宾顿:劳特利奇,阿宾顿
[9] Brier,GW,以概率表示的预测验证,Monthey Weather Review,78,1,1-3(1950)·doi:10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2
[10] RT克莱门;Winkler,RL,风险分析专家的概率分布组合,风险分析,19,2187-203(1999)
[11] De Raedt,L.、Blockeel,H.、Kolb,S.、Teso,S.和Verbruggen,G.(2018年)。自动数据科学家的要素。在智能数据分析国际研讨会上(第3-14页)。斯普林格。
[12] De Raedt,L.、Kimmig,A.和Toivonen,H.(2007)。Problog:一种概率prolog及其在链路发现中的应用。在第20届国际人工智能联合会议上。
[13] Devlin,J.、Uesato,J.,Bhupatiraju,S.、Singh,R.、Mohamed,A.R.和Kohli,P.(2017)。Robustfill:噪声输入/输出下的神经程序学习。机器学习国际会议(第990-998页)。
[14] Dietterich,T.G.(2000年)。机器学习中的集成方法。在多分类器系统国际研讨会上(第1-15页)。斯普林格。
[15] Dries,A.、Kimmig,A.、Meert,W.、Renkens,J.、Van den Broeck,G.、Vlasselaer,J.和De Raedt,L.(2015)。Problog2:概率逻辑编程。在关于数据库中的机器学习和知识发现的欧洲联合会议上(第312-315页)。斯普林格。
[16] Elisseeff,A。;Pontil,M.,Leave-on-out error and stability of learning algorithms with applications,《北约科学系列子系列III计算机和系统科学》,190111-130(2003)
[17] 费伦斯,D。;Van den Broeck,G。;伦肯斯,J。;Shterionov,D。;Gutmann,B。;Thon,I。;詹森,G。;De Raedt,L.,《使用加权布尔公式的概率逻辑程序中的推理和学习》,《逻辑编程理论与实践》,第15、3、358-401页(2015)·Zbl 1379.68062号 ·doi:10.1017/S147106841400076
[18] Fisher,M.和Rothermel,G.(2005年)。euses电子表格语料库:支持电子表格可信性机制实验的共享资源。在ACM SIGSOFT软件工程注释中,第30卷,(第1-5页)。ACM。
[19] Gulwani,S.(2011)。使用输入输出示例自动化电子表格中的字符串处理。在ACM SIGPLAN通知中,第46卷,(第317-330页)。ACM公司·Zbl 1284.68700号
[20] Gulwani,S。;哈里斯,WR;Singh,R.,电子表格数据操作示例,ACM通信,55,8,97-105(2012)·doi:10.1145/2240236.2240260
[21] Gulwani,S。;Hernández-Orallo,J。;Kitzelmann,E。;麻格尔顿,SH;施密德,美国。;Zorn,B.,《感应编程与现实世界的相遇》,《ACM的通信》,58,11,90-99(2015)·doi:10.1145/2736282
[22] Gulwani,S。;波洛佐夫,O。;Singh,R.,《程序设计语言中的程序综合、基础和趋势®》,4,1-2,1-119(2017)
[23] 密歇根州约旦;雅各布斯,RA,专家和em算法的层次混合,神经计算,6,2,181-214(1994)·doi:10.1162/neco.1996.2.181
[24] 科尔布,S。;帕拉莫诺夫,S。;枪,T。;De Raedt,L.,电子表格和表格数据中的学习约束,机器学习,106,9-10,1441-1468(2017)·兹伯利06839932 ·doi:10.1007/s10994-017-5640-x
[25] 科勒,D。;弗里德曼,N.,《概率图形模型:原理和技术》(2009),剑桥:麻省理工学院出版社,剑桥·Zbl 1183.68483号
[26] 劳森,BR;KR贝克;鲍威尔,SG;Foster-Johnson,L.,《不同经验水平的电子表格用户的比较》,Omega,37,3,579-590(2009)·doi:10.1016/j.omega.2007.12.004
[27] 麻格尔顿,S。;De Raedt,L.,《归纳逻辑编程:理论和方法》,《逻辑编程杂志》,19629-679(1994)·Zbl 0816.68043号 ·doi:10.1016/0743-1066(94)90035-3
[28] 镍,M。;Tresp,V。;Kriegel,HP,多关系数据集体学习的三方模型,ICML,11809-816(2011)
[29] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;Dubourg,V.公司。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[30] Raza,M.和Gulwani,S.(2017年)。使用预测程序合成的自动数据提取。AAAI(第882-890页)。
[31] 罗西,F。;Sperduti,A.,在交互式约束系统中获取约束和解决方案首选项,约束,9,4,311-332(2004)·doi:10.1023/B:CONS.000049206.43218.5f
[32] Scaffidi,C.、Shaw,M.和Myers,B.(2005年)。估算最终用户和最终用户程序员的数量。在视觉语言和以人为中心的计算方面,2005年IEEE IEEE研讨会(第207-214页)。
[33] Scheuren,F.,《多重插补:如何开始和继续》,《美国统计学家》,59,4,315-319(2005)·doi:10.1198/000313005X74016
[34] DJ斯特霍芬;Bühlmann,P.,MissForest-混合型数据的非参数缺失值插补,生物信息学,28,1,112-118(2011)·doi:10.1093/bioinformatics/btr597
[35] Van Buuren,S.,通过完全条件规范对离散和连续数据进行多重插补,《医学研究中的统计方法》,第16、3、219-242页(2007年)·兹比尔1122.62382 ·doi:10.1177/0962280206074463
[36] Van Buuren,S.,《缺失数据的灵活插补》(2018年),博卡拉顿:查普曼和霍尔/CRC,博卡拉通·Zbl 1416.62030号
[37] Van Wolputte,E.、Korneva,E.和Blockel,H.(2018年)。Mercs:回归树和分类树的多维集合。在AAAI。
[38] Vanschoren,J。;van Rijn,JN;Bischl,B。;Torgo,L.,OpenML:机器学习中的网络科学,SIGKDD探索,15,2,49-60(2013)·数字对象标识代码:10.1145/2641190.2641198
[39] 尹,X。;Han,J。;杨,J。;Philip,SY,《跨多数据库关系的高效分类:交叉挖掘方法》,IEEE知识与数据工程学报,6770-783(2006)·doi:10.1010/TKDE.2006.94
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。