跳到主要内容
10.1145/3077257.3077267acm会议文章/章节视图摘要出版物页面国防部会议记录会议集合
研究论文
公共访问

ProvDB:协作分析工作流的生命周期管理

出版:2017年5月14日出版历史

摘要

随着数据驱动方法在各种学科中的普及,迫切需要开发可扩展和可持续的工具,以简化数据科学的过程,使用户更容易跟踪正在执行的分析和正在生成的数据集,并使用户能够理解和分析工作流。在本文中,我们描述了我们对统一来源和元数据管理系统的愿景,以支持复杂协作数据科学工作流的生命周期管理。我们认为,有关分析过程和数据工件的信息可以而且应该以半被动的方式捕获;我们还表明,查询和分析这些信息不仅可以简化簿记和调试任务,还可以实现一组丰富的新功能,例如识别数据科学过程本身的缺陷。它还可以通过自动分析和监控显著减少用户在解决部署后问题上花费的时间。我们在git和Neo4j之上实现了一个原型系统PROVDB,并描述了其关键特性和功能。

工具书类

  1. 亚尔·阿姆斯特丹(Yael Amsterdamer)、苏珊·B·戴维森(Susan B.Davidson)、丹尼尔·多伊奇(Daniel Deutch)、托瓦·米洛(Tova Milo)、朱莉娅·斯托扬诺维奇(Julia Stoyanovich)和瓦尔·坦能。2011.给猪涂口红:启用数据库式工作流起源。PVLDB 5,4(2011)。谷歌学者谷歌学者数字图书馆数字图书馆
  2. Souvik Bhattacherjee、Amit Chavan、Silu Huang、Amol Deshpande和Aditya G.Parameswaran。2015.数据集版本化原则:探索娱乐/存储权衡。PVLDB 8,12(2015)。谷歌学者谷歌学者数字图书馆数字图书馆
  3. Amit Chavan、Silu Huang、Amol Deshpande、Aaron J.Elmore、Samuel Madden和Aditya G.Parameswaran。2015年,面向统一的源代码和版本查询语言。在TaPP’15中。谷歌学者谷歌学者数字图书馆数字图书馆
  4. 詹姆斯·切尼(James Cheney)、劳拉·奇蒂卡里奥(Laura Chiticariu)和王雪珍(Wang-Chiew Tan)。2009.数据库起源:为什么、如何和在哪里。数据库基础与趋势1(2009年)。谷歌学者谷歌学者数字图书馆数字图书馆
  5. Fernando Seabra Chirigati、Dennis Shasha和Juliana Freire。2013.ReploZip:使用起源支持计算再现性。。在TaPP’13中。谷歌学者谷歌学者
  6. Anant P.Bhardwaj等人,2015年。数据中心:大规模协作数据科学和数据集版本管理。《CIDR 2015》。谷歌学者谷歌学者
  7. Bertram Ludäscher等人,2006年。科学的工作流管理和开普勒系统。并发与计算:实践与经验18,10(2006)。谷歌学者谷歌学者数字图书馆数字图书馆
  8. Joseph M.Hellerstein等人,2017年。地面:数据上下文服务。《CIDR 2017》。谷歌学者谷歌学者
  9. Louis Bavoil等人,2005年。Vistrails:启用交互式多视图可视化。在IEEE Visualization 2005中。谷歌学者谷歌学者
  10. Luc Moreau等人,2011年。开放源模型核心规范(v1.1)。未来一代计算机系统27,6(2011),743--756。谷歌学者谷歌学者数字图书馆数字图书馆
  11. Matteo Interlandi等人,2015年。Titian:《Spark数据源支持》,PVLDB 9,3(2015)。谷歌学者谷歌学者数字图书馆数字图书馆
  12. Manasi Vartak等人,2016年。ModelDB:机器学习模型管理系统。在HILDA’16中。谷歌学者谷歌学者数字图书馆数字图书馆
  13. Tom Oinn等人,2006年。塔维纳:为生命科学创建工作流环境的经验教训。并发与计算:实践与经验(2006)。谷歌学者谷歌学者数字图书馆数字图书馆
  14. Ian T.Foster、Jens-S.Vöckler、Michael Wilde和Yong Zhao。2002.Chimera:表示、查询和自动化数据衍生的虚拟数据系统。在SSDBM 2002中。谷歌学者谷歌学者数字图书馆数字图书馆
  15. 朱利安娜·弗雷尔(Juliana Freire)、大卫·库普(David Koop)、伊曼纽尔·桑托斯(Emanuele Santos)和科劳迪奥·席尔瓦(Cláudio T.Silva)。2008年。计算任务来源:调查。科学与工程计算10,3(2008)。谷歌学者谷歌学者数字图书馆数字图书馆
  16. Philip J.Guo和Margo Seltzer。2012.布里托:用计算基础设施包装你的实验室笔记本。。在TaPP’12中。谷歌学者谷歌学者数字图书馆数字图书馆
  17. 罗杰斯·杰弗里·利奥·约翰(Rogers Jeffrey Leo John)、纳芙尼特·波蒂(Navneet Potti)和吉格内什·M·帕特尔(Jignesh M.Patel)。2017年,《Ava:通过对话从数据到洞察力》。《CIDR 2017》。谷歌学者谷歌学者
  18. Eser Kandogan、Mary Roth、Peter M.Schwarz、Joshua Hui、Ignacio Terrizzano、Christina Christodulakis和Reneée J.Miller。2015.实验书:元数据驱动的社会协作数据分析。IEEE BigData 2015。谷歌学者谷歌学者数字图书馆数字图书馆
  19. 兰迪·H·卡茨。1990年。工程数据库中版本建模的统一框架。计算。调查22,4(1990)。谷歌学者谷歌学者数字图书馆数字图书馆
  20. Arun Kumar、Robert McCann、Jeffrey F.Naughton和Jignesh M.Patel。2015.模型选择管理系统:高级分析的下一个前沿。SIGMOD记录44,4(2015),17--22。谷歌学者谷歌学者数字图书馆数字图书馆
  21. 苗慧、李安、拉里·戴维斯和阿莫尔·德斯潘德。2017年,面向深度学习的统一数据和生命周期管理。2017年ICDE。谷歌学者谷歌学者
  22. 莱昂纳多·穆尔塔(Leonardo Murta)、瓦妮莎·布拉甘霍洛(Vanessa Braganholo)、费尔南多·奇里加蒂(Fernando Chirigati)、大卫·库普(David Koop)和朱莉安娜·弗雷尔。2014.noWorkflow:捕获和分析脚本的出处。在IPAW 2014中。谷歌学者谷歌学者数字图书馆数字图书馆
  23. 张策、阿伦·库马尔和克里斯托弗·雷。2016.功能选择工作负载的物化优化。ACM TODS 41,1(2016)。谷歌学者谷歌学者数字图书馆数字图书馆
  24. 赵勇、迈克尔·王尔德和伊恩·福斯特。2006.应用虚拟数据起源模型。在IPAW 2006中。谷歌学者谷歌学者数字图书馆数字图书馆

建议

评论

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

登录

完全访问权限

  • 发布于

    封面图片ACM会议
    HILDA’17:人在回路数据分析第二次研讨会会议记录
    2017年5月
    89页
    国际标准图书编号:9781450350297
    内政部:10.1145/3077257

    版权所有©2017 ACM

    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人拥有的本作品组件的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    • 出版:2017年5月14日

    权限

    请求有关此文章的权限。

    请求权限

    检查更新

    限定符

    • 研究论文
    • 研究
    • 推荐有限公司

    接受率

    总体验收率28属于56提交文件,50%

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader在线查看。

电子阅读器