×

域拔沙

swMATH ID: 40360
软件作者: Mohammad Hossein Namaki、Avrilia Floratou、Fotis Psallidas、Subru Krishnan、Ashvin Agrawal、Yinghui Wu、Yiwen Zhu、Markus Weimer
描述: Vamsa:数据科学脚本中的自动起源跟踪。由于各种机器学习(ML)应用的不言而喻或监管要求,最近在机器学习模型的公平性、偏见和可解释性方面进行了大量研究。我们得出以下结论:所有这些方法都需要对ML模型和用于训练它们的数据之间的关系有一个坚实的理解。在这项工作中,我们引入了ML起源跟踪问题:其基本思想是自动跟踪数据集中哪些列被用于导出ML模型的特征/标签。我们讨论了在数据科学家使用的最常见语言Python的上下文中捕获此类信息的挑战。然后我们介绍了Vamsa,这是一个模块化系统,它可以从Python脚本中提取源代码,而不需要对用户代码进行任何更改。使用26K真实数据科学脚本,我们验证了Vamsa在覆盖率和性能方面的有效性。我们还评估了Vamsa在较小的手动标记数据子集上的准确性。我们的分析表明,Vamsa的精确性和召回范围为90.4
主页: https://arxiv.org/abs/2001.01861
相关软件: Triboo公司liblinear-java语言LIBLINEAR银行XGBoost公司TensorFlow公司亚当Scikit公司
引用于: 0个文档