跳到内容

内森·爱泼斯坦/多拉

文件夹和文件

姓名姓名
上次提交消息
上次提交日期

最新提交

 
 
 
 
 
 
 
 
 

存储库文件导航

多拉

Python的探索性数据分析工具包。

目录

总结

Dora是一个Python库,旨在自动化探索性数据分析的痛苦部分。

该库包含数据清理、特征选择和提取、可视化、用于模型验证的分区数据以及数据版本转换的便利功能。

该库使用并打算成为常用Python数据分析工具(如pandas、scikit-learn和matplotlib)的有用补充。

安装程序

为了确保最新的代码,请从Github repo安装此库。

>>>从多拉进口多拉

用法

读取数据和配置

#没有初始配置
>>> 多拉 = 多拉()>>> 多拉.配置(输出 = “A”,数据 = '路径/to/data.csv')#与相同
>>> 进口 熊猫 作为 
>>> 数据帧 = .读取csv('path/to/data.csv')>>> 多拉 = 多拉(输出 = “A”,数据 = 数据帧)>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1

打扫

#读取缺少值和缩放不良值的数据
>>> 进口 熊猫 作为 
>>> 数据流 = .数据帧([...   [1,2,100],...   [2,,200],...   [1,6,]... ])>>> 多拉 = 多拉(输出 = 0,数据 = 数据流)>>> 多拉.数据
   0   1    2
0  1   2  100
1  2 硝酸钠  200
2  1   6  硝酸钠

#插补缺失值(使用每列的平均值)
>>> 多拉.输入缺失值()>>> 多拉.数据
   0  1    2
0  1  2  100
1  2  4  200
2  1  6  150

#缩放输入变量的值(中心到平均值和缩放到单位方差)
>>> 多拉.缩放输入值()>>> 多拉.数据
   0         1         2
0  1 -1.224745 -1.224745
1  2  0  1.224745
2  1  1.224745  0

特征选择和提取

#特征选择/删除特征
>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1

>>> 多拉.删除功能(“useless_feature”)>>> 多拉.数据
   A类   B类  C类      D类
0  1   2  0   左边
1  4 硝酸钠  1  正确的
2  7   8  2   左边

#通过单热点编码提取序数特征
>>> 多拉.提取序号特征(“D”)>>> 多拉.数据
   A类   B类  C类  D类=左边  D类=正确的
0  1   2  0       1        0
1  4 硝酸钠  1       0        1
2  7   8  2       1        0

#提取另一个特征的变换
>>> 多拉.提取特征(“C”,“两个C”,λ x个:x个 * 2)>>> 多拉.数据
   A类   B类  C类  D类=左边  D类=正确的  两个C
0  1   2  0       1        0     0
1  4 硝酸钠  1       0        1     2
2  7   8  2       1        0     4

可视化

#根据输出变量绘制单个特征
多拉.绘图_特征('列名')#根据输出变量呈现每个特征的图
多拉.探索()

模型验证

#创建训练/验证数据的随机分区(~80/20分割)
多拉.设置训练和验证()#根据数据训练模型
X(X) = 多拉.培训_数据[多拉.输入_列()] = 多拉.培训_数据[多拉.输出]某个模型.适合(X(X),)#验证模型
X(X) = 多拉.验证数据[多拉.输入_列()] = 多拉.验证数据[多拉.输出]一些模型.分数(X(X),)

数据版本管理

#保存数据的一个版本
>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1
>>> 多拉.快照('initial_data')#跟踪数据的更改
>>> 多拉.删除功能(“useless_feature”)>>> 多拉.提取序号特征(“D”)>>> 多拉.输入缺失值()>>> 多拉.缩放输入值()>>> 多拉.数据
   A类         B类         C类    D类=左边   D类=正确的
0  1 -1.224745 -1.224745  0.707107 -0.707107
1  4  0  0 -1.414214  1.414214
2  7  1.224745  1.224745  0.707107 -0.707107

>>> 多拉.日志[“self.remove_feature('useless_feature')”,“self.extract_ordinal_feature('D')”,'自身.impute_missing_values()','自身.scale_input_values()']#使用以前版本的数据
>>> 多拉.快照('变压器1')>>> 多拉.使用快照('initial_data')>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1
>>> 多拉.日志[]#切换回您的转换
>>> 多拉.使用快照('转换1')>>> 多拉.数据
   A类         B类         C类    D类=左边   D类=正确的
0  1 -1.224745 -1.224745  0.707107 -0.707107
1  4  0  0 -1.414214  1.414214
2  7  1.224745  1.224745  0.707107 -0.707107
>>> 多拉.日志[“self.remove_feature('useless_feature')”,“self.extract_ordinal_feature('D')”,'自身.impute_missing_values()','自身.scale_input_values()']

测试

要运行测试套件,只需运行python3规范.py来自多拉目录。

贡献

欢迎拉取请求!功能请求/错误将通过此存储库上的问题来解决。虽然并非每个功能请求都必须由我处理,但为感兴趣的贡献者保留记录是有用的。

此外,您可以自由提交pull请求,添加功能或自己解决错误。

许可证

麻省理工学院许可证(MIT)

版权所有(c)2016 Nathan Epstein

特此免费向任何获得副本的人授予许可本软件和相关文档文件(“软件”)的在软件中不受限制,包括但不限于权利使用、复制、修改、合并、发布、分发、再授权和/或销售软件的副本,并允许使用软件的人员根据以下条件提供:

上述版权声明和本许可声明应包含在软件的所有副本或实质性部分。

本软件按“原样”提供,不提供任何形式的明示或暗示,包括但不限于适销性保证,特定用途的适用性和非侵权性。在任何情况下作者或版权持有人对任何索赔、损害或其他责任责任,无论是合同诉讼、侵权诉讼还是其他诉讼,由,与软件无关或与之相关,或在软件。

关于

Python中用于探索性数据分析的工具

资源

星星

观察者

叉子

发布

未发布版本

包装

未发布包

语言文字