多拉

Python的探索性数据分析工具包。

总结

Dora是一个Python库，旨在自动化探索性数据分析的痛苦部分。

该库包含数据清理、特征选择和提取、可视化、用于模型验证的分区数据以及数据版本转换的便利功能。

该库使用并打算成为常用Python数据分析工具（如pandas、scikit-learn和matplotlib）的有用补充。

安装程序

为了确保最新的代码，请从Github repo安装此库。

>>>从多拉进口多拉

用法

读取数据和配置

#没有初始配置
>>> 多拉 = 多拉（）>>> 多拉.配置(输出 = “A”,数据 = '路径/to/data.csv')#与相同
>>> 进口 熊猫 作为 钯
>>> 数据帧 = 钯.读取csv('path/to/data.csv')>>> 多拉 = 多拉(输出 = “A”,数据 = 数据帧)>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1

打扫

#读取缺少值和缩放不良值的数据
>>> 进口 熊猫 作为 钯
>>> 数据流 = 钯.数据帧([...   [1,2,100],...   [2,无,200],...   [1,6,无]... ])>>> 多拉 = 多拉(输出 = 0,数据 = 数据流)>>> 多拉.数据
   0   1    2
0  1   2  100
1  2 硝酸钠  200
2  1   6  硝酸钠

#插补缺失值（使用每列的平均值）
>>> 多拉.输入缺失值（）>>> 多拉.数据
   0  1    2
0  1  2  100
1  2  4  200
2  1  6  150

#缩放输入变量的值（中心到平均值和缩放到单位方差）
>>> 多拉.缩放输入值（）>>> 多拉.数据
   0         1         2
0  1 -1.224745 -1.224745
1  2  0  1.224745
2  1  1.224745  0

特征选择和提取

#特征选择/删除特征
>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1

>>> 多拉.删除功能(“useless_feature”)>>> 多拉.数据
   A类   B类  C类      D类
0  1   2  0   左边
1  4 硝酸钠  1  正确的
2  7   8  2   左边

#通过单热点编码提取序数特征
>>> 多拉.提取序号特征(“D”)>>> 多拉.数据
   A类   B类  C类  D类=左边  D类=正确的
0  1   2  0       1        0
1  4 硝酸钠  1       0        1
2  7   8  2       1        0

#提取另一个特征的变换
>>> 多拉.提取特征(“C”,“两个C”,λ x个:x个 * 2)>>> 多拉.数据
   A类   B类  C类  D类=左边  D类=正确的  两个C
0  1   2  0       1        0     0
1  4 硝酸钠  1       0        1     2
2  7   8  2       1        0     4

可视化

#根据输出变量绘制单个特征
多拉.绘图_特征('列名')#根据输出变量呈现每个特征的图
多拉.探索（）

模型验证

#创建训练/验证数据的随机分区（~80/20分割）
多拉.设置训练和验证（）#根据数据训练模型
X（X） = 多拉.培训_数据[多拉.输入_列()]年 = 多拉.培训_数据[多拉.输出]某个模型.适合(X（X）,年)#验证模型
X（X） = 多拉.验证数据[多拉.输入_列()]年 = 多拉.验证数据[多拉.输出]一些模型.分数(X（X）,年)

数据版本管理

#保存数据的一个版本
>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1
>>> 多拉.快照('initial_data')#跟踪数据的更改
>>> 多拉.删除功能(“useless_feature”)>>> 多拉.提取序号特征(“D”)>>> 多拉.输入缺失值（）>>> 多拉.缩放输入值（）>>> 多拉.数据
   A类         B类         C类    D类=左边   D类=正确的
0  1 -1.224745 -1.224745  0.707107 -0.707107
1  4  0  0 -1.414214  1.414214
2  7  1.224745  1.224745  0.707107 -0.707107

>>> 多拉.日志[“self.remove_feature（'useless_feature'）”,“self.extract_ordinal_feature（'D'）”,'自身.impute_missing_values（）','自身.scale_input_values（）']#使用以前版本的数据
>>> 多拉.快照('变压器1')>>> 多拉.使用快照('initial_data')>>> 多拉.数据
   A类   B类  C类      D类  无用途特性
0  1   2  0   左边                1
1  4 硝酸钠  1  正确的                1
2  7   8  2   左边                1
>>> 多拉.日志[]#切换回您的转换
>>> 多拉.使用快照('转换1')>>> 多拉.数据
   A类         B类         C类    D类=左边   D类=正确的
0  1 -1.224745 -1.224745  0.707107 -0.707107
1  4  0  0 -1.414214  1.414214
2  7  1.224745  1.224745  0.707107 -0.707107
>>> 多拉.日志[“self.remove_feature（'useless_feature'）”,“self.extract_ordinal_feature（'D'）”,'自身.impute_missing_values（）','自身.scale_input_values（）']

测试

要运行测试套件，只需运行python3规范.py来自多拉目录。

贡献

欢迎拉取请求！功能请求/错误将通过此存储库上的问题来解决。虽然并非每个功能请求都必须由我处理，但为感兴趣的贡献者保留记录是有用的。

此外，您可以自由提交pull请求，添加功能或自己解决错误。

许可证

麻省理工学院许可证（MIT）

版权所有（c）2016 Nathan Epstein

特此免费向任何获得副本的人授予许可本软件和相关文档文件（“软件”）的在软件中不受限制，包括但不限于权利使用、复制、修改、合并、发布、分发、再授权和/或销售软件的副本，并允许使用软件的人员根据以下条件提供：

上述版权声明和本许可声明应包含在软件的所有副本或实质性部分。

本软件按“原样”提供，不提供任何形式的明示或暗示，包括但不限于适销性保证，特定用途的适用性和非侵权性。在任何情况下作者或版权持有人对任何索赔、损害或其他责任责任，无论是合同诉讼、侵权诉讼还是其他诉讼，由，与软件无关或与之相关，或在软件。

姓名		姓名	上次提交消息	上次提交日期
最新提交历史 42个承诺
多拉		多拉
.git忽略		.git忽略
自述.md		自述.md
设置.py		设置.py

提供反馈

保存的搜索

使用保存的搜索更快地筛选结果

多拉

多拉

.git忽略

.git忽略

自述.md

自述.md

设置.py

设置.py

存储库文件导航

多拉

目录

总结

安装程序

用法

读取数据和配置

打扫

特征选择和提取

可视化

模型验证

数据版本管理

测试

贡献

许可证

关于

发布

包装

贡献者2

语言文字

内森·爱泼斯坦/多拉

文件夹和文件

最新提交

历史

存储库文件导航

多拉

目录

总结

安装程序

用法

读取数据和配置

打扫

特征选择和提取

可视化

模型验证

数据版本管理

测试

贡献

许可证

关于

资源

星星

观察者

叉子

语言文字