>>>从多拉进口多拉
#没有初始配置
>> > 多拉 = 多拉 () >> > 多拉 . 配置 ( 输出 = “A” , 数据 = '路径/to/data.csv' ) #与相同
>> > 进口 熊猫 作为 钯
>> > 数据帧 = 钯 . 读取csv ( 'path/to/data.csv' ) >> > 多拉 = 多拉 ( 输出 = “A” , 数据 = 数据帧 ) >> > 多拉 . 数据
A类 B类 C类 D类 无用途特性
0 1 2 0 左边 1
1 4 硝酸钠 1 正确的 1
2 7 8 2 左边 1
#读取缺少值和缩放不良值的数据
>> > 进口 熊猫 作为 钯
>> > 数据流 = 钯 . 数据帧 ([ ... [ 1 , 2 , 100 ], ... [ 2 , 无 , 200 ], ... [ 1 , 6 , 无 ] ... ]) >> > 多拉 = 多拉 ( 输出 = 0 , 数据 = 数据流 ) >> > 多拉 . 数据
0 1 2
0 1 2 100
1 2 硝酸钠 200
2 1 6 硝酸钠
#插补缺失值(使用每列的平均值)
>> > 多拉 . 输入缺失值 () >> > 多拉 . 数据
0 1 2
0 1 2 100
1 2 4 200
2 1 6 150
#缩放输入变量的值(中心到平均值和缩放到单位方差)
>> > 多拉 . 缩放输入值 () >> > 多拉 . 数据
0 1 2
0 1 - 1.224745 - 1.224745
1 2 0 1.224745
2 1 1.224745 0
#特征选择/删除特征
>> > 多拉 . 数据
A类 B类 C类 D类 无用途特性
0 1 2 0 左边 1
1 4 硝酸钠 1 正确的 1
2 7 8 2 左边 1
>> > 多拉 . 删除功能 ( “useless_feature” ) >> > 多拉 . 数据
A类 B类 C类 D类
0 1 2 0 左边
1 4 硝酸钠 1 正确的
2 7 8 2 左边
#通过单热点编码提取序数特征
>> > 多拉 . 提取序号特征 ( “D” ) >> > 多拉 . 数据
A类 B类 C类 D类 = 左边 D类 = 正确的
0 1 2 0 1 0
1 4 硝酸钠 1 0 1
2 7 8 2 1 0
#提取另一个特征的变换
>> > 多拉 . 提取特征 ( “C” , “两个C” , λ x个 : x个 * 2 ) >> > 多拉 . 数据
A类 B类 C类 D类 = 左边 D类 = 正确的 两个C
0 1 2 0 1 0 0
1 4 硝酸钠 1 0 1 2
2 7 8 2 1 0 4
#根据输出变量绘制单个特征
多拉 . 绘图_特征 ( '列名' ) #根据输出变量呈现每个特征的图
多拉 . 探索 ()
#创建训练/验证数据的随机分区(~80/20分割)
多拉 . 设置训练和验证 () #根据数据训练模型
X(X) = 多拉 . 培训_数据 [ 多拉 . 输入_列 ()] 年 = 多拉 . 培训_数据 [ 多拉 . 输出 ] 某个模型 . 适合 ( X(X) , 年 ) #验证模型
X(X) = 多拉 . 验证数据 [ 多拉 . 输入_列 ()] 年 = 多拉 . 验证数据 [ 多拉 . 输出 ] 一些模型 . 分数 ( X(X) , 年 )
#保存数据的一个版本
>> > 多拉 . 数据
A类 B类 C类 D类 无用途特性
0 1 2 0 左边 1
1 4 硝酸钠 1 正确的 1
2 7 8 2 左边 1
>> > 多拉 . 快照 ( 'initial_data' ) #跟踪数据的更改
>> > 多拉 . 删除功能 ( “useless_feature” ) >> > 多拉 . 提取序号特征 ( “D” ) >> > 多拉 . 输入缺失值 () >> > 多拉 . 缩放输入值 () >> > 多拉 . 数据
A类 B类 C类 D类 = 左边 D类 = 正确的
0 1 - 1.224745 - 1.224745 0.707107 - 0.707107
1 4 0 0 - 1.414214 1.414214
2 7 1.224745 1.224745 0.707107 - 0.707107
>> > 多拉 . 日志 [ “self.remove_feature('useless_feature')” , “self.extract_ordinal_feature('D')” , '自身.impute_missing_values()' , '自身.scale_input_values()' ] #使用以前版本的数据
>> > 多拉 . 快照 ( '变压器1' ) >> > 多拉 . 使用快照 ( 'initial_data' ) >> > 多拉 . 数据
A类 B类 C类 D类 无用途特性
0 1 2 0 左边 1
1 4 硝酸钠 1 正确的 1
2 7 8 2 左边 1
>> > 多拉 . 日志 [] #切换回您的转换
>> > 多拉 . 使用快照 ( '转换1' ) >> > 多拉 . 数据
A类 B类 C类 D类 = 左边 D类 = 正确的
0 1 - 1.224745 - 1.224745 0.707107 - 0.707107
1 4 0 0 - 1.414214 1.414214
2 7 1.224745 1.224745 0.707107 - 0.707107
>> > 多拉 . 日志 [ “self.remove_feature('useless_feature')” , “self.extract_ordinal_feature('D')” , '自身.impute_missing_values()' , '自身.scale_input_values()' ]
版权所有(c)2016 Nathan Epstein
特此免费向任何获得副本的人授予许可 本软件和相关文档文件(“软件”)的 在软件中不受限制,包括但不限于权利 使用、复制、修改、合并、发布、分发、再授权和/或销售 软件的副本,并允许使用软件的人员 根据以下条件提供:
上述版权声明和本许可声明应包含在 软件的所有副本或实质性部分。
本软件按“原样”提供,不提供任何形式的明示或 暗示,包括但不限于适销性保证, 特定用途的适用性和非侵权性。 在任何情况下 作者或版权持有人对任何索赔、损害或其他责任 责任,无论是合同诉讼、侵权诉讼还是其他诉讼,由, 与软件无关或与之相关,或在 软件。