suod.models包#

子程序包#

子模块#

suod.models.base模块#

suod.models.cost_predictor模块#

suod.models.jl投影模块#

约翰逊-林登斯特劳斯过程。部分代码改编自https://github.com/PTAug/jlt-python网站

suod.models.jl投影。jl fit转换(X(X),目标_dim,方法=“基本”)[来源]#

通过Johnson–Lindenstrauss过程拟合和转换输入数据。请参见[北京L84]了解详细信息。

参数#

X(X)numpy形状数组(n个样本,n个特征)

输入样本。

目标_修改整数

预期的输出维度。

方法字符串,可选(默认值=“基本”)

JL投影法:

  • “基本”:转换矩阵的每个分量取为N(0,1)中的随机值。

  • “离散”,变换矩阵的每个分量取为{-1,1}中的随机。

  • “循环”:转换矩阵的第一行取自N(0,1)中的随机数,每行从前一行中获得左移一次。

  • toeplitz:变换矩阵的第一行和第一列以N(0,1)为单位随机选取,并且每个对角线都有一个常量值从第一个向量中提取。

退换商品#

X_转换numpy形状数组(n_samples,objective_dim)

JL投影后的数据集。

jl变压器对象

变压器实例。

suod.models.jl投影。jl变换(X(X),jl变压器)[来源]#

使用安装的变压器进行JL投影。

参数#

X(X)numpy形状数组(n个样本,n个特征)

输入样本。

jl变压器对象

已安装变压器实例。

退换商品#

X_转换numpy形状数组(n_samples,reduced_dimensions)

变换矩阵。

suod.models.parallel_process模块#

suod.models.parallel_process。平衡调度(时间成本红色,n估计量,n个作业,冗长的=False(错误))[来源]#

根据两列列车的秩和进行均衡调度和预测。该算法将在工人。

参数#

时间成本红色列表

成本预测器的时间成本列表。长度等于底座探测器的数量。

n估计量整数

基本估计数。

n个作业可选(默认值=1)

要为这两者并行运行的作业数适合预测。如果为-1,则作业数设置为芯数。

冗长的bool,可选(默认值=False)

控制生成过程的详细程度。

退换商品#

n_estimators列表列表

每个工人的估算人数

开始列表

待安排的底座探测器的实际指数。例如,启动[k,k+1]基地探测器将分配给工人k。

作业(_J):

要并行运行的实际可用作业数。

suod.models.parallel_process。成本预测元数据(clf公司,X(X),基本估算器名称)[来源]#

通过预处理成本估计器预测模型成本。

参数#

clf公司对象,sklearn回归元

训练随机森林回归器预测模型成本

X(X)numpy形状数组(n个样本,n个特征)

输入样本。

基本估算器名称str列表

字符串格式的离群值检测模型名称列表

退换商品#

timecostpred:以秒为单位的离群值检测模型的numpy数组开销。

suod.models.parallel_process。标记_to_one_hot(数据,nb_类)[来源]#

将索引的可迭代转换为一个热编码标签。

模块内容#

工具书类

[北京L84]

威廉·约翰逊和乔兰·林登斯特劳斯。lipschitz映射在hilbert空间中的扩展。当代数学, 26(189-206):1, 1984.

[BKKSZ11型]

汉斯·彼得·克里格尔(Hans-Peter Kriegel)、佩尔·克罗格(Peer Kroger)、埃里希·舒伯特(Erich Schubert)和亚瑟·齐梅克(Arthur Zimek)。解释和统一离群值得分。2011年SIAM国际数据挖掘会议记录,13-24。SIAM,2011年。

[BZNL19型]

Yue Zhao、Zain Nasrullah和Zheng Li。PyOD:用于可扩展异常值检测的python工具箱。机器学习研究杂志, 20:1–7, 2019.