MachineLearning&DeepLearning:数据预处理
文章目录
MachineLearning&DeepLearning:数据预处理一、最大最小规范化(sklearn-preprocessing1. MinMaxScaler:[0, 1]2.MaxAbsScaler:[-1, 1]
二、 标准化(sklearn-preprocessing三、正则规范化四、Box-Cox变换
一、最大最小规范化(sklearn-preprocessing
1. MinMaxScaler:[0, 1]
a
= np
.array
([1.0, 2.0, 3.0, 4.0]).reshape
((2, 2))
m
= MinMaxScaler
()
print(m
.fit_transform
(a
))
b
= np
.array
([2.0, 5.0]).reshape
((1, -1))
print(m
.transform
(b
))
2.MaxAbsScaler:[-1, 1]
原理与上面的很像,只是数据会被规模化到[-1,1]之间。也就是特征中,所有数据都会除以最大值。这个方法对那些已经中心化均值维0或者稀疏的数据有意义。MaxAbsScaler 和 maxabs_scale这两个方法是专门为稀疏数据的规模化所设计的。
二、 标准化(sklearn-preprocessing
Standardization标准化:将特征数据的分布调整成标准正态分布(高斯分布),也就是使得数据的均值维0,方差为1.
标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。
标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。
三、正则规范化
四、Box-Cox变换
针对标签进行变换,使之分布更加趋向于高斯分布。常量c可以设置为1,
λ
\lambda
λ参数控制变换形式,可以囊括幂函数、对数函数、线性函数等.
dn.net/weixin_40807247/article/details/82793220