数据标准化

tech2022-08-25  120

1、标准化 Standardization 标准化又被称为均值移除(mean removal),对不同样本的同一特征 值进行处理,最终均值为0,标准差为1,采用此种方式我们只需要使 用如下公式即可。

x_scaled = (x-mean)/std

import numpy as np from sklearn import preprocessing

data_standardized = preprocessing.scale(data)

2、数据缩放化(Scaling)

对不同样本的同一特征值,减去其最小值,除以(最大值-最小值), 最终原最大值为1,原最小值为0,这样在数据分析时可以有效的消除 不同单位大小对最终结构的权重影响。(例如股票类信息,如果股价 是5-7元之间浮动,但是每天成交量在100万上下,在不在采用缩放 的模式下,成交量的数据权重会比股价高上几万倍,导致最终预测数 据出现畸形

x_scaled = (x-x_min)/(x_max-x_min)

data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1)) data_scaled = data_scaler.fit_transform(data)

3、数据归一化(Normalization) 当您要调整特征向量中的值时,可以使用数据归一化,以便可以使用 通用比例尺对其进行测量。机器学习中最常用的规范化形式之一是调 整特征向量的值,使其总和为1。常见的处理方式有如下几种:L1模 式 L2模式。 

归一化的L1范数模式 L1范数是我们经常见到的一种范数,

最新回复(0)