数据缺失处理

tech2022-08-23 239

缺失处理（Imputer）

最常见、最简单的处理缺失数据的方法是个案剔除法，俗称删掉缺失数据，在这种方法中如果任何一个变量含有缺失数据的话，就把相对应的个案从分析样本中剔除。如果缺失值所占比例比较小的话，这一方法十分有效。然而，这种方法却有很大的局限性。它是以减少样本量来换取信息的完备，丢弃了大量隐藏在这些对象中的信息。均值、中位数或众数插补，在该方法中，我们将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的，就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值；如果缺失值是非数值型的，则根据统计学中的众数原理，对取值次数最多的值来补齐该缺失的变量值

import numpy as np import pandas as pd

CountryAgeSalaryPurchased0France44.072000.0No1Spain27.048000.0Yes2Germany30.054000.0No3Spain38.061000.0No4Germany40.0NaNYes

from sklearn.impute import SimpleImputer imputer=SimpleImputer(missing_values=np.nan,strategy='mean')

imputer=imputer.fit(X[:,1:3]) X[:,1:3]=imputer.transform(X[:,1:3])

最新回复(0)