sklearn.impute.MissingIndicator?

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)

[源碼]

缺失值的二進制指示器。

請注意,該組件通常不應在包含轉換器和分類器的Pipeline中使用 ,而是可以使用FeatureUnionColumnTransformer來添加。

用戶指南中閱讀更多內容。

0.20版中的新功能。

參數 說明
missing_values number, string, np.nan (default) or None
缺失值的占位符。所有出現missing_values的情況都將被估算。對于具有缺失值的可空整數類型的pandas數據框,missing_values 應將其設置為np.nan,因為pd.NA將轉換為np.nan
features str, default=None
代表所有特征還是一個子集特征的填充掩碼。
- 如果為“missing-only”(默認),填充掩碼只表示擬合期間包含缺失值的特征。
- 如果為“all”,則填充器掩碼將代表所有特征。
sparse boolean or “auto”, default=None
填充掩碼格式應該是稀疏的還是密集的。

- 如果為“auto”(默認),則填充掩碼與輸入的類型相同。
- 如果為True,則填充掩碼為稀疏矩陣。
- 如果為False,則填充掩碼為numpy數組。
error_on_new boolean, default=None
如果為True(默認值),則當變換中的特征有缺失值并且擬合中沒有缺失值時,變換將引發錯誤。僅在features="missing-only"時適用。
屬性 說明
features_ ndarray, shape (n_missing_features,) or (n_features,)
調用transform時返回的特征索引。它們是在fit期間計算的。對于features='all',它是range(n_features)`。

示例

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 13],
...                [40, np.nan],
...                [810]])
>>> X2 = np.array([[51, np.nan],
...                [np.nan, 23],
...                [240]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ TrueFalse],
       [FalseFalse]])

方法

方法 說明
fit(X[, y]) 在X上擬合轉換器。
fit_transform(X[, y]) 為X生成缺失值指示符。
get_params([deep]) 獲取此估計器的參數。
set_params(**params) 設置此估計器的參數。
transform(X) 為X生成缺失值指示符。
__init__(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)

[源碼]

初始化self,參見help(type(self))獲取更準確的說明。

fit(X, y=None)

[源碼]

在X上擬合轉換器。

參數 說明
X {array-like, sparse matrix}, shape (n_samples, n_features)
輸入數據,其中n_samples是樣本數, n_features是特征數。
返回值 說明
self object
返回self對象。
fit_transform(X, y=None)

[源碼]

為X生成缺失值指示符。

參數 說明
X {array-like, sparse matrix}, shape (n_samples, n_features)
輸入數據。
返回值 說明
Xt {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing)
輸入數據的缺失值指示符。Xt的數據類型將是boolean。
get_params(deep=True)

[源碼]

獲取此估計器的參數。

參數 說明
deep bool, default=True
如果為True,則將返回此估算器和所包含子對象的參數。
返回值 說明
params mapping of string to any
參數名稱映射到其值。
set_params(**params)

[源碼]

設置此估算器的參數。

該方法適用于簡單的估計器以及嵌套對象(例如管道)。后者具有<component>__<parameter>形式的參數, 以便可以更新嵌套對象的每個組件。

參數 說明
**params dict
估計器參數。
返回值 說明
self object
估計器實例。
transform(X)

[源碼]

為X生成缺失值指示符。

參數 說明
X {array-like, sparse matrix}, shape (n_samples, n_features)
輸入數據。
返回值 說明
Xt {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing)
輸入數據的缺失值指示符。Xt的數據類型將是boolean。