sklearn.impute.MissingIndicator?
class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)
缺失值的二進制指示器。
請注意,該組件通常不應在包含轉換器和分類器的Pipeline
中使用 ,而是可以使用FeatureUnion
或ColumnTransformer
來添加。
在用戶指南中閱讀更多內容。
0.20版中的新功能。
參數 | 說明 |
---|---|
missing_values | number, string, np.nan (default) or None 缺失值的占位符。所有出現 missing_values 的情況都將被估算。對于具有缺失值的可空整數類型的pandas數據框,missing_values 應將其設置為np.nan ,因為pd.NA 將轉換為np.nan 。 |
features | str, default=None 代表所有特征還是一個子集特征的填充掩碼。 - 如果為“missing-only”(默認),填充掩碼只表示擬合期間包含缺失值的特征。 - 如果為“all”,則填充器掩碼將代表所有特征。 |
sparse | boolean or “auto”, default=None 填充掩碼格式應該是稀疏的還是密集的。 - 如果為“auto”(默認),則填充掩碼與輸入的類型相同。 - 如果為True,則填充掩碼為稀疏矩陣。 - 如果為False,則填充掩碼為numpy數組。 |
error_on_new | boolean, default=None 如果為True(默認值),則當變換中的特征有缺失值并且擬合中沒有缺失值時,變換將引發錯誤。僅在 features="missing-only" 時適用。 |
屬性 | 說明 |
---|---|
features_ | ndarray, shape (n_missing_features,) or (n_features,) 調用 transform 時返回的特征索引。它們是在fit 期間計算的。對于features='all' ,它是range(n_features)`。 |
示例
>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
... [4, 0, np.nan],
... [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
... [np.nan, 2, 3],
... [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False, True],
[ True, False],
[False, False]])
方法
方法 | 說明 |
---|---|
fit (X[, y]) |
在X上擬合轉換器。 |
fit_transform (X[, y]) |
為X生成缺失值指示符。 |
get_params ([deep]) |
獲取此估計器的參數。 |
set_params (**params) |
設置此估計器的參數。 |
transform (X) |
為X生成缺失值指示符。 |
__init__(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)
初始化self,參見help(type(self))獲取更準確的說明。
fit(X, y=None)
在X上擬合轉換器。
參數 | 說明 |
---|---|
X | {array-like, sparse matrix}, shape (n_samples, n_features) 輸入數據,其中 n_samples 是樣本數, n_features 是特征數。 |
返回值 | 說明 |
---|---|
self | object 返回self對象。 |
fit_transform(X, y=None)
為X生成缺失值指示符。
參數 | 說明 |
---|---|
X | {array-like, sparse matrix}, shape (n_samples, n_features) 輸入數據。 |
返回值 | 說明 |
---|---|
Xt | {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing) 輸入數據的缺失值指示符。Xt的數據類型將是boolean。 |
get_params(deep=True)
獲取此估計器的參數。
參數 | 說明 |
---|---|
deep | bool, default=True 如果為True,則將返回此估算器和所包含子對象的參數。 |
返回值 | 說明 |
---|---|
params | mapping of string to any 參數名稱映射到其值。 |
set_params(**params)
設置此估算器的參數。
該方法適用于簡單的估計器以及嵌套對象(例如管道)。后者具有<component>__<parameter>
形式的參數, 以便可以更新嵌套對象的每個組件。
參數 | 說明 |
---|---|
**params | dict 估計器參數。 |
返回值 | 說明 |
---|---|
self | object 估計器實例。 |
transform(X)
為X生成缺失值指示符。
參數 | 說明 |
---|---|
X | {array-like, sparse matrix}, shape (n_samples, n_features) 輸入數據。 |
返回值 | 說明 |
---|---|
Xt | {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing) 輸入數據的缺失值指示符。Xt的數據類型將是boolean。 |