sklearn.feature_selection.SelectKBest?

class sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, *, k=10)

[源碼]

根據k個最高分數選擇功能。

用戶指南中閱讀更多內容。

參數 說明
score_func callable
函數接受兩個數組X和y,并返回一對數組(分數,p值)或帶分數的單個數組。默認值為f_classif(請參見下文“另見”)。默認函數僅適用于分類任務。

0.18版本中的新功能。
k int or “all”, optional, default=10
要選擇的主要功能數。“ all”選項繞過選擇,用于參數搜索。
屬性 說明
scores_ array-like of shape (n_features,)
特征分數。
pvalues_ array-like of shape (n_features,)
特征分數的p值;如果score_func為None,則僅返回分數 。

另見

f_classif

標簽和特征之間的ANOVA F值,用于分類任務。

mutual_info_classif

離散目標的相互信息。

chi2

分類任務的非負特征的卡方統計。

f_regression

回歸任務的標簽和特征之間的F值。

mutual_info_regression

共同目標的共同信息。

SelectPercentile

根據最高分數的百分位數選擇特征。

SelectFpr

根據誤報率測試選擇功能。

SelectFdr

根據估計的錯誤發現率選擇特征。

SelectFwe

根據多重比較錯誤率選擇特征。

GenericUnivariateSelect

具有可配置模式的單變量特征選擇器。

分數相等的特征之間的關系將以不確定的方式斷開。

示例

>>> from sklearn.datasets import load_digits
>>> from sklearn.feature_selection import SelectKBest, chi2
>>> X, y = load_digits(return_X_y=True)
>>> X.shape
(179764)
>>> X_new = SelectKBest(chi2, k=20).fit_transform(X, y)
>>> X_new.shape
(179720)

方法

方法 說明
fit(X, y) 在(X,y)上運行score函數并獲得適當的特征。
fit_transform(X[, y]) 擬合數據,然后對其進行轉換。
get_params([deep]) 獲取此估計器的參數。
get_support([indices]) 獲取所選特征的掩碼或整數索引。
inverse_transform(X) 反向轉換操作
set_params(**params) 設置此估計器的參數。
transform(X) 將X縮小為選定的特征。
__init__(score_func=<function f_classif>, *, k=10)

[源碼]

初始化self,參見help(type(self))獲取更多信息。

fit(X, y)

[源碼]

在(X, y)上運行score函數,得到相應的特征。

參數 說明
X array-like of shape (n_samples, n_features)
訓練樣本。
y array-like of shape (n_samples,)
目標值(分類中的類標簽,回歸中的真實值)。
返回值 說明
self object
fit_transform(X, y=None, **fit_params)

[源碼]

擬合數據,然后對其進行轉換。

使用可選參數fit_params將轉換器擬合到X和y,并返回X的轉換值。

參數 說明
X {array-like, sparse matrix, dataframe} of shape (n_samples, n_features)
y ndarray of shape (n_samples,), default=None
目標值
**fit_params dict
其他擬合參數。
返回值 說明
X_new ndarray array of shape (n_samples, n_features_new)
轉換后的數組。
get_params(deep=True)

[源碼]

獲取此估計器的參數。

參數 說明
deep bool, default=True
如果為True,則將返回此估算器和所包含子對象的參數。
返回值 說明
params mapping of string to any
參數名稱映射到其值。
get_support(indices=False)

[源碼]

獲取所選特征的掩碼或整數索引。

參數 說明
indices boolean (default False)
如果為True,則返回值將是一個整數數組,而不是布爾掩碼。
返回值 說明
support array
從特征向量中選擇保留特征的索引。如果indices為False,則為形狀為[#輸入特征]的布爾數組,其中元素為True時(如果已選擇其對應的特征進行保留)。如果indices為True,則這是一個形狀為[#輸出特征]的整數數組,其值是輸入特征向量的索引。
inverse_transform(X)

[源碼]

反向轉換操作。

參數 說明
X array of shape [n_samples, n_selected_features]
輸入樣本。
返回值 說明
X_r array of shape [n_samples, n_original_features]
X中插入的列名為零的特征將被transform刪除。
set_params(**params)

[源碼]

設置此估算器的參數。

該方法適用于簡單的估計器以及嵌套對象(例如管道)。后者具有<component>__<parameter>形式的參數, 以便可以更新嵌套對象的每個組件。

參數 說明
**params dict
估計器參數。
返回值 說明
self object
估計器實例。
transform(X)

[源碼]

參數 說明
X array of shape [n_samples, n_features]
輸入樣本。
返回值 說明
X_r array of shape [n_samples, n_selected_features]
僅具有所選特征的輸入樣本。