sklearn.preprocessing.Binarizer?

class sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True)

[源碼]

根據閾值對數據進行二值化(將要素值設置為0或1)

大于閾值的值映射為1,而小于或等于閾值的值映射為0。默認閾值為0時,僅正值映射為1。

二值化是對文本計數數據的常見操作,分析人員可以決定僅考慮某個功能的存在或不存在,而不考慮例如量化的出現次數。

對于考慮了布爾型隨機變量的估計量(例如,使用貝葉斯設置中的伯努利分布建模的估計量),它也可以用作預處理器。

用戶指南中閱讀更多內容

參數 說明
threshold float, optional (0.0 by default)
小于或等于此值的特征值將替換為0,在其之上被1替換。對于稀疏矩陣的操作,閾值不得小于0。
copy boolean, optional, default True
設置為False將執行就地二進制化并避免復制(如果輸入已經是numpy數組或scipy.sparse CSR矩陣)。

另見:

binarize

沒有估算器API的等效函數。

注釋

如果輸入是稀疏矩陣,則只有非零值會由Binarizer類更新。該估計器是無狀態的(除了構造函數參數之外),fit方法什么也不做,但是在管道(pipeline)中使用時很有用。

示例:

>>>

>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1.-1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1.-1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1.0.1.],
       [1.0.0.],
       [0.1.0.]])

方法

方法 說明
fit(self, X[, y]) 不執行任何操作,并使估算器保持不變
fit_transform(self, X[, y]) 擬合數據,然后對其進行轉換。
get_params(self[, deep]) 獲取此估計量的參數。
set_params(self, **params) 設置此估算器的參數。
transform(self, X[, copy]) 對X的每個元素進行二值化
__init__(self, *, threshold=0.0, copy=True)

[源碼]

初始化self,有關準確的簽名,請參見help(type(self))。

fit(self, X, y=None)

[源碼]

不執行任何操作并返回不變的估算器。該方法僅用于實現常規API,因此可以在管道中使用。

參數 說明
X array-like
fit_transform(self, X, y=None, *fit_params)

[源碼]

擬合數據,然后對其進行轉換。

使用可選參數fit_params將轉換器擬合到X和y,并返回X的轉換值。

參數 說明
X {array-like, sparse matrix, dataframe} of shape (n_sample, n_features)
y ndarray of shape (n_samples, ), default = None
目標值
**fit_params dict
附加擬合參數
返回值 說明
X_new ndarray array of shape (n_samples, n_features_new)
轉化后的數組
get_params(self, deep=True)

源碼

獲取當前估計量的參數

參數 說明
deep bool, default = True
如果為真,則將返回此估計器和其所包含子對象的參數
返回值 說明
params mapping of string to any
參數名被映射至他們的值
predict(self, **params)

源碼

設置當前估算器的參數。

該方法適用于簡單的估計器以及嵌套對象(例如管道)。后者的參數形式為<component>__<parameter>這樣就可以更新嵌套對象的每個組件。

參數 說明
**params dict
估計量參數
返回值 說明
self object
估計器實例
transform(self, X,copy=None)

[源碼]

對X的每個元素進行二值化

參數 說明
X {array-like, sparse matrix}, shape [n_samples, n_features]
要逐元素二值化的數據。稀疏矩陣應采用CSR格式,以避免不必要的復制。
copy bool
是否復制輸入X。