sklearn.preprocessing.Binarizer?

class sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True)

[源碼]

根據閾值對數據進行二值化（將要素值設置為0或1）

大于閾值的值映射為1，而小于或等于閾值的值映射為0。默認閾值為0時，僅正值映射為1。

二值化是對文本計數數據的常見操作，分析人員可以決定僅考慮某個功能的存在或不存在，而不考慮例如量化的出現次數。

對于考慮了布爾型隨機變量的估計量（例如，使用貝葉斯設置中的伯努利分布建模的估計量），它也可以用作預處理器。

在用戶指南中閱讀更多內容

參數	說明
threshold	float, optional (0.0 by default) 小于或等于此值的特征值將替換為0，在其之上被1替換。對于稀疏矩陣的操作，閾值不得小于0。
copy	boolean, optional, default True 設置為False將執行就地二進制化并避免復制（如果輸入已經是numpy數組或scipy.sparse CSR矩陣）。

另見：

binarize

沒有估算器API的等效函數。

注釋

如果輸入是稀疏矩陣，則只有非零值會由Binarizer類更新。該估計器是無狀態的（除了構造函數參數之外），fit方法什么也不做，但是在管道(pipeline)中使用時很有用。

示例：

>>>

>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

方法

方法	說明
`fit`(self, X[, y])	不執行任何操作，并使估算器保持不變
`fit_transform`(self, X[, y])	擬合數據，然后對其進行轉換。
`get_params`(self[, deep])	獲取此估計量的參數。
`set_params`(self, **params)	設置此估算器的參數。
`transform`(self, X[, copy])	對X的每個元素進行二值化

__init__(self, *, threshold=0.0, copy=True)

[源碼]

初始化self,有關準確的簽名，請參見help（type（self））。

fit(self, X, y=None)

[源碼]

不執行任何操作并返回不變的估算器。該方法僅用于實現常規API，因此可以在管道中使用。

參數	說明
X	array-like

fit_transform(self, X, y=None, *fit_params)

[源碼]

擬合數據，然后對其進行轉換。

使用可選參數fit_params將轉換器擬合到X和y，并返回X的轉換值。

參數	說明
X	{array-like, sparse matrix, dataframe} of shape (n_sample, n_features)
y	ndarray of shape (n_samples, ), default = None 目標值
**fit_params	dict 附加擬合參數

返回值	說明
X_new	ndarray array of shape (n_samples, n_features_new) 轉化后的數組

get_params(self, deep=True)

源碼

獲取當前估計量的參數

參數	說明
deep	bool, default = True 如果為真，則將返回此估計器和其所包含子對象的參數

返回值	說明
params	mapping of string to any 參數名被映射至他們的值

predict(self, **params)

源碼

設置當前估算器的參數。

該方法適用于簡單的估計器以及嵌套對象（例如管道）。后者的參數形式為<component>__<parameter>這樣就可以更新嵌套對象的每個組件。

參數	說明
**params	dict 估計量參數

返回值	說明
self	object 估計器實例

transform(self, X，copy=None)

[源碼]

對X的每個元素進行二值化

參數	說明
X	{array-like, sparse matrix}, shape [n_samples, n_features] 要逐元素二值化的數據。稀疏矩陣應采用CSR格式，以避免不必要的復制。
copy	bool 是否復制輸入X。