sklearn.preprocessing.Binarizer?
class sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True)
根據閾值對數據進行二值化(將要素值設置為0或1)
大于閾值的值映射為1,而小于或等于閾值的值映射為0。默認閾值為0時,僅正值映射為1。
二值化是對文本計數數據的常見操作,分析人員可以決定僅考慮某個功能的存在或不存在,而不考慮例如量化的出現次數。
對于考慮了布爾型隨機變量的估計量(例如,使用貝葉斯設置中的伯努利分布建模的估計量),它也可以用作預處理器。
在用戶指南中閱讀更多內容
參數 | 說明 |
---|---|
threshold | float, optional (0.0 by default) 小于或等于此值的特征值將替換為0,在其之上被1替換。對于稀疏矩陣的操作,閾值不得小于0。 |
copy | boolean, optional, default True 設置為False將執行就地二進制化并避免復制(如果輸入已經是numpy數組或scipy.sparse CSR矩陣)。 |
另見:
沒有估算器API的等效函數。
注釋
如果輸入是稀疏矩陣,則只有非零值會由Binarizer類更新。該估計器是無狀態的(除了構造函數參數之外),fit方法什么也不做,但是在管道(pipeline)中使用時很有用。
示例:
>>>
>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1., -1., 2.],
... [ 2., 0., 0.],
... [ 0., 1., -1.]]
>>> transformer = Binarizer().fit(X) # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
[1., 0., 0.],
[0., 1., 0.]])
方法
方法 | 說明 |
---|---|
fit (self, X[, y]) |
不執行任何操作,并使估算器保持不變 |
fit_transform (self, X[, y]) |
擬合數據,然后對其進行轉換。 |
get_params (self[, deep]) |
獲取此估計量的參數。 |
set_params (self, **params) |
設置此估算器的參數。 |
transform (self, X[, copy]) |
對X的每個元素進行二值化 |
__init__(self, *, threshold=0.0, copy=True)
[源碼]
初始化self,有關準確的簽名,請參見help(type(self))。
fit(self, X, y=None)
不執行任何操作并返回不變的估算器。該方法僅用于實現常規API,因此可以在管道中使用。
參數 | 說明 |
---|---|
X | array-like |
fit_transform(self, X, y=None, *fit_params)
擬合數據,然后對其進行轉換。
使用可選參數fit_params將轉換器擬合到X和y,并返回X的轉換值。
參數 | 說明 |
---|---|
X | {array-like, sparse matrix, dataframe} of shape (n_sample, n_features) |
y | ndarray of shape (n_samples, ), default = None 目標值 |
**fit_params | dict 附加擬合參數 |
返回值 | 說明 |
---|---|
X_new | ndarray array of shape (n_samples, n_features_new) 轉化后的數組 |
get_params(self, deep=True)
獲取當前估計量的參數
參數 | 說明 |
---|---|
deep | bool, default = True 如果為真,則將返回此估計器和其所包含子對象的參數 |
返回值 | 說明 |
---|---|
params | mapping of string to any 參數名被映射至他們的值 |
predict(self, **params)
設置當前估算器的參數。
該方法適用于簡單的估計器以及嵌套對象(例如管道)。后者的參數形式為<component>__<parameter>這樣就可以更新嵌套對象的每個組件。
參數 | 說明 |
---|---|
**params | dict 估計量參數 |
返回值 | 說明 |
---|---|
self | object 估計器實例 |
transform(self, X,copy=None)
對X的每個元素進行二值化
參數 | 說明 |
---|---|
X | {array-like, sparse matrix}, shape [n_samples, n_features] 要逐元素二值化的數據。稀疏矩陣應采用CSR格式,以避免不必要的復制。 |
copy | bool 是否復制輸入X。 |