sklearn.preprocessing.scale?
sklearn.preprocessing.scale(X, *, axis=0, with_mean=True, with_std=True, copy=True)
沿任何軸標準化數據集
以均值為中心,以分量為單位縮放至單位方差。
在用戶指南中閱讀更多內容。
參數 | 說明 |
---|---|
X | {array-like, sparse matrix} 數據要居中和縮放。 |
axis | int (0 by default) 用于計算平均值和標準偏差的軸。如果為0,則獨立標準化每個特征,否則(如果為1)則標準化每個樣本。 |
with_mean | boolean, True by default 如果為True,則在縮放之前將數據居中。 |
with_std | boolean, True by default 如果為True,則將數據縮放到單位方差(或等效地,單位標準偏差)。 |
copy | boolean, optional, default True 設置為False將執行就地行規范化并避免復制(如果輸入已經是numpy數組或scipy.sparse CSC矩陣,并且軸為1)。 |
另見:
使用“ Transformer” API(例如,作為預處理 sklearn.pipeline.Pipeline
的一部分)將縮放比例縮放為單位方差。
注釋
此實現將拒絕使scipy.sparse矩陣居中,因為這會使它們變得稀疏,并可能因內存耗盡問題而使程序崩潰。
相反,調用者要么顯式設置為_mean=False(在這種情況下,只對CSC矩陣的特征執行方差縮放),要么調用X.toarray(),如果他/她希望物化密集數組適合內存。
為避免內存復制,調用者應傳遞CSC矩陣。
NaN被視為缺失值:忽略以計算統計數據,并在數據轉換期間進行維護。
對于標準偏差,我們使用偏差估算器,它等于numpy.std(x,ddof = 0)。請注意,選擇ddof不太可能影響模型性能。
有關不同縮放器,轉換器和規范化器的比較,請參閱examples/preprocessing/plot_all_scaling.py。