sklearn.utils.check_X_y?
sklearn.utils.check_X_y(X, y, accept_sparse=False, *, accept_large_sparse=True, dtype='numeric', order=None, copy=False, force_all_finite=True, ensure_2d=True, allow_nd=False, multi_output=False, ensure_min_samples=1, ensure_min_features=1, y_numeric=False, estimator=None)
標準估算器的輸入驗證。
檢查X和y的長度是否一致,強制X為2Dy并且為1D。 默認情況下,X被檢查為非空且僅包含有限值。 標準輸入檢查也應用于y,例如檢查是否有np.nan或np.inf。 對于多標簽y,設置multi_output = True表示允許2D和稀疏y。 如果X的dtype是object,請嘗試將其轉換為float,如果失敗則會報錯。
參數 | 說明 |
---|---|
X | nd-array, list or sparse matrix 輸入數據 |
y | nd-array, list or sparse matrix 標簽 |
accept_sparse | string, boolean or list of string (default=False) 表示允許稀疏矩陣格式的字符串,如csc, csr等。如果輸入是稀疏的,但不是允許的格式,它將被轉換為第一種列出的格式。True允許輸入任何格式。False表示如果是稀疏矩陣輸入會產生錯誤。 |
accept_large_sparse | bool (default=True) 如果提供了CSR,CSC,COO或BSR稀疏矩陣并被accept_sparse接受,則accept_large_sparse僅當其索引為32位dtype存儲時才會被接受。 是0.20版中的新功能。 |
dtype | string, type, list of types or None (default=”numeric”) 返回結果的數據類型。 如果為None,則保留輸入的dtype。 如果為“ numeric”,則除非array.dtype是object,否則將保留dtype。 如果dtype是類型列表,則僅當輸入的dtype不在列表中時,才對第一個類型進行轉換。 |
order | ‘F’, ‘C’ or None (default=None) 設置數組將被強制為fortran還是c樣式 |
copy | boolean (default=False) 是否觸發強制復制。 如果copy = False,則轉換可能會觸發復制。 |
force_all_finite | boolean or ‘allow-nan’, (default=True) 是否在X為np.inf,np.nan,pd.NA時引發錯誤。可能性為: True:強制X的所有值都是有限制的。 False:在X中接受np.inf,np.nan,pd.NA。 “ allow-nan”:僅接受X中的np.nan和pd.NA值。值不能為無限的。 0.20版中的新功能:force_all_finite接受字符串“ allow-nan”。 在版本0.23中更改:接受pd.NA并將其轉換為np.nan |
ensure_2d | boolean (default=True) 如果X不是2D,是否引發值錯誤。 |
allow_nd | boolean (default=False) 是否允許X.ndim> 2。 |
multi_output | boolean (default=False) 是否允許2D y(數組或稀疏矩陣)。 如果為false,則y將被驗證為向量。 如果multi_output = True,則y不能具有np.nan或np.inf值。 |
ensure_min_samples | int (default=1) 確保X在其第一個軸上具有最少數量的樣本(二維數組的行)。 |
ensure_min_features | int (default=1) 確保2D陣列具有最少數量的特征(列)。 默認值1表示拒絕空數據集。 僅當X有效具有2維或最初為1D并確保2d為True時,才強制執行此檢查。 設置為0將禁用此檢查。 |
y_numeric | boolean (default=False) 是否確保y為數字類型。 如果y的dtype是object,則將其轉換為float64。 僅應用于回歸算法。 |
estimator | str or estimator instance (default=None) 如果通過,則在警告消息中包括估計器的名稱。 |
返回值 | 說明 |
---|---|
X_converted | object 轉換并驗證的X。 |
y_converted | object 轉換并驗證的y。 |