sklearn.utils.check_X_y?

sklearn.utils.check_X_y(X, y, accept_sparse=False, *, accept_large_sparse=True, dtype='numeric', order=None, copy=False, force_all_finite=True, ensure_2d=True, allow_nd=False, multi_output=False, ensure_min_samples=1, ensure_min_features=1, y_numeric=False, estimator=None)

源碼

標準估算器的輸入驗證。

檢查X和y的長度是否一致，強制X為2Dy并且為1D。默認情況下，X被檢查為非空且僅包含有限值。標準輸入檢查也應用于y，例如檢查是否有np.nan或np.inf。對于多標簽y，設置multi_output = True表示允許2D和稀疏y。如果X的dtype是object，請嘗試將其轉換為float，如果失敗則會報錯。

參數	說明
X	nd-array, list or sparse matrix 輸入數據
y	nd-array, list or sparse matrix 標簽
accept_sparse	string, boolean or list of string (default=False) 表示允許稀疏矩陣格式的字符串，如csc, csr等。如果輸入是稀疏的，但不是允許的格式，它將被轉換為第一種列出的格式。True允許輸入任何格式。False表示如果是稀疏矩陣輸入會產生錯誤。
accept_large_sparse	bool (default=True) 如果提供了CSR，CSC，COO或BSR稀疏矩陣并被accept_sparse接受，則accept_large_sparse僅當其索引為32位dtype存儲時才會被接受。是0.20版中的新功能。
dtype	string, type, list of types or None (default=”numeric”) 返回結果的數據類型。如果為None，則保留輸入的dtype。如果為“ numeric”，則除非array.dtype是object，否則將保留dtype。如果dtype是類型列表，則僅當輸入的dtype不在列表中時，才對第一個類型進行轉換。
order	‘F’, ‘C’ or None (default=None) 設置數組將被強制為fortran還是c樣式
copy	boolean (default=False) 是否觸發強制復制。如果copy = False，則轉換可能會觸發復制。
force_all_finite	boolean or ‘allow-nan’, (default=True) 是否在X為np.inf，np.nan，pd.NA時引發錯誤。可能性為： True：強制X的所有值都是有限制的。 False：在X中接受np.inf，np.nan，pd.NA。 “ allow-nan”：僅接受X中的np.nan和pd.NA值。值不能為無限的。 0.20版中的新功能：force_all_finite接受字符串“ allow-nan”。在版本0.23中更改：接受pd.NA并將其轉換為np.nan
ensure_2d	boolean (default=True) 如果X不是2D，是否引發值錯誤。
allow_nd	boolean (default=False) 是否允許X.ndim> 2。
multi_output	boolean (default=False) 是否允許2D y（數組或稀疏矩陣）。如果為false，則y將被驗證為向量。如果multi_output = True，則y不能具有np.nan或np.inf值。
ensure_min_samples	int (default=1) 確保X在其第一個軸上具有最少數量的樣本（二維數組的行）。
ensure_min_features	int (default=1) 確保2D陣列具有最少數量的特征（列）。默認值1表示拒絕空數據集。僅當X有效具有2維或最初為1D并確保2d為True時，才強制執行此檢查。設置為0將禁用此檢查。
y_numeric	boolean (default=False) 是否確保y為數字類型。如果y的dtype是object，則將其轉換為float64。僅應用于回歸算法。
estimator	str or estimator instance (default=None) 如果通過，則在警告消息中包括估計器的名稱。

返回值	說明
X_converted	object 轉換并驗證的X。
y_converted	object 轉換并驗證的y。