sklearn.datasets.fetch_openml?
sklearn.datasets.fetch_openml(name=None, *, version='active', data_id=None, data_home=None, target_column='default-target', cache=True, return_X_y=False, as_frame=False)
通過名稱或數據集ID從openml獲取數據集。
數據集通過整數ID或名稱和版本的組合(即“ iris”數據集可能有多個版本)進行唯一標識。 請輸入名稱或data_id(不能同時輸入兩者)。 如果提供了名稱,也可以提供版本。
在用戶指南中閱讀更多內容。
0.20版中的新功能。
注意: 試驗性
該API是試驗性(尤其是返回值結構),并且在將來的發行版中可能會有小的向后不兼容的更改。
參數 | 說明 |
---|---|
name | str or None 數據集的字符串標識符。 請注意,OpenML可以具有多個具有相同名稱的數據集。 |
version | integer or ‘active’, default=’active’ 數據集的版本。 僅當提供名稱時才能提供。 如果為“active”,則使用仍處于活動狀態的最舊版本。 由于一個數據集可能有多個活動版本,并且這些版本在根本上可能彼此不同,因此強烈建議設置一個確切的版本。 |
data_id | int or None 數據集的OpenML ID。檢索數據集的最具體方法。如果未提供data_id,則使用名稱(和可能的版本)獲取數據集。 |
data_home | string or None, default None 為數據集指定另一個下載和緩存文件夾。 默認情況下,所有scikit-learn數據都存儲在“?/ scikit_learn_data”子文件夾中。 |
target_column | string, list or None, default ‘default-target’ 在數據中指定要用作目標的列名。 如果為“default-target”,則使用服務器上存儲的標準目標列a。 如果為None,則所有列均作為數據返回,并且目標為None。 如果使用列表(字符串),則將所有具有這些名稱的列作為多目標返回(注意:并非所有scikit-learn分類器都可以處理所有類型的多輸出組合) |
cache | boolean, default=True 是否使用joblib緩存下載的數據集。 |
return_X_y | boolean, default=False. 如果為True,則返回(data, target)而不是Bunch對象。 有關data和target對象的更多信息,請參見下文。 |
as_frame | boolean, default=False 如果為True,則數據為pandas DataFrame,其中包含具有適當dtypes(numeric, string 或 categorical)的列。target是pandas DataFrame還是Series,取決于target_columns的數量。 Bunch將包含帶有目標和數據的frame屬性。如果return_X_y為True,則(data, target)將是如上所述的pandas DataFrames或Series。 |
返回值 | 說明 |
---|---|
data | Bunch 類字典對象,具有以下屬性。 - data:np.array, scipy.sparse.csr_matrix of floats, or pandas DataFrame 特征矩陣。分類特征被編碼為序數。 - target:np.array, pandas Series or DataFrame 回歸target或分類標簽(如適用)。 如果是numeric類型,則Dtype為float;如果是categorical,則為object。 如果as_frame為True,則target為pandas對象。 - DESCR:str 數據集的完整描述 - feature_name:slist 數據集列的名稱 - target_names:list 目標列的名稱 0.22版中的新功能。 - categories:dict or None 將每個分類要素名稱映射到值列表,以使編碼為i的值在列表中成為第i個。 如果as_frame為True,則為None。 - details:dict 來自OpenML的更多元數據 - frame:pandas DataFrame 僅在as_frame = True時存在。 具有data和target的DataFrame。 |
(data, target) | tuple if return_X_y is True注意:試驗性 此接口是試驗性的,后續發行版可能會更改屬性,恕不另行通知(盡管對data和target的更改應該很小)。 |
“data”中缺少的值表示為NaN。 “target”中的缺失值表示為NaN(numerical target)或“無”(categorical target)