sklearn.datasets.fetch_kddcup99?
sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False)
加載kddcup99數據集(分類)。
如有必要,請下載。
類 | 23 |
---|---|
樣本總數 | 4898431 |
維度 | 41 |
特征 | 離散 (int) or 連續 (float) |
在用戶指南中閱讀更多內容。
版本0.18中的新功能。
參數 | 說明 |
---|---|
subset | None, ‘SA’, ‘SF’, ‘http’, ‘smtp’ 返回kddcup 99的相應經典子集。如果為None,則返回整個kddcup 99數據集。 |
data_home | string, optional 為數據集指定另一個下載和緩存文件夾。 默認情況下,所有scikit-learn數據都存儲在“?/ scikit_learn_data”子文件夾中。 ..版本添加::0.19 |
shuffle | bool, default=False 是否shuffle數據集。 |
random_state | int, RandomState instance, default=None 如果subset ='SA',則確定用于數據集shuffle和選擇異常樣本的隨機數生成。 為多個函數調用傳遞可重復輸出的int值。 請參閱詞匯表。 |
percent10 | bool, default=True 是否僅加載10%的數據。 |
download_if_missing | bool, default=True 如果為False,則在數據不在本地可用時引發IOError,而不是嘗試從源站點下載數據。 |
return_X_y | boolean, default=False. 如果為True,則返回(數據,目標)而不是Bunch對象。有關data和target對象的更多信息,請參見下文。 0.20版中的新功能。 |
返回值 | 說明 |
---|---|
data | Bunch 類字典對象,具有以下屬性。 - data:ndarray of shape (494021, 41) 要學習的數據矩陣。 - target:ndarray of shape (494021,) 每個樣本的回歸目標。 - DESCR:str 數據集的完整描述。 |
(data, target) | tuple if return_X_y is True0.20版中的新功能。 |