sklearn.datasets.fetch_20newsgroups?
sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False)
從20個新聞組數據集中加載文件名和數據(分類)。
如有必要,請下載。
類 | 20 |
---|---|
樣本總數 | 18846 |
維度 | 1 |
特征 | text |
在用戶指南中閱讀更多內容。
參數 | 說明 |
---|---|
data_home | optional, default: None 指定數據集的下載和緩存文件夾。 如果為None,則所有scikit-learn數據都存儲在“?/scikit_learn_data”子文件夾中。 |
subset | ‘train’ or ‘test’, ‘all’, optional 選擇要加載的數據集:“train”用于訓練集,“test”用于測試集,“all”用于兩者,并按隨機順序排序。 |
categories | None or collection of string or unicode 如果None(默認),則加載所有類別。 如果不是None,則加載類別名稱列表(忽略其他類別)。 |
shuffle | bool, optional 是否對數據進行shuffle:對于假設樣本是獨立且均勻分布(i.i.d.)的模型(例如隨機梯度下降)可能很重要。 |
random_state | int, RandomState instance, default=None 確定用于數據集shuffle的隨機數生成。 為多個函數調用傳遞可重復輸出的int值。 請參閱術語表。 |
remove | tuple 可以包含(“headers”,“footers”,“quotes”)的任何子集。 這些文本中的每一種都是將被檢測到并從新聞組帖子中刪除的文本,從而防止分類器過度擬合元數據。 “headers”刪除新聞組頁眉,“footers”刪除帖子結尾處看起來像簽名的塊,“quotes”刪除看起來像是引用另一篇文章的行。 “headers”遵循嚴格的標準;其他過濾器并不總是如此。 |
download_if_missing | optional, True by default 如果為False,則在數據不在本地可用時引發IOError,而不是嘗試從源站點下載數據。 |
return_X_y | bool, default=False. 如果為True,則返回(data.data,data.target)而不是Bunch對象。 0.22版中的新功能。 |
返回值 | 說明 |
---|---|
bunch | Bunch 類字典對象,具有以下屬性。 - data:list, length [n_samples] 要學習的數據列表。 - target: array, shape [n_samples] 目標標簽。 filenames: list, length [n_samples] 數據位置的路徑。 - DESCR: str 數據集的完整描述。 - target_names: list, length [n_classes] 目標類的名稱。 |
(data, target) | tuple if return_X_y=True 0.22版中的新功能。 |