sklearn.datasets.fetch_20newsgroups?

sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False)

[源碼]

從20個新聞組數據集中加載文件名和數據（分類）。

如有必要，請下載。

類	20
樣本總數	18846
維度	1
特征	text

在用戶指南中閱讀更多內容。

參數	說明
data_home	optional, default: None 指定數據集的下載和緩存文件夾。如果為None，則所有scikit-learn數據都存儲在“?/scikit_learn_data”子文件夾中。
subset	‘train’ or ‘test’, ‘all’, optional 選擇要加載的數據集：“train”用于訓練集，“test”用于測試集，“all”用于兩者，并按隨機順序排序。
categories	None or collection of string or unicode 如果None（默認），則加載所有類別。如果不是None，則加載類別名稱列表（忽略其他類別）。
shuffle	bool, optional 是否對數據進行shuffle：對于假設樣本是獨立且均勻分布（i.i.d.）的模型（例如隨機梯度下降）可能很重要。
random_state	int, RandomState instance, default=None 確定用于數據集shuffle的隨機數生成。為多個函數調用傳遞可重復輸出的int值。請參閱術語表。
remove	tuple 可以包含（“headers”，“footers”，“quotes”）的任何子集。這些文本中的每一種都是將被檢測到并從新聞組帖子中刪除的文本，從而防止分類器過度擬合元數據。 “headers”刪除新聞組頁眉，“footers”刪除帖子結尾處看起來像簽名的塊，“quotes”刪除看起來像是引用另一篇文章的行。 “headers”遵循嚴格的標準；其他過濾器并不總是如此。
download_if_missing	optional, True by default 如果為False，則在數據不在本地可用時引發IOError，而不是嘗試從源站點下載數據。
return_X_y	bool, default=False. 如果為True，則返回（data.data，data.target）而不是Bunch對象。 0.22版中的新功能。

返回值	說明
bunch	`Bunch` 類字典對象，具有以下屬性。 - data:list, length [n_samples] 要學習的數據列表。 - target: array, shape [n_samples] 目標標簽。 filenames: list, length [n_samples] 數據位置的路徑。 - DESCR: str 數據集的完整描述。 - target_names: list, length [n_classes] 目標類的名稱。
(data, target)	tuple if `return_X_y=True` 0.22版中的新功能。

sklearn.datasets.fetch_20newsgroups使用示例?

非負矩陣分解與潛在Dirichlet分配的主題提取 ?

用于文本特征提取和評估的示例管道 ?

FeatureHasher與DictVectorizer的比較 ?