sklearn.datasets.load_files?

sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)

[源碼]

加載帶有類別作為子文件夾名稱的文本文件。

假定單個樣本是存儲在兩個級別的文件夾結構中的文件，例如：

container_folder/

category_1_folder/

? file_1.txt file_2.txt … file_42.txt

category_2_folder/

? file_43.txt file_44.txt …

文件夾名稱用作監督信號標簽名稱。各個文件名并不重要。

此函數不會嘗試將特征提取到numpy數組或scipy稀疏矩陣中。此外，如果load_content為false，則不會嘗試將文件加載到內存中。

要在scikit-learn分類或聚類算法中使用文本文件，您將需要使用：mod`?sklearn.feature_extraction.text`模塊來構建適合您問題的特征提取轉換器。

如果您設置load_content = True，則還應該使用“ encoding”參數指定文本的編碼。對于許多現代文本文件，“ utf-8”將是正確的編碼。如果編碼等同于None，則內容將由字節而不是Unicode組成，并且您將無法在文本中使用大多數功能。

應該為其他類型的非結構化數據輸入（例如圖像，音頻，視頻等）構建類似的特征提取器。

在用戶指南中閱讀更多內容。

參數	說明
container_path	string or unicode 主文件夾的路徑，每個類別包含一個子文件夾
description	string or unicode, optional (default=None) 描述數據集特征的段落：其來源、參考等。
categories	A collection of strings or None, optional (default=None) 如果沒有（默認），則加載所有類別。如果不是None，則加載類別名稱列表（忽略其他類別）。
load_content	bool, optional (default=True) 是否加載不同文件的內容。如果為true，則在返回的數據結構中包含包含文本信息的‘data’屬性。如果不是，則使用filenames屬性提供文件的路徑。
shuffle	bool, optional (default=True) 是否對數據進行shuffle：對于假設樣本是獨立且均勻分布（i.i.d.）的模型（例如隨機梯度下降）可能很重要。
encoding	string or None (default is None) 如果是None，請不要嘗試解碼文件的內容（例如，圖像或其他非文本內容）。如果不是None，則在load_content為True時用于將文本文件解碼為Unicode的編碼。
decode_error	{‘strict’, ‘ignore’, ‘replace’}, optional 對供分析的包含非給定編碼字符的字節序列進行指導。作為關鍵字參數“errors”傳遞給bytes.decode。
random_state	int, RandomState instance or None, default=0 確定用于數據集shuffle的隨機數生成。為多個函數調用傳遞可重復輸出的int值。請參閱詞匯表。

返回值	說明
data	`Bunch` 類字典對象，具有以下屬性。 - data:list of str 僅在load_content = True時存在。要學習的原始文本數據。 - target:ndarray 目標標簽（整數索引）。 - target_names:list 目標類的名稱。 - DESCR:str 數據集的完整描述。 - filenames: ndarray 保存數據集的文件名。