sklearn.datasets.load_files?

sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)

[源碼]

加載帶有類別作為子文件夾名稱的文本文件。

假定單個樣本是存儲在兩個級別的文件夾結構中的文件,例如:

container_folder/

category_1_folder/

? file_1.txt file_2.txt … file_42.txt

category_2_folder/

? file_43.txt file_44.txt …

文件夾名稱用作監督信號標簽名稱。各個文件名并不重要。

此函數不會嘗試將特征提取到numpy數組或scipy稀疏矩陣中。 此外,如果load_content為false,則不會嘗試將文件加載到內存中。

要在scikit-learn分類或聚類算法中使用文本文件,您將需要使用:mod`?sklearn.feature_extraction.text`模塊來構建適合您問題的特征提取轉換器。

如果您設置load_content = True,則還應該使用“ encoding”參數指定文本的編碼。對于許多現代文本文件,“ utf-8”將是正確的編碼。如果編碼等同于None,則內容將由字節而不是Unicode組成,并且您將無法在文本中使用大多數功能。

應該為其他類型的非結構化數據輸入(例如圖像,音頻,視頻等)構建類似的特征提取器。

用戶指南中閱讀更多內容。

參數 說明
container_path string or unicode
主文件夾的路徑,每個類別包含一個子文件夾
description string or unicode, optional (default=None)
描述數據集特征的段落:其來源、參考等。
categories A collection of strings or None, optional (default=None)
如果沒有(默認),則加載所有類別。 如果不是None,則加載類別名稱列表(忽略其他類別)。
load_content bool, optional (default=True) 是否加載不同文件的內容。 如果為true,則在返回的數據結構中包含包含文本信息的‘data’屬性。 如果不是,則使用filenames屬性提供文件的路徑。
shuffle bool, optional (default=True)
是否對數據進行shuffle:對于假設樣本是獨立且均勻分布(i.i.d.)的模型(例如隨機梯度下降)可能很重要。
encoding string or None (default is None)
如果是None,請不要嘗試解碼文件的內容(例如,圖像或其他非文本內容)。 如果不是None,則在load_content為True時用于將文本文件解碼為Unicode的編碼。
decode_error {‘strict’, ‘ignore’, ‘replace’}, optional
對供分析的包含非給定編碼字符的字節序列進行指導。作為關鍵字參數“errors”傳遞給bytes.decode。
random_state int, RandomState instance or None, default=0
確定用于數據集shuffle的隨機數生成。為多個函數調用傳遞可重復輸出的int值。 請參閱詞匯表。
返回值 說明
data Bunch
類字典對象,具有以下屬性。
- data:list of str
僅在load_content = True時存在。要學習的原始文本數據。
- target:ndarray
目標標簽(整數索引)。
- target_names:list
目標類的名稱。
- DESCR:str
數據集的完整描述。
- filenames: ndarray
保存數據集的文件名。