sklearn.datasets.load_files?
sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
加載帶有類別作為子文件夾名稱的文本文件。
假定單個樣本是存儲在兩個級別的文件夾結構中的文件,例如:
container_folder/
category_1_folder/
? file_1.txt file_2.txt … file_42.txt
category_2_folder/
? file_43.txt file_44.txt …
文件夾名稱用作監督信號標簽名稱。各個文件名并不重要。
此函數不會嘗試將特征提取到numpy數組或scipy稀疏矩陣中。 此外,如果load_content為false,則不會嘗試將文件加載到內存中。
要在scikit-learn分類或聚類算法中使用文本文件,您將需要使用:mod`?sklearn.feature_extraction.text`模塊來構建適合您問題的特征提取轉換器。
如果您設置load_content = True,則還應該使用“ encoding”參數指定文本的編碼。對于許多現代文本文件,“ utf-8”將是正確的編碼。如果編碼等同于None,則內容將由字節而不是Unicode組成,并且您將無法在文本
中使用大多數功能。
應該為其他類型的非結構化數據輸入(例如圖像,音頻,視頻等)構建類似的特征提取器。
在用戶指南中閱讀更多內容。
參數 | 說明 |
---|---|
container_path | string or unicode 主文件夾的路徑,每個類別包含一個子文件夾 |
description | string or unicode, optional (default=None) 描述數據集特征的段落:其來源、參考等。 |
categories | A collection of strings or None, optional (default=None) 如果沒有(默認),則加載所有類別。 如果不是None,則加載類別名稱列表(忽略其他類別)。 |
load_content | bool, optional (default=True) 是否加載不同文件的內容。 如果為true,則在返回的數據結構中包含包含文本信息的‘data’屬性。 如果不是,則使用filenames屬性提供文件的路徑。 |
shuffle | bool, optional (default=True) 是否對數據進行shuffle:對于假設樣本是獨立且均勻分布(i.i.d.)的模型(例如隨機梯度下降)可能很重要。 |
encoding | string or None (default is None) 如果是None,請不要嘗試解碼文件的內容(例如,圖像或其他非文本內容)。 如果不是None,則在load_content為True時用于將文本文件解碼為Unicode的編碼。 |
decode_error | {‘strict’, ‘ignore’, ‘replace’}, optional 對供分析的包含非給定編碼字符的字節序列進行指導。作為關鍵字參數“errors”傳遞給bytes.decode。 |
random_state | int, RandomState instance or None, default=0 確定用于數據集shuffle的隨機數生成。為多個函數調用傳遞可重復輸出的int值。 請參閱詞匯表。 |
返回值 | 說明 |
---|---|
data | Bunch 類字典對象,具有以下屬性。 - data:list of str 僅在load_content = True時存在。要學習的原始文本數據。 - target:ndarray 目標標簽(整數索引)。 - target_names:list 目標類的名稱。 - DESCR:str 數據集的完整描述。 - filenames: ndarray 保存數據集的文件名。 |