sklearn.datasets.fetch_lfw_pairs?

sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True)

[源碼]

加載標記過的人臉Wild (LFW) pairs數據集（分類）。

如有必要，請下載。

類	2
樣本總數	13233
維度	5828
特征	real, between 0 and 255

在官方的README.txt中，此任務被描述為“受限”任務。由于我不確定如何正確轉換為“不受限”狀態，因此暫時不支持它。

原始圖像為250 x 250像素，但是默認的slice和resize參數將其減小為62 x 47。

在用戶指南中閱讀更多內容。

參數	說明
subset	optional, default: ‘train’ 選擇要加載的數據集：“train”用于開發訓練集，“test”用于開發測試集，“ 10_folds”用于官方評估集，該評估集將與10倍交叉驗證一起使用。
data_home	optional, default: None 為數據集指定另一個下載和緩存文件夾。默認情況下，所有scikit-learn數據都存儲在“?/ scikit_learn_data”子文件夾中。
funneled	boolean, optional, default: True 下載并使用數據集的漏斗形變體。
resize	float, optional, default 0.5 用于調整每張臉部圖片尺寸的比率。
color	boolean, optional, default False 保留3個RGB通道，而不是將它們平均為一個灰度通道。如果color為True，則數據的維度比color = False的維度多一維。
slice_	optional 提供自定義2D切片（高度，寬度）以提取jpeg文件的“interest”部分，并避免使用背景的統計相關性
download_if_missing	optional, True by default 如果為False，則在數據不在本地可用時引發IOError，而不是嘗試從源站點下載數據。

返回值說明

data Bunch
類字典對象，具有以下屬性。
- data:ndarray of shape (2200, 5828). Shape depends on subset.
每行對應2張原始尺寸為62 x 47像素的散亂的面部圖像。更改slice_，調整slice_、resize或subset參數將更改輸出的形狀。
- pairs:ndarray of shape (2200, 2, 62, 47). Shape depends on subset
每行有2張人臉圖像，分別對應于包含5749人的數據集中的相同或不同的人。更改slice_、resize或subset參數將更改輸出的形狀。
- target:numpy array of shape (2200,). Shape depends on subset.
與每對圖像關聯的標簽。兩個標簽值是不同的人或相同的人。
- DESCR:string
Wild（LFW）數據集中的帶標簽的人臉描述。

返回值	說明
data	`Bunch` 類字典對象，具有以下屬性。 - data:ndarray of shape (2200, 5828). Shape depends on `subset`. 每行對應2張原始尺寸為62 x 47像素的散亂的面部圖像。更改slice_，調整slice_、resize或subset參數將更改輸出的形狀。 - pairs:ndarray of shape (2200, 2, 62, 47). Shape depends on `subset` 每行有2張人臉圖像，分別對應于包含5749人的數據集中的相同或不同的人。更改slice_、resize或subset參數將更改輸出的形狀。 - target:numpy array of shape (2200,). Shape depends on `subset`. 與每對圖像關聯的標簽。兩個標簽值是不同的人或相同的人。 - DESCR:string Wild（LFW）數據集中的帶標簽的人臉描述。