sklearn.datasets.load_breast_cancer?
sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)
加載并返回乳腺癌威斯康星州數據集(分類)。
乳腺癌數據集是經典且非常容易的二進制分類數據集。
類 | 2 |
---|---|
每類樣本數 | 212(M),357(B) |
樣本總數 | 569 |
維度 | 30 |
特征 | real, positive |
在用戶指南中閱讀更多內容。
參數 | 說明 |
---|---|
return_X_y | bool, default=False 如果為True,則返回(data, target)而不是Bunch對象。 有關data和target對象的更多信息,請參見下文。 版本0.18中的新功能。 |
as_frame | bool, default=False 如果為True,則數據為pandas DataFrame,其中包含具有適當dtypes(numeric)的列。target是pandas DataFrame還是Series,取決于目標列的數量。如果return_X_y為True,則(data,target)為pandas DataFrame或Series,如下所述。 0.23版中的新功能。 |
返回值 | 說明 |
---|---|
data | Bunch 類字典對象,具有以下屬性。 - data{ndarray, dataframe} of shape (569, 30) 數據矩陣。 如果as_frame = True,則data為pandas DataFrame。 - target: {ndarray, Series} of shape (569,) 分類target。 如果as_frame = True,target為pandas系列。 - feature_names: list 數據集的列名稱。 - target_names: list 目標類的名稱。 - frame: DataFrame of shape (569, 31) 僅在as_frame = True時存在。 具有data和target的DataFrame。 0.23版的新功能。 - DESCR: str 數據集的完整描述。 - filename: str 數據位置的路徑。 0.20版的新功能。 |
(data, target) | tuple if return_X_y is True0.18版的新功能。 |
UCI ML乳腺癌威斯康星州(診斷)數據集的副本是 從以下位置下載:
https://goo.gl/U2Uwz2
示例
假設您對樣本10、50和85感興趣,并想知道它們的類名。
>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
['malignant', 'benign']