sklearn.model_selection.GroupShuffleSplit?

class sklearn.model_selection.GroupShuffleSplit(n_splits=5, *, test_size=None, train_size=None, random_state=None)

[源碼]

隨機分組交叉驗證迭代器。

提供訓練集或測試集索引，以根據第三方提供的組切分數據。該組信息可用于將樣本任意領域的特定分層編碼為整數。

例如，組可以是收集的年份的樣本，因此允許針對基于時間的切分進行交叉驗證。

LeavePGroupsOut和GroupShuffleSplit之間的區別在于，前者使用大小為p的唯一組的所有子集進行切分，而GroupShuffleSplit使用由用戶確定數量的隨機測試集進行切分，每個都有由用戶確定的唯一組分數。

例如， LeavePGroupsOut(p=10)的計算量較少的替代方案將是 GroupShuffleSplit(test_size=10, n_splits=100)

注意：參數test_size和train_size指的是組，而不是指ShuffleSplit中的樣本。

參數	說明
n_splits	int, default=5 重新改組和切分迭代的次數。
test_size	float, int, default=0.2 如果為float，則應在0.0到1.0之間，表示要包括在測試集切分中的組的比例（向上舍入）。如果為int，表示測試組的絕對數量。如果為None，則將值設置為訓練集大小的補充。默認值將在0.21版中更改。僅當`train_size`未指定時，它將保持為0.2 ，否則將補充指定的`train_size`。
train_size	float or int, default=None 如果為float，則應在0.0到1.0之間，表示要包括在訓練集切分中的組的比例。如果為int，則表示訓練集組的絕對數量。如果為“無”，則該值將自動設置為測試集大小的補充。
random_state	int or RandomState instance, default=None 控制所產生的訓練集和測試集索引的隨機性。為多個函數調用傳遞可重復輸出的int值。請參閱詞匯表。

示例

>>> from sklearn.model_selection import GroupShuffleSplit
>>> X = np.ones(shape=(8, 2))
>>> y = np.ones(shape=(8, 1))
>>> groups = np.array([1, 1, 2, 2, 2, 3, 3, 3])
>>> print(groups.shape)
(8,)
>>> gss = GroupShuffleSplit(n_splits=2, train_size=.7, random_state=42)
>>> gss.get_n_splits()
2
>>> for train_idx, test_idx in gss.split(X, y, groups):
...     print("TRAIN:", train_idx, "TEST:", test_idx)
TRAIN: [2 3 4 5 6 7] TEST: [0 1]
TRAIN: [0 1 5 6 7] TEST: [2 3 4]

方法

參數	說明
`get_n_splits`(self[, X, y, groups])	返回交叉驗證器中的切分迭代次數
`split`(self, X[, y, groups])	生成索引以將數據切分為訓練集和測試集。

__init__(self, n_splits=5, *, test_size=None, train_size=None, random_state=None)

[源碼]

初始化self。詳情可參閱 type（self）的幫助。

get_n_splits（self，X = None，y = None，groups = None ）

[源碼]

返回交叉驗證器中的切分迭代次數。

參數	說明
X	object 始終被忽略，為了兼容性而存在。
y	object 始終被忽略，為了兼容性而存在。
groups	object 始終被忽略，為了兼容性而存在。

返回值	說明
n_splits	int 返回交叉驗證器中拆分迭代的次數。

split（self，X，y = None，groups = None ）

[源碼]

生成索引以將數據分為訓練集和測試集。

參數	說明
X	array-like of shape (n_samples, n_features) 用于訓練的數據，其中n_samples是樣本數量，n_features是特征數量。
y	array-like of shape (n_samples,), default=None 監督學習問題的目標變量。
groups	array-like of shape (n_samples,) 將數據集切分為訓練集或測試集時使用的樣本的分組標簽。

輸出	說明
train	ndarray 切分的訓練集索引。
test	ndarray 切分的測試集索引。

注

隨機CV切分器可能會為每個切分調用返回不同的結果。您可以通過設置random_state 為整數來使結果相同。

sklearn.model_selection.GroupShuffleSplit使用示例?

在scikit-learn中可視化交叉驗證行為 ?