sklearn.datasets.make_regression?

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

[源碼]

產生隨機回歸問題。

輸入集可以處于良好狀態(默認情況下),也可以具有低秩胖尾部奇異輪廓。有關更多詳細信息,請參見make_low_rank_matrix

通過將具有n_informative非零回歸變量的(可能有偏差的)隨機線性回歸模型應用于先前生成的輸入和具有可調整比例的一些高斯中心噪聲來生成輸出。

在用戶指南中閱讀更多內容。

參數 說明
n_samples int, optional (default=100)
樣本數。
n_features int, optional (default=100)
特征數。
n_informative int, optional (default=10)
信息特征的數量,即用于構建用于生成輸出的線性模型的特征的數量。
n_targets int, optional (default=1)
回歸targets的數量,即與樣本關聯的y輸出向量的尺寸。默認情況下,輸出為標量。
bias float, optional (default=0.0)
基礎線性模型中的偏差項。
effective_rank int or None, optional (default=None)
- 如果不是None:
通過線性組合來解釋大多數輸入數據所需的奇異矢量的近似數量。 在輸入中使用這種奇異頻譜可使發生器重現在實踐中經常觀察到的相關性。
- if None:
輸入集條件良好,居中且具有單位變化的高斯分布。
tail_strength float between 0.0 and 1.0, optional (default=0.5)
如果effective_rank不為None,為奇異值分布圖的胖尾噪聲的相對重要性。
noise float, optional (default=0.0)
應用于輸出的高斯噪聲的標準偏差。
shuffle boolean, optional (default=True)
shuffle樣本和特征。
coef boolean, optional (default=False)
如果為True,則返回基礎線性模型的系數。
random_state int, RandomState instance, default=None
確定用于生成數據集的隨機數生成。 為多個函數調用傳遞可重復輸出的int值。 請參閱詞匯表
返回值 說明
X array of shape [n_samples, n_features]
輸入樣本。
y array of shape [n_samples] or [n_samples, n_targets]
輸出值。
coef array of shape [n_features] or [n_features, n_targets], optional
基礎線性模型的系數。 僅當coef為True時才返回。