API 參考?

這是scikit-learn的類和函數參考。請參閱完整的用戶指南以獲取更多詳細信息,因為類和函數的原始規范可能不足以提供有關其用法的完整指南。有關在API上重復的概念的參考,請參閱“通用術語表和API元素”

sklearn.base:基類和實用程序函數

所有估計量的基類。

用于投票分類器

基類

base.BaseEstimator scikit-learn中所有估計器的基類
base.BiclusterMixin scikit-learn中所有雙簇估計器的Mixin類
base.ClassifierMixin scikit-learn中所有分類器的Mixin類。
base.ClusterMixin scikit-learn中所有聚類估計器的Mixin類。
base.DensityMixin scikit-learn中所有密度估計器的Mixin類。
base.RegressorMixin scikit-learn中所有回歸估計器的Mixin類。
base.TransformerMixin scikit-learn中所有轉換器的Mixin類。
feature_selection.SelectorMixin 給定支持掩碼、可以執行特征選擇的轉換器的Mixin類。

函數

base.clone(estimator, *[, safe]) 構造一個具有相同參數的新估算器。
base.is_classifier(estimator) 如果給定的估計器(可能)是分類器,則返回True。
base.is_regressor(estimator) 如果給定的估計器(可能)是回歸器,則返回True。
config_context(** new_config) 全局scikit-learn配置的上下文管理器
get_config() 檢索set_config配置的當前值
set_config([assume_finite, working_memory, …]) 設置全局scikit-learn配置
show_versions() 打印有用的調試信息

sklearn.calibration:概率校準

校準預測概率。

用戶指南:有關更多詳細信息,請參見“概率校準”部分。

calibration.CalibratedClassifierCV([…]) 等滲回歸或邏輯回歸的概率校正。
More Actionscalibration.calibration_curve(y_true,y_prob,*) 計算校準曲線的真實和預測概率。

sklearn.cluster:聚類

sklearn.cluster模塊收集了流行的無監督聚類算法。

用戶指南:有關更多詳細信息,請參見“ 聚類“和”雙聚類“部分。

cluster.AffinityPropagation(*[, damping, …]) 執行數據的相似性傳播聚類。
cluster.AgglomerativeClustering([…]) 聚集聚類
cluster.Birch(*[, threshold, …]) 實現Birch聚類算法。
cluster.DBSCAN([eps, min_samples, metric, …]) 從向量數組或距離矩陣執行DBSCAN聚類。
cluster.FeatureAgglomeration([n_clusters,...]) 聚集函數。
cluster.KMeans([n_clusters,init,n_init,...]) K-均值聚類。
cluster.MiniBatchKMeans([n_clusters,init,...]) 小批次K均值聚類。
cluster.MeanShift(*[, bandwidth, seeds, …]) 使用扁平內核的均值漂移聚類。
cluster.OPTICS(* [,min_samples,max_eps,…]) 從向量數組估計聚類結構。
cluster.SpectralClustering([n_clusters,...]) 將聚類應用于規范化拉普拉斯算子的投影。
cluster.SpectralBiclustering([n_clusters,...]) 頻譜雙聚類(Kluger,2003)。
cluster.SpectralCoclustering([n_clusters,...]) 頻譜共聚算法(Dhillon,2001)。

函數

cluster.affinity_propagation(S,* [,...]) 執行數據的相似性傳播聚類
cluster.cluster_optics_dbscan(*,…) 對任意epsilon執行DBSCAN提取。
cluster.cluster_optics_xi(*, reachability, …) 根據Xi-steep方法自動提取聚類。
cluster.compute_optics_graph(X, *, …) 計算OPTICS可達性圖。
cluster.dbscan(X [,eps,min_samples,…]) 從向量數組或距離矩陣執行DBSCAN聚類。
cluster.estimate_bandwidth(X, *[, quantile, …]) 估計均值漂移算法要使用的帶寬。
cluster.k_means(X,n_clusters,* [,…]) K-均值聚類算法。
cluster.mean_shift(X, *[, bandwidth, seeds, …]) 使用扁平內核執行數據的均值漂移聚類。
cluster.spectral_clustering(affinity, *[, …]) 將聚類應用于規范化拉普拉斯算子的投影。
cluster.ward_tree(X, *[, connectivity, …]) 基于特征矩陣的Ward聚類。

sklearn.compose:復合估計器

用于使用Transformer轉換器構建復合模型的元估計器

除了當前的內容外,這個模塊最終將成為Pipeline和FeatureUnion的翻新版本。

用戶指南:有關更多詳細信息,請參見“ 管道和復合估計器”部分。

compose.ColumnTransformer(transformers, *[, …]) 將轉換器應用于數組或pandas DataFrame的列。
compose.TransformedTargetRegressor([…]) 元估算器,可對轉換后的目標進行回歸。
compose.make_column_transformer(...) 從給定的轉換器構造一個列轉換器。
compose.make_column_selector([pattern, …]) 創建可調用對象以選擇要與ColumnTransformer一起使用的列。

sklearn.covariance:協方差估計器

sklearn.covariance模塊包括可靠地估計給定一組點的特征的協方差的方法和算法。定義為協方差的逆的精度矩陣也被估計。協方差估計與高斯圖形模型理論密切相關。

用戶指南:有關更多詳細信息,請參見“協方差估計”部分。

covariance.EmpiricalCovariance(* [,…]) 最大似然協方差估計器
covariance.EllipticEnvelope(* [,…]) 用于檢測高斯分布數據集中異常值的對象
covariance.GraphicalLasso([alpha, mode, …]) 帶有l1懲罰估計器的稀疏逆協方差估計
covariance.GraphicalLassoCV(* [,alphas,…]) 帶有l1懲罰的交叉驗證選擇的稀疏逆協方差
covariance.LedoitWolf(* [,store_precision,…]) LedoitWolf估計器
covariance.MinCovDet(* [,store_precision,…]) 最小協方差決定因素(MCD):協方差的穩健估計器
covariance.OAS(* [,store_precision,…]) Oracle近似收縮估計
covariance.ShrunkCovariance(* [,…]) 收縮協方差估計
covariance.empirical_covariance(X, *[, …]) 計算最大似然協方差估計器
covariance.graphical_lasso(emp_cov,alpha,*) l1懲罰協方差估計器
covariance.ledoit_wolf(X, *[, …]) 估計收縮的Ledoit-Wolf協方差矩陣
covariance.oas(X, *[, assume_centered]) 使用Oracle近似收縮算法估算協方差
covariance.shrunk_covariance(emp_cov [,…]) 計算對角線上收縮的協方差矩陣

sklearn.cross_decomposition:交叉分解

用戶指南:有關更多詳細信息,請參見“ 交叉分解”部分。

cross_decomposition.CCA([n_components,...]) CCA典型相關分析。
cross_decomposition.PLSCanonical([…]) PLSCanonical實現了原始Wold算法的2塊規范PLS [Tenenhaus 1998] p.204,在[Wegelin 2000]中稱為PLS-C2A。
cross_decomposition.PLSRegression([…]) PLS回歸
cross_decomposition.PLSSVD([n_components,...]) 偏最小二乘SVD

sklearn.datasets:數據集

sklearn.datasets模塊包括用于加載數據集的實用程序,包括用于加載和獲取流行的參考數據集的方法。它還具有一些人工數據生成器。

用戶指南:有關更多詳細信息,請參見“ 數據集加載實用程序”部分。

加載器

datasets.clear_data_home([data_home]) 刪除數據主目錄緩存的所有內容。
datasets.dump_svmlight_file(X,y,f,* [,…]) 以svmlight / libsvm文件格式轉儲數據集。
datasets.fetch_20newsgroups(* [,data_home,…]) 從20個新聞組數據集中加載文件名和數據(分類)。
datasets.fetch_20newsgroups_vectorized(* [,…]) 加載20個新聞組數據集并將其向量化為令牌計數(分類)。
datasets.fetch_california_housing(* [,…]) 加載加利福尼亞住房數據集(回歸)。
datasets.fetch_covtype(* [,data_home,…]) 加載covertype數據集(分類)。
datasets.fetch_kddcup99(*[, subset, …]) 加載kddcup99數據集(分類)。
datasets.fetch_lfw_pairs(*[, subset, …]) 加載標記過的人臉Wild (LFW) pairs數據集(分類)。
datasets.fetch_lfw_people(* [,data_home,…]) 加載標記過的人臉Wild (LFW) people數據集(分類)。
datasets.fetch_olivetti_faces(* [,…]) 從AT&T(分類)中加載Olivetti人臉數據集。
datasets.fetch_openml([name, version, …]) 通過名稱或數據集ID從openml獲取數據集。
datasets.fetch_rcv1(*[, data_home, subset, …]) 加載RCV1多標簽數據集(分類)。
datasets.fetch_species_distributions(* [,…]) Phillips等人的物種分布數據集加載程序。
datasets.get_data_home([data_home]) 返回scikit-learn數據目錄的路徑。
datasets.load_boston(* [,return_X_y]) 加載并返回波士頓房價數據集(回歸)。
datasets.load_breast_cancer(* [,return_X_y,…]) 加載并返回威斯康星州乳腺癌數據集(分類)。
datasets.load_diabetes(* [,return_X_y,as_frame]) 加載并返回糖尿病數據集(回歸)。
datasets.load_digits(* [,n_class,…]) 加載并返回數字數據集(分類)。
datasets.load_files(container_path,* [,...]) 加載帶有類別作為子文件夾名稱的文本文件。
datasets.load_iris(* [,return_X_y,as_frame]) 加載并返回鳶尾花數據集(分類)。
datasets.load_linnerud(* [,return_X_y,as_frame]) 加載并返回linnerud物理鍛煉數據集。
datasets.load_sample_image(image_name) 加載單個樣本圖像的numpy數組
datasets.load_sample_images() 加載樣本圖像以進行圖像處理。
datasets.load_svmlight_file(F, *[, …]) 將svmlight / libsvm格式的數據集加載到稀疏CSR矩陣中
datasets.load_svmlight_files(files, *[, …]) 從SVMlight格式的多個文件加載數據集
datasets.load_wine(* [,return_X_y,as_frame]) 加載并返回葡萄酒數據集(分類)。

樣本生成器

datasets.make_biclusters(shape, n_clusters, *) 生成具有恒定塊對角線結構的數組以進行雙聚類。
datasets.make_blobs([n_samples, n_features, …]) 生成各向同性的高斯團簇。
datasets.make_checkerboard(shape, n_clusters, *) 生成具有棋盤格結構的數組以進行二聚類。
datasets.make_circles([n_samples, shuffle, …]) 在2維中制作一個包含較小圓圈的大圓圈。
datasets.make_classification([n_samples,...]) 生成隨機的n類分類問題。
datasets.make_friedman1([n_samples,...]) 生成“ Friedman#1”回歸問題
datasets.make_friedman2([n_samples, noise, …]) 生成“ Friedman#2”回歸問題
datasets.make_friedman3([n_samples, noise, …]) 生成“ Friedman#3”回歸問題
datasets.make_gaussian_quantiles(*[, mean, …]) 生成各向同性高斯分布,用分位數標注樣本
datasets.make_hastie_10_2([n_samples,...]) 生成Hastie等人使用的二進制分類數據。
datasets.make_low_rank_matrix([n_samples,...]) 生成具有鐘形奇異值的低階矩陣
datasets.make_moons([n_samples, shuffle, …]) 做兩個交錯的半圈
datasets.make_multilabel_classification([…]) 生成隨機的多標簽分類問題。
datasets.make_regression([n_samples,...]) 產生隨機回歸問題。
datasets.make_s_curve([n_samples, noise, …]) 生成S曲線數據集。
datasets.make_sparse_coded_signal(n_samples, …) 生成信號作為字典元素的稀疏組合。
datasets.make_sparse_spd_matrix([dim, …]) 生成稀疏對稱正定矩陣。
datasets.make_sparse_uncorrelated([…]) 使用稀疏的不相關設計生成隨機回歸問題
datasets.make_spd_matrix(n_dim,* [,...]) 生成隨機對稱的正定矩陣。
datasets.make_swiss_roll([n_samples, noise, …]) 生成瑞士卷數據集。

sklearn.decomposition:矩陣分解

sklearn.decomposition模塊包括矩陣分解算法,其中包括PCA,NMF或ICA。該模塊的大多數算法都可以視為降維技術。

用戶指南:有關更多詳細信息,請參見"分解組件中的信號(矩陣分解問題)"部分。

decomposition.DictionaryLearning([…]) 字典學習
decomposition.FactorAnalysis([n_components,...]) 因子分析(FA)
decomposition.FastICA([n_components,...]) FastICA:一種用于獨立成分分析的快速算法。
decomposition.IncrementalPCA([n_components,...]) 增量主成分分析(IPCA)。
decomposition.KernelPCA([n_components,...]) 內核主成分分析(KPCA)
decomposition.LatentDirichletAllocation([…]) 在線變分貝葉斯算法的潛在狄利克雷分配
decomposition.MiniBatchDictionaryLearning([…]) 小批量字典學習
decomposition.MiniBatchSparsePCA([…]) 小批量稀疏主成分分析
decomposition.NMF([n_components,init,...]) 非負矩陣分解(NMF)
decomposition.PCA([n_components, copy, …]) 主成分分析(PCA)。
decomposition.SparsePCA([n_components,...]) 稀疏主成分分析(SparsePCA)
decomposition.SparseCoder(dictionary, *[, …]) 稀疏編碼
decomposition.TruncatedSVD([n_components,...]) 使用截斷的SVD(aka LSA)進行降維。
decomposition.dict_learning(X,n_components,…) 解決字典學習矩陣分解問題。
decomposition.dict_learning_online(X[, …]) 在線解決字典學習矩陣分解問題。
decomposition.fastica(X [,n_components,…]) 執行快速獨立成分分析。
decomposition.non_negative_factorization(X) 計算非負矩陣分解(NMF)
decomposition.sparse_encode(X, dictionary, *) 稀疏編碼

sklearn.discriminant_analysis:判別分析

線性判別分析和二次判別分析

用戶指南:有關更多詳細信息,請參見“ 線性和二次判別分析”部分。

discriminant_analysis.LinearDiscriminantAnalysis(*) 線性判別分析
discriminant_analysis.QuadraticDiscriminantAnalysis(*) 二次判別分析

sklearn.dummy:虛擬估計器

用戶指南:有關更多詳細信息,請參閱指標和評分:量化預測的質量部分。

dummy.DummyClassifier(*[, strategy, …]) DummyClassifier是使用簡單規則進行預測的分類器。
dummy.DummyRegressor(*[, strategy, …]) DummyRegressor是使用簡單規則進行預測的回歸器。

sklearn.ensemble:集成方法

sklearn.ensemble模塊包括基于集成的分類,回歸和異常檢測方法。

用戶指南:有關更多詳細信息,請參見集成方法部分。

ensemble.AdaBoostClassifier([…]) AdaBoost分類器。
ensemble.AdaBoostRegressor([base_estimator,...]) AdaBoost回歸器。
ensemble.BaggingClassifier([base_estimator,...]) 裝袋分類器。
ensemble.BaggingRegressor([base_estimator,...]) 裝袋回歸器。
ensemble.ExtraTreesClassifier([…]) 極端樹分類器。
ensemble.ExtraTreesRegressor([n_estimators,…]) 極端樹回歸器。
ensemble.GradientBoostingClassifier(* [,…]) 用于分類的梯度提升。
ensemble.GradientBoostingRegressor(* [,…]) 用于回歸的梯度提升。
ensemble.IsolationForest(* [,n_estimators,…]) 孤立森林算法。
ensemble.RandomForestClassifier([…]) 隨機森林分類器。
ensemble.RandomForestRegressor([…]) 隨機森林回歸器。
ensemble.RandomTreesEmbedding([…]) 完全隨機樹的集合。
ensemble.StackingClassifier(estimators[, …]) 帶有最終分類器的估計器堆棧。
ensemble.StackingRegressor(estimators[, …]) 帶有最終回歸器的估計器堆棧。
ensemble.VotingClassifier(estimators, *[, …]) 針對不擬合估計器的軟投票或多數規則分類器。
ensemble.VotingRegressor(estimators, *[, …]) 對不擬合估計器的預測投票回歸。
ensemble.HistGradientBoostingRegressor([…]) 基于直方圖的梯度提升回歸樹。
ensemble.HistGradientBoostingClassifier([…]) 基于直方圖的梯度提升分類樹。

sklearn.exceptions:異常和警告

sklearn.exceptions模塊包括scikit-learn中使用的所有自定義警告和錯誤類。

exceptions.ChangedBehaviorWarning 警告類,用于將行為的任何更改通知用戶。
exceptions.ConvergenceWarning 自定義警告以捕獲收斂問題
exceptions.DataConversionWarning 警告,用于通知代碼中發生的隱式數據轉換。
exceptions.DataDimensionalityWarning 自定義警告以通知潛在的數據維度問題。
exceptions.EfficiencyWarning 警告,用于通知用戶計算效率低下。
exceptions.FitFailedWarning 如果在擬合估計器時發生錯誤,則使用警告類。
exceptions.NotFittedError 如果在擬合之前使用了估計量,則引發異常類。
exceptions.NonBLASDotWarning 點操作不使用BLAS時使用的警告。
exceptions.UndefinedMetricWarning 指標無效時使用的警告

sklearn.experimental:實驗

sklearn.experimental模塊提供了可導入的模塊,這些模塊允許使用實驗性功能或估算器。

實驗性的功能和估計器不受棄用周期的限制。使用它們需要您自擔風險!

experimental.enable_hist_gradient_boosting 啟用基于直方圖的梯度增強估計器。
experimental.enable_iterative_imputer 使迭代的輸入

sklearn.feature_extraction特征提取

sklearn.feature_extraction模塊負責從原始數據中提取特征。當前,它包括從文本和圖像中提取特征的方法。

用戶指南:有關更多詳細信息,請參見特征提取部分。

feature_extraction.DictVectorizer(* [,…]) 將特征值映射列表轉換為矢量。
feature_extraction.FeatureHasher([…]) 實現特征哈希,又名哈希技巧。

從圖片

sklearn.feature_extraction.image子模塊收集實用程序以從圖像中提取特征。

feature_extraction.image.extract_patches_2d(...) 將2D圖像重塑為補丁集合
feature_extraction.image.grid_to_graph(n_x,n_y) 像素間連接圖
feature_extraction.image.img_to_graph(img,*) 像素間梯度連接圖
feature_extraction.image.reconstruct_from_patches_2d(...) 從所有修補程序重建圖像。
feature_extraction.image.PatchExtractor(* [,…]) 從圖像集合中提取補丁

從文字

sklearn.feature_extraction.text子模塊收集實用程序以從文本文檔構建特征向量。

feature_extraction.text.CountVectorizer(* [,…]) 將文本文檔集合轉換為令牌計數矩陣
feature_extraction.text.HashingVectorizer(*) 將文本文檔的集合轉換為令牌出現的矩陣
feature_extraction.text.TfidfTransformer(*) 將計數矩陣轉換為標準化的tf或tf-idf表示形式
feature_extraction.text.TfidfVectorizer(* [,…]) 將原始文檔集合轉換為TF-IDF功能矩陣。

sklearn.feature_selection:特征選擇

sklearn.feature_selection模塊實現特征選擇算法。目前,它包括單變量過濾器選擇方法和遞歸特征消除算法。

用戶指南:有關更多詳細信息,請參見“特征選擇”部分。

feature_selection.GenericUnivariateSelect([…]) 具有可配置策略的單變量特征選擇器。
feature_selection.SelectPercentile([…]) 根據最高分數的百分位數選擇特征。
feature_selection.SelectKBest([score_func,k]) 根據k個最高分數選擇特征。
feature_selection.SelectFpr([score_func,alpha]) 過濾器:根據FPR測試,在alpha以下選擇p值。
feature_selection.SelectFdr([score_func,alpha]) 過濾器:為估計的錯誤發現率選擇p值
feature_selection.SelectFromModel(estimator, *) 元轉換器,用于根據重要度選擇特征。
feature_selection.SelectFwe([score_func,alpha]) 過濾器:選擇與Family-wise錯誤率相對應的p值
feature_selection.RFE(estimator, *[, …]) 消除遞歸特征的特征排名。
feature_selection.RFECV(estimator, *[, …]) 通過消除遞歸特征和交叉驗證最佳特征數選擇來進行特征排名。
feature_selection.VarianceThreshold([threshold]) 刪除所有低方差特征的特征選擇器。
feature_selection.chi2(X,y) 計算每個非負特征與類之間的卡方統計量。
feature_selection.f_classif(X,y) 計算提供的樣本的ANOVA F值。
feature_selection.f_regression(X,y,* [,中心]) 單變量線性回歸測試。
feature_selection.mutual_info_classif(X,y,*) 估計離散目標變量的互信息。
feature_selection.mutual_info_regression(X,y,*) 估計一個連續目標變量的互信息。

sklearn.gaussian_process:高斯過程

sklearn.gaussian_process模塊實現基于高斯過程的回歸和分類。

用戶指南:有關更多詳細信息,請參見“ 高斯過程”部分。

gaussian_process.GaussianProcessClassifier([…]) 基于拉普拉斯近似的高斯過程分類(GPC)。
gaussian_process.GaussianProcessRegressor([…]) 高斯過程回歸(GPR)。

內核:

gaussian_process.kernels.CompoundKernel(Kernel) 由一組其他內核組成的內核。
gaussian_process.kernels.ConstantKernel([…]) 恒定內核。
gaussian_process.kernels.DotProduct([…]) 點積內核。
gaussian_process.kernels.ExpSineSquared([…]) Exp-Sine-Squared核(也稱為周期核)。
gaussian_process.kernels.Exponentiation(...) 冪運算內核采用一個基本內核和一個標量參數 p 并通過組合它們
gaussian_process.kernels.Hyperparameter 以命名元組形式表示的內核超參數規范。
gaussian_process.kernels.Kernel 所有內核的基類。
gaussian_process.kernels.Matern([…]) 主內核。
gaussian_process.kernels.PairwiseKernel([…]) sklearn.metrics.pairwise中的內核包裝。
gaussian_process.kernels.Product(k1,k2) Product內核采用兩個內核k1 和 k2 并通過組合它們
gaussian_process.kernels.RBF([length_scale,…]) 徑向基函數內核(又名平方指數內核)。
gaussian_process.kernels.RationalQuadratic([…]) 有理二次方內核。
gaussian_process.kernels.Sum(k1,k2) Sum內核采用兩個內核k1 和 k2 并通過組合它們
gaussian_process.kernels.WhiteKernel([…]) White kernel.

sklearn.impute:插補

缺失值估算的轉換器

用戶指南:有關更多詳細信息,請參見缺失值的插補部分。

impute.SimpleImputer(* [,missing_values,…]) 插補轉換器,用于填補缺失值。
impute.IterativeImputer([estimator, …]) 從所有其他特征中估計每個特征的多元插補器。
impute.MissingIndicator(* [,missing_values,…]) 缺失值的二進制指標。
impute.KNNImputer(* [,missing_values,…]) 用k近鄰填充缺失值。

sklearn.inspection:檢查

sklearn.inspection模塊包括用于模型檢查的工具。

inspection.partial_dependence(estimator, X, …) features的部分依賴。
inspection.permutation_importance(estimator, …) 特征評價中的置換重要性[Rd9e56ef97513-BRE]

繪圖

inspection.PartialDependenceDisplay(...) 部分依賴圖(PDP)可視化。
inspection.plot_partial_dependence(…[,…]) 部分依賴圖。

sklearn.isotonic:等滲回歸

用戶指南:有關更多詳細信息,請參見“等滲回歸”部分。

isotonic.IsotonicRegression(* [,y_min,…]) 等滲回歸模型。
isotonic.check_increasing(x,y) 確定y是否與x單調相關。
isotonic.isotonic_regression(y,* [,…]) 求解等滲回歸模型。

sklearn.kernel_approximation內核近似

sklearn.kernel_approximation模塊基于傅立葉變換實現了幾個近似的內核特征圖。

用戶指南:有關更多詳細信息,請參見“內核近似”部分。

kernel_approximation.AdditiveChi2Sampler(*) chi2內核的近似特征圖。
kernel_approximation.Nystroem([kernel, …]) 使用訓練數據的子集近似核圖。
kernel_approximation.RBFSampler(* [,gamma,…]) 通過傅立葉變換的蒙特卡洛近似來近似RBF內核的特征圖。
kernel_approximation.SkewedChi2Sampler(* [,…]) 通過傅立葉變換的蒙特卡洛近似來近似“傾斜的卡方”核的特征圖。

sklearn.kernel_ridge內核嶺回歸

模塊sklearn.kernel_ridge實現內核嶺回歸。

用戶指南:有關更多詳細信息,請參見“ 內核嶺回歸”部分。

| kernel_ridge.KernelRidge([alpha,kernel,...]) |內核嶺回歸。 |

sklearn.linear_model:線性模型

sklearn.linear_model模塊實現了各種線性模型。

用戶指南:有關更多詳細信息,請參見“ 線性模型”部分。

以下小節僅是粗略的指導原則:相同的估算器可以根據其參數分為多個類別。

線性分類

linear_model.LogisticRegression([penalty, …]) Logistic回歸(又名logit,MaxEnt)分類器。
linear_model.LogisticRegressionCV(* [,Cs,…]) Logistic回歸CV(又名logit,MaxEnt)分類器。
linear_model.PassiveAggressiveClassifier(*) 被動感知分類器
linear_model.Perceptron(*[, penalty, alpha, …]) 在《用戶指南》中閱讀更多內容。
linear_model.RidgeClassifier([α, …]) 使用Ridge回歸的分類器。
linear_model.RidgeClassifierCV([alphas,...]) 帶有內置交叉驗證的Ridge分類器。
linear_model.SGDClassifier([loss, penalty, …]) 具有SGD訓練的線性分類器(SVM,邏輯回歸等)。

經典線性回歸器

linear_model.LinearRegression(* [,…]) 普通最小二乘線性回歸。
linear_model.Ridge([alpha,fit_intercept,…]) 具有l2正則化的線性最小二乘法。
linear_model.RidgeCV([alphas,...]) 帶有內置交叉驗證的Ridge回歸。
linear_model.SGDRegressor([loss, penalty, …]) 通過使用SGD最小化正則經驗損失來擬合線性模型

具有特征選擇的回歸器

以下估計器具有內置的特征選擇擬合程序,但是任何使用L1或彈性網懲罰的估計器也將執行特征選擇:通常SGDRegressorSGDClassifier具有適當的罰分。

linear_model.ElasticNet([alpha,l1_ratio,…]) 將L1和L2先驗組合作為正則化器的線性回歸。
linear_model.ElasticNetCV(* [,l1_ratio,…]) 沿著正則化路徑具有迭代擬合的彈性網模型。
linear_model.Lars(* [,fit_intercept,…]) 最小角度回歸模型。
linear_model.LarsCV(* [,fit_intercept,…]) 交叉驗證的最小角度回歸模型。
linear_model.Lasso([alpha,fit_intercept,…]) 以L1先驗作為正則化器訓練的線性模型(又名套索)
linear_model.LassoCV(* [,eps,n_alphas,…]) 沿正則化路徑迭代擬合的套索線性模型。
linear_model.LassoLars([α, …]) 套索模型與最小角度回歸擬合
linear_model.LassoLarsCV(* [,fit_intercept,…]) 使用LARS算法進行交叉驗證的套索。
linear_model.LassoLarsIC([criterion, …]) 使用BIC或AIC選擇模型的套索模型與Lars擬合
linear_model.OrthogonalMatchingPursuit(* [,…]) 正交匹配追蹤模型(OMP)
linear_model.OrthogonalMatchingPursuitCV(*) 交叉驗證的正交匹配追蹤模型(OMP)。

貝葉斯回歸器

linear_model.ARDRegression(* [,n_iter,tol,…]) 貝葉斯ARD回歸。
linear_model.BayesianRidge(* [,n_iter,tol,…]) 貝葉斯嶺回歸。

具有特征選擇的多任務線性回歸器

這些估計器共同擬合多個回歸問題(或任務),同時得出稀疏系數。盡管推斷的系數在任務之間可能有所不同,但它們被約束為在選定的特征(非零系數)上達成一致。

linear_model.MultiTaskElasticNet([α, …]) 以L1 / L2混合范數為正則訓練的多任務彈性網模型
linear_model.MultiTaskElasticNetCV(* [,…]) 具有內置交叉驗證的多任務L1 / L2 彈性網。
linear_model.MultiTaskLasso([α, …]) 以L1 / L2混合范數為正則訓練的多任務套索模型。
linear_model.MultiTaskLassoCV(* [,eps,…]) 以L1 / L2混合范數為正則訓練的帶有交叉驗證的多任務套索模型。

異常值穩健回歸器

使用Huber損失的任何估計量也將對異常值具有魯棒性,例如 SGDRegressor使用loss='huber'

linear_model.HuberRegressor(* [,epsilon,…]) 對異常值具有魯棒性的線性回歸模型。
linear_model.RANSACRegressor([…]) RANSAC(隨機抽樣共識)算法。
linear_model.TheilSenRegressor(* [,…]) Theil-Sen估算器:穩健的多元回歸模型。

廣義線性回歸模型(GLM)

這些模型允許響應變量具有除正態分布之外的其他誤差分布:

linear_model.PoissonRegressor(*[, α, …]) 具有泊松分布的廣義線性模型。
linear_model.TweedieRegressor(*[, power, …]) 具有Tweedie分布的廣義線性模型。
linear_model.GammaRegressor(*[, α, …]) 具有Gamma分布的廣義線性模型。

雜項

linear_model.PassiveAggressiveRegressor(* [,…]) 被動感知回歸
linear_model.enet_path(X,y,* [,l1_ratio,…]) 用坐標下降計算彈性網路徑。
linear_model.lars_path(X,y [,Xy,Gram,…]) 使用LARS算法計算最小角度回歸或套索路徑[1]
linear_model.lars_path_gram(Xy,Gram,*,…) 統計模式下的lars_path [1]
linear_model.lasso_path(X,y,* [,eps,…]) 計算具有坐標下降的套索路徑
linear_model.orthogonal_mp(X,y,* [,…]) 正交匹配追蹤(OMP)
linear_model.orthogonal_mp_gram(Gram,Xy,*) 伽馬正交匹配追蹤(OMP)
linear_model.ridge_regression(X,y,alpha,*) 用正規方程法求解嶺方程。

sklearn.manifold:流形學習

sklearn.manifold模塊實現數據嵌入技術。

用戶指南:有關更多詳細信息,請參見“流形學習”部分。

manifold.Isomap(* [,n_neighbors,…]) 等值圖嵌入
manifold.LocallyLinearEmbedding(* [,…]) 局部線性嵌入
manifold.MDS([n_components, metric, n_init, …]) 多維縮放
manifold.SpectralEmbedding([n_components,...]) 頻譜嵌入用于非線性降維。
manifold.TSNE([n_components, perplexity, …]) t分布隨機鄰接嵌入。
manifold.locally_linear_embedding(X, *, …) 對數據執行局部線性嵌入分析。
manifold.smacof(dissimilarities, *[, …]) 使用SMACOF算法計算多維縮放。
manifold.spectral_embedding(adjacency, *[, …]) 將樣本投影到圖拉普拉斯算子的第一個特征向量上。
manifold.trustworthiness(X,X_embedded,* [,…]) 表示保留本地結構的程度。

sklearn.metrics:指標

有關更多詳細信息,請參閱用戶指南的“指標和評分:量化預測的質量”部分和“成對度量,近似關系和內核”部分。

sklearn.metrics模塊包括評分功能,性能指標以及成對指標和距離計算。

選型界面

有關更多詳細信息,請參見用戶指南的“評分參數:定義模型評估規則”部分。

metrics.check_scoring(estimator[, scoring, …]) 從用戶選項確定計分器。
metrics.get_scorer(得分) 從字符串中獲取一個得分手。
metrics.make_scorer(score_func,* [,…]) 根據績效指標或損失函數確定得分手。

分類指標

有關更多詳細信息,請參見用戶指南的“ 分類指標”部分。

metrics.accuracy_score(y_true,y_pred,* [,…]) 精度分類得分。
metrics.auc(x,y) 使用梯形法則計算曲線下面積(AUC)
metrics.average_precision_score(y_true,...) 根據預測分數計算平均精度(AP)
metrics.balanced_accuracy_score(y_true,...) 計算平衡精度
metrics.brier_score_loss(y_true,y_prob,*) 計算Brier分數。
metrics.classification_report(y_true,y_pred,*) 建立一個顯示主要分類指標的文本報告。
metrics.cohen_kappa_score(y1,y2,* [,...]) 科恩的kappa:一種用于度量注釋者之間協議的統計數據。
metrics.confusion_matrix(y_true,y_pred,*) 計算混淆矩陣以評估分類的準確性。
metrics.dcg_score(y_true,y_score,* [,k,...]) 計算折現累積收益。
metrics.f1_score(y_true,y_pred,* [,…]) 計算F1分數,也稱為平衡F分數或F測量
metrics.fbeta_score(y_true,y_pred,*,beta) 計算F-beta分數
metrics.hamming_loss(y_true,y_pred,* [,…]) 計算平均漢明損失。
metrics.hinge_loss(y_true,pred_decision,*) 平均鉸鏈損耗(非常規)
metrics.jaccard_score(y_true,y_pred,* [,…]) 雅卡德相似系數得分
metrics.log_loss(y_true,y_pred,* [,eps,…]) 對數損失,aka邏輯損失或交叉熵損失。
metrics.matthews_corrcoef(y_true,y_pred,*) 計算馬修斯相關系數(MCC)
metrics.multilabel_confusion_matrix(y_true,...) 為每個類別或樣本計算混淆矩陣
metrics.ndcg_score(y_true,y_score,* [,k,...]) 計算歸一化折現累積增益。
metrics.precision_recall_curve(y_true,...) 計算不同概率閾值的精確召回對
metrics.precision_recall_fscore_support(...) 計算每個班級的精度,召回率,F量度和支持
metrics.precision_score(y_true,y_pred,* [,…]) 計算精度
metrics.recall_score(y_true,y_pred,* [,…]) 計算召回率
metrics.roc_auc_score(y_true,y_score,* [,…]) 根據預測分數計算接收器工作特性曲線(ROC AUC)下的面積。
metrics.roc_curve(y_true,y_score,* [,…]) 計算接收器工作特性(ROC)
metrics.zero_one_loss(y_true,y_pred,* [,…]) 零一分類損失。

回歸指標

有關更多詳細信息,請參見用戶指南的"回歸指標"部分。

metrics.explained_variance_score(y_true,...) 解釋方差回歸得分函數
metrics.max_error(y_true,y_pred) max_error指標計算最大殘差。
metrics.mean_absolute_error(y_true,y_pred,*) 平均絕對誤差回歸損失
metrics.mean_squared_error(y_true,y_pred,*) 均方誤差回歸損失
metrics.mean_squared_log_error(y_true,y_pred,*) 均方對數誤差回歸損失
metrics.median_absolute_error(y_true,y_pred,*) 中值絕對誤差回歸損失
metrics.r2_score(y_true,y_pred,* [,…]) R ^ 2(確定系數)回歸得分函數。
metrics.mean_poisson_deviance(y_true,y_pred,*) 平均泊松偏差回歸損失。
metrics.mean_gamma_deviance(y_true,y_pred,*) 平均伽瑪偏差回歸損失。
metrics.mean_tweedie_deviance(y_true,y_pred,*) 平均Tweedie偏差回歸損失。

多標簽排名指標

有關更多詳細信息,請參見用戶指南的“ 多標簽排名指標”部分。

metrics.coverage_error(y_true,y_score,* [,…]) 覆蓋誤差測量
metrics.label_ranking_average_precision_score(...) 計算基于排名的平均精度
metrics.label_ranking_loss(y_true,y_score,*) 計算排名損失度量

聚類指標

有關更多詳細信息,請參見用戶指南的“ 聚類性能評估”部分。

sklearn.metrics.cluster子模塊包含用于聚類分析結果的評估指標。評估有兩種形式:

  • 監督,它為每個樣本使用基本事實類別值。
  • 無監督的,它不會并且無法衡量模型本身的“質量”。
metrics.adjusted_mutual_info_score(…[,…]) 調整兩個簇之間的相互信息。
metrics.adjusted_rand_score(labels_true,...) 經過調整的蘭德指數。
metrics.calinski_harabasz_score(X, labels) 計算Calinski和Harabasz得分。
metrics.davies_bouldin_score(X, labels) 計算Davies-Bouldin分數。
metrics.completeness_score(labels_true,...) 給定真值的聚類標記的完備性度量。
metrics.cluster.contingency_matrix(…[,…]) 建立一個列聯矩陣來描述標簽之間的關系。
metrics.fowlkes_mallows_score(labels_true,...) 度量一組點的兩個簇的相似性。
metrics.homogeneity_completeness_v_measure(...) 一次計算同質性和完整性以及V-Measure分數。
metrics.homogeneity_score(labels_true,...) 給定真值的聚類標記的同質性度量。
metrics.mutual_info_score(labels_true,...) 兩個簇之間的相互信息。
metrics.normalized_mutual_info_score(…[,…]) 兩個簇之間的標準化互信息。
metrics.silhouette_score(X, labels, *[, …]) 計算所有樣本的平均輪廓系數。
metrics.silhouette_samples(X, labels, *[, …]) 計算每個樣本的輪廓系數。
metrics.v_measure_score(labels_true,…[,beta]) 給定一個真值的V-度量聚類標記。

分類指標

有關更多詳細信息,請參見用戶指南的"分類評估"部分。

| metrics.consensus_score(a, b, *[, similarity]) | 兩個簇的相似性。 |

成對指標

有關更多詳細信息,請參見用戶指南的"成對度量,近似關系和內核"部分。

metrics.pairwise.additive_chi2_kernel(X [,Y]) 計算X和Y觀測值之間的加性方卡方核
metrics.pairwise.chi2_kernel(X [,Y,γ) 計算指數卡方內核X和Y。
metrics.pairwise.cosine_similarity(X [,Y,…]) 計算X和Y中樣本之間的余弦相似度。
metrics.pairwise.cosine_distances(X [,Y]) 計算X和Y中樣本之間的余弦距離。
metrics.pairwise.distance_metrics() pairwise_distances的有效指標。
metrics.pairwise.euclidean_distances(X [,Y,…]) 將X(和Y = X)的行視為向量,計算每對向量之間的距離矩陣。
metrics.pairwise.haversine_distances(X [,Y]) 計算X和Y中樣本之間的Haversine距離
metrics.pairwise.kernel_metrics() pairwise_kernels的有效指標
metrics.pairwise.laplacian_kernel(X [,Y,γ) 計算X和Y之間的拉普拉斯核。
metrics.pairwise.linear_kernel(X [,Y,…]) 計算X和Y之間的線性核。
metrics.pairwise.manhattan_distances(X [,Y,…]) 計算X和Y中向量之間的L1距離。
metrics.pairwise.nan_euclidean_distances(X) 在缺少值的情況下計算歐幾里得距離。
metrics.pairwise.pairwise_kernels(X [,Y,…]) 計算數組X和可選數組Y之間的內核。
metrics.pairwise.polynomial_kernel(X [,Y,…]) 計算X和Y之間的多項式核。
metrics.pairwise.rbf_kernel(X [,Y,γ) 計算X和Y之間的rbf(高斯)內核。
metrics.pairwise.sigmoid_kernel(X [,Y,…]) 計算X和Y之間的S形核。
metrics.pairwise.paired_euclidean_distances(X,Y) 計算X和Y之間的成對的歐式距離
metrics.pairwise.paired_manhattan_distances(X,Y) 計算X和Y中向量之間的L1距離。
metrics.pairwise.paired_cosine_distances(X,Y) 計算X和Y之間的配對余弦距離
metrics.pairwise.paired_distances(X,Y,* [,…]) 計算X和Y之間的配對距離。
metrics.pairwise_distances(X [,Y,metric,…]) 根據向量數組X和可選的Y計算距離矩陣。
metrics.pairwise_distances_argmin(X,Y,* [,…]) 計算一個點與一組點之間的最小距離。
metrics.pairwise_distances_argmin_min(X,Y,*) 計算一個點與一組點之間的最小距離。
metrics.pairwise_distances_chunked(X [,Y,…]) 通過可選縮減逐塊生成距離矩陣

繪圖

有關更多詳細信息,請參見用戶指南的“ 可視化”部分。

metrics.plot_confusion_matrix(estimator, X, …) 繪制混淆矩陣。
metrics.plot_precision_recall_curve(…[,…]) 繪制二元分類器的精確召回曲線。
metrics.plot_roc_curve(estimator, X, y, *[, …]) 繪制接收器工作特性(ROC)曲線。
metrics.ConfusionMatrixDisplay(…[,…]) 混淆矩陣可視化。
metrics.PrecisionRecallDisplay(precision, …) 精確調用可視化。
metrics.RocCurveDisplay(*,fpr,tpr [,…]) ROC曲線可視化。

sklearn.mixture:高斯混合模型

sklearn.mixture模塊實現了混合建模算法。

用戶指南:有關更多詳細信息,請參見“ 高斯混合模型”部分。

mixture.BayesianGaussianMixture(* [,…]) 高斯混合的變分貝葉斯估計。
mixture.GaussianMixture([n_components,...]) 高斯混合。

sklearn.model_selection:模型選擇

用戶指南:請參閱交叉驗證:評估模型表現調整估計器的超參數學習曲線部分,以了解更多詳細信息。

拆分器類

model_selection.GroupKFold([n_splits]) 具有非重疊組的K折疊迭代器變體。
model_selection.GroupShuffleSplit([…]) 隨機分組交叉驗證迭代器
model_selection.KFold([n_splits, shuffle, …]) K折交叉驗證器
model_selection.LeaveOneGroupOut 離開一個小組的交叉驗證者
model_selection.LeavePGroupsOut(n_groups) 保留P組交叉驗證器
model_selection.LeaveOneOut 留一法交叉驗證器
model_selection.LeavePOut(p) Leave-P-Out交叉驗證器
model_selection.PredefinedSplit(test_fold) 預定義的拆分交叉驗證器
model_selection.RepeatedKFold(* [,n_splits,…]) 重復的K折交叉驗證器。
model_selection.RepeatedStratifiedKFold(* [,…]) 重復分層K折交叉驗證器。
model_selection.ShuffleSplit([n_splits,...]) 隨機置換交叉驗證器
model_selection.StratifiedKFold([n_splits,...]) 分層K折交叉驗證器
model_selection.StratifiedShuffleSplit([…]) 分層ShuffleSplit交叉驗證器
model_selection.TimeSeriesSplit([n_splits,...]) 時間序列交叉驗證器

拆分器函數

model_selection.check_cv([cv, y, classifier]) 輸入檢查器實用程序,用于構建交叉驗證器
model_selection.train_test_split(*arrays, …) 將數組或矩陣拆分為隨機訓練和測試子集

超參數優化器

model_selection.GridSearchCV(estimator, …) 詳盡搜索估計器的指定參數值。
model_selection.ParameterGrid(param_grid) 參數的網格,每個網格都有離散數量的值。
model_selection.ParameterSampler(…[,…]) 根據給定分布采樣的參數生成器。
model_selection.RandomizedSearchCV(…[,…]) 隨機搜索超參數。

模型驗證

model_selection.cross_validate(estimator, X) 通過交叉驗證評估指標,并記錄擬合/得分時間。
model_selection.cross_val_predict(estimator, X) 為每個輸入數據點生成交叉驗證的估計
model_selection.cross_val_score(estimator, X) 通過交叉驗證評估分數
model_selection.learning_curve(estimator, X, …) 學習曲線。
model_selection.permutation_test_score(...) 通過排列評估交叉驗證分數的重要性
model_selection.validation_curve(estimator, …) 驗證曲線。

sklearn.multiclass:多類和多標簽分類

多類和多標簽分類策略

該模塊實現了多類學習算法:

  • 一對剩余/一對全部
  • 一對一
  • 糾錯輸出代碼

此模塊中提供的估計器是元估計器:它們需要在其構造函數中提供基本估計器。例如,可以使用這些估計器將二進制分類器或回歸器轉換為多類分類器。也可以將這些估計器與多類估計器一起使用,以期提高其準確性或運行時性能。

scikit-learn中的所有分類器均實現多類分類;僅當您要嘗試使用自定義多類別策略時,才需要使用此模塊。

相對于其余的元分類器也實現了一種predict_proba方法,只要該方法由基本分類器實現即可。該方法在單標簽和多標簽情況下都返回類成員資格的概率。請注意,在多標簽情況下,概率是給定樣本屬于給定類別的邊際概率。這樣,在多標簽情況下,給定樣本的所有可能標簽上的這些概率之和不會像在單標簽情況下那樣合計為一。

用戶指南:有關更多詳細信息,請參見“多類和多標簽算法”部分。

multiclass.OneVsRestClassifier(estimator, *) 一對剩余(OvR)多類別/多標簽策略
multiclass.OneVsOneClassifier(estimator, *) 一對一多策略
multiclass.OutputCodeClassifier(estimator, *) (錯誤糾正)輸出代碼多類策略

sklearn.multioutput:多輸出回歸和分類

該模塊實現多輸出回歸和分類。

此模塊中提供的估計器是元估計器:它們需要在其構造函數中提供基本估計器。元估計器將單輸出估計器擴展到多輸出估計器。

用戶指南:有關更多詳細信息,請參見“ 多類和多標簽算法”部分。

multioutput.ClassifierChain(base_estimator,*) 將二元分類器排列到一個鏈中的多標簽模型。
multioutput.MultiOutputRegressor(estimator, *) 多目標回歸
multioutput.MultiOutputClassifier(estimator, *) 多目標分類
multioutput.RegressorChain(base_estimator,*) 一種多標簽模型,可將回歸安排到一個鏈中。

sklearn.naive_bayes:樸素貝葉斯

sklearn.naive_bayes模塊實現了樸素貝葉斯算法。這些是基于貝葉斯定理和強(樸素)特征獨立性假設的監督學習方法。

用戶指南:有關更多詳細信息,請參見“ 樸素貝葉斯”部分。

naive_bayes.BernoulliNB(*[, α, …]) 樸素貝葉斯分類器用于多元伯努利模型。
naive_bayes.CategoricalNB(*[, α, …]) 樸素貝葉斯分類器的分類特征
naive_bayes.ComplementNB(*[, α, …]) 在Rennie等人中描述的補體樸素貝葉斯分類器。
naive_bayes.GaussianNB(*[, priors, …]) 高斯樸素貝葉斯(GaussianNB)
naive_bayes.MultinomialNB(*[, α, …]) 樸素貝葉斯分類器用于多項模型

sklearn.neighbors:最近鄰

sklearn.neighbors模塊實現k近鄰算法。

用戶指南:有關更多詳細信息,請參見“ 最近鄰”部分。

neighbors.BallTree(X [,leaf_size,metric]) BallTree用于快速廣義N點問題
neighbors.DistanceMetric DistanceMetric類
neighbors.KDTree(X [,leaf_size,metric]) KDTree用于快速廣義N點問題
neighbors.KernelDensity(*[, bandwidth, …]) 內核密度估計。
neighbors.KNeighborsClassifier([…]) 分類器執行k最近鄰居投票。
neighbors.KNeighborsRegressor([n_neighbors,...]) 基于k最近鄰的回歸。
neighbors.KNeighborsTransformer(*[, mode, …]) 將X轉換為k個最近鄰居的(加權)圖
neighbors.LocalOutlierFactor([n_neighbors,...]) 使用局部離群因子(LOF)的無監督離群檢測
neighbors.RadiusNeighborsClassifier([…]) 分類器在給定半徑內實現鄰居之間的投票
neighbors.RadiusNeighborsRegressor([radius, …]) 基于固定半徑內的鄰居的回歸。
neighbors.RadiusNeighborsTransformer(* [,…]) 將X轉換為比半徑更近的鄰居的(加權)圖
neighbors.NearestCentroid([metric, …]) 最近的質心分類器。
neighbors.NearestNeighbors(* [,n_neighbors,…]) 用于實施鄰居搜索的無監督學習者。
neighbors.NeighborhoodComponentsAnalysis([…]) 鄰域成分分析
neighbors.kneighbors_graph(X,n_neighbors,*) 計算X中點的k鄰居的(加權)圖
neighbors.radius_neighbors_graph(X, radius, *) 計算X中點的鄰居(加權)圖

sklearn.neural_network:神經網絡模型

sklearn.neural_network模塊包括基于神經網絡的模型。

用戶指南:有關更多詳細信息,請參見神經網絡模型(受監管)神經網絡模型(無監管)部分。

neural_network.BernoulliRBM([n_components,...]) 伯努利限制玻爾茲曼機(RBM)。
neural_network.MLPClassifier([…]) 多層感知器分類器。
neural_network.MLPRegressor([…]) 多層感知器回歸器。

sklearn.pipeline:管道

sklearn.pipeline模塊實現實用程序以構建復合估計器,作為轉換和估計器鏈。

用戶指南:有關更多詳細信息,請參見“ 管道和復合估計器”部分。

pipeline.FeatureUnion(transformer_list,* [,…]) 連接多個轉換器對象的結果。
pipeline.Pipeline(steps, *[, memory, verbose]) 帶有最終估算器的變換管線。
pipeline.make_pipeline(*steps, * *kwargs)
pipeline.make_union(*transformers, **kwargs) 從給定的轉換器構造一個FeatureUnion。

sklearn.preprocessing:預處理和規范化

sklearn.preprocessing模塊包括縮放,居中,歸一化,二值化方法。

用戶指南:有關更多詳細信息,請參見“ 預處理數據”部分。

preprocessing.Binarizer(*[, threshold, copy]) 根據閾值對數據進行二值化(將要素值設置為0或1)
preprocessing.FunctionTransformer([func,...]) 從任意可調用對象構造一個轉換器。
preprocessing.KBinsDiscretizer([n_bins,...]) 將連續數據分成間隔。
preprocessing.KernelCenterer() 將內核矩陣居中
preprocessing.LabelBinarizer(* [,neg_label,…]) 以一對一的方式對標簽進行二值化
preprocessing.LabelEncoder 使用0到n_classes-1之間的值對目標標簽進行編碼。
preprocessing.MultiLabelBinarizer(* [,…]) 在可迭代的可迭代對象和多標簽格式之間進行轉換
preprocessing.MaxAbsScaler(*[, copy]) 通過其最大絕對值縮放每個特征。
preprocessing.MinMaxScaler([feature_range, copy]) 通過將每個要素縮放到給定范圍來變換要素。
preprocessing.Normalizer([norm, copy]) 將樣本分別歸一化為單位范數。
preprocessing.OneHotEncoder(*[, categories, …]) 將分類要素編碼為一鍵式數字數組。
preprocessing.OrdinalEncoder(* [,…]) 將分類特征編碼為整數數組。
preprocessing.PolynomialFeatures([degree, …]) 生成多項式和交互特征。
preprocessing.PowerTransformer([method, …]) 逐個應用冪變換以使數據更像高斯型。
preprocessing.QuantileTransformer(* [,…]) 使用分位數信息變換特征。
preprocessing.RobustScaler(* [,…]) 使用對異常值具有魯棒性的統計量來縮放要素。
preprocessing.StandardScaler(*[, copy, …]) 通過去除均值并縮放到單位方差來標準化特征
preprocessing.add_dummy_feature(X[, value]) 具有附加虛擬功能的增強數據集。
preprocessing.binarize(X, *[, threshold, copy]) 類數組或稀疏矩陣的布爾閾值
preprocessing.label_binarize(y, *, classes) 以一對一的方式對標簽進行二值化
preprocessing.maxabs_scale(X, *[, axis, copy]) 將每個要素縮放到[-1,1]范圍而不會破壞稀疏性。
preprocessing.minmax_scale(X[, …]) 通過將每個要素縮放到給定范圍來變換要素。
preprocessing.normalize(X[, norm, axis, …]) 分別將輸入向量縮放為單位范數(向量長度)。
preprocessing.quantile_transform(X, *[, …]) 使用分位數信息變換特征。
preprocessing.robust_scale(X, *[, axis, …]) 沿任何軸標準化數據集
preprocessing.scale(X, *[, axis, with_mean, …]) 沿任何軸標準化數據集
preprocessing.power_transform(X[, method, …]) 冪變換是一組參數化,單調變換,可用于使數據更像高斯型。

sklearn.random_projection:隨機投影

隨機投影轉換器

隨機投影是一種簡單且計算有效的方法,可通過以可控制的精度(以附加方差)為代價來減少數據的維數,以縮短處理時間并縮小模型尺寸。

控制隨機投影矩陣的尺寸和分布,以保留數據集的任何兩個樣本之間的成對距離。

隨機投影效率背后的主要理論結果是 Johnson-Lindenstrauss引理(引用Wikipedia)

在數學中,Johnson-Lindenstrauss引理是關于從高維點到低維歐幾里德空間的點的低失真嵌入的結果。引理指出,高維空間中的一小部分點可以以幾乎保留點之間的距離的方式嵌入到低維空間中。用于嵌入的地圖至少為Lipschitz,甚至可以視為正交投影。

用戶指南:有關更多詳細信息,請參見“ 隨機投影”部分。

random_projection.GaussianRandomProjection([…]) 通過高斯隨機投影降低維數
random_projection.SparseRandomProjection([…]) 通過稀疏隨機投影降低尺寸
random_projection.johnson_lindenstrauss_min_dim(...) 查找“安全”數量的組件以隨機投影

sklearn.semi_supervised半監督學習

sklearn.semi_supervised模塊實現了半監督學習算法。這些算法將少量標記的數據和大量未標記的數據用于分類任務。該模塊包括標簽傳播。

用戶指南:有關更多詳細信息,請參見“ 半監督學習”部分。

semi_supervised.LabelPropagation([kernel, …]) 標簽傳播分類器
semi_supervised.LabelSpreading([kernel, …]) 用于半監督學習的LabelSpreading模型

sklearn.svm:支持向量機

sklearn.svm模塊包括支持向量機算法。

用戶指南:有關更多詳細信息,請參見“支持向量機”部分。

估計器

svm.LinearSVC([penalty, loss, dual, tol, C, …]) 線性支持向量分類。
svm.LinearSVR(*[, epsilon, tol, C, loss, …]) 線性支持向量回歸。
svm.NuSVC(*[, nu, kernel, degree, gamma, …]) Nu支持向量分類。
svm.NuSVR(*[, nu, C, kernel, degree, gamma, …]) Nu支持向量回歸。
svm.OneClassSVM(*[, kernel, degree, gamma, …]) 無監督異常值檢測。
svm.SVC(*[, C, kernel, degree, gamma, …]) C支持向量分類。
svm.SVR(*[, kernel, degree, gamma, coef0, …]) Epsilon支持向量回歸。
svm.l1_min_c(X, y, *[, loss, fit_intercept, …]) 返回C的最低界限,以確保對于(l1_min_C,infinity)中的C,該模型不能為空。

sklearn.tree:決策樹

sklearn.tree模塊包括用于分類和回歸的基于決策樹的模型。

用戶指南:有關更多詳細信息,請參見“ 決策樹”部分。

tree.DecisionTreeClassifier(*[, criterion, …]) 決策樹分類器。
tree.DecisionTreeRegressor(*[, criterion, …]) 決策樹回歸器。
tree.ExtraTreeClassifier(*[, criterion, …]) 極為隨機的樹分類器。
tree.ExtraTreeRegressor(*[, criterion, …]) 極隨機的樹回歸器。
tree.export_graphviz(decision_tree[, …]) 以DOT格式導出決策樹。
tree.export_text(decision_tree, *[, …]) 建立一個文本報告,顯示決策樹的規則。

繪圖

| tree.plot_tree(決策樹, *[, …]) | 繪制決策樹。 |

sklearn.utils:實用工具

sklearn.utils模塊包括各種實用程序。

utils.arrayfuncs.min_pos 在正值上找到數組的最小值
utils.as_float_array(X, *[, copy, …]) 將類似數組的數組轉換為浮點數組。
utils.assert_all_finite(X,* [,allow_nan]) 如果X包含NaN或無窮大,則引發ValueError。
utils.Bunch(** kwargs) 容器對象將鍵公開為屬性
utils.check_X_y(X,y [,accept_sparse,…]) 標準估算器的輸入驗證。
utils.check_array(array[, accept_sparse, …]) 對數組,列表,稀疏矩陣或類似內容進行輸入驗證。
utils.check_scalar(x, name, target_type, *) 驗證標量參數的類型和值。
utils.check_consistent_length(*arrays) 檢查所有數組的第一維度是否一致。
utils.check_random_state(seed) 將種子轉換為np.random.RandomState實例
utils.class_weight.compute_class_weight(...) 估計不平衡數據集的類權重。
utils.class_weight.compute_sample_weight(...) 對于不平衡的數據集,按類別估算樣本權重。
utils.deprecated([extra]) 裝飾器,用于將功能或類標記為不推薦使用。
utils.estimator_checks.check_estimator(Estimator) 檢查估計器是否遵守scikit-learn約定。
utils.estimator_checks.parametrize_with_checks(...) Pytest特定的裝飾器,用于參數估計器檢查。
utils.estimator_html_repr(estimator) 構建估算器的HTML表示形式。
utils.extmath.safe_sparse_dot(a,b,* [,…]) 正確處理稀疏矩陣案例的點積
utils.extmath.randomized_range_finder(A, *, …) 計算一個正交矩陣,其范圍近似于A的范圍。
utils.extmath.randomized_svd(M,n_components,*) 計算截斷的隨機SVD
utils.extmath.fast_logdet(A) 計算一個對稱的log(det(A))
utils.extmath.density(w,** kwargs) 計算稀疏向量的密度
utils.extmath.weighted_mode(a, w, *[, axis]) 返回數組中加權模態(最常見)值的數組
utils.gen_even_slices(n,n_packs,* [,n_samples]) 生成器創建n_packs片,最多可達n。
utils.graph.single_source_shortest_path_length(...) 返回從源到所有可達節點的最短路徑長度。
utils.graph_shortest_path.graph_shortest_path 對正有向圖或無向圖執行最短路徑圖搜索。
utils.indexable(*iterables) 使數組可索引以進行交叉驗證。
utils.metaestimators.if_delegate_has_method(...) 為委托給子估計器的方法創建一個裝飾器
utils.multiclass.type_of_target(y) 確定目標指示的數據類型。
utils.multiclass.is_multilabel(y) 檢查是否y為多標簽格式。
utils.multiclass.unique_labels(*ys) 提取唯一標簽的有序數組
utils.murmurhash3_32 計算種子的密鑰的32位murmurhash3。
utils.resample(*arrays, **options) 以一致的方式對數組或稀疏矩陣重新采樣
utils._safe_indexing(X, indices, *[, axis]) 使用索引返回X的行,項目或列。
utils.safe_mask(X, mask) 返回可在X上安全使用的口罩。
utils.safe_sqr(X, *[, copy]) 類數組和稀疏矩陣的元素明智平方。
utils.shuffle(*arrays, **options) 以一致的方式隨機排列數組或稀疏矩陣
utils.sparsefuncs.incr_mean_variance_axis(X, …) 計算CSR或CSC矩陣上沿軸的增量平均值和方差。
utils.sparsefuncs.inplace_column_scale(X, scale) CSC / CSR矩陣的就地列縮放。
utils.sparsefuncs.inplace_row_scale(X, scale) CSR或CSC矩陣的就地行縮放。
utils.sparsefuncs.inplace_swap_row(X,m,n) 就地交換兩行CSC / CSR矩陣。
utils.sparsefuncs.inplace_swap_column(X,m,n) 就地交換兩列CSC / CSR矩陣。
utils.sparsefuncs.mean_variance_axis(X, axis) 計算CSR或CSC矩陣上沿軸的均值和方差
utils.sparsefuncs.inplace_csr_column_scale(X, …) CSR矩陣的就地列縮放。
utils.sparsefuncs_fast.inplace_csr_row_normalize_l1 使用l1范數進行就地行歸一化
utils.sparsefuncs_fast.inplace_csr_row_normalize_l2 使用l2范數進行就地行歸一化
utils.random.sample_without_replacement 采樣整數而不進行替換。
utils.validation.check_is_fitted(estimator) 對估算器執行is_fitted驗證。
utils.validation.check_memory(memory) 檢查memory是否類似于joblib.Memory。
utils.validation.check_symmetric(array, *[, …]) 確保該數組是2D,正方形和對稱的。
utils.validation.column_or_1d(y, *[, warn]) Ravel列或一維numpy數組,否則引發錯誤
utils.validation.has_fit_parameter(...) 檢查估計器的fit方法是否支持給定參數。
utils.all_estimators([type_filter]) 從sklearn獲取所有估計量的列表。

來自joblib的實用程序:

utils.parallel_backend(backend[, n_jobs, …]) 在with塊中更改Parallel使用的默認后端。
utils.register_parallel_backend(name, factory) 注冊一個新的并行后端工廠。

最近不推薦使用的

在0.24中刪除

model_selection.fit_grid_point(X,y,…[,…]) 不推薦使用:fit_grid_point在0.23版中已棄用,并將在0.25版中刪除
utils.safe_indexing(X, indices, *[, axis]) 不推薦使用:safe_indexing在0.22版中已棄用,并將在0.24版中刪除。