版本更新日志?
版本0.23.2
2020年8月3日
改款
下列估算器和函數在使用相同數據和參數時,可能會產生與先前版本不同的模型。這通常是由于建模邏輯(錯誤修復或增強)或隨機采樣過程中的更改而產生的。
修復 cluster.KMeans
和cluster.MiniBatchKMeans
的inertia_
屬性。
詳細信息在下面的更改日志中列出。
(盡管我們試圖通過提供此信息來更好地通知用戶,但我們不能確保此列表是完整的。)
更新日志
sklearn.cluster
修復 修復了一個 cluster.KMeans
中的錯誤,其舍入誤差可能會阻止tol=0
時的收斂聲明。#17959,by :Jérémiedu Boisberranger。修復 修復了一個 cluster.KMeans
和cluster.MiniBatchKMeans
中的錯誤,其報告的慣量被樣本權重錯誤加權。#17848,by :Jérémiedu Boisberranger。修復 在修正了 cluster.MeanShift
使用bin_seeding=True
時的錯誤。當估計帶寬為0時,該行為等效于bin_seeding=False
。 #17742,by :Jérémiedu Boisberranger。修復 修復了 cluster.AffinityPropagation
中的錯誤,該錯誤在數組數據類型為float32時給出錯誤的簇。#17995 by Thomaz Santana and Amanda Dsouza.
sklearn.decomposition
修復 修復了一個 decomposition.MiniBatchDictionaryLearning.partial_fit
中的錯誤,該錯誤應在小批次處理中僅迭代一次來更新字典。 #17433 by Chiara Marmo.修復 避免Windows中 decomposition.IncrementalPCA.partial_fit
對于大的batch_size
和n_samples
取值引起的溢出問題。 #17985 by Alan Butler and Amanda Dsouza.
sklearn.ensemble
修復 修復了 ensemble.MultinomialDeviance
中的錯誤,其將平均對數損失計算為對數損失之和。 #17694 by Markus Rempfler and Tsutomu Kusanagi.修復 修正 ensemble.StackingClassifier
和ensemble.StackingRegressor
與未定義的n_features_in_
估計器的兼容性。 #17357 by Thomas Fan.
sklearn.feature_extraction
修復 修復了 feature_extraction.text.CountVectorizer
中設置max_features
時樣本順序不變性被破壞且特征具有相同計數的錯誤。 #18016 by Thomas Fan, Roman Yurchak, and Joel Nothman.
sklearn.linear_model
修復 當 X_copy=True
和Gram='auto'
時,linear_model.lars_path
不會覆蓋X
。 #17914 by Thomas Fan.
sklearn.manifold
修復 修復了 metrics.pairwise_distances
中如果metric='seuclidean'
且X
不是np.float64
類型會引發錯誤的錯誤。 #15730 by Forrest Koch.
sklearn.metrics
修復 修復了一個 metrics.mean_squared_error
中的錯誤,該錯誤中多個RMSE值的平均值被錯誤地計算為多個MSE值的平均值的根。 #17309 by Swier Heeres。
sklearn.pipeline
修復 當 transformer_list
中包含None
時,pipeline.FeatureUnion
會提出棄用警告。 #17360 by Thomas Fan.
sklearn.utils
修復 修復 utils.estimator_checks.check_estimator
以使所有測試用例都支持binary_only
估計器標簽。 #17812 by Bruno Charron.
版本0.23.1
2020年5月18日
更新日志
sklearn.cluster
效率 cluster.KMeans
對于非常小的數據集,效率得到了提高。特別是它不能再產生空閑線程。 #17210 和 #17235 by Jeremie du Boisberranger.修復 修復了 cluster.KMeans
中的錯誤,用戶提供的樣本權重已在適當位置進行了修改。 #17204 by Jeremie du Boisberranger.
雜項
修復 修復了在 repr
第三方估算器中構造函數的**kwargs
參數的錯誤,changed_only
現在為默認值為True。 #17205 by Nicolas Hug.
版本0.23.0
2020年5月12日
有關該發行版主要要點的簡短說明,請參閱 scikit-learn 0.23的發行要點。
變更日志圖例
主要特點 :您以前做不到的大事。 特征 :您之前無法做的事情。 效率 :現有功能現在可能不需要太多的計算或內存。 增強功能 :其他小改進。 修復 :某些以前未按文檔說明進行操作或符合合理預期的內容現在應該可以使用。 API變更:您將需要更改代碼以在將來具有相同的效果;否則將來會刪除某個功能。
強制僅關鍵字的參數
為了促進對庫的清晰和明確的使用,現在期望大多數構造函數和函數參數作為關鍵字參數(即使用param=value
語法)而不是位置參數傳遞。為了簡化過渡,如果僅關鍵字參數用作位置,則會引發FutureWarning
。在0.25版中,這些參數將嚴格僅用作關鍵字,并且將引發TypeError
。#15005 by Joel Nothman, Adrin Jalali, Thomas Fan, and Nicolas Hug.有關 更多詳細信息,請參見SLEP009。
改款
下列估算器和函數在使用相同數據和參數時,可能會產生與先前版本不同的效果。這通常是由于建模邏輯(錯誤修復或增強)或隨機采樣過程中的更改而發生的。
修復 ensemble.BaggingClassifier
,ensemble.BaggingRegressor
和ensemble.IsolationForest
。修復 cluster.KMeans
與algorithm="elkan"
和algorithm="full"
。修復 cluster.Birch
修復 compose.ColumnTransformer.get_feature_names
修復 compose.ColumnTransformer.fit
修復 datasets.make_multilabel_classification
修復 decomposition.PCA
與n_components='mle'
增強功能 decomposition.NMF
并decomposition.non_negative_factorization
帶有float32 dtype輸入。修復 decomposition.KernelPCA.inverse_transform
API變更 ensemble.HistGradientBoostingClassifier
和ensemble.HistGradientBoostingRegrerssor
修復 ensemble.BaggingClassifier
中的estimator_samples_
,ensemble.BaggingRegressor
和ensemble.IsolationForest
修復 ensemble.StackingClassifier
并ensemble.StackingRegressor
用sample_weight
修復 gaussian_process.GaussianProcessRegressor
修復 linear_model.RANSACRegressor
與sample_weight
。修復 linear_model.RidgeClassifierCV
修復 metrics.mean_squared_error
與squared
和multioutput='raw_values'
。修復 metrics.mutual_info_score
得分為負。修復 metrics.confusion_matrix
零長度y_true
和y_pred
修復 neural_network.MLPClassifier
修復 preprocessing.StandardScaler
用partial_fit
和稀疏輸入。修復 preprocessing.Normalizer
使用norm ='max'修復 使用任何模型 svm.libsvm
或svm.liblinear
解算器,包括svm.LinearSVC
,svm.LinearSVR
,svm.NuSVC
,svm.NuSVR
,svm.OneClassSVM
,svm.SVC
,svm.SVR
,linear_model.LogisticRegression
。修復 tree.DecisionTreeClassifier
,tree.ExtraTreeClassifier
和ensemble.GradientBoostingClassifier
以及predict
的方法tree.DecisionTreeRegressor
,tree.ExtraTreeRegressor
以及ensemble.GradientBoostingRegressor
和predict
,decision_path
和predict_proba
中只讀FLOAT32輸入。
詳細信息在下面的更改日志中列出。
(盡管我們試圖通過提供此信息來更好地通知用戶,但我們不能確保此列表是完整的。)
更新日志
sklearn.cluster
效率 cluster.Birch
預測方法的實現通過使用分塊方案計算距離矩陣來避免高內存占用。#16149 by Jeremie du Boisberranger and Alex Shacked.效率 主要特點 cluster.KMeans
的關鍵部分具有更優化的實現。現在,并行處理遍歷數據,而無需進行初始化,從而實現了更好的可伸縮性。#11950 by Jeremie du Boisberranger.增強功能 cluster.KMeans
現在當solver = "elkan"
時支持稀疏數據 。#11950 by Jeremie du Boisberranger.增強功能 cluster.AgglomerativeClustering
具有單鏈接群集的更快,內存效率更高的實現。 #11514 by Leland McInnes.修復 cluster.KMeans
中algorithm="elkan"
且tol=0
收斂 ,作為algorithm="full"
默認值。#16075 by Erich Schubert.修復 修正了 cluster.Birch
中的一個錯誤,其中的n_clusters
參數不能有np.int64
型。 #16484 by Jeremie du Boisberranger.修復 cluster.AgglomerativeCluClustering
當距離矩陣不是平方和且affinity=precomputed
時添加特定誤差。 #16257 by Simona Maggio。API變更 n_jobs
參數在cluster.KMeans
,cluster.SpectralCoclustering
并cluster.SpectralBiclustering
中已被棄用。他們現在使用基于OpenMP的并行性。有關如何控制線程數的更多詳細信息,請參閱我們的Parallelism注釋。#11950 by Jeremie du Boisberranger.API變更 cluster.KMeans
的precompute_distances
參數已棄用。沒有作用。#11950 by Jeremie du Boisberranger.API變更 該 random_state
參數已被添加到cluster.AffinityPropagation
。 #16801 by @rcwoolston and Chiara Marmo.
sklearn.compose
效率 compose.ColumnTransformer
現在,使用數據幀和字符串將其用于轉換器的特定數據子集時,速度更快。 #16431 by Thomas Fan.增強功能 compose.ColumnTransformer
方法get_feature_names
現在支持'passthrough'
列,特征名稱可以是數據框的列名稱,也'xi'
可以是列索引i
。#14048 by Lewis Ball.修復 compose.ColumnTransformer
方法get_feature_names
現在當一個transformer步驟應用于空列列表時,返回正確的結果 #15963 by Roman Yurchak.修復 compose.ColumnTransformer.fit
選擇在數據框中不是唯一的列名稱時將發生錯誤。 #16431 by Thomas Fan.
sklearn.datasets
效率 datasets.fetch_openml
減少了內存使用量,因為它不再將完整的數據集文本流存儲在內存中。#16084 by Joel Nothman.特征 datasets.fetch_california_housing
現在支持通過設置as_frame=True
來使用pandas的異構數據。#15950 by Stephanie Andrews and Reshama Shaikh.特征 嵌入式數據集加載程序 load_breast_cancer
,load_diabetes
,load_digits
,load_iris
,load_linnerud
和load_wine
現在通過設置as_frame=True
支持加載為pandasDataFrame
。 #15709 by @shivamgargsya and Venkatachalam N.增強功能 在 datasets.make_blobs
中添加了return_centers
參數,該參數可用于返回每個集群的中心。 #15709 by @shivamgargsya and Venkatachalam N.增強功能 函數 datasets.make_circles
,datasets.make_moons
現在接受二元素元組。 #15707 by Maciej J Mikulski。修復 datasets.make_multilabel_classification
中參數n_classes < 1
或length < 1
時產生ValueError
。 #16006 by Rushabh Vasani.API變更 從 sklearn.logger
中移除StreamHandler
,避免在將hander附加到根記錄器的常見情況下重復記錄消息,并遵循Python日志記錄文檔建議,將日志消息處理留給用戶和應用程序代碼。#16451 by Christoph Deil.
sklearn.decomposition
增強功能 decomposition.NMF
和decomposition.non_negative_factorization
現在保留FLOAT32 類型。 #16280 by Jeremie du Boisberranger.增強功能 TruncatedSVD.transform
現在在給定的稀疏csc
矩陣上更快 。#16837 by @wornbb.修復 decomposition.PCA
如果使用float取值的n_components
參數,則只選擇解釋方差大于n_components
的成分。 #15669 by Krishna Chaitanya.修復 decomposition.PCA
用n_components='mle'
現在可以正確處理小的特征值,并不能由此推斷0為正確的多個成分。 #16224 by Lisa Schwetlick, and Gelavizh Ahmadi and Marija Vlajic Wheeler and #16841 by Nicolas Hug.修復 decomposition.KernelPCA
方法inverse_transform
現在將正確的逆變換應用于轉換后的數據。 #16655 by Lewis Ball.修復 修復了在 fit
期間,decomposition.KernelPCA
有時引起invalid value encountered in multiply
的錯誤。#16718 by Gui Miotto.**特征 **向 decomposition.SparsePCA
和decomposition.MiniBatchSparsePCA
添加了n_components_
屬性。#16981 by Mateusz Górski.
sklearn.ensemble
主要特點 ensemble.HistGradientBoostingClassifier
和ensemble.HistGradientBoostingRegressor
現在支持 sample_weight。#14696 by Adrin Jalali and Nicolas Hug.特征 ensemble.HistGradientBoostingClassifier
和ensemble.HistGradientBoostingRegressor
中的提前停止現在由``early_stopping參數決定,而不是
n_iter_no_change`。默認值為“自動”,如果訓練集中至少有10,000個樣本,則可以提前停止。 #14516 by Johann Faouzi.主要特點 ensemble.HistGradientBoostingClassifier
和ensemble.HistGradientBoostingRegressor
現在支持單調約束,當特征對目標具有正/負影響時非常有用。#15582 by Nicolas Hug.API變更在 ensemble.VotingClassifier
和ensemble.VotingRegressor
類中添加了布爾標志verbose
。 #16069 by Sam Bail, Hanna Bruce MacDonald, Reshama Shaikh, and Chiara Marmo.API變更 修正了 ensemble.HistGradientBoostingClassifier
和ensemble.HistGradientBoostingRegrerssor
中的一個錯誤,如果條件與max_depth
標準同時達到,不會考慮max_leaf_nodes
參數。 #16183 by Nicolas Hug.修復 更改了 ensemble.HistGradientBoostingClassifier
和ensemble.HistGradientBoostingRegressor
的max_depth
參數約定。現在深度對應于從根到最深葉的邊緣數量。現在允許樹樁(具有一個拆分的樹)。#16182 by Santhosh B修復 修復了 ensemble.BaggingClassifier
,ensemble.BaggingRegressor
和ensemble.IsolationForest
中的錯誤,fit
期間使用estimators_samples_
屬性未生成正確索引。 #16437 by Jin-Hwan CHO.修復 修正了在 ensemble.StackingClassifier
和ensemble.StackingRegressor
其中所述sample_weight
參數沒有被傳遞到cross_val_predict
交叉驗證折疊上評估基估計量以獲得元估計量的輸入 #16539 by Bill DeRose.特征 為 ensemble.HistGradientBoostingRegressor
增加了額外的loss="poisson"
選項,這增加了泊松偏差與對數鏈接有用的建模計數數據。#16692 by Christian Lorentzen修復 修正了一個 ensemble.HistGradientBoostingRegressor
和ensemble.HistGradientBoostingClassifier
其多次調用fit且warm_start=True
,early_stopping=True
和沒有驗證集時。 #16663 by Thomas Fan.
sklearn.feature_extraction
效率 feature_extraction.text.CountVectorizer
現在在按文檔頻率篩選特征后對特征進行排序。這樣可以提高帶有min_df
或max_df
的大詞匯量數據集的性能。 #15834 by Santiago M. Mola.
sklearn.feature_selection
增強功能 在 feature_selection.RFE
和feature_selection.RFECV
中增加了對多輸出數據的支持 。 #16103 by Divyaprabha M.API變更 feature_selection.SelectorMixin
重新添加到公共API。#16132 by @trimeta.
sklearn.gaussian_process
增強功能 gaussian_process.kernels.Matern
當nu=np.inf
時返回RBF內核。 #15503 by Sam Dixon.修復 修復了 gaussian_process.GaussianProcessRegressor
不使用WhiteKernel時導致預測標準偏差僅介于0和1之間的錯誤。#15782 by @plgreenLIRU。
sklearn.impute
增強功能 impute.IterativeImputer
接受max_value
和min_value
的標量和類數組輸入。類數組的輸入允許為每個特征指定不同的最大值和最小值。#16403 by Narendra Mukherjee.增強功能 impute.SimpleImputer
,impute.KNNImputer
和impute.IterativeImputer
接受包含缺失值的pandas可為空的整數數據類型。 #16508 by Thomas Fan.
sklearn.inspection
特征 inspection.partial_dependence
和inspection.plot_partial_dependence
現在支持快“遞歸”方法ensemble.RandomForestRegressor
和tree.DecisionTreeRegressor
。#15864 by Nicolas Hug.
sklearn.linear_model
主要特點 添加了具有非正態誤差分布的廣義線性模型(GLM),包括和 linear_model.PoissonRegressor
,linear_model.GammaRegressor
和linear_model.TweedieRegressor
分別使用了Poisson,Gamma和Tweedie分布。 #14300 by Christian Lorentzen, Roman Yurchak, and Olivier Grisel.主要特點 在 linear_model.ElasticNet
和linear_model.Lasso
對于密集特征矩陣X
支持sample_weight
。#15436由Christian Lorentzen。效率 linear_model.RidgeCV
和linear_model.RidgeClassifierCV
現在不會分配一個可能很大的數組來存儲fit
期間所有超參數的對偶系數,也不會分配一個存儲所有錯誤或LOO預測的數組,除非store_cv_values
是True
。 #15652 by Jér?me Dockès.增強功能 linear_model.LassoLars
和linear_model.Lars
現在支持jitter
參數向目標添加隨機噪聲。在某些情況下,這可能有助于提高穩定性。 #15179 by @angelaambroz.修復 修復了以下錯誤:如果將 sample_weight
參數傳遞給的linear_model.RANSACRegressor
中的fit方法,則在最終模型擬合期間不會將其傳遞給base_estimator
。 #15773 by Jeremy Alexandre。修復 向 linear_model.RidgeCV
和linear_model.RidgeClassifierCV
添加best_score_
屬性。#15653 by Jér?me Dockès.修復 修復了 linear_model.RidgeClassifierCV
通過特定評分策略的錯誤。在內部估算器輸出得分而不是預測之前。 #14848 by Venkatachalam N.修復 linear_model.LogisticRegression
現在,當solver='newton-cg'
通過檢查下等值或等值而不是嚴格地下等值的inabsgrad
和tol
in,可以避免不必要的迭代utils.optimize._newton_cg
。 #16261 by Carlos Brandt.API變更 不推薦使用的公共屬性 standard_coef_
,standard_intercept_
,average_coef_
,和average_intercept_
在linear_model.SGDClassifier
,linear_model.SGDRegressor
,linear_model.PassiveAggressiveClassifier
,linear_model.PassiveAggressiveRegressor
中。 #16261 by Carlos Brandt.修復 效率 linear_model.ARDRegression
n_samples > n_features
時更穩定,速度更快。現在,它可以擴展到成千上萬的樣本。穩定性修正可能暗示非零系數的數量和預測輸出的變化。#16849 by Nicolas Hug.修復 修正了一個 linear_model.ElasticNetCV
,linear_model.MultitaskElasticNetCV
,linear_model.LassoCV
和linear_model.MultitaskLassoCV
中的錯誤,其安裝使用JOBLIB loky后端時會失敗。 #14264 by Jérémie du Boisberranger.效率 加快 linear_model.MultiTaskLasso
,linear_model.MultiTaskLassoCV
,linear_model.MultiTaskElasticNet
,linear_model.MultiTaskElasticNetCV
以避免對小數組慢BLAS 2級呼叫 #17021 by Alex Gramfort and Mathurin Massias.
sklearn.metrics
增強功能 metrics.pairwise.pairwise_distances_chunked
現在允許其reduce_func
不具有返回值,而啟用就地操作。#16397 by Joel Nothman.修復 修復了一個 metrics.mean_squared_error
的錯誤,當multioutput='raw_values'
時不能忽略squared
參數。 #16323 by Rushabh Vasani修復 修復了 metrics.mutual_info_score
可以返回負分數的錯誤。#16362 by Thomas Fan.修復 修復了一個 metrics.confusion_matrix
中的錯誤,該錯誤會在y_true
和y_pred
長度為零且labels
不是None
時引發錯誤。另外,當給labels
參數一個空列表時,會引發一個錯誤。 #16442 by Kyle Parsons.API變更 更改了 metrics.ConfusionMatrixDisplay.plot
和metrics.plot_confusion_matrix
中的值格式,選擇了較短的格式(“ 2g”或“ d”)。 #16159 by Rick Mackenbach and Thomas Fan.API變更 從0.25版開始, metrics.pairwise.pairwise_distances
將不再自動計算馬氏距離VI
參數,V
參數和半球距離參數Y
。期望用戶根據自己選擇的訓練數據計算該參數,并將其傳遞給pairwise_distances
。#16993 by Joel Nothman.
sklearn.model_selection
增強功能 model_selection.GridSearchCV
和model_selection.RandomizedSearchCV
在除了先前發出的類型和詳細信息外,還會在fit failed警告消息中生成堆棧跟蹤信息。 #15622 by Gregory Morse.修復 model_selection.cross_val_predict
當y=None
,支持method="predict_proba"
。#15918 by Luca Kubin.修復 model_selection.fit_grid_point
在0.23中棄用,并在0.25中移除。#16401 by Arie Pratama Sutiono
sklearn.multioutput
增強功能 multioutput.RegressorChain
現在支持fit_params
,對于fit
過程中的base_estimator
。 #16111通過Venkatachalam?。
sklearn.naive_bayes
修復 naive_bayes.CategoricalNB
當輸入的特征數量在fit
和predict
之間不同時,將顯示格式正確的錯誤消息。 #16090由Madhura Jayaratne撰寫。
sklearn.neural_network
效率 neural_network.MLPClassifier
和neural_network.MLPRegressor
已使用時隨機解算器'sgd'
或'adam'
和shuffle=True
,減少內存占用。#14075 by @ meyer89。修復 neural_network.MLPClassifier
通過降低概率來增加邏輯損失函數的數值穩定性 。 #16117 by Thomas Fan.
sklearn.inspection
增強功能 inspection.PartialDependenceDisplay
現在將十分位線作為屬性公開,以便可以隱藏或自定義它們。#15785 by Nicolas Hug
sklearn.preprocessing
特征 preprocessing.OneHotEncoder
的drop
參數,現在將接受值“if_binary”并將刪除具有兩個類別的每個特征的第一個類別。 #16245 by Rushabh Vasani.增強功能 preprocessing.OneHotEncoder
drop_idx_
數組可以包含None
,其中drop_idx_[i] = None
表示沒有刪除索引為i
的任何類別。#16585通過Chiara Marmo。增強功能 preprocessing.MaxAbsScaler
,preprocessing.MinMaxScaler
,preprocessing.StandardScaler
,preprocessing.PowerTransformer
,preprocessing.QuantileTransformer
,preprocessing.RobustScaler
現在支持pandas空包含缺失值的整數類型。#16508 by Thomas Fan.效率 preprocessing.OneHotEncoder
現在轉換速度更快。 #15762 by Thomas Fan.修復 修復了在 preprocessing.StandardScaler
調用partial_fit
稀疏輸入時錯誤地計算統計信息的錯誤。 #16466 by Guillaume Lemaitre.修復 preprocessing.Normalizer
使用norm ='max' 修復了一個錯誤,該錯誤在對向量進行歸一化之前沒有采用最大值的絕對值。 #16632 by Maura Pintor and Battista Biggio.
sklearn.semi_supervised
修復 semi_supervised.LabelSpreading
和semi_supervised.LabelPropagation
在規范化label_distributions_
時避免除以零警告。#15946 by @ngshya.
sklearn.svm
修復 效率 采用改進的 libsvm
隨機坐標生成算法和liblinear
隨機坐標選擇算法。使用了依賴于平臺的Crand()
,它只能在Windows平臺上生成小于32767
的數字(請參閱此博客文章),并且如本演示文稿所示,其隨機化能力也很差。它被C ++ 11mt19937
取代,后者是Mersenne Twister,可以在所有平臺上正確生成31bits / 63bits隨機數。另外,本博客文章建議,用于調整有界區間中的隨機數的粗略“模”后處理器已由調整的Lemire方法代替。任何模型使用svm.libsvm
或svm.liblinear
求解器會受到影響,包括svm.LinearSVC
,svm.LinearSVR
,svm.NuSVC
,svm.NuSVR
,svm.OneClassSVM
,svm.SVC
,svm.SVR
,linear_model.LogisticRegression
。特別是當樣本數量(LibSVM)或特征數量(LibLinear)很大時,用戶可以期待更好的收斂性。 #13511 by SylvainMarié。修復 修復使用自定義內核不接受浮點項(如字符串內核)的 svm.SVC
和svm.SVR
用法。請注意,自定義核現在需要在它們以前接收到有效數字數組的地方驗證其輸入。#11296 by Alexandre Gramfort and Georgi Peev.API變更 svm.SVR
和svm.OneClassSVM
的probA_
以及probB_
屬性現在已被棄用,因為它們沒有用。#15558 by Thomas Fan.
sklearn.tree
修復 tree.plot_tree
rotate
參數未使用,已被棄用。#15806 by Chiara Marmo.修復 修復只支持讀FLOAT32在數組輸入的 predict
,decision_path
和predict_proba
方法tree.DecisionTreeClassifier
,tree.ExtraTreeClassifier
以及ensemble.GradientBoostingClassifier
以及predict
的方法tree.DecisionTreeRegressor
,tree.ExtraTreeRegressor
和ensemble.GradientBoostingRegressor
。 #16331 by Alexandre Batisse.
sklearn.utils
主要特點 現在可以用豐富的html表示形式顯示估算器。通過在 set_config
中設置display='diagram'
,可以在Jupyter筆記本電腦中啟用此功能。可以使用utils.estimator_html_repr
來返回原始html 。#14180 by Thomas Fan.增強功能 改善 utils.validation.column_or_1d
中的錯誤信息。 #15926 by Lo?c Estève.增強功能 utils.check_array
為pandas稀疏數據框添加警告。#16021 by Rushabh Vasani.增強功能 utils.check_array
現在從僅包含SparseArray
列的pandas DataFrame構造一個稀疏矩陣。#16728 by Thomas Fan.增強功能 當 force_all_finite
設置為False
或'allow-nan'
時,utils.validation.check_array
支持pandas的可為空的包含缺失值的整數類型,在這種情況下,數據將轉換為浮點值,其中的pd.NA
值由np.nan
替換。結果,所有sklearn.preprocessing
轉換器接受帶有表示為缺失值的數字輸入的np.nan
,現在也接受直接輸入pd.NA
作為缺失值標記的pd.Int*
或pd.Uint*
類型列的pandas數據框。 #16508 by Thomas Fan.API變更現在不建議將類傳遞到 utils.estimator_checks.check_estimator
和utils.estimator_checks.parametrize_with_checks
,并且在0.24中將刪除對類的支持。而是傳遞實例。 #17032 by Nicolas Hug.API變更 utils.estimator_checks
中的私有工具_safe_tags
被刪除,因此所有的標簽應當通過estimator._get_tags()
獲得。請注意,Mixins像RegressorMixin
這樣的類必須在MRO中_get_tags()
的基類之前出現,才能正常工作。#16950 by Nicolas Hug.修復 utils.all_estimators
現在僅返回公共估算器。 #15380 by Thomas Fan.
雜項
主要特點 添加將在Jupyter筆記本或實驗室中顯示的估算器的HTML表示形式。通過在 sklearn.set_config
中設置display
選項可以激活此可視化。 #14180 by Thomas Fan.增強功能 scikit-learn
現在可以正常使用了mypy
。 #16726 by Roman Yurchak.API變更 現在,大多數估算器都會公開一個 n_features_in_
屬性。此屬性等于傳遞給fit
方法的特征數量。有關詳細信息,請參見SLEP010。#16112 by Nicolas Hug.API變更 現在,估算器具有一個默認為False 的 requires_y
標簽,但繼承自~sklearn.base.RegressorMixin
或~sklearn.base.ClassifierMixin
的估算器除外。此標記用于確保在預期y但未傳遞任何消息時引發正確的錯誤消息。#16622 by Nicolas Hug.API變更 print_changed_only
默認設置已從False更改為True。這意味著repr
估算器的現在更加簡潔,僅顯示在打印估算器時其默認值已更改的參數。您可以使用來還原以前的行為sklearn.set_config(print_changed_only=False)
。另外,請注意,始終可以使用est.get_params(deep=False)
來快速檢查任何估計器的參數 。#17061 by Nicolas Hug.
代碼和文檔貢獻者
感謝自0.22版以來為項目的維護和改進做出貢獻的所有人,其中包括:
Abbie Popa, Adrin Jalali, Aleksandra Kocot, Alexandre Batisse, Alexandre Gramfort, Alex Henrie, Alex Itkes, Alex Liang, alexshacked, Alonso Silva Allende, Ana Casado, Andreas Mueller, Angela Ambroz, Ankit810, Arie Pratama Sutiono, Arunav Konwar, Baptiste Maingret, Benjamin Beier Liu, bernie gray, Bharathi Srinivasan, Bharat Raghunathan, Bibhash Chandra Mitra, Brian Wignall, brigi, Brigitta Sip?cz, Carlos H Brandt, CastaChick, castor, cgsavard, Chiara Marmo, Chris Gregory, Christian Kastner, Christian Lorentzen, Corrie Bartelheimer, Dani?l van Gelder, Daphne, David Breuer, david-cortes, dbauer9, Divyaprabha M, Edward Qian, Ekaterina Borovikova, ELNS, Emily Taylor, Erich Schubert, Eric Leung, Evgeni Chasnovski, Fabiana, Facundo Ferrín, Fan, Franziska Boenisch, Gael Varoquaux, Gaurav Sharma, Geoffrey Bolmier, Georgi Peev, gholdman1, Gonthier Nicolas, Gregory Morse, Gregory R. Lee, Guillaume Lemaitre, Gui Miotto, Hailey Nguyen, Hanmin Qin, Hao Chun Chang, HaoYin, Hélion du Mas des Bourboux, Himanshu Garg, Hirofumi Suzuki, huangk10, Hugo van Kemenade, Hye Sung Jung, indecisiveuser, inderjeet, J-A16, Jérémie du Boisberranger, Jin-Hwan CHO, JJmistry, Joel Nothman, Johann Faouzi, Jon Haitz Legarreta Gorro?o, Juan Carlos Alfaro Jiménez, judithabk6, jumon, Kathryn Poole, Katrina Ni, Kesshi Jordan, Kevin Loftis, Kevin Markham, krishnachaitanya9, Lam Gia Thuan, Leland McInnes, Lisa Schwetlick, lkubin, Loic Esteve, lopusz, lrjball, lucgiffon, lucyleeow, Lucy Liu, Lukas Kemkes, Maciej J Mikulski, Madhura Jayaratne, Magda Zielinska, maikia, Mandy Gu, Manimaran, Manish Aradwad, Maren Westermann, Maria, Mariana Meireles, Marie Douriez, Marielle, Mateusz Górski, mathurinm, Matt Hall, Maura Pintor, mc4229, meyer89, m.fab, Michael Shoemaker, Micha? S?apek, Mina Naghshhnejad, mo, Mohamed Maskani, Mojca Bertoncelj, narendramukherjee, ngshya, Nicholas Won, Nicolas Hug, nicolasservel, Niklas, @nkish, Noa Tamir, Oleksandr Pavlyk, olicairns, Oliver Urs Lenz, Olivier Grisel, parsons-kyle-89, Paula, Pete Green, Pierre Delanoue, pspachtholz, Pulkit Mehta, Qizhi Jiang, Quang Nguyen, rachelcjordan, raduspaimoc, Reshama Shaikh, Riccardo Folloni, Rick Mackenbach, Ritchie Ng, Roman Feldbauer, Roman Yurchak, Rory Hartong-Redden, Rüdiger Busche, Rushabh Vasani, Sambhav Kothari, Samesh Lakhotia, Samuel Duan, SanthoshBala18, Santiago M. Mola, Sarat Addepalli, scibol, Sebastian Kie?ling, SergioDSR, Sergul Aydore, Shiki-H, shivamgargsya, SHUBH CHATTERJEE, Siddharth Gupta, simonamaggio, smarie, Snowhite, stareh, Stephen Blystone, Stephen Marsh, Sunmi Yoon, SylvainLan, talgatomarov, tamirlan1, th0rwas, theoptips, Thomas J Fan, Thomas Li, Thomas Schmitt, Tim Nonner, Tim Vink, Tiphaine Viard, Tirth Patel, Titus Christian, Tom Dupré la Tour, trimeta, Vachan D A, Vandana Iyer, Venkatachalam N, waelbenamara, wconnell, wderose, wenliwyan, Windber, wornbb, Yu-Hang “Maxin” Tang