版本更新日志?
版本0.23.2
2020年8月3日
改款
下列估算器和函數在使用相同數據和參數時,可能會產生與先前版本不同的模型。這通常是由于建模邏輯(錯誤修復或增強)或隨機采樣過程中的更改而產生的。
修復 cluster.KMeans和cluster.MiniBatchKMeans的inertia_屬性。
詳細信息在下面的更改日志中列出。
(盡管我們試圖通過提供此信息來更好地通知用戶,但我們不能確保此列表是完整的。)
更新日志
sklearn.cluster
修復 修復了一個 cluster.KMeans中的錯誤,其舍入誤差可能會阻止tol=0時的收斂聲明。#17959,by :Jérémiedu Boisberranger。修復 修復了一個 cluster.KMeans和cluster.MiniBatchKMeans中的錯誤,其報告的慣量被樣本權重錯誤加權。#17848,by :Jérémiedu Boisberranger。修復 在修正了 cluster.MeanShift使用bin_seeding=True時的錯誤。當估計帶寬為0時,該行為等效于bin_seeding=False。 #17742,by :Jérémiedu Boisberranger。修復 修復了 cluster.AffinityPropagation中的錯誤,該錯誤在數組數據類型為float32時給出錯誤的簇。#17995 by Thomaz Santana and Amanda Dsouza.
sklearn.decomposition
修復 修復了一個 decomposition.MiniBatchDictionaryLearning.partial_fit中的錯誤,該錯誤應在小批次處理中僅迭代一次來更新字典。 #17433 by Chiara Marmo.修復 避免Windows中 decomposition.IncrementalPCA.partial_fit對于大的batch_size和n_samples取值引起的溢出問題。 #17985 by Alan Butler and Amanda Dsouza.
sklearn.ensemble
修復 修復了 ensemble.MultinomialDeviance中的錯誤,其將平均對數損失計算為對數損失之和。 #17694 by Markus Rempfler and Tsutomu Kusanagi.修復 修正 ensemble.StackingClassifier和ensemble.StackingRegressor與未定義的n_features_in_估計器的兼容性。 #17357 by Thomas Fan.
sklearn.feature_extraction
修復 修復了 feature_extraction.text.CountVectorizer中設置max_features時樣本順序不變性被破壞且特征具有相同計數的錯誤。 #18016 by Thomas Fan, Roman Yurchak, and Joel Nothman.
sklearn.linear_model
修復 當 X_copy=True和Gram='auto'時,linear_model.lars_path不會覆蓋X。 #17914 by Thomas Fan.
sklearn.manifold
修復 修復了 metrics.pairwise_distances中如果metric='seuclidean'且X不是np.float64類型會引發錯誤的錯誤。 #15730 by Forrest Koch.
sklearn.metrics
修復 修復了一個 metrics.mean_squared_error中的錯誤,該錯誤中多個RMSE值的平均值被錯誤地計算為多個MSE值的平均值的根。 #17309 by Swier Heeres。
sklearn.pipeline
修復 當 transformer_list中包含None時,pipeline.FeatureUnion會提出棄用警告。 #17360 by Thomas Fan.
sklearn.utils
修復 修復 utils.estimator_checks.check_estimator以使所有測試用例都支持binary_only估計器標簽。 #17812 by Bruno Charron.
版本0.23.1
2020年5月18日
更新日志
sklearn.cluster
效率 cluster.KMeans對于非常小的數據集,效率得到了提高。特別是它不能再產生空閑線程。 #17210 和 #17235 by Jeremie du Boisberranger.修復 修復了 cluster.KMeans中的錯誤,用戶提供的樣本權重已在適當位置進行了修改。 #17204 by Jeremie du Boisberranger.
雜項
修復 修復了在 repr第三方估算器中構造函數的**kwargs參數的錯誤,changed_only現在為默認值為True。 #17205 by Nicolas Hug.
版本0.23.0
2020年5月12日
有關該發行版主要要點的簡短說明,請參閱 scikit-learn 0.23的發行要點。
變更日志圖例
主要特點 :您以前做不到的大事。 特征 :您之前無法做的事情。 效率 :現有功能現在可能不需要太多的計算或內存。 增強功能 :其他小改進。 修復 :某些以前未按文檔說明進行操作或符合合理預期的內容現在應該可以使用。 API變更:您將需要更改代碼以在將來具有相同的效果;否則將來會刪除某個功能。
強制僅關鍵字的參數
為了促進對庫的清晰和明確的使用,現在期望大多數構造函數和函數參數作為關鍵字參數(即使用param=value語法)而不是位置參數傳遞。為了簡化過渡,如果僅關鍵字參數用作位置,則會引發FutureWarning。在0.25版中,這些參數將嚴格僅用作關鍵字,并且將引發TypeError。#15005 by Joel Nothman, Adrin Jalali, Thomas Fan, and Nicolas Hug.有關 更多詳細信息,請參見SLEP009。
改款
下列估算器和函數在使用相同數據和參數時,可能會產生與先前版本不同的效果。這通常是由于建模邏輯(錯誤修復或增強)或隨機采樣過程中的更改而發生的。
修復 ensemble.BaggingClassifier,ensemble.BaggingRegressor和ensemble.IsolationForest。修復 cluster.KMeans與algorithm="elkan"和algorithm="full"。修復 cluster.Birch修復 compose.ColumnTransformer.get_feature_names修復 compose.ColumnTransformer.fit修復 datasets.make_multilabel_classification修復 decomposition.PCA與n_components='mle'增強功能 decomposition.NMF并decomposition.non_negative_factorization帶有float32 dtype輸入。修復 decomposition.KernelPCA.inverse_transformAPI變更 ensemble.HistGradientBoostingClassifier和ensemble.HistGradientBoostingRegrerssor修復 ensemble.BaggingClassifier中的estimator_samples_,ensemble.BaggingRegressor和ensemble.IsolationForest修復 ensemble.StackingClassifier并ensemble.StackingRegressor用sample_weight修復 gaussian_process.GaussianProcessRegressor修復 linear_model.RANSACRegressor與sample_weight。修復 linear_model.RidgeClassifierCV修復 metrics.mean_squared_error與squared和multioutput='raw_values'。修復 metrics.mutual_info_score得分為負。修復 metrics.confusion_matrix零長度y_true和y_pred修復 neural_network.MLPClassifier修復 preprocessing.StandardScaler用partial_fit和稀疏輸入。修復 preprocessing.Normalizer使用norm ='max'修復 使用任何模型 svm.libsvm或svm.liblinear解算器,包括svm.LinearSVC,svm.LinearSVR,svm.NuSVC,svm.NuSVR,svm.OneClassSVM,svm.SVC,svm.SVR,linear_model.LogisticRegression。修復 tree.DecisionTreeClassifier,tree.ExtraTreeClassifier和ensemble.GradientBoostingClassifier以及predict的方法tree.DecisionTreeRegressor,tree.ExtraTreeRegressor以及ensemble.GradientBoostingRegressor和predict,decision_path和predict_proba中只讀FLOAT32輸入。
詳細信息在下面的更改日志中列出。
(盡管我們試圖通過提供此信息來更好地通知用戶,但我們不能確保此列表是完整的。)
更新日志
sklearn.cluster
效率 cluster.Birch預測方法的實現通過使用分塊方案計算距離矩陣來避免高內存占用。#16149 by Jeremie du Boisberranger and Alex Shacked.效率 主要特點 cluster.KMeans的關鍵部分具有更優化的實現。現在,并行處理遍歷數據,而無需進行初始化,從而實現了更好的可伸縮性。#11950 by Jeremie du Boisberranger.增強功能 cluster.KMeans現在當solver = "elkan"時支持稀疏數據 。#11950 by Jeremie du Boisberranger.增強功能 cluster.AgglomerativeClustering具有單鏈接群集的更快,內存效率更高的實現。 #11514 by Leland McInnes.修復 cluster.KMeans中algorithm="elkan"且tol=0收斂 ,作為algorithm="full"默認值。#16075 by Erich Schubert.修復 修正了 cluster.Birch中的一個錯誤,其中的n_clusters參數不能有np.int64型。 #16484 by Jeremie du Boisberranger.修復 cluster.AgglomerativeCluClustering當距離矩陣不是平方和且affinity=precomputed時添加特定誤差。 #16257 by Simona Maggio。API變更 n_jobs參數在cluster.KMeans,cluster.SpectralCoclustering并cluster.SpectralBiclustering中已被棄用。他們現在使用基于OpenMP的并行性。有關如何控制線程數的更多詳細信息,請參閱我們的Parallelism注釋。#11950 by Jeremie du Boisberranger.API變更 cluster.KMeans的precompute_distances參數已棄用。沒有作用。#11950 by Jeremie du Boisberranger.API變更 該 random_state參數已被添加到cluster.AffinityPropagation。 #16801 by @rcwoolston and Chiara Marmo.
sklearn.compose
效率 compose.ColumnTransformer現在,使用數據幀和字符串將其用于轉換器的特定數據子集時,速度更快。 #16431 by Thomas Fan.增強功能 compose.ColumnTransformer方法get_feature_names現在支持'passthrough'列,特征名稱可以是數據框的列名稱,也'xi'可以是列索引i。#14048 by Lewis Ball.修復 compose.ColumnTransformer方法get_feature_names現在當一個transformer步驟應用于空列列表時,返回正確的結果 #15963 by Roman Yurchak.修復 compose.ColumnTransformer.fit選擇在數據框中不是唯一的列名稱時將發生錯誤。 #16431 by Thomas Fan.
sklearn.datasets
效率 datasets.fetch_openml減少了內存使用量,因為它不再將完整的數據集文本流存儲在內存中。#16084 by Joel Nothman.特征 datasets.fetch_california_housing現在支持通過設置as_frame=True來使用pandas的異構數據。#15950 by Stephanie Andrews and Reshama Shaikh.特征 嵌入式數據集加載程序 load_breast_cancer,load_diabetes,load_digits,load_iris,load_linnerud和load_wine現在通過設置as_frame=True支持加載為pandasDataFrame。 #15709 by @shivamgargsya and Venkatachalam N.增強功能 在 datasets.make_blobs中添加了return_centers參數,該參數可用于返回每個集群的中心。 #15709 by @shivamgargsya and Venkatachalam N.增強功能 函數 datasets.make_circles,datasets.make_moons現在接受二元素元組。 #15707 by Maciej J Mikulski。修復 datasets.make_multilabel_classification中參數n_classes < 1或length < 1時產生ValueError。 #16006 by Rushabh Vasani.API變更 從 sklearn.logger中移除StreamHandler,避免在將hander附加到根記錄器的常見情況下重復記錄消息,并遵循Python日志記錄文檔建議,將日志消息處理留給用戶和應用程序代碼。#16451 by Christoph Deil.
sklearn.decomposition
增強功能 decomposition.NMF和decomposition.non_negative_factorization現在保留FLOAT32 類型。 #16280 by Jeremie du Boisberranger.增強功能 TruncatedSVD.transform現在在給定的稀疏csc矩陣上更快 。#16837 by @wornbb.修復 decomposition.PCA如果使用float取值的n_components參數,則只選擇解釋方差大于n_components的成分。 #15669 by Krishna Chaitanya.修復 decomposition.PCA用n_components='mle'現在可以正確處理小的特征值,并不能由此推斷0為正確的多個成分。 #16224 by Lisa Schwetlick, and Gelavizh Ahmadi and Marija Vlajic Wheeler and #16841 by Nicolas Hug.修復 decomposition.KernelPCA方法inverse_transform現在將正確的逆變換應用于轉換后的數據。 #16655 by Lewis Ball.修復 修復了在 fit期間,decomposition.KernelPCA有時引起invalid value encountered in multiply的錯誤。#16718 by Gui Miotto.**特征 **向 decomposition.SparsePCA和decomposition.MiniBatchSparsePCA添加了n_components_屬性。#16981 by Mateusz Górski.
sklearn.ensemble
主要特點 ensemble.HistGradientBoostingClassifier和ensemble.HistGradientBoostingRegressor現在支持 sample_weight。#14696 by Adrin Jalali and Nicolas Hug.特征 ensemble.HistGradientBoostingClassifier和ensemble.HistGradientBoostingRegressor中的提前停止現在由``early_stopping參數決定,而不是n_iter_no_change`。默認值為“自動”,如果訓練集中至少有10,000個樣本,則可以提前停止。 #14516 by Johann Faouzi.主要特點 ensemble.HistGradientBoostingClassifier和ensemble.HistGradientBoostingRegressor現在支持單調約束,當特征對目標具有正/負影響時非常有用。#15582 by Nicolas Hug.API變更在 ensemble.VotingClassifier和ensemble.VotingRegressor類中添加了布爾標志verbose。 #16069 by Sam Bail, Hanna Bruce MacDonald, Reshama Shaikh, and Chiara Marmo.API變更 修正了 ensemble.HistGradientBoostingClassifier和ensemble.HistGradientBoostingRegrerssor中的一個錯誤,如果條件與max_depth標準同時達到,不會考慮max_leaf_nodes參數。 #16183 by Nicolas Hug.修復 更改了 ensemble.HistGradientBoostingClassifier和ensemble.HistGradientBoostingRegressor的max_depth參數約定。現在深度對應于從根到最深葉的邊緣數量。現在允許樹樁(具有一個拆分的樹)。#16182 by Santhosh B修復 修復了 ensemble.BaggingClassifier,ensemble.BaggingRegressor和ensemble.IsolationForest中的錯誤,fit期間使用estimators_samples_屬性未生成正確索引。 #16437 by Jin-Hwan CHO.修復 修正了在 ensemble.StackingClassifier和ensemble.StackingRegressor其中所述sample_weight參數沒有被傳遞到cross_val_predict交叉驗證折疊上評估基估計量以獲得元估計量的輸入 #16539 by Bill DeRose.特征 為 ensemble.HistGradientBoostingRegressor增加了額外的loss="poisson"選項,這增加了泊松偏差與對數鏈接有用的建模計數數據。#16692 by Christian Lorentzen修復 修正了一個 ensemble.HistGradientBoostingRegressor和ensemble.HistGradientBoostingClassifier其多次調用fit且warm_start=True,early_stopping=True和沒有驗證集時。 #16663 by Thomas Fan.
sklearn.feature_extraction
效率 feature_extraction.text.CountVectorizer現在在按文檔頻率篩選特征后對特征進行排序。這樣可以提高帶有min_df或max_df的大詞匯量數據集的性能。 #15834 by Santiago M. Mola.
sklearn.feature_selection
增強功能 在 feature_selection.RFE和feature_selection.RFECV中增加了對多輸出數據的支持 。 #16103 by Divyaprabha M.API變更 feature_selection.SelectorMixin重新添加到公共API。#16132 by @trimeta.
sklearn.gaussian_process
增強功能 gaussian_process.kernels.Matern當nu=np.inf時返回RBF內核。 #15503 by Sam Dixon.修復 修復了 gaussian_process.GaussianProcessRegressor不使用WhiteKernel時導致預測標準偏差僅介于0和1之間的錯誤。#15782 by @plgreenLIRU。
sklearn.impute
增強功能 impute.IterativeImputer接受max_value和min_value的標量和類數組輸入。類數組的輸入允許為每個特征指定不同的最大值和最小值。#16403 by Narendra Mukherjee.增強功能 impute.SimpleImputer,impute.KNNImputer和impute.IterativeImputer接受包含缺失值的pandas可為空的整數數據類型。 #16508 by Thomas Fan.
sklearn.inspection
特征 inspection.partial_dependence和inspection.plot_partial_dependence現在支持快“遞歸”方法ensemble.RandomForestRegressor和tree.DecisionTreeRegressor。#15864 by Nicolas Hug.
sklearn.linear_model
主要特點 添加了具有非正態誤差分布的廣義線性模型(GLM),包括和 linear_model.PoissonRegressor,linear_model.GammaRegressor和linear_model.TweedieRegressor分別使用了Poisson,Gamma和Tweedie分布。 #14300 by Christian Lorentzen, Roman Yurchak, and Olivier Grisel.主要特點 在 linear_model.ElasticNet和linear_model.Lasso對于密集特征矩陣X支持sample_weight。#15436由Christian Lorentzen。效率 linear_model.RidgeCV和linear_model.RidgeClassifierCV現在不會分配一個可能很大的數組來存儲fit期間所有超參數的對偶系數,也不會分配一個存儲所有錯誤或LOO預測的數組,除非store_cv_values是True。 #15652 by Jér?me Dockès.增強功能 linear_model.LassoLars和linear_model.Lars現在支持jitter參數向目標添加隨機噪聲。在某些情況下,這可能有助于提高穩定性。 #15179 by @angelaambroz.修復 修復了以下錯誤:如果將 sample_weight參數傳遞給的linear_model.RANSACRegressor中的fit方法,則在最終模型擬合期間不會將其傳遞給base_estimator。 #15773 by Jeremy Alexandre。修復 向 linear_model.RidgeCV和linear_model.RidgeClassifierCV添加best_score_屬性。#15653 by Jér?me Dockès.修復 修復了 linear_model.RidgeClassifierCV通過特定評分策略的錯誤。在內部估算器輸出得分而不是預測之前。 #14848 by Venkatachalam N.修復 linear_model.LogisticRegression現在,當solver='newton-cg'通過檢查下等值或等值而不是嚴格地下等值的inabsgrad和tolin,可以避免不必要的迭代utils.optimize._newton_cg。 #16261 by Carlos Brandt.API變更 不推薦使用的公共屬性 standard_coef_,standard_intercept_,average_coef_,和average_intercept_在linear_model.SGDClassifier,linear_model.SGDRegressor,linear_model.PassiveAggressiveClassifier,linear_model.PassiveAggressiveRegressor中。 #16261 by Carlos Brandt.修復 效率 linear_model.ARDRegressionn_samples > n_features時更穩定,速度更快。現在,它可以擴展到成千上萬的樣本。穩定性修正可能暗示非零系數的數量和預測輸出的變化。#16849 by Nicolas Hug.修復 修正了一個 linear_model.ElasticNetCV,linear_model.MultitaskElasticNetCV,linear_model.LassoCV和linear_model.MultitaskLassoCV中的錯誤,其安裝使用JOBLIB loky后端時會失敗。 #14264 by Jérémie du Boisberranger.效率 加快 linear_model.MultiTaskLasso,linear_model.MultiTaskLassoCV,linear_model.MultiTaskElasticNet,linear_model.MultiTaskElasticNetCV以避免對小數組慢BLAS 2級呼叫 #17021 by Alex Gramfort and Mathurin Massias.
sklearn.metrics
增強功能 metrics.pairwise.pairwise_distances_chunked現在允許其reduce_func不具有返回值,而啟用就地操作。#16397 by Joel Nothman.修復 修復了一個 metrics.mean_squared_error的錯誤,當multioutput='raw_values'時不能忽略squared參數。 #16323 by Rushabh Vasani修復 修復了 metrics.mutual_info_score可以返回負分數的錯誤。#16362 by Thomas Fan.修復 修復了一個 metrics.confusion_matrix中的錯誤,該錯誤會在y_true和y_pred長度為零且labels不是None時引發錯誤。另外,當給labels參數一個空列表時,會引發一個錯誤。 #16442 by Kyle Parsons.API變更 更改了 metrics.ConfusionMatrixDisplay.plot和metrics.plot_confusion_matrix中的值格式,選擇了較短的格式(“ 2g”或“ d”)。 #16159 by Rick Mackenbach and Thomas Fan.API變更 從0.25版開始, metrics.pairwise.pairwise_distances將不再自動計算馬氏距離VI參數,V參數和半球距離參數Y。期望用戶根據自己選擇的訓練數據計算該參數,并將其傳遞給pairwise_distances。#16993 by Joel Nothman.
sklearn.model_selection
增強功能 model_selection.GridSearchCV和model_selection.RandomizedSearchCV在除了先前發出的類型和詳細信息外,還會在fit failed警告消息中生成堆棧跟蹤信息。 #15622 by Gregory Morse.修復 model_selection.cross_val_predict當y=None,支持method="predict_proba"。#15918 by Luca Kubin.修復 model_selection.fit_grid_point在0.23中棄用,并在0.25中移除。#16401 by Arie Pratama Sutiono
sklearn.multioutput
增強功能 multioutput.RegressorChain現在支持fit_params,對于fit過程中的base_estimator。 #16111通過Venkatachalam?。
sklearn.naive_bayes
修復 naive_bayes.CategoricalNB當輸入的特征數量在fit和predict之間不同時,將顯示格式正確的錯誤消息。 #16090由Madhura Jayaratne撰寫。
sklearn.neural_network
效率 neural_network.MLPClassifier和neural_network.MLPRegressor已使用時隨機解算器'sgd'或'adam'和shuffle=True,減少內存占用。#14075 by @ meyer89。修復 neural_network.MLPClassifier通過降低概率來增加邏輯損失函數的數值穩定性 。 #16117 by Thomas Fan.
sklearn.inspection
增強功能 inspection.PartialDependenceDisplay現在將十分位線作為屬性公開,以便可以隱藏或自定義它們。#15785 by Nicolas Hug
sklearn.preprocessing
特征 preprocessing.OneHotEncoder的drop參數,現在將接受值“if_binary”并將刪除具有兩個類別的每個特征的第一個類別。 #16245 by Rushabh Vasani.增強功能 preprocessing.OneHotEncoderdrop_idx_數組可以包含None,其中drop_idx_[i] = None表示沒有刪除索引為i的任何類別。#16585通過Chiara Marmo。增強功能 preprocessing.MaxAbsScaler,preprocessing.MinMaxScaler,preprocessing.StandardScaler,preprocessing.PowerTransformer,preprocessing.QuantileTransformer,preprocessing.RobustScaler現在支持pandas空包含缺失值的整數類型。#16508 by Thomas Fan.效率 preprocessing.OneHotEncoder現在轉換速度更快。 #15762 by Thomas Fan.修復 修復了在 preprocessing.StandardScaler調用partial_fit稀疏輸入時錯誤地計算統計信息的錯誤。 #16466 by Guillaume Lemaitre.修復 preprocessing.Normalizer使用norm ='max' 修復了一個錯誤,該錯誤在對向量進行歸一化之前沒有采用最大值的絕對值。 #16632 by Maura Pintor and Battista Biggio.
sklearn.semi_supervised
修復 semi_supervised.LabelSpreading和semi_supervised.LabelPropagation在規范化label_distributions_時避免除以零警告。#15946 by @ngshya.
sklearn.svm
修復 效率 采用改進的 libsvm隨機坐標生成算法和liblinear隨機坐標選擇算法。使用了依賴于平臺的Crand(),它只能在Windows平臺上生成小于32767的數字(請參閱此博客文章),并且如本演示文稿所示,其隨機化能力也很差。它被C ++ 11mt19937取代,后者是Mersenne Twister,可以在所有平臺上正確生成31bits / 63bits隨機數。另外,本博客文章建議,用于調整有界區間中的隨機數的粗略“模”后處理器已由調整的Lemire方法代替。任何模型使用svm.libsvm或svm.liblinear求解器會受到影響,包括svm.LinearSVC,svm.LinearSVR,svm.NuSVC,svm.NuSVR,svm.OneClassSVM,svm.SVC,svm.SVR,linear_model.LogisticRegression。特別是當樣本數量(LibSVM)或特征數量(LibLinear)很大時,用戶可以期待更好的收斂性。 #13511 by SylvainMarié。修復 修復使用自定義內核不接受浮點項(如字符串內核)的 svm.SVC和svm.SVR用法。請注意,自定義核現在需要在它們以前接收到有效數字數組的地方驗證其輸入。#11296 by Alexandre Gramfort and Georgi Peev.API變更 svm.SVR和svm.OneClassSVM的probA_以及probB_屬性現在已被棄用,因為它們沒有用。#15558 by Thomas Fan.
sklearn.tree
修復 tree.plot_treerotate參數未使用,已被棄用。#15806 by Chiara Marmo.修復 修復只支持讀FLOAT32在數組輸入的 predict,decision_path和predict_proba方法tree.DecisionTreeClassifier,tree.ExtraTreeClassifier以及ensemble.GradientBoostingClassifier以及predict的方法tree.DecisionTreeRegressor,tree.ExtraTreeRegressor和ensemble.GradientBoostingRegressor。 #16331 by Alexandre Batisse.
sklearn.utils
主要特點 現在可以用豐富的html表示形式顯示估算器。通過在 set_config中設置display='diagram',可以在Jupyter筆記本電腦中啟用此功能。可以使用utils.estimator_html_repr來返回原始html 。#14180 by Thomas Fan.增強功能 改善 utils.validation.column_or_1d中的錯誤信息。 #15926 by Lo?c Estève.增強功能 utils.check_array為pandas稀疏數據框添加警告。#16021 by Rushabh Vasani.增強功能 utils.check_array現在從僅包含SparseArray列的pandas DataFrame構造一個稀疏矩陣。#16728 by Thomas Fan.增強功能 當 force_all_finite設置為False或'allow-nan'時,utils.validation.check_array支持pandas的可為空的包含缺失值的整數類型,在這種情況下,數據將轉換為浮點值,其中的pd.NA值由np.nan替換。結果,所有sklearn.preprocessing轉換器接受帶有表示為缺失值的數字輸入的np.nan,現在也接受直接輸入pd.NA作為缺失值標記的pd.Int*或pd.Uint*類型列的pandas數據框。 #16508 by Thomas Fan.API變更現在不建議將類傳遞到 utils.estimator_checks.check_estimator和utils.estimator_checks.parametrize_with_checks,并且在0.24中將刪除對類的支持。而是傳遞實例。 #17032 by Nicolas Hug.API變更 utils.estimator_checks中的私有工具_safe_tags被刪除,因此所有的標簽應當通過estimator._get_tags()獲得。請注意,Mixins像RegressorMixin這樣的類必須在MRO中_get_tags()的基類之前出現,才能正常工作。#16950 by Nicolas Hug.修復 utils.all_estimators現在僅返回公共估算器。 #15380 by Thomas Fan.
雜項
主要特點 添加將在Jupyter筆記本或實驗室中顯示的估算器的HTML表示形式。通過在 sklearn.set_config中設置display選項可以激活此可視化。 #14180 by Thomas Fan.增強功能 scikit-learn現在可以正常使用了mypy。 #16726 by Roman Yurchak.API變更 現在,大多數估算器都會公開一個 n_features_in_屬性。此屬性等于傳遞給fit方法的特征數量。有關詳細信息,請參見SLEP010。#16112 by Nicolas Hug.API變更 現在,估算器具有一個默認為False 的 requires_y標簽,但繼承自~sklearn.base.RegressorMixin或~sklearn.base.ClassifierMixin的估算器除外。此標記用于確保在預期y但未傳遞任何消息時引發正確的錯誤消息。#16622 by Nicolas Hug.API變更 print_changed_only默認設置已從False更改為True。這意味著repr估算器的現在更加簡潔,僅顯示在打印估算器時其默認值已更改的參數。您可以使用來還原以前的行為sklearn.set_config(print_changed_only=False)。另外,請注意,始終可以使用est.get_params(deep=False)來快速檢查任何估計器的參數 。#17061 by Nicolas Hug.
代碼和文檔貢獻者
感謝自0.22版以來為項目的維護和改進做出貢獻的所有人,其中包括:
Abbie Popa, Adrin Jalali, Aleksandra Kocot, Alexandre Batisse, Alexandre Gramfort, Alex Henrie, Alex Itkes, Alex Liang, alexshacked, Alonso Silva Allende, Ana Casado, Andreas Mueller, Angela Ambroz, Ankit810, Arie Pratama Sutiono, Arunav Konwar, Baptiste Maingret, Benjamin Beier Liu, bernie gray, Bharathi Srinivasan, Bharat Raghunathan, Bibhash Chandra Mitra, Brian Wignall, brigi, Brigitta Sip?cz, Carlos H Brandt, CastaChick, castor, cgsavard, Chiara Marmo, Chris Gregory, Christian Kastner, Christian Lorentzen, Corrie Bartelheimer, Dani?l van Gelder, Daphne, David Breuer, david-cortes, dbauer9, Divyaprabha M, Edward Qian, Ekaterina Borovikova, ELNS, Emily Taylor, Erich Schubert, Eric Leung, Evgeni Chasnovski, Fabiana, Facundo Ferrín, Fan, Franziska Boenisch, Gael Varoquaux, Gaurav Sharma, Geoffrey Bolmier, Georgi Peev, gholdman1, Gonthier Nicolas, Gregory Morse, Gregory R. Lee, Guillaume Lemaitre, Gui Miotto, Hailey Nguyen, Hanmin Qin, Hao Chun Chang, HaoYin, Hélion du Mas des Bourboux, Himanshu Garg, Hirofumi Suzuki, huangk10, Hugo van Kemenade, Hye Sung Jung, indecisiveuser, inderjeet, J-A16, Jérémie du Boisberranger, Jin-Hwan CHO, JJmistry, Joel Nothman, Johann Faouzi, Jon Haitz Legarreta Gorro?o, Juan Carlos Alfaro Jiménez, judithabk6, jumon, Kathryn Poole, Katrina Ni, Kesshi Jordan, Kevin Loftis, Kevin Markham, krishnachaitanya9, Lam Gia Thuan, Leland McInnes, Lisa Schwetlick, lkubin, Loic Esteve, lopusz, lrjball, lucgiffon, lucyleeow, Lucy Liu, Lukas Kemkes, Maciej J Mikulski, Madhura Jayaratne, Magda Zielinska, maikia, Mandy Gu, Manimaran, Manish Aradwad, Maren Westermann, Maria, Mariana Meireles, Marie Douriez, Marielle, Mateusz Górski, mathurinm, Matt Hall, Maura Pintor, mc4229, meyer89, m.fab, Michael Shoemaker, Micha? S?apek, Mina Naghshhnejad, mo, Mohamed Maskani, Mojca Bertoncelj, narendramukherjee, ngshya, Nicholas Won, Nicolas Hug, nicolasservel, Niklas, @nkish, Noa Tamir, Oleksandr Pavlyk, olicairns, Oliver Urs Lenz, Olivier Grisel, parsons-kyle-89, Paula, Pete Green, Pierre Delanoue, pspachtholz, Pulkit Mehta, Qizhi Jiang, Quang Nguyen, rachelcjordan, raduspaimoc, Reshama Shaikh, Riccardo Folloni, Rick Mackenbach, Ritchie Ng, Roman Feldbauer, Roman Yurchak, Rory Hartong-Redden, Rüdiger Busche, Rushabh Vasani, Sambhav Kothari, Samesh Lakhotia, Samuel Duan, SanthoshBala18, Santiago M. Mola, Sarat Addepalli, scibol, Sebastian Kie?ling, SergioDSR, Sergul Aydore, Shiki-H, shivamgargsya, SHUBH CHATTERJEE, Siddharth Gupta, simonamaggio, smarie, Snowhite, stareh, Stephen Blystone, Stephen Marsh, Sunmi Yoon, SylvainLan, talgatomarov, tamirlan1, th0rwas, theoptips, Thomas J Fan, Thomas Li, Thomas Schmitt, Tim Nonner, Tim Vink, Tiphaine Viard, Tirth Patel, Titus Christian, Tom Dupré la Tour, trimeta, Vachan D A, Vandana Iyer, Venkatachalam N, waelbenamara, wconnell, wderose, wenliwyan, Windber, wornbb, Yu-Hang “Maxin” Tang
