緩存最近鄰?

此案例演示了如何在KNeighborsClassifier類使用k個最近鄰點之前對最近鄰點進行預計算。 KNeighborsClassifier可以在內部計算最近鄰，但是預計算它們可以帶來很多好處，例如更好的參數控制，多次使用的緩存或自定義實現。

在這里，我們使用管道的緩存屬性在KNeighborsClassifier的多個擬合之間緩存最近鄰圖。第一次調用很慢，因為它會計算鄰居圖，而隨后的調用會更快，因為它們不需要重新計算圖。由于數據集較小，因此持續時間較小，但是當數據集變大或要搜索的參數網格較大時，增益可能會更大。

輸出：

輸入：

# 作者: Tom Dupre la Tour
#
# 執照: BSD 3 clause
from tempfile import TemporaryDirectory
import matplotlib.pyplot as plt

from sklearn.neighbors import KNeighborsTransformer, KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_digits
from sklearn.pipeline import Pipeline

print(__doc__)

X, y = load_digits(return_X_y=True)
n_neighbors_list = [1, 2, 3, 4, 5, 6, 7, 8, 9]

# 轉換器使用網格搜索中所需的最大鄰居數來計算最近鄰圖。分類器模型根據自己的n_neighbors參數的要求過濾最近的鄰居圖。
graph_model = KNeighborsTransformer(n_neighbors=max(n_neighbors_list),
                                    mode='distance')
classifier_model = KNeighborsClassifier(metric='precomputed')

# 請注意，我們為"memory"提供了一個目錄來緩存圖計算，該圖計算在調整分類器的超參數時將多次使用。
with TemporaryDirectory(prefix="sklearn_graph_cache_") as tmpdir:
    full_model = Pipeline(
        steps=[('graph', graph_model), ('classifier', classifier_model)],
        memory=tmpdir)

    param_grid = {'classifier__n_neighbors': n_neighbors_list}
    grid_model = GridSearchCV(full_model, param_grid)
    grid_model.fit(X, y)

# 繪制網格搜索的結果
fig, axes = plt.subplots(1, 2, figsize=(8, 4))
axes[0].errorbar(x=n_neighbors_list,
                 y=grid_model.cv_results_['mean_test_score'],
                 yerr=grid_model.cv_results_['std_test_score'])
axes[0].set(xlabel='n_neighbors', title='Classification accuracy')
axes[1].errorbar(x=n_neighbors_list, y=grid_model.cv_results_['mean_fit_time'],
                 yerr=grid_model.cv_results_['std_fit_time'], color='r')
axes[1].set(xlabel='n_neighbors', title='Fit time (with caching)')
fig.tight_layout()
plt.show()

腳本的總運行時間：（0分鐘5.569秒）