sklearn.neighbors.NearestNeighbors?

class sklearn.neighbors.NearestNeighbors(*, n_neighbors=5, radius=1.0, algorithm='auto', leaf_size=30, metric='minkowski', p=2, metric_params=None, n_jobs=None)

[源碼]

用于實施臨近點搜索的無監督學習者。

在用戶指南中閱讀更多內容。

0.9版的新功能。

參數	說明
n_neighbors	int, default=5 默認情況下用于`kneighbors`查詢的臨近點數。
radius	float, default=1.0 默認情況下用于`radius_neighbors`查詢的參數空間范圍。
algorithm	{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’ 用于計算最近臨近點的算法： ”ball_tree“將使用BallTree “kd_tree”將使用KDTree “brute”將使用暴力搜索。 “auto”將嘗試根據傳遞給fit方法的值來決定最合適的算法。注意：稀疏輸入上的擬合將使用蠻力覆蓋此參數的設置。
leaf_size	int, default=30 葉大小傳遞給BallTree或KDTree。這會影響構造和查詢的速度，以及存儲樹所需的內存。最佳值取決于問題的性質
metric	str or callable, default=’minkowski’ 樹使用的距離度量。默認度量標準為minkowski，p = 2等于標準歐幾里德度量標準。有關可用度量的列表，請參見[http://www.ipahlj.com/view/692.html)的文檔。如果度量是“預先計算的”，則X被假定為距離矩陣sparse graph，并且在擬合過程中必須為平方。 X可能是一個稀疏圖，在這種情況下，只有“非零”元素可以被視為臨近點。
p	int, default=2 sklearn.metrics.pairwise.pairwise_distances中的Minkowski指標的參數。當p = 1時，這等效于對p = 2使用manhattan_distance（l1）和euclidean_distance（l2）。對于任意p，使用minkowski_distance（l_p）。
metric_params	dict, default=None 度量功能的其他關鍵字參數。
n_jobs	int, default=None 為臨近點搜索運行的并行作業數。除非在joblib.parallel_backend`上下文中，否則None表示1。 -1表示使用所有處理器。有關更多詳細信息，請參見詞匯表](http://www.ipahlj.com/lists/91.html#%E5%8F%82%E6%95%B0)

屬性	說明
effective_metric_	str 用于計算到臨近點的距離的度量。
effective_metric_params_	dict 用于計算到臨近點的距離的度量標準的參數。

另見：

KNeighborsClassifier

RadiusNeighborsClassifier

KNeighborsRegressor

RadiusNeighborsRegressor

BallTree

聲明

有關算法選擇和leaf_size的討論，請參見在線文檔中的最近鄰Nearest Neighbors。

https://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm

示例

>>> import numpy as np
>>> from sklearn.neighbors import NearestNeighbors
>>> samples = [[0, 0, 2], [1, 0, 0], [0, 0, 1]]

>>> neigh = NearestNeighbors(n_neighbors=2, radius=0.4)
>>> neigh.fit(samples)
NearestNeighbors(...)

>>> neigh.kneighbors([[0, 0, 1.3]], 2, return_distance=False)
array([[2, 0]]...)

>> nbrs = neigh.radius_neighbors([[0, 0, 1.3]], 0.4, return_distance=False)
>>> np.asarray(nbrs[0][0])
array(2)

方法

方法	說明
`fit`(X[, y])	使用X作為訓練數據擬合模型
`get_params`([deep])	獲取此估計量的參數
`kneighbors`([X, n_neighbors, return_distance])	查找點的K鄰。
`kneighbors_graph`([X, n_neighbors, mode])	計算X中點的k臨近點的（加權）圖
`radius_neighbors`([X, radius, …])	查找一個或多個給定半徑內的臨近點。
`radius_neighbors_graph`([X, radius, mode, …])	計算X中點的臨近點（加權）圖
`set_params`(**params)	設置此估算器的參數。

__init__(*, n_neighbors=5, radius=1.0, algorithm='auto', leaf_size=30, metric='minkowski', p=2, metric_params=None, n_jobs=None)

[源碼]

初始化，請參閱help(type())以獲得準確的說明

fit(X, y=None)

[源碼]

使用X作為訓練數據擬合模型

參數	說明
X	{array-like, sparse matrix, BallTree, KDTree} 訓練數據。如果是數組或矩陣，則將其形狀設置為[n_samples，n_features]，如果是metric =“ precomputed”，則為[n_samples，n_samples]。

get_params(deep=True)

[源碼]

獲取此估計量的參數。

參數	說明
deep	mapping of string to any 如果為True，則將返回此估算器和作為估算器的所包含子對象的參數。

返回值	說明
params	mapping of string to any 參數名稱映射到其值。

kneighbors(X=None, n_neighbors=None, return_distance=True)

[源碼]

查找點的K臨近點。返回每個點的臨近點的索引和與之的距離。

參數	說明
X	array-like, shape (n_queries, n_features), or (n_queries, n_indexed) if metric == ‘precomputed’ 查詢點。如果未提供，則返回每個索引點的臨近點。在這種情況下，查詢點不被視為其自己的臨近點。
n_neighbors	int 要獲取的臨近點數（默認值為傳遞給構造函數的值）
return_distance	boolean, optional. Defaults to True. 如果為False，則不會返回距離

返回值	說明
neigh_dist	array, shape (n_queries, n_neighbors) 表示點的長度的數組，僅在return_distance = True時存在
neigh_ind	array, shape (n_queries, n_neighbors) 總體矩陣中最近點的索引。

示例

在下面的示例中，我們從代表我們的數據集的數組構造一個NearestNeighbors類，并詢問誰最接近[1,1,1]

>>> from sklearn.neighbors import NearestNeighbors
>>> neigh = NearestNeighbors(n_neighbors=1)
>>> neigh.fit(samples)
NearestNeighbors(n_neighbors=1)
>>> print(neigh.kneighbors([[1., 1., 1.]]))
(array([[0.5]]), array([[2]]))

如您所見，它返回[[0.5]]和[[2]]，這意味著該元素位于距離0.5處，并且是樣本的第三個元素（索引從0開始）。您還可以查詢多個點：

>>> X = [[0., 1., 0.], [1., 0., 1.]]
>>> neigh.kneighbors(X, return_distance=False)
array([[1],
       [2]]...)

kneighbors_graph(X=None, n_neighbors=None, mode='connectivity')

[源碼]

計算X中點的k臨近點的（加權）圖

參數	說明
X	array-like, shape (n_queries, n_features), or (n_queries, n_indexed) if metric == ‘precomputed’ 查詢點。如果未提供，則返回每個索引點的臨近點。在這種情況下，查詢點不被認為是它自己的臨近點。
n_neighbors	int 每個樣本的臨近點數。（默認值為傳遞給構造函數的值）。
mode	{‘connectivity’, ‘distance’}, optional 返回矩陣的類型：“連通性”將返回具有1和0的連通性矩陣，在“距離”中，邊為點之間的歐幾里得距離。

返回值	說明
A	sparse graph in CSR format, shape = [n_queries, n_samples_fit] n_samples_fit是擬合數據中的樣本數A [i，j]，分配了將i連接到j的邊的權重。

另見：

NearestNeighbors.radius_neighbors_graph

示例

>>> X = [[0], [3], [1]]
>>> from sklearn.neighbors import NearestNeighbors
>>> neigh = NearestNeighbors(n_neighbors=2)
>>> neigh.fit(X)
NearestNeighbors(n_neighbors=2)
>>> A = neigh.kneighbors_graph(X)
>>> A.toarray()
array([[1., 0., 1.],
       [0., 1., 1.],
       [1., 0., 1.]])

radius_neighbors(X=None, radius=None, return_distance=True, sort_results=False)

[源碼]

查找一個或多個給定半徑內的臨近點。

返回數據集中每個點的索引和距離，該數據集位于一個球中，球的大小半徑圍繞查詢數組的點。邊界上的點包括在結果中。

結果點不一定按與查詢點的距離排序。

參數	返回值
X	array-like, (n_samples, n_features), optional 查詢點。如果未提供，則返回每個索引點的臨近點。在這種情況下，查詢點不被視為其自己的臨近點。
radius	float 限制臨近點返回的距離。（默認值為傳遞給構造函數的值）。
return_distance	boolean, optional. Defaults to True. 如果為False，則不會返回距離。
sort_results	boolean, optional. Defaults to False. 如果為True，則距離和索引將在返回之前進行排序。如果為False，則不會對結果進行排序。如果return_distance == False，則將sort_results = True設置將導致錯誤。 0.22版中的新功能。

返回值	說明
neigh_dist	array, shape (n_samples,) of arrays 表示到每個點的距離的數組，僅當return_distance = True時才存在。距離值是根據度量構造函數參數計算的。
neigh_ind	array, shape (n_samples,) of arrays 人口矩陣中距離查詢點最近的近似點的索引數組。

聲明

因為每個點的臨近點數不一定相等，所以多個查詢點的結果不能適合標準數據數組。為了提高效率，radius_neighbors返回對象數組，其中每個對象都是一維索引或距離數組。

示例

在以下示例中，我們從代表數據集的數組構造NeighborsClassifier類，并詢問誰是最接近[1，1，1]的點：

>>> import numpy as np
>>> samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
>>> from sklearn.neighbors import NearestNeighbors
>>> neigh = NearestNeighbors(radius=1.6)
>>> neigh.fit(samples)
NearestNeighbors(radius=1.6)
>>> rng = neigh.radius_neighbors([[1., 1., 1.]])
>>> print(np.asarray(rng[0][0]))
[1.5 0.5]
>>> print(np.asarray(rng[1][0]))
[1 2]

返回的第一個數組包含到所有小于1.6的點的距離，而返回的第二個數組包含其索引。通常，可以同時查詢多個點。

radius_neighbors_graph(X=None, radius=None, mode='connectivity', sort_results=False)

[源碼]

計算X中點的臨近點（加權）圖

鄰域限制點的距離小于半徑。

參數	說明
X	array-like of shape (n_samples, n_features), default=None 查詢點。如果未提供，則返回每個索引點的臨近點。在這種情況下，查詢點不被視為其自己的臨近點。
radius	float 社區半徑。（默認值為傳遞給構造函數的值）
mode	{‘connectivity’, ‘distance’}, optional 返回矩陣的類型：“連通性”將返回具有1和0的連通性矩陣，在“距離”中，邊為點之間的歐幾里得距離。>
sort_results	boolean, optional. Defaults to False. 如果為True，則距離和索引將在返回之前進行排序。如果為False，則不會對結果進行排序。僅與mode =” distance”一起使用。 0.22版中的新功能。

返回值	說明
A	sparse graph in CSR format, shape = [n_queries, n_samples_fit] n_samples_fit是擬合數據中的樣本數A [i，j]，分配了將i連接到j的邊的權重。

另見：

kneighbors_graph

示例

>>> X = [[0], [3], [1]]
>>> from sklearn.neighbors import NearestNeighbors
>>> neigh = NearestNeighbors(radius=1.5)
>>> neigh.fit(X)
NearestNeighbors(radius=1.5)
>>> A = neigh.radius_neighbors_graph(X)
>>> A.toarray()
array([[1., 0., 1.],
       [0., 1., 0.],
       [1., 0., 1.]])

set_params(**params)

[源碼]

設置此估算器的參數。

該方法適用于簡單的估計器以及嵌套對象（例如管道）。后者的參數格式為 __ ，以便可以更新嵌套對象的每個組件。

參數	說明
**params	dict 估算器參數。

返回值	說明
self	object 估算器實例。