sklearn.metrics.mutual_info_score?
sklearn.metrics.mutual_info_score(labels_true, labels_pred, *, contingency=None)
兩個群集之間的互信息。
互信息是對同一數據的兩個標簽之間相似度的度量。 其中是群集中的樣本數,是群集中的樣本數,群集U和V之間的互信息為:
此指標獨立于標簽的絕對值:類別或簇標簽值的排列不會以任何方式改變得分值。
此度量標準還對稱:將label_true與label_pred切換將返回相同的得分值。當未知真實值時,這對于測量兩個獨立標簽分配策略在同一數據集上的一致性很有用。
在用戶指南中閱讀更多內容。
參數 | 說明 |
---|---|
labels_true | int array, shape = [n_samples] 數據聚集成不相交的子集。 |
labels_pred | int array-like of shape (n_samples,) 數據聚集成不相交的子集。 |
contingency | {None, array, sparse matrix}, shape = [n_classes_true, n_classes_pred] 由contingency_matrix函數給定的列聯矩陣。如果值為None,它將被計算,否則使用給定的值,而labels_true和labels_pred被忽略。 |
返回值 | 說明 |
---|---|
mi | float 互信息,非負值 |
另見:
調整偶然性互信息
標準化互信息
注
使用的對數是自然對數(以e為底)。