sklearn.datasets.dump_svmlight_file?

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)

[源碼]

以svmlight / libsvm文件格式轉儲數據集。

此格式是基于文本的格式,每行一個示例。它不存儲零值特征,因此適用于稀疏數據集。

每行的第一個元素可用于存儲目標變量以進行預測。

參數 說明
X {array-like, sparse matrix} of shape (n_samples, n_features)
訓練向量,其中n_samples是樣本數,n_features是特征數。
y {array-like, sparse matrix}, shape = [n_samples (, n_labels)]
目標值。 對于多標簽分類,類標簽必須是整數或浮點數,或者是整數或浮點的類數組對象。
f string or file-like in binary mode
如果為字符串,則指定將包含數據的路徑。如果是類似文件結構,則數據將被寫入f。 f應該以二進制模式打開。
zero_based boolean, optional
列索引應該寫為從0開始(zero-based)(True)還是從1開始(one-based)(False)。
comment string, optional
注釋以插入文件頭部。 這應該是將被編碼為UTF-8的Unicode字符串,或者是ASCII字節字符串。 如果給出了注釋,則該注釋之前將帶有一個標識該文件已被scikit-learn轉儲的文件。 請注意,并非所有工具都在SVMlight文件中顯示注釋。
query_id array-like of shape (n_samples,)
數組包含成對首選項約束(svmlight格式的qid)。
multilabel boolean, optional
每個樣本可能都有幾個標簽(請參閱https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)
版本0.17中的新功能:參數多標簽以支持多標簽數據集。

sklearn.datasets.dump_svmlight_file使用示例?