sklearn.datasets.dump_svmlight_file?
sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)
以svmlight / libsvm文件格式轉儲數據集。
此格式是基于文本的格式,每行一個示例。它不存儲零值特征,因此適用于稀疏數據集。
每行的第一個元素可用于存儲目標變量以進行預測。
參數 | 說明 |
---|---|
X | {array-like, sparse matrix} of shape (n_samples, n_features) 訓練向量,其中n_samples是樣本數,n_features是特征數。 |
y | {array-like, sparse matrix}, shape = [n_samples (, n_labels)] 目標值。 對于多標簽分類,類標簽必須是整數或浮點數,或者是整數或浮點的類數組對象。 |
f | string or file-like in binary mode 如果為字符串,則指定將包含數據的路徑。如果是類似文件結構,則數據將被寫入f。 f應該以二進制模式打開。 |
zero_based | boolean, optional 列索引應該寫為從0開始(zero-based)(True)還是從1開始(one-based)(False)。 |
comment | string, optional 注釋以插入文件頭部。 這應該是將被編碼為UTF-8的Unicode字符串,或者是ASCII字節字符串。 如果給出了注釋,則該注釋之前將帶有一個標識該文件已被scikit-learn轉儲的文件。 請注意,并非所有工具都在SVMlight文件中顯示注釋。 |
query_id | array-like of shape (n_samples,) 數組包含成對首選項約束(svmlight格式的qid)。 |
multilabel | boolean, optional 每個樣本可能都有幾個標簽(請參閱https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html) 版本0.17中的新功能:參數多標簽以支持多標簽數據集。 |