參數	說明
input	string {‘filename’, ‘file’, ‘content’}, default=’content’ 如果“filename”，作為參數傳遞給fit的序列應該是一個文件名列表，需要讀取這些文件名以獲取要分析的原始內容。如果“file”，序列項必須有一個“read”方法(類文件對象)，該方法被調用來獲取內存中的字節。否則，輸入應該是一個項目序列，類型可以是string或byte。 encodingstring默認=“utf - 8” 如果字節或文件被給予分析，這種編碼被用來解碼。
encoding	string, default=’utf-8’ 如果字節或文件被給予分析，這種編碼被用來解碼。
decode_error	{‘strict’, ‘ignore’, ‘replace’}, default=’strict’ 說明如果給定要分析的字節序列包含不屬于給定編碼的字符，該做什么。默認情況下，它是“嚴格的”，這意味著將引發一個UnicodeDecodeError。其他值還有“ignore”和“replace”。
strip_accents	{‘ascii’, ‘unicode’}, default=None 在預處理步驟中刪除重音符號并執行其他字符規范化。' ascii '是一種快速的方法，只對有直接ascii映射的字符有效。“unicode”是一種稍微慢一些的方法，適用于任何字符。None(默認)不執行任何操作。 ' ascii '和' unicode '都使用NFKD標準化從unicodedata.normalize。
lowercase	bool, default=True 在標記之前將所有字符轉換為小寫。
preprocessor	callable, default=None 重寫預處理(字符串轉換)階段，同時保留記號化和n字元生成步驟。僅在分析器不可調用時應用。
tokenizer	callable, default=None 重寫字符串記號化步驟，同時保留預處理和n字元生成步驟。只適用于analyzer == 'word'。
stop_words	string {‘english’}, list, default=None 如果“english”，則使用內置的英語停止詞列表。“英語”有幾個已知的問題，你應該考慮另一種選擇(參見Using stop words)。如果一個列表，則假定該列表包含停止詞，所有這些詞都將從結果標記中刪除。只適用于`analyzer == 'word'`
token_pattern	string 表示什么構成了“記號”的正則表達式，僅在analyzer == 'word'時使用。默認的regexp選擇2個或更多字母數字字符的標記(標點完全被忽略，總是作為標記分隔符處理)。
ngram_range	tuple (min_n, max_n), default=(1, 1) 待提取的不同n克n值范圍的上、下邊界。使用`min_n <= n <= max_n`的所有n值。例如，`ngram_range`的(1,1)表示僅使用雙字符，(1,2)表示單字符和雙字符，(2,2)表示僅使用雙字符。僅在分析器不可調用時應用。
analyzer	string, {‘word’, ‘char’, ‘char_wb’} or callable, default=’word’ 特征是由單詞還是由n字組成。選擇“char_wb”創建角色- gram只從文本單詞邊界;字格詞帶的邊緣空間。如果傳遞了`callable`，則使用它從原始的、未處理的輸入中提取特性序列。在0.21版本中進行了更改。由于v0.21，如果輸入是文件名或文件，則首先從文件讀取數據，然后傳遞給給定的可調用分析器。
n_features	int, default=(2 \ 20) 輸出矩陣中的特征數(列)。在線性學習中，特征數小容易引起哈希沖突，而特征數大則系數維數大。
binary	bool, default=False. 如果為真，則將所有非零計數設置為1。這對于建模二進制事件而不是整數計數的離散概率模型是有用的。
norm	{‘l1’, ‘l2’}, default=’l2’ 用于對術語向量進行標準化的范數。沒有歸一化。
alternate_sign	bool, default=True 當為真時，將向特性添加一個交替符號，以便即使對于較小的`n_features`，也能在散列空間中近似地保留內積。這種方法類似于稀疏隨機投影。新版本為0.19。
dtype	type, default=np.float64 由`fit_transform()`或`transform()`返回的矩陣的類型。

方法	說明
`build_analyzer`()	返回處理預處理、記號化和生成n個符號的可調用函數。
`build_preprocessor`()	返回一個函數，用于在標記之前對文本進行預處理。
`build_tokenizer`()	返回一個函數，該函數將字符串分割為一系列標記。
`decode`(doc)	將輸入解碼為unicode符號字符串。
`fit`(X[, y])	什么也不做:這個轉換器是無狀態的。
`fit_transform`(X[, y])	將文檔序列轉換為文檔術語矩陣。
`get_params`([deep])	獲取這個估計器的參數。
`get_stop_words`()	構建或獲取有效停止詞列表。
`partial_fit`(X[, y])	什么也不做:這個轉換器是無狀態的。
`set_params`(**params)	設置的參數估計量。
`transform`(X)	將文檔序列轉換為文檔術語矩陣。

參數	說明
X	iterable over raw text documents, length = n_samples 樣本。每個示例必須是一個文本文檔(字節或unicode字符串、文件名或文件對象，這取決于構造函數參數)，它將被標記和散列。
y	any 忽略了。此參數的存在只是為了與sklearn.pipeline.Pipeline兼容。

sklearn.feature_extraction.HashingVectorizer?

示例sklearn.feature_extraction.text.HashingVectorizer?