Python社区  »  Elasticsearch

999 - Elasticsearch Analysis 04 - Token Filter

歌哥 • 1 周前 • 14 次点击  
阅读 2

999 - Elasticsearch Analysis 04 - Token Filter

太多了不想写了,随便写了两个,这个根据需要去官网看文档吧。

ASCII Folding Token Filter

转为Ascii码等效项。

Length Token Filter

删除过长、过短的字词。

参数 说明
min 最小数值. 默认 0.
max 最大数值. 默认 Integer.MAX_VALUE.

Lowercase Token Filter

小写词元。

参数 说明
language greek, irish, turkish

Uppercase Token Filter

大写词元

NGram Token Filteredit

nGram词元过滤器。

参数 说明
min_gram 默认为1。
max_gram 默认为2。

Edge NGram Token Filter

edgeNGram词元过滤器。

参数 说明
min_gram 默认为1。
max_gram 默认为2。
side 已弃用。front或back,默认front。

Stop Token Filteredit

删除停止词。

参数 说明
stopwords 停止词列表。默认_english_
stopwords_path 停止词文件。
文件路径相对于config目录或使用绝对路径。
每个停止词必须单独一行。
文件为UTF-8编码。
ignore_case 设为true所有词被转为小写。默认false。
remove_trailing 设置为false忽略最后一个字词是停止词的情况。默认true。
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/46607
 
14 次点击  
分享到微博