社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Elasticsearch

999 - Elasticsearch Analysis 04 - Token Filter

歌哥 • 5 年前 • 350 次点击  
阅读 2

999 - Elasticsearch Analysis 04 - Token Filter

太多了不想写了,随便写了两个,这个根据需要去官网看文档吧。

ASCII Folding Token Filter

转为Ascii码等效项。

Length Token Filter

删除过长、过短的字词。

参数 说明
min 最小数值. 默认 0.
max 最大数值. 默认 Integer.MAX_VALUE.

Lowercase Token Filter

小写词元。

参数 说明
language greek, irish, turkish

Uppercase Token Filter

大写词元

NGram Token Filteredit

nGram词元过滤器。

参数 说明
min_gram 默认为1。
max_gram 默认为2。

Edge NGram Token Filter

edgeNGram词元过滤器。

参数 说明
min_gram 默认为1。
max_gram 默认为2。
side 已弃用。front或back,默认front。

Stop Token Filteredit

删除停止词。

参数 说明
stopwords 停止词列表。默认_english_
stopwords_path 停止词文件。
文件路径相对于config目录或使用绝对路径。
每个停止词必须单独一行。
文件为UTF-8编码。
ignore_case 设为true所有词被转为小写。默认false。
remove_trailing 设置为false忽略最后一个字词是停止词的情况。默认true。
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/46607
 
350 次点击