社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

从入门到入魔，100个Python实战项目练习(附答案)！

Github 今日推荐 WebGL2神技！deck.gl：秒渲海量数据的可视化神器"

顶刊《Materials Today》最新成果：机器学习+增材制造

航空发动机用上大模型：解决复杂时序问题，性能超越ChatGPT-4o实现SOTA｜上交创智复旦

31 岁程序员，6 个月赚了 5.8 亿。看到一个案例，在外网我搜了搜相关新闻，竟然是真...

Nginx和Apache要成旧爱了？PHP有了新搭档：缝合怪FrankenPHP！

郑州大学田芸/周震 | 下一代电池安全管理：机器学习辅助寿命预测与性能提升

【2025版附安装包】超详细Python+Pycharm安装保姆级教程，永久免费使用，Python环...

ChatGPT化身生活操作系统：奥特曼预告下一代顶级AI

西南交通大学张云辉团队JH｜利用无监督机器学习和正定矩阵因子分解模型驱动煤矿农业区域的地下水化学成因...

关注

Py学习 » Elasticsearch

999 - Elasticsearch Analysis 04 - Token Filter

歌哥 • 5 年前 • 350 次点击

2019年10月09日阅读 2

999 - Elasticsearch Analysis 04 - Token Filter

太多了不想写了，随便写了两个，这个根据需要去官网看文档吧。

ASCII Folding Token Filter

转为Ascii码等效项。

Length Token Filter

删除过长、过短的字词。

参数	说明
min	最小数值. 默认 0.
max	最大数值. 默认 Integer.MAX_VALUE.

Lowercase Token Filter

小写词元。

参数	说明
language	greek, irish, turkish

Uppercase Token Filter

大写词元

NGram Token Filteredit

nGram词元过滤器。

参数	说明
min_gram	默认为1。
max_gram	默认为2。

Edge NGram Token Filter

edgeNGram词元过滤器。

参数	说明
min_gram	默认为1。
max_gram	默认为2。
side	已弃用。front或back，默认front。

Stop Token Filteredit

删除停止词。

参数	说明
stopwords	停止词列表。默认`_english_`。
stopwords_path	停止词文件。文件路径相对于config目录或使用绝对路径。每个停止词必须单独一行。文件为UTF-8编码。
ignore_case	设为true所有词被转为小写。默认false。
remove_trailing	设置为false忽略最后一个字词是停止词的情况。默认true。

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/46607

350 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号