2019年06月13日阅读 28

【踩坑分析】Elasticsearch 中文 PhraseQuery 无法精确匹配问题分析

问题复现

首先，看下下面的例子，猜下两条查询能不能召回 doc1

PUT test_phrase
{
  "mappings" : {
      "_doc" : {
        "properties" : {
          "body" : {
            "type" : "text",
            "analyzer" : "ik_max_word",
            "search_analyzer" : "ik_smart"
          }
        }
      }
    }
}

PUT test_phrase/_doc/1
{
  "body":"南京市长"
}

GET test_phrase/_search
{
  "query": {
    "match_phrase": {
      "body": "南京市长"
    }
  }
}

GET test_phrase/_search
{
  "query": {
    "match_phrase": {
      "body": "南京"
    }
  }
}
复制代码

结果如下图,『南京市长』无法召回，『南京』可以召回 ![](gw.alipayobjects.com/zos/antfinc… =300x600)

原因分析

那么为什么呢？首先看一下，两个分词器结果不一，所以直接怀疑是由于分词不一造成的查不到的问题

# GET test_phrase/_analyze
# {
#   "text": ["南京市长"],
#   "analyzer": "ik_max_word"
# }
{
  "tokens" : [
    {
      "token" : "南京",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "南京市",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "市长",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

# GET test_phrase/_analyze
# {
#   "text": ["南京市长"],
#   "analyzer": "ik_smart"
# }
{
  "tokens" : [
    {
      "token" : "南京",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "市长",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    }
  ]
}
复制代码

那么为什么会由于分词不一而造成问题呢？
整理源码，我们可以看到 Phrase 的整体流程如下
具体如下
1. org.elasticsearch.index.query.MatchPhraseQueryBuilder#doToQuery 收到查询请求，转为 matchQuery 的 phrase 查询
2. org.elasticsearch.index.search.MatchQuery#parse 解析请求并转为 lucene 请求
- 其中 org.elasticsearch.index.search.MatchQuery#getAnalyzer 确定分词器，如果查询没指定 analyzer 的话，那么 phrase 就用 searchQuoteAnalyzer，如果没有 searchQuoteAnalyzer 则用 searchAnalyzer
1. org.apache.lucene.util.QueryBuilder#createFieldQuery 进行分词并判断有无 graph 和同义词，如果没有就用简单的 phrase 查询
2. org.apache.lucene.util.QueryBuilder#analyzePhrase 构建真实查询，确定每个词的 postion
3. org.apache.lucene.search.PhraseWeight#getPhraseMatcher 召回倒排链，然后判断 slop，如果为0，则转为ExactPhraseMatcher
4. org.apache.lucene.search.ExactPhraseMatcher#nextMatch 比较 position 是否相等

临时解法

由上面第二步，可以看到，其实 ES 本身也提供了利用 searchQuoteAnalyzer 的解决方案。因此临时解法可以是让用户给 text 字段增加 search_quote_analyzer参数，search_quote_analyzer 官方文档
另外如果是单场景可以在查询时指定 analyzer 或者 querystring 里的 quote_analyzer

解决思路&难点

但是让用户修改并不优雅，因此我们还是希望可以寻求在引擎层解决的方案。但是目前尚未找到一个较好方案，暂时记录下思路，以后再做补充
由上面分析可知，这个问题的本质是 PhraseQuery 以 postion 位置连续性确定是否为短句，而由于写入时和查询时不同分词器，position不一致。
因此，有两个思路，但都有些难点，也希望抛砖引玉，大家能指导一下

多重 Position

思路: 修改 position 生成逻辑, 使得查询和写入时一致。比如 ik_max_word 模式下有三种切分方式，就分别标记 position，而不是原来的混标，这样就可以保证 smart 也是 max 的一个子集
以『南京市长江大桥维修』为例
- 目前混标方案:
  
  南京南京市市长长江长江大桥大桥维修
  
  0 1 2 3 4 5 6
- 独立标注方案:
  
  南京南京市市长长江长江大桥大桥维修
  
  0 - 1 2 - 3 4
  
  0 - 1 - 2 - 3
  
  - 0 - 1 - 2 3
  
  - 0 - - 1 - 2
难点：由上例子可以看出，这种方案虽然可以保证 position 的一致性，但是一旦有歧义词，则会造成后继词位置全不一样，会造成大量数据膨胀。如使用此方法，则需要找到一种快速记录查找多重 position 的方法

南京	南京市	市长	长江	长江大桥	大桥	维修
0	1	2	3	4	5	6

南京	南京市	市长	长江	长江大桥	大桥	维修
0	-	1	2	-	3	4
0	-	1	-	2	-	3
-	0	-	1	-	2	3
-	0	-	-	1	-	2

Offset 连续性判别

思路：目前以 position 的连续性判断是不是短句，不过我们从_analyzer结果可以看到除了 position，我们还有 start_offset 和 end_offset , 而这两个比 position 更加准确。因此可以考虑使用 offset 的diff 一致性来判别。
难点：需要注意的有两点，一是停用词造成的 offset 不连续，二是『new york』这种词中的多个空格，也会造成 offset 的不一致。另外，如要修改此逻辑，则需要修改 lucene，维护成本较大。

参考资料

ElastiSearch 6.6 源码