Simple Analyzer – 按照非字母切分（符号被过滤），小写处理，所有的非字母被去除¶



CharacterFilter 针对原始文本处理,例如去除html

Tokenizer 按照规则切分为单词

Token Filter 将切分的单词进行加工,小写,删除，增加同义词

POST /_analyze
{
  "analyze":"standard",
  "text":"Mastering is last"
}

#查看所有的分词
POST books/_analyze
{
  "field":"title",
  "text":"Mastering is ElasticSearch"
}

- 自定义分词进行测试

POST _analyze
{
  "tokenizer":"standard", 
  "filter":["lowercase"],
  "text":"Mastering Elasticsearch"
}

POST _analyze
{
  "analyzer": "standard",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

POST _analyze
{
  "analyzer": "simple",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

- #Whitespace Analyzer – 按照空格切分，不转小写

POST _analyze
{
  "analyzer": "whitespace",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

- Stop Analyzer – 小写处理，停用词过滤（the，a，is）

-#Language – 提供了30多种常见语言的分词器

#english
GET _analyze
{
  "analyzer": "english",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

POST _analyze
{
  "analyzer": "icu_analyzer",
  "text": "他说的确实在理”"
}

其他中文支持

IK