2020.9.2课堂笔记（ES分词器analysis-ik，Logstash）

tech2024-06-18 199

分词器 (1) 概念： (2) 干啥的： ① 切词 ② normalization（提升recall召回率：能搜索到的结果的比率） (3) 分析器： ① character filter（mapping）：分词之前预处理（过滤无用字符、标签等，转换一些&=>and 《Elasticsearch》=> Elasticsearch HTML Strip Character Filter：html_strip a. 参数：escaped_tags 需要保留的html标签Mapping Character Filter：type mappingPattern Replace Character Filter：type pattern_replace ② tokenizer（分词器）：分词 ③ token filter：停用词、时态转换、大小写转换、同义词转换、语气词处理等。比如：has=>have him=>he apples=>apple the/oh/a=>干掉 (4) ES内置分词器 7.6 15种自带分词器 ① standard analyzer：默认分词器，中文支持的不理想，会逐字拆分。max_token_length：最大令牌长度。如果看到令牌超过此长度，则将其max_token_length间隔分割。默认为255。 ② Pattern Tokenizer：以正则匹配分隔符，把文本拆分成若干词项。 ③ Simple Pattern Tokenizer：以正则匹配词项，速度比Pattern Tokenizer快。 ④ whitespace analyzer：以空白符分隔 Tim_cookie 测试：Tim_cookie received his girlfriend on 2020-05-20 (5) 自定义分词器： ① tokenizer：内置或自定义分词器。（需要） ② char_filter：内置或自定义字符过滤器。 ③ filter：内置或自定义token filter 。 ④ position_increment_gap：在为文本值数组建立索引时，Elasticsearch在一个值的最后一项和下一个值的第一项之间插入一个假的“空白”，以确保词组查询与来自不同数组元素的两项不匹配。默认为100。查看position_increment_gap更多。 (6) 中文分词器： ① IK分词：ES的安装目录不要有中文空格下载：https://github.com/medcl/elasticsearch-analysis-ik创建插件文件夹 cd your-es-root/plugins/ && mkdir ik将插件解压缩到文件夹 your-es-root/plugins/ik重新启动es ② 两种analyzerik_max_word：细粒度ik_smart：粗粒度 ③ IK文件描述IKAnalyzer.cfg.xml：IK分词配置文件主词库：main.dic英文停用词：stopword.dic，不会建立在倒排索引中特殊词库： a. quantifier.dic：特殊词库：计量单位等 b. suffix.dic：特殊词库：后缀名 c. surname.dic：特殊词库：百家姓 d. preposition：特殊词库：语气词自定义词库：比如当下流行词：857、emmm…、渣女、舔屏、996热更新： a. 修改ik分词器源码 b. 基于ik分词器原生支持的热更新方案，部署一个web服务器，提供一个http接口，通过modified和tag两个http响应头，来提供词语的热更新

为什么要使用分词器：这是因为Elasticsearch中默认的分词器，在处理中文的时候会把中文单词切分成一个一个的汉字，因此引入es之中文的分词器插件es-ik就能解决这个问题。

2020.9.3课前复习： 1、logstash如何测试文件是否正常 logstash -f 文件路径 -t //-t可以检测出来哪里有问题，比直接报错更精简明确 2、输入有几种 stdin{codec => “json/rubydebug” } 标准输入/控制台输入 file{ path=> “” start_position= “beginning” sincedb_path => “/dev/null”} jdbc{ jar包地址，编码格式，driver，url，user，password } 3、输出有几种 stdout{ codec => “json/rubydebug”} file{ path => “”} elasticsearch{ hosts => [""] document_index="" _type="" _id="" } 4、grok过滤器的用法 grok{ match=>{“message”=>"%{内置匹配规则:字段名}"} 或 match=>{“message”=>"(?<字段名>匹配规则)"} }

最新回复(0)