Normalizaition:英文中应用比较多,如apple、apples=>apple;go、went=>go。
前向最大匹配(贪心算法)
前向最大匹配后向最大匹配(贪心算法)
后向最大匹配 「基于匹配规则的分词法」的缺点: 只能找局部最优的解max_len导致效率低下不能考虑语义,上下文关系,可能存在歧义进一步细分可能效果更好拼写纠错被广泛应用于搜索技术中,在淘宝中你搜索错别字产品,依然可以搜索到。 3.1.拼写错误分类
单词拼写错误 天起-->天气单词未拼写错误,但结合上下文,该词使用错误 I am go home-->I am going home3.2.编辑距离 编辑距离中的三种编辑操作:insert、delete、replace
编辑距离示例 时间复杂度更低的优化利用贝叶斯定理来求错误字符串本应该的正确字符串
极大似然估计一般做法:将出现频率较低的词汇,即对分析作用不大的词作为停用词 在英⽂文⾥里里,⽐比如 “the”, “an”, “their”这些都可以作 为停⽤用词来处理理。但是,也需要考虑⾃自⼰己的应⽤用场景。 例如好,很好这类词一般需要放入停用词库,但在做情感分析时,这类词需要保留。
lemmazation比stemming更严格,生成的词符合词库标准,stemming生成词可能不符合语法。