大数据分析之中文分词

tech2026-01-15  7

最近再研究MapReduce对数据进行分析处理,意外发现了中文无法对词进行分析的问题。固选择使用Python的 jieba包来进行中文分词。 安装jieba包: pip install jieba

jieba的三种模式:

import jieba seg_str = "好好学习,天天向上。" print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果 print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 'cut_all=True' 指定 print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式
最新回复(0)