文本分析学习笔记

tech2025-12-04  14

文本分析学习笔记

文本中所蕴含信息的层次词条是否在文本中出现——各种基于词袋的模型词条的各种内在关联——各种字典词序信息——N-gram语言模型语法信息——待探索区域 NLP的基本思路传统:基于字典(wordnet)现代:基于统计模型 原始语料数据化时需要考虑的工作基本目的:在将分词去除停用词词根识别、同义词/近义词识别术语识别情感标注词性标注语法分析语义分析 Python的常见IDE/集成开发环境简介什么是语料库多文档——文档-词条矩阵单文档—— 分词原理简介基于字符串的匹配基于统计以及机器学习的分词方式 结巴分词的基本用法

文本中所蕴含信息的层次

来自@文彤老师

词条是否在文本中出现——各种基于词袋的模型

即简单的判断文本中是否出现某词,以及出现的次数等。

词条的各种内在关联——各种字典

设置词典以自动连接文本中的词及其相关的词。 信息量的进一步拓展

词序信息——N-gram语言模型

文本中词出现的顺序很重要。

语法信息——待探索区域

NLP的基本思路

传统:基于字典(wordnet)

现代:基于统计模型

原始语料数据化时需要考虑的工作

基本目的:在将

分词

去除停用词

去除无意义的词、空白、标点符号等。

词根识别、

中文不存在。

同义词/近义词识别

术语识别

情感标注

词性标注

语法分析

语义分析

Python的常见IDE/集成开发环境简介

pass

什么是语料库

多文档——文档-词条矩阵

单文档——

分词原理简介

基于字符串的匹配

基于统计以及机器学习的分词方式

结巴分词的基本用法

最新回复(0)