自然语言处理综论-第8章小结-词的分类与词类标注

tech2022-08-07  149

自然语言处理综论-第8章小结-词的分类与词类标注

本章介绍了词类和词类标注的基本思想。主要思想如下:

一般来说,各种语言都有一个相对小的词的封闭类,封闭类中的词通常都是高频度的,一般都是虚词。在词类标注中,它们可能有很大歧义。开放类的词一般包括各种类型的名词,动词和形容词。现在有一定数量的词类编码方案,所依据的标记集在40个到200个标记之间。词类标注是给单词序列中的每个单词指派一个词类标记的过程。词类标注算法包括基于规则的算法和随机标注算法。基于规则的算法使用手写规则来区分歧义。随机标注算法或者是基于HMM的,或者是基于提示的(cue-based)。基于HMM的标注算法选择单词似然度与标记序列概率的乘积为最大的标记序列作为标注结果;基于提示的随机标注算法使用决策树(decision tree)或最大熵模型(maximum entropy model),并把它们与概率特征结合起来。标注系统评价的通常办法是把系统对测试集的输出与人对于该测试集的标注进行比较,错误分析可以帮助我们准确地确定标注系统在哪些地方还不完善,从而进一步改善系统的性能。
最新回复(0)