没有预先定义entity类型,能够自动的识别并标注entity的类型是比较大的挑战,现有的工作有场景限制。
本文提出无监督的entity标注框架。学习以下三种信息
通用的语义表征特殊的上下文表征基于知识库的知识表征开发的框架 使用hierarchical clustering和linking算法去typing这些mention。
不需要标注的数据,预定义的type范式,或者特征。
主要就是讲述了IE,现有的IE主要集中在closed domain的IE。需要改变成open domain的IE。
先前的open-domain IE主要集中在一小堆粗粒度的类型。例如MUC-7
缺乏拓展能力和方便。
考虑到这些,开发了Liberal IE模型,输入为随意的corpus,输出包含一个可变的type hierarchy,有多级粒度,并且针对输入的语料库做了定制化处理(不同语料库不同呗)。
Liberal IE可以自动发现细粒度的entity类型。
文章针对不同的情况,作出了不同的假设:
1. 常见entity type被general的语义表示
2. 不常见的类型被特定的context表征
3. 领域特定的entity极度依靠领域内的知识
基于entity linking和分布的语义表征。能够自动发现细粒度的entity types
学习上述所说的三种类型的表征,并对每一个mention输出他的类型。
这篇文章可能写的也比较的liberal。
基于general lexical embedding(不就是word embedding吗…
Continues Skip-gram 模型训练出的 unlabeled in-domain的数据集。
需要用到特定上下文的信息来进行句子中的语义表征。
所以这里使用Abstract Meaning Representation(AMR) 对句子进行解构,获取出一些特殊的句子成分,挑选8个句子成分之后,使用这些成分的general word embedding进行一个encoder和decoder。最终得到specific的representation。
这一部分主要是使用领域和语言无关的entity linking系统,去将mention链接到KB上,从而决定哪一个知识表征是合理的。
用的是graph embedding Line的那一篇文章,在这里我将其理解为一个存储了链接信息的一个embedding,不是word embedding。
如果一个mention不能被链接,那么会随机生成一个vector,并且将所有相似的mention都设置为这个vector。
有了上述的三种encoding,concate起来之后,接下俩用X-means进行聚类,X-means可以看作K-means的拓展,有这些好处:
速度比较快自动估计聚类数量具体的聚类方法是通过linkable mentions来进行聚类,
聚类好了之后,通过linkable的mention的type path,来选择最佳的fine-grained的entity type
根本就不是全新的发现的type,还是在别的KB里面找过来的。佛了。
所以作者的意思应该是,针对这一个specific的corpus,我们从别的KB中找到了对应的type。然后和hierarhical聚类算法对应的type从上到下,组建了一个type hierarchy。
我直接昏厥