机器学习——主题模型
主题模型LDA的解释详细解释
主题模型
LDA的解释
共有m篇文章,一共涉及了K个主题每篇文章(长度为
N
m
N_m
Nm)都有各自的主题分布,主题分布是多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为
α
\alpha
α;每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为
β
\beta
β;对于某篇文章中的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程,直到m篇文章全部完成上述过程。
详细解释
字典中共有V个term(不可重复),这些term出现再具体的文章中,就是word——在具体某文章中word有可能重复;语料库中共有m篇文档
d
1
,
d
2
,
.
.
.
,
d
m
d_1, d_2,...,d_m
d1,d2,...,dm;对于文档
d
i
d_i
di,由
N
i
N_i
Ni个word组成,可重复;语料库中共有K个主题
T
1
,
.
.
.
,
T
k
T_1,...,T_k
T1,...,Tk;
α
\alpha
α和
β
\beta
β为先验分布的参数,一般事先给定;
θ
\theta
θ是每篇文章的主题分布
对于第 i 篇文档
d
i
d_i
di的主题分布为
θ
i
=
(
θ
i
1
,
.
.
.
,
θ
i
K
)
\theta_i=(\theta_{i1},...,\theta_{iK})
θi=(θi1,...,θiK),是长度为K的向量; 对于第 i 篇文档
d
i
d_i
di,在主题分布
θ
i
\theta_i
θi下,可以确定一个具体的主题
z
i
j
=
k
,
K
∈
[
1
,
K
]
z_{ij}=k, K\in [1,K]
zij=k,K∈[1,K],
ϕ
k
\phi_k
ϕk表示第k个主题的词分布,
k
∈
[
1
,
K
]
k\in [1,K]
k∈[1,K]
对于第k个主题
T
k
T_k
Tk的词分布
ϕ
k
=
(
ϕ
k
1
,
.
.
.
,
ϕ
k
v
)
\phi_k=(\phi_{k1},...,\phi_{kv})
ϕk=(ϕk1,...,ϕkv),是长度为v的向量 由
z
i
j
z_{ij}
zij选择
ϕ
z
i
j
\phi_{z_{ij}}
ϕzij,表示由词分布
ϕ
z
i
j
\phi_{z_{ij}}
ϕzij确定term,即得到观测值
w
i
j
w_{ij}
wij