机器学习——主题模型

tech2026-02-01  10

机器学习——主题模型

主题模型LDA的解释详细解释

主题模型

LDA的解释

共有m篇文章,一共涉及了K个主题每篇文章(长度为 N m N_m Nm)都有各自的主题分布,主题分布是多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为 α \alpha α;每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为 β \beta β;对于某篇文章中的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程,直到m篇文章全部完成上述过程。

详细解释

字典中共有V个term(不可重复),这些term出现再具体的文章中,就是word——在具体某文章中word有可能重复;语料库中共有m篇文档 d 1 , d 2 , . . . , d m d_1, d_2,...,d_m d1,d2,...,dm;对于文档 d i d_i di,由 N i N_i Ni个word组成,可重复;语料库中共有K个主题 T 1 , . . . , T k T_1,...,T_k T1,...,Tk α \alpha α β \beta β为先验分布的参数,一般事先给定; θ \theta θ是每篇文章的主题分布 对于第 i 篇文档 d i d_i di的主题分布为 θ i = ( θ i 1 , . . . , θ i K ) \theta_i=(\theta_{i1},...,\theta_{iK}) θi=(θi1,...,θiK),是长度为K的向量; 对于第 i 篇文档 d i d_i di,在主题分布 θ i \theta_i θi下,可以确定一个具体的主题 z i j = k , K ∈ [ 1 , K ] z_{ij}=k, K\in [1,K] zij=k,K[1,K] ϕ k \phi_k ϕk表示第k个主题的词分布, k ∈ [ 1 , K ] k\in [1,K] k[1,K] 对于第k个主题 T k T_k Tk的词分布 ϕ k = ( ϕ k 1 , . . . , ϕ k v ) \phi_k=(\phi_{k1},...,\phi_{kv}) ϕk=(ϕk1,...,ϕkv),是长度为v的向量 由 z i j z_{ij} zij选择 ϕ z i j \phi_{z_{ij}} ϕzij,表示由词分布 ϕ z i j \phi_{z_{ij}} ϕzij确定term,即得到观测值 w i j w_{ij} wij
最新回复(0)