假如,现在文本训练集中有两个正子类: c1 和 c2 ,且先验概率 P(c1)=0.8 , P(c2)=0.2 ,词的条件概 率为 p(w1|cl)=0.3 , p(w2|c1)=0.7 , p(w3|c2)=0.4 , p(w4|c2)=0.6 ,词的缺省条件概率为 0.1 ,那 么,对于未标记集 U 中的文档 d 。 d1={w5,w6}, d2={w1,w6}, d3={w1,w2,w2}, d4={w3,w3,w4),
根据贝叶斯公式得后验概率: P(c1|d1)=4/5 , P(c2|d1)=1/5 ; p(c1|d2)=12/13 , p(c2|d2)=1/13 ; p(c1|d3)=588/589 , p(c2|d3)=1/589 ; P(c1/d4)=1/25 ,
这个贝叶斯求后验概率具体步骤是怎么样的? 以 p(c1|d1)为例,怎么计算得出为 4/5? p(c1|d1)=p(c1|w5,w6)=p(w5,w6|c1)*p(c1)/p(w5,w6)?