<p>Hello,</p><p>I would like to ask a question about Kneser-Ney smoothing. I write formulas as if I was typing them in Latex.</p><p> </p><p>The formulas are on page 370 in the paper of Chen and Goodman (1999)</p><p>http://u.cs.biu.ac.il/~yogo/courses/mt2013/papers/chen-goodman-99.pdf</p><p> </p><p>Suppose, we are evaluating probability p_{KN}(w_i|w_{i−n+1})</p><p> </p><p>If we haven't seen the context w_{i-n+1}…w_{i-1} on the training set, the divisor is 0 in the first summand and in the y-parameter of the second summand.</p><p> </p><p>I mean the divisor \sum_{w_i} c(w_{i-n+1}^w_i) </p><p> </p><p>How do we compute the smoothed probability in this case? </p><p>a) Should it be zero? (but smoothing is supposed to help to get rid of zeros...)</p><p>b) Or should it be p_{KN}(w_i|w_{i−n+1}) = p_{KN} (w_i|w_{i−n+2})? But in this case we assume that y is 1, which means we put all the weight on the ngrams of the lower order…</p><p>c) Should we choose some \lambda parameter (what should it be in this case? 0.1?) and   p_{KN}(w_i|w_{i−n+1}) = \lambda * p_{KN} (w_i|w_{i−n+2})</p><p>d) ???</p><p> </p><p>Thank you!</p><p>Angelina</p>