RRG Metric
一、 BLEU 全称 Bilingual Evaluation Understudy,用于评估机器翻译和参考翻译的相似度。 n-gram匹配和精度 评估机翻和参考翻译之间的重叠度。比如有如下两个句子: C: I love pig and dog dog. R: I love dog. 对于1-gram,如下所示,计算得precision为 3/6,3表示C中有3个word与R重叠 (去除了重复部分),6表示C长度为6; C: I; love; pig; and; dog; dog; R: I; love; dog; 对于2-gram,如下所示,计算得precison为 1/5; C: I love; love pig; pig and; and dog; dog dog; R: I love; love dog; 但是n-gram毕竟只是表示局部词之间的重叠度,也不能表示语义信息,而 句子是可以从不同角度理解的,故它并不是一个很好的评估指标; BLEU 公式表示为: $$ BLEU=BP\times \text{exp}(\sum_{n=1}^Nw_n\text{log }p_n) $$ 其中BP是惩罚因子,$w_n$是每个n-gram的权重,通过为$\frac{1}{N}$,$p_n$则是不同n-gram的precision。而BP的公式如下: $$ BP = \begin{cases} 1, & \text{如果 } c > r \\ \exp\left(1 - \frac{r}{c}\right), & \text{如果 } c \leq r \end{cases} $$ BLEU-1就是只计算BP和1-gram; BLEU-2就是计算BP和1-gram以及2-gram;如此……同样,BLEU也是通过n-gram来计算的, 它也不具备理解语义信息,或者对句子词的顺序也不敏感,且缺乏对长句子的惩罚,重复单词也不能反映到得分上。...