BLEU-4
BLEU-4是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标,是将模型生成结果和标注结果分别按1-gram、2-gram、3-gram、4-gram拆分后,计算出的加权平均精确率(n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段)。BLEU-4值的范围通常在0到1之间,越接近1表示机器翻译结果与参考翻译之间的相似度越高。
ROUGE-1
ROUGE-1 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标,是将模型生成结果和标注结果按1-gram拆分后,计算出的召回率(n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段)。
召回率衡量了模型生成结果中有多少与标注结果匹配的内容,即生成的词语有多少出现在标注结果中。ROUGE-1 是 ROUGE 系列指标中最基础的一个,也是最简单的一个,但仍然是评估生成型任务性能的重要参考指标之一。
通过计算 ROUGE-1 可以评估模型在单个词(unigram)层面上的匹配情况,帮助衡量自动生成的文本与参考文本之间的相似度和质量。如:ROUGE-2、ROUGE-L
F1分数
F1 分数是一个常用的评估指标,主要用于衡量二分类模型(例如文本分类、图像分类等)的性能。它结合了模型的精确率(Precision)和召回率(Recall)两个指标,提供了一个综合评估模型性能的指标。
精确率和召回率可以根据下面的定义计算:
精确率 = TP / (TP + FP)
召回率 = TP / (TP + FN)
其中,TP(True Positive)代表真阳性,预测为正类并且实际为正类的样本数量;FP(False Positive)代表假阳性,预测为正类但实际为负类的样本数量;FN(False Negative)代表假阴性,预测为负类但实际为正类的样本数量。
F1 分数可以通过精确率和召回率的加权调和平均计算得到:
F1 = 2 * (精确率 * 召回率) / (精确率 + 召回率)
F1 分数的取值范围是 0 到 1,数值越接近 1 表示模型性能越好。它能同时考虑模型的准确性和覆盖率,因此适用于不平衡类别分布的情况。
总之,F1 分数是一个综合考虑了模型的精确率和召回率的评估指标,可以用于评估二分类模型的性能。