评估数据准备
准备用于评估模型能力的数据集,并在数据集管理中导入和发布。
新建评估任务
在模型评估菜单页面中,点击【新建评估任务】,选择一个用于评估的Benchmark数据集,选择对应的评估标准,以及评估用到的资源,即可完成评估任务新建。
● 准确率:正确预测(标注与预测完全匹配)的样本数与总样本数的比例。
● ROUGE-1:将模型生成的结果和标准结果按unigram拆分后,计算出的召回率。
● ROUGE-2:将模型生成的结果和标准结果按bigram拆分后,计算出的召回率。
● ROUGE-L:衡量了模型生成的结果和标准结果的最长公共子序列,并计算出召回率。
● BLEU-4:用于评估模型生成的句子和实际句子的差异的指标,值为unigram,bigram,trigram,4-grams的加权平均。