模型评估旨在对平台精调生成的大模型输出效果进行评估,当前支持对“模型调优”运行完成的模型进行评估。
评估数据准备
准备用于评估模型能力的数据集,并在数据集管理中导入和发布。
新建评估任务
在模型评估菜单页面中,点击【新建评估任务】,选择一个用于评估的Benchmark数据集,选择对应的评估标准,以及评估用到的资源,即可完成评估任务新建。
- 准确率:正确预测(标注与预测完全匹配)的样本数与总样本数的比例。
- ROUGE-1:将模型生成的结果和标准结果按unigram拆分后,计算出的召回率。
- ROUGE-2:将模型生成的结果和标准结果按bigram拆分后,计算出的召回率。
- ROUGE-L:衡量了模型生成的结果和标准结果的最长公共子序列,并计算出召回率。
- BLEU-4:用于评估模型生成的句子和实际句子的差异的指标,值为unigram,bigram,trigram,4-grams的加权平均。