查看所有产品

一站式智算服务平台

一站式智算服务平台

无相关产品

模型评估

更新时间 2025-01-23 18:21:28

最近更新时间: 2025-01-23 18:21:28

模型评估旨在对平台精调生成的大模型输出效果进行评估，当前支持对“模型调优”运行完成的模型进行评估。

评估数据准备

准备用于评估模型能力的数据集，并在数据集管理中导入和发布。

新建评估任务

在模型评估菜单页面中，点击【新建评估任务】，选择一个用于评估的Benchmark数据集，选择对应的评估标准，以及评估用到的资源，即可完成评估任务新建。

准确率：正确预测(标注与预测完全匹配)的样本数与总样本数的比例。

ROUGE-1：将模型生成的结果和标准结果按unigram拆分后，计算出的召回率。
ROUGE-2：将模型生成的结果和标准结果按bigram拆分后，计算出的召回率。
ROUGE-L：衡量了模型生成的结果和标准结果的最长公共子序列，并计算出召回率。
BLEU-4：用于评估模型生成的句子和实际句子的差异的指标，值为unigram，bigram，trigram，4-grams的加权平均。

查看评估任务

在评估详情页，可以查看评估任务的详细内容，包括基座模型、模型评估结果、评估日志等信息。

文本反馈

©2025天翼云科技有限公司版权所有

京ICP备 2021034386号

京公网安备11010802043424号

增值电信业务经营许可证A2.B1.B2-20090001