全部文章Ta的评论
- 大型语言模型(LLMs)在复杂推理任务上表现突出,而小型语言模型(SLMs)面临挑战,如Mistral-7B在GSM8K数据集上的准确度仅为36.5%。微调可以提升推理能力,但许多LLM依赖的微调数据可能来自更强大的模型,如GPT-4。研究者探索使用更优的教师LLM或LLM自身知识来提升SLM的推理能力,例如通过自我探索和自我奖励的RAP方法。然而,自我探索方法存在问题,如难以有效探索解答空间和辨别高质量推理步骤,导致效果有限。 1.LLMs在探索解答空间时面临困难,自我探索方法可能因低质量推理而陷入困境。 2.SLMs难以识别高质量的推理步骤,且难以确认最终答案的正确性,导致自我探索效果不佳。 与GPT-4等大型模型相比,SLMs在自我优化和输出质量提升方面存在挑战,可能影响模型的广泛应用。 针对这些问题,微软亚洲研究院和哈佛大学提出rStar方法,通过自博弈相互推理提升SLMs的推理能力,无需依赖微调或更优模型。刘****念2024-08-1890
共 2 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 2 篇文章
文章获得 0 次赞同
文章被浏览 13 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉