searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

ReST-MCTS论文解读

2024-07-15 09:44:43
87
0

本文算法核心

企业微信截图_17210219631593.png

主要步骤

Search-based Reasoning Policy for LLM

简要概括:

  • 常规做法(需要两个模型)
    • 训练reward model预测solution的reward值(outcome reward model结果奖励模型);
    • 额外训练模型预测s的集合p,获得正确答案所需要的最少推理步骤数目mk;
  • 本文做法(只需要一个process reward model)
    • 只需要训练一个过程奖励模型,因为Vk依赖于Vk-1、mk和Rs(reward model预测solution的reward值)

Self-Training ReST-MCTS∗ Pipeline

简要概括:

  • 基于初始化后的policy model和reward model进行蒙特卡洛树搜索生成用于训练policy model的新数据
  • 通过字符串匹配或LLM判断验证每个solution的正确性,这一步也就是数据标注过程;
  • 使用标注后的新数据进行policy model和reward model的self-train,每一轮中使用前一轮训练得到的模型继续生成数据、标注、训练,从而逐步提升policy model和reward model的性能。

相关算法

Self-Consistency

https://arxiv.org/pdf/2203.11171.pdf

前提假设:正确的推理过程尽管都不相同,但是都会到达最后正确的答案,且答案是一致的;

核心:其实是提出了一种解码策略,取代之前用的greedy search。挑选多个reasoning path,通过边缘化(marginalizing out)这些推理路径来确定最优答案(如果很多reasoning path都能得到对应的一个答案,那么这个答案的置信度会比较大)

Best-of-N

https://arxiv.org/abs/2305.20050

0条评论
作者已关闭评论
曹****佳
6文章数
0粉丝数
曹****佳
6 文章 | 0 粉丝
原创

ReST-MCTS论文解读

2024-07-15 09:44:43
87
0

本文算法核心

企业微信截图_17210219631593.png

主要步骤

Search-based Reasoning Policy for LLM

简要概括:

  • 常规做法(需要两个模型)
    • 训练reward model预测solution的reward值(outcome reward model结果奖励模型);
    • 额外训练模型预测s的集合p,获得正确答案所需要的最少推理步骤数目mk;
  • 本文做法(只需要一个process reward model)
    • 只需要训练一个过程奖励模型,因为Vk依赖于Vk-1、mk和Rs(reward model预测solution的reward值)

Self-Training ReST-MCTS∗ Pipeline

简要概括:

  • 基于初始化后的policy model和reward model进行蒙特卡洛树搜索生成用于训练policy model的新数据
  • 通过字符串匹配或LLM判断验证每个solution的正确性,这一步也就是数据标注过程;
  • 使用标注后的新数据进行policy model和reward model的self-train,每一轮中使用前一轮训练得到的模型继续生成数据、标注、训练,从而逐步提升policy model和reward model的性能。

相关算法

Self-Consistency

https://arxiv.org/pdf/2203.11171.pdf

前提假设:正确的推理过程尽管都不相同,但是都会到达最后正确的答案,且答案是一致的;

核心:其实是提出了一种解码策略,取代之前用的greedy search。挑选多个reasoning path,通过边缘化(marginalizing out)这些推理路径来确定最优答案(如果很多reasoning path都能得到对应的一个答案,那么这个答案的置信度会比较大)

Best-of-N

https://arxiv.org/abs/2305.20050

文章来自个人专栏
自然语言处理
6 文章 | 1 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0