searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

如何理解强化学习中的Q值和V值?

2024-05-24 09:40:09
143
0

在强化学习中,我们为了获得概率,我们将会不断地让我们智能体重复,或者让多个智能体进行试验以获得数据。

1、Q和V的意义

  • V值的定义

假设现在需要求某状态S的V值,那么我们可以这样:

  1. 我们从S点出发,并影分身出若干个自己;
  2. 每个分身按照当前的策略 选择行为;
  3. 每个分身一直走到最终状态,并计算一路上获得的所有奖励总和;
  4. 我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。

用大白话总结就是:从某个状态,按照策略 ,走到最终状态很多很多次;最终获得奖励总和的平均值,就是V值。

【敲黑板】 1. 从V值的计算,我们可以知道,V值代表了这个状态的今后能获得奖励的期望。从这个状态出发,到达最终状态,平均而言能拿到多少奖励。所以我们轻易比较两个状态的价值。 2. V值跟我们选择的策略有很大的关系。 我们看这样一个简化的例子,从S出发,只有两种选择,A1,A2;从A1,A2只有一条路径到最终状态,获得总奖励分别为10和20.

现在我们假设策略 采用平均策略[A1:50%,A2:50%],根据用影分身(如果是学霸直接求期望),那么我们可以求得V值为15。

现在我们改变策略[A1:60%,A2:40%],那么我们可以求得V值为14,变少了!

所以大家看到,V值是会根据不同的策略有所变化的!

  • Q值的定义

和V值一样,我们也可以用影分身来理解Q值。

现在我们需要计算,某个状态S0下的一个动作A的Q值: 1. 我们就可以从A这个节点出发,使用影分身之术; 2. 每个影分身走到最终状态,并记录所获得的奖励; 3. 求取所有影分身获得奖励的平均值,这个平均值就是我们需要求的Q值。

用大白话总结就是:从某个状态选取动作A,走到最终状态很多很多次;最终获得奖励总和的平均值,就是Q值。

【敲黑板】 与V值不同,Q值和策略并没有直接相关,而与环境的状态转移概率相关,而环境的状态转移概率是不变的。

2. V值和Q值的关系

总结一下,从以上的定义,我们可以知道Q值和V值的意义相通的: 1. 都是马可洛夫树上的节点; 2. 价值评价的方式是一样的: - 从当前节点出发 - 一直走到最终节点 - 所有的奖励的期望值

所以,聪明的同学已经知道,其实Q和V之间是可以相互换算的。

  • Q值到V值

从定义出发,我们要求的V值,就是从状态S出发,到最终获取的所获得的奖励总和的期望值。也就是蓝色框部分。

S状态下有若干个动作,每个动作的Q值,就是从这个动作之后所获得的奖励总和的期望值。也就是红色框部分。

假设我们已经计算出每个动作的Q值,那么在计算V值的时候就不需要一直走到最终状态了,只需要走到动作节点,看一下每个动作节点的Q值,根据策略 ,计算Q的期望就是V值了。

 

  • V值到Q值

道理还是一样,就是用Q就是V的期望!而且这里不需要关注策略,这里是环境的状态转移概率决定的。

但是当我们选择A,并转移到新的状态时,就能获得奖励,我们必须把这个奖励也算上!

折扣率 在强化学习中,有某些参数是人为主观制定。这些参数并不能推导,但在实际应用中却能解决问题,所以我们称这些参数为超参数,而折扣率就是一个超参数。 与金融产品说的贴现率是类似的。我们计算Q值,目的就是把未来很多步奖励,折算到当前节点。但未来n步的奖励的10点奖励,与当前的10点奖励是否完全等价呢?未必。所以我们人为地给未来的奖励一定的折扣,例如:0.9,0.8,然后在计算到当前的Q值

现在我们知道如何从V到Q,从Q到V了。但实际应用中,我们更多会从V到V。

但其实从V到V也是很简单的。把公式代进去就可以了。

3. 总结

  1. 比起记住公式,其实我们更应该注意Q值和V值的意义:他们就像一个路牌一样,告诉我们从马可洛夫树的一个节点出发,下面所有节点的收获的期望值。也就是假设从这个节点开始,走许多许多次,最终获取的奖励的平均值。
  2. V就是子节点的Q的期望!但要注意V值和策略相关。
  3. Q就是子节点的V的期望!但要注意,记得把R计算在内。

0条评论
0 / 1000
赵****斌
4文章数
0粉丝数
赵****斌
4 文章 | 0 粉丝
赵****斌
4文章数
0粉丝数
赵****斌
4 文章 | 0 粉丝
原创

如何理解强化学习中的Q值和V值?

2024-05-24 09:40:09
143
0

在强化学习中,我们为了获得概率,我们将会不断地让我们智能体重复,或者让多个智能体进行试验以获得数据。

1、Q和V的意义

  • V值的定义

假设现在需要求某状态S的V值,那么我们可以这样:

  1. 我们从S点出发,并影分身出若干个自己;
  2. 每个分身按照当前的策略 选择行为;
  3. 每个分身一直走到最终状态,并计算一路上获得的所有奖励总和;
  4. 我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。

用大白话总结就是:从某个状态,按照策略 ,走到最终状态很多很多次;最终获得奖励总和的平均值,就是V值。

【敲黑板】 1. 从V值的计算,我们可以知道,V值代表了这个状态的今后能获得奖励的期望。从这个状态出发,到达最终状态,平均而言能拿到多少奖励。所以我们轻易比较两个状态的价值。 2. V值跟我们选择的策略有很大的关系。 我们看这样一个简化的例子,从S出发,只有两种选择,A1,A2;从A1,A2只有一条路径到最终状态,获得总奖励分别为10和20.

现在我们假设策略 采用平均策略[A1:50%,A2:50%],根据用影分身(如果是学霸直接求期望),那么我们可以求得V值为15。

现在我们改变策略[A1:60%,A2:40%],那么我们可以求得V值为14,变少了!

所以大家看到,V值是会根据不同的策略有所变化的!

  • Q值的定义

和V值一样,我们也可以用影分身来理解Q值。

现在我们需要计算,某个状态S0下的一个动作A的Q值: 1. 我们就可以从A这个节点出发,使用影分身之术; 2. 每个影分身走到最终状态,并记录所获得的奖励; 3. 求取所有影分身获得奖励的平均值,这个平均值就是我们需要求的Q值。

用大白话总结就是:从某个状态选取动作A,走到最终状态很多很多次;最终获得奖励总和的平均值,就是Q值。

【敲黑板】 与V值不同,Q值和策略并没有直接相关,而与环境的状态转移概率相关,而环境的状态转移概率是不变的。

2. V值和Q值的关系

总结一下,从以上的定义,我们可以知道Q值和V值的意义相通的: 1. 都是马可洛夫树上的节点; 2. 价值评价的方式是一样的: - 从当前节点出发 - 一直走到最终节点 - 所有的奖励的期望值

所以,聪明的同学已经知道,其实Q和V之间是可以相互换算的。

  • Q值到V值

从定义出发,我们要求的V值,就是从状态S出发,到最终获取的所获得的奖励总和的期望值。也就是蓝色框部分。

S状态下有若干个动作,每个动作的Q值,就是从这个动作之后所获得的奖励总和的期望值。也就是红色框部分。

假设我们已经计算出每个动作的Q值,那么在计算V值的时候就不需要一直走到最终状态了,只需要走到动作节点,看一下每个动作节点的Q值,根据策略 ,计算Q的期望就是V值了。

 

  • V值到Q值

道理还是一样,就是用Q就是V的期望!而且这里不需要关注策略,这里是环境的状态转移概率决定的。

但是当我们选择A,并转移到新的状态时,就能获得奖励,我们必须把这个奖励也算上!

折扣率 在强化学习中,有某些参数是人为主观制定。这些参数并不能推导,但在实际应用中却能解决问题,所以我们称这些参数为超参数,而折扣率就是一个超参数。 与金融产品说的贴现率是类似的。我们计算Q值,目的就是把未来很多步奖励,折算到当前节点。但未来n步的奖励的10点奖励,与当前的10点奖励是否完全等价呢?未必。所以我们人为地给未来的奖励一定的折扣,例如:0.9,0.8,然后在计算到当前的Q值

现在我们知道如何从V到Q,从Q到V了。但实际应用中,我们更多会从V到V。

但其实从V到V也是很简单的。把公式代进去就可以了。

3. 总结

  1. 比起记住公式,其实我们更应该注意Q值和V值的意义:他们就像一个路牌一样,告诉我们从马可洛夫树的一个节点出发,下面所有节点的收获的期望值。也就是假设从这个节点开始,走许多许多次,最终获取的奖励的平均值。
  2. V就是子节点的Q的期望!但要注意V值和策略相关。
  3. Q就是子节点的V的期望!但要注意,记得把R计算在内。

文章来自个人专栏
强化学习QV
1 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0