赵****斌-作者主页-天翼云开发者社区

全部文章Ta的评论

Actor-Critic原理
Actor-Critic算法是一种强化学习算法，它结合了策略评估（Critic）和策略改进（Actor）两个过程。Actor负责选择动作，而Critic则评估当前策略的好坏，两者相互协作，以提高决策过程的效率和效果。简而言之，Actor-Critic算法通过同时更新策略和价值函数，实现了在探索与利用之间的平衡，从而优化智能体的行为。
AI
赵****斌
2024-06-27
47
0
如何理解强化学习中的Q值和V值？
1. Q值和V值的意义：他们就像一个路牌一样，告诉我们从马可洛夫树的一个节点出发，下面所有节点的收获的期望值。也就是假设从这个节点开始，走许多许多次，最终获取的奖励的平均值。 2. V就是子节点的Q的期望！但要注意V值和策略相关。 3. Q就是子节点的V的期望！但要注意，记得把R计算在内。
AI
赵****斌
2024-05-24
175
0
DeepSpeed-Pipeline并行
DeepSpeed v0.3增加了对管道并行的新支持。管道并行将模型的层划分为阶段，可以并行处理，从而提高深度学习训练的内存和计算效率。DeepSpeed的训练引擎提供了混合数据和管道并行，并可进一步与模型并行（如Megatron-LM）结合使用。下面展示了3D并行的示例。最新结果表明，这种三维并行使得训练具有万亿参数的模型成为可能。
AI
赵****斌
2023-06-29
670
0
数据并行-DP与DDP
数据并行的核心思想是:在各个GPU上都复制一份完整的模型,每个GPU处理一部分数据,计算一份梯度,最后把梯度加总来更新整体模型。这个概念很简单,但是对大型模型来说,巨大的存储空间和GPU之间的通信量就是系统设计要考虑的重点。本文将逐步介绍三种主流的数据并行实现方法: •DP(数据并行):最早的数据并行模式,通常使用参数服务器框架。主要用于单机多卡场景。 •DDP(分布式数据并行):采用Ring AllReduce通信方式,主要用于多机场景。 •ZeRO:由微软开发,用于其DeepSpeed框架。严格来说,ZeRO采用数据并行+张量并行方法,目的是降低存储需求。
AI
赵****斌
2023-05-22
79
0

共 4 条前往

页

没有更多了

个人简介

暂未填写公司和职务

暂未填写个人简介

暂未填写技能专长

暂未填写毕业院校和专业

个人成就

共发表过 4 篇文章

文章获得 0 次赞同

文章被浏览 971 次

获得 0 人关注

个人荣誉查看规则

暂未获得荣誉

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云