当前位置：首页 > news >正文

社交网站开发意义宁波seo网络推广推荐

news 2025/7/26 13:54:25

社交网站开发意义,宁波seo网络推广推荐,amazon亚马逊官方网站,网络舆情监测内容这里写自定义目录标题参考资料 Safe Reinforcement Learning环境算法CPO 2017 ICMLPCPO 2019 ICLRFOCOPS 2020 NIPSCRPO 2021 ICMLCUP 2022 NIPS TRPO 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎参考资料 Safe Reinforcement Learning 安全/约束强化学…

这里写自定义目录标题

参考资料 Safe Reinforcement Learning
环境
算法
- CPO 2017 ICML
- PCPO 2019 ICLR
- FOCOPS 2020 NIPS
- CRPO 2021 ICML
- CUP 2022 NIPS

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料 Safe Reinforcement Learning

安全/约束强化学习路线图（Safe RL Roadmap）编辑于 2023-05-06

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning（一）2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者
OpenAI/safety-starter-agents github

环境

safety-gym openai
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.

safety-gymnasium
Bullet-Safety-Gym

算法

算法	算法	类型	时间	会议	引用量
CPO	约束策略优化	CPO-based 二阶	2017	ICML	1214
RCPO	奖励约束策略优化	Primal-Dual	2018	ICLR	452
PCPO	基于投影的约束策略优化	CPO-based 二阶	2019	ICLR	188
FOCOPS	策略空间中的一阶约束优化	CPO-based 一阶	2020	NIPS	87
CRPO	约束修正策略优化	Lagrange	2021	ICML	84
CUP	约束更新投影	CPO-based 一阶	2022	NIPS	18

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631

安全强化学习综述
2.2.2 信赖域法
约束型策略优化 (Constrained policy optimization, CPO)
基于投影的约束策略优化 (Projection-based constrained policy optimization, PCPO)
一阶约束优化方法 (First order constrained optimization in policy space, FOCOPS)
惩罚近端策略优化 (Penalized proximal policy optimization, P3O)
约束修正策略优化 (Constraint-rectified policy optimization, CRPO)
约束变分策略优化 (Constrained variational policy optimization, CVPO)