policy-optimization

Star

Here are 24 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

Star

Multi-Agent Constrained Policy Optimisation (MACPO; MAPPO-L).

multi-agent-reinforcement-learning policy-optimization safe-reinforcement-learning

Updated Apr 17, 2024
Python

elsheikh21 / car-racing-ppo

Star

Implementation of a Deep Reinforcement Learning algorithm, Proximal Policy Optimization (SOTA), on a continuous action space openai gym (Box2D/Car Racing v0)

deep-reinforcement-learning openai-gym proximal-policy-optimization ppo policy-optimization

Updated Apr 2, 2019
Python

cxxgtxy / POP3D

Star

Policy Optimization with Penalized Point Probability Distance: an Alternative to Proximal Policy Optimization

reinforcement-learning deep-learning proximal-policy-optimization policy-optimization

Updated Nov 8, 2018
Python

Guowei-Zou / d2ppo-release

Star

[AAAI 2026] D²PPO: Diffusion Policy Policy Optimization with Dispersive Loss.

control robotics rl manipulation fine-tuning post-training policy-optimization online-rl diffusion-policy

Updated Nov 22, 2025
Python

manantomar / Mirror-Descent-Policy-Optimization

Star

Mirror Descent Policy Optimization

reinforcement-learning deep-learning deep-reinforcement-learning deep-learning-algorithms sac trpo deep-rl ppo deep-learning-ai policy-optimization stable-baselines model-free-rl mirror-descent mdpo

Updated Oct 31, 2020
Python

MahanFathi / Model-Based-RL

Star

Model-based Policy Gradients

reinforcement-learning openai-gym pytorch computation-graph gym policy-gradient finite-difference backpropagation computational-graphs mujoco model-based ilqg ilqr ilqg-mujoco mujoco-py policy-gradients policy-optimization direct-policy-search mujoco-dynamics

Updated Mar 12, 2020
Python

CLAIRE-Labo / no-representation-no-trust

Star

Codebase to fully reproduce the results of "No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO" (Moalla et al. 2024). Uses TorchRL and provides extensive tools for studying representation dynamics in policy optimization.

reinforcement-learning deep-learning policy-optimization

Updated Nov 20, 2024
Python

liziniu / policy_optimization

Star

Code for Paper (Policy Optimization in RLHF: The Impact of Out-of-preference Data)

bandit stochastic-approximation policy-optimization large-language-models rlhf

Updated Dec 19, 2023
Python

sarmueller / gibo

Star

This repository contains the code for the paper "Local policy search with Bayesian optimization".

reinforcement-learning pytorch gym policy-gradient gradient-descent bayesian-optimization active-learning mujoco policy-optimization

Updated Oct 27, 2022
Jupyter Notebook

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

Star

reinforcement-learning deep-reinforcement-learning openai-gym pytorch policy-gradient proximal-policy-optimization ppo atari-pong policy-optimization

Updated Feb 28, 2023
Jupyter Notebook

shaheennabi / Reinforcement-Learning-Zero-to-Hero

Sponsor

Star

Reinforcement Learning (RL)! This repository is your hands-on guide to implementing RL algorithms, from Markov Decision Processes (MDPs) to advanced methods like PPO and DDPG. Build smart agents, learn the math behind policies, and experiment with real-world applications!

agent research reinforcement-learning monte-carlo policy-gradient markov-decision-processes temporal-differencing-learning proximal-policy-optimization model-based-rl actor-critic-algorithm policy-optimization model-free-rl

Updated Jan 27, 2026
Python

vbdi / cppo

Star

CPPO: Contrastive Perception for Vision Language Policy Optimization

reinforcement-learning-algorithms policy-optimization contrastive-learning perception-aware vision-language-model entropy-based-approach cppo vision-token

Updated Dec 22, 2025

proceduralia / randomist

Star

Code for Policy Optimization as Online Learning with Mediator Feedback

thompson-sampling exploration mcmc multi-armed-bandits policy-optimization

Updated Dec 27, 2020
Python

Sahel13 / particle-pomdp

Star

Code accompanying the NeurIPS 2025 paper "Sequential Monte Carlo for Policy Optimization in Continuous POMDPs".

reinforcement-learning pomdps sequential-monte-carlo policy-optimization

Updated Oct 8, 2025
Python

grassking100 / reinforcement_learning

Star

An implementation of the reinforcement learning for CartPole-v0 by policy optimization

reinforcement-learning deep-learning pytorch cartpole-v0 policy-optimization

Updated Dec 17, 2021
Python

MehdiShahbazi / REINFORCE-Cart-Pole-Gymnasium

Star

This repo implements the REINFORCE algorithm for solving the Cart Pole V1 environment of the Gymnasium library using Python 3.8 and PyTorch 2.0.1.

Updated Mar 19, 2024
Python

kantkrishan0206-crypto / AlignGPT

Star

“This project implements a mini LLM alignment pipeline using Reinforcement Learning from Human Feedback (RLHF). It includes training a reward model from human-annotated preference data, fine-tuning the language model via policy optimization, and performing ablation studies to evaluate robustness, fairness, and alignment trade-offs.”