Skip to content

强化学习原理 + 强化学习代码实现 + 强化学习框架 + 强化学习论文

Notifications You must be signed in to change notification settings

ztaoing/DeepRL_Steps

Repository files navigation

观察结果 ≠ 客观事实,而是「观察方式」的产物。

强化学习-原理

  1. BASIC 【鱼书】深度学习入门-强化学习 课件及笔记
  2. DRL 【王树森】深度强化学习 课件及笔记
  3. Hands-on-RL 【愈勇等】动手学强化学习++
  4. OPEN AI 强化学习手册 官网地址
  5. 李宏毅-强化学习-PPO 【视频地址
  6. 李宏毅-强化学习-2025【视频地址
  7. 人人都能看懂的PPO原理与源码解读
  8. easy-rl 在线地址
  9. Mathematical-RL [【赵世钰】强化学习的数学原理](https://www.bilibili.com/video/BV1sd4y167NS/?)
  10. RLHF-huggingface

强化学习-代码实现

强化学习算法 github地址

强化学习框架

RLHF

强化学习论文

PPO

DeepSeek及clip

GRPO在机器领域的应用(TODO)

(显示/隐式)KL散度

熵(探索)

是否一定要控制熵

幻觉

奖励模型的设计

阿里:“目标”(序列级)和“手段”(token级)之间的不匹配

RL是否真能超越base model?

RL 能让模型学会全新的推理模式,实现 "能力扩展"

mid-training 中训练:领域指数的重要性

RL 与 SFT

RL训练(Scaling Laws)

Awesome-ML-SYS-Tutorial(RLHF System 开发笔记)

神经网络

分布式

《动手学大模型》 系列编程实践教程

About

强化学习原理 + 强化学习代码实现 + 强化学习框架 + 强化学习论文

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published