观察结果 ≠ 客观事实，而是「观察方式」的产物。

Name		Name	Last commit message	Last commit date
Latest commit History 294 Commits
.idea		.idea
.vscode		.vscode
BASIC		BASIC
DRL-Pytorch		DRL-Pytorch
DRL		DRL
Hands-on-RL		Hands-on-RL
Mathematical-RL		Mathematical-RL
Ray分布式		Ray分布式
TRL		TRL
Transformers		Transformers
Use_python		Use_python
Use_pytorch		Use_pytorch
VERL		VERL
Wandb		Wandb
arxiv		arxiv
cleanrl		cleanrl
.DS_Store		.DS_Store
.gitignore		.gitignore
EWA.py		EWA.py
README.md		README.md
rl_ai.png		rl_ai.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

观察结果 ≠ 客观事实，而是「观察方式」的产物。

强化学习-原理

强化学习-代码实现

强化学习算法 github地址

强化学习框架

RLHF

强化学习论文

PPO

DeepSeek及clip

GRPO在机器领域的应用（TODO）

(显示/隐式)KL散度

熵（探索）

是否一定要控制熵

幻觉

奖励模型的设计

阿里：“目标”（序列级）和“手段”（token级）之间的不匹配

RL是否真能超越base model？

RL 能让模型学会全新的推理模式，实现 "能力扩展"

mid-training 中训练：领域指数的重要性

RL 与 SFT

RL训练(Scaling Laws)

Awesome-ML-SYS-Tutorial（RLHF System 开发笔记）

神经网络

分布式

《动手学大模型》系列编程实践教程

About

Uh oh!

Releases

Packages

Languages

ztaoing/DeepRL_Steps

Folders and files

Latest commit

History

Repository files navigation

观察结果 ≠ 客观事实，而是「观察方式」的产物。

强化学习-原理

强化学习-代码实现

强化学习算法 github地址

强化学习框架

RLHF

强化学习论文

PPO

DeepSeek及clip

GRPO在机器领域的应用（TODO）

(显示/隐式)KL散度

熵（探索）

是否一定要控制熵

幻觉

奖励模型的设计

阿里：“目标”（序列级）和“手段”（token级）之间的不匹配

RL是否真能超越base model？

RL 能让模型学会全新的推理模式，实现 "能力扩展"

mid-training 中训练：领域指数的重要性

RL 与 SFT

RL训练(Scaling Laws)

Awesome-ML-SYS-Tutorial（RLHF System 开发笔记）

神经网络

分布式

《动手学大模型》 系列编程实践教程

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

《动手学大模型》系列编程实践教程

Packages