2025
Distribution-preserving Sampling
强化学习 | 04 Direct Preference Optimization
DPO 通过数学推导证明,最优策略 π 与参考模型 π(ref) 之间的对数比,与奖励 r(x,y) 存在直接的解析关系
强化学习 | 03 RLHF
为了把人类反馈作为奖励,我们借鉴经济学的概念,建模人类偏好,在人类偏好数据集上,使用神经网络建模回报函数,最终形成了用于RLHF的PPO框架。
强化学习 | 02 Actor-Critic
强化学习 | 01 目标函数
Diffusion and DDPM
为了活下去的学习——学习动机困境与基础教育现代化
林小英《现代中国教育传统及其变迁》课程论文