Lukpiblo

03/10

关于我

01/25

杭州的17年与24小时

计划有变，改为首都机场出发，杭州中转

01/15

从假设检验到哑变量回归

语音学实验会用到的一些统计学方法，以及一个「大一统」视角

2025 12/19

Distribution-preserving Sampling

2025 12/11

强化学习 | 04 Direct Preference Optimization

DPO 通过数学推导证明，最优策略 π 与参考模型 π(ref) 之间的对数比，与奖励 r(x,y) 存在直接的解析关系

2025 12/10

强化学习 | 03 RLHF

为了把人类反馈作为奖励，我们借鉴经济学的概念，建模人类偏好，在人类偏好数据集上，使用神经网络建模回报函数，最终形成了用于RLHF的PPO框架。

2025 12/09

强化学习 | 02 Actor-Critic

2025 12/08

强化学习 | 01 目标函数

2025 11/13

Diffusion and DDPM

2025 06/24

为了活下去的学习——学习动机困境与基础教育现代化

林小英《现代中国教育传统及其变迁》课程论文

2023 12/31

Charge into 2024

又是一年年关岁末。