Lukpiblo

2026

杭州的17年与24小时

计划有变，改为首都机场出发，杭州中转

从假设检验到哑变量回归

语音学实验会用到的一些统计学方法，以及一个「大一统」视角

2025

Distribution-preserving Sampling

强化学习 | 04 Direct Preference Optimization

DPO 通过数学推导证明，最优策略 π 与参考模型 π(ref) 之间的对数比，与奖励 r(x,y) 存在直接的解析关系

强化学习 | 03 RLHF

为了把人类反馈作为奖励，我们借鉴经济学的概念，建模人类偏好，在人类偏好数据集上，使用神经网络建模回报函数，最终形成了用于RLHF的PPO框架。

强化学习 | 02 Actor-Critic

强化学习 | 01 目标函数

Diffusion and DDPM

为了活下去的学习——学习动机困境与基础教育现代化

林小英《现代中国教育传统及其变迁》课程论文

2023

Charge into 2024

又是一年年关岁末。

链接已复制到剪贴板