Lukpiblo
博客
关于我
杭州的17年与24小时
计划有变,改为首都机场出发,杭州中转
从假设检验到哑变量回归
语音学实验会用到的一些统计学方法,以及一个「大一统」视角
2025
Distribution-preserving Sampling
2025
强化学习 | 04 Direct Preference Optimization
DPO 通过数学推导证明,最优策略 π 与参考模型 π(ref) 之间的对数比,与奖励 r(x,y) 存在直接的解析关系
2025
强化学习 | 03 RLHF
为了把人类反馈作为奖励,我们借鉴经济学的概念,建模人类偏好,在人类偏好数据集上,使用神经网络建模回报函数,最终形成了用于RLHF的PPO框架。
2025
强化学习 | 02 Actor-Critic
2025
强化学习 | 01 目标函数
2025
Diffusion and DDPM
2025
为了活下去的学习——学习动机困境与基础教育现代化
林小英《现代中国教育传统及其变迁》课程论文
2023
Charge into 2024
又是一年年关岁末。