Harry's Blog

最近文章

2026年7月23日综述

从完成任务到学会学习：meta learning 视角下的持续学习

讨论 LLM Agent 如何把长期经验转化为未来能力，并进一步改进自身的学习机制。

2026年5月30日实验 / 持续学习

BabyAI Text 的RL&OPD总结

探索如何在陌生但简单的任务上进行高效训练，并且不损失原模型的基础能力

2026年5月2日推理优化

KV Cache

KV Cache的一些笔记

2025年4月24日

KL散度的估计方法

现在各个训练框架中的KL散度计算都参考了John Schulman的博客。

2023年3月10日 rl

PPO

PPO训练LLM的一些理解

2017年4月23日强化学习

AlphaGO详解

从策略网络、价值网络到 MCTS，这篇长文按训练流程和搜索流程拆开讲 AlphaGO 的核心思路。