最近文章

2026年5月30日 实验 / 持续学习

BabyAI Text 的RL&OPD总结

探索如何在陌生但简单的任务上进行高效训练,并且不损失原模型的基础能力

2026年5月2日 推理优化

KV Cache

KV Cache的一些笔记

2025年4月24日

KL散度的估计方法

现在各个训练框架中的KL散度计算都参考了John Schulman的博客。

2023年3月10日 rl

PPO

PPO训练LLM的一些理解

2017年4月23日 强化学习

AlphaGO详解

从策略网络、价值网络到 MCTS,这篇长文按训练流程和搜索流程拆开讲 AlphaGO 的核心思路。

2016年1月21日 游戏算法

蜂窝网格最短距离问题

大概半年前在写蜂窝网格的A*寻路算法时,遇到了如何选择启发式的问题。传统的曼哈顿距离虽然可以正常运行找到正确的最短路径,但是在蜂窝网格地图中,两点间的最短路径不止一条,曼哈顿距离会使路径的选择总是偏向某一方向。根本原因是启发式中的曼哈顿距离并不是两点间真正的最短距离。