BabyAI Text 的RL&OPD总结
探索如何在陌生但简单的任务上进行高效训练,并且不损失原模型的基础能力
探索如何在陌生但简单的任务上进行高效训练,并且不损失原模型的基础能力
KV Cache的一些笔记
现在各个训练框架中的KL散度计算都参考了John Schulman的博客。
PPO训练LLM的一些理解
从策略网络、价值网络到 MCTS,这篇长文按训练流程和搜索流程拆开讲 AlphaGO 的核心思路。
大概半年前在写蜂窝网格的A*寻路算法时,遇到了如何选择启发式的问题。传统的曼哈顿距离虽然可以正常运行找到正确的最短路径,但是在蜂窝网格地图中,两点间的最短路径不止一条,曼哈顿距离会使路径的选择总是偏向某一方向。根本原因是启发式中的曼哈顿距离并不是两点间真正的最短距离。