Spaces:

lil58
/

interview

Running

interview / docs /hyperparameter_study.md

Lee93whut

docs: clean up R3/R4 record and consolidate technical narrative

92423f0 1 day ago

3.25 kB

超参决策参考表

各轮核心超参变更、论文依据与效果的快速索引。
完整逐轮诊断数据见 docs/experiment_log.md。

超参	R1	R2	R3	R4	论文依据
`num_episodes`	2000	6000	6000	5000	Mnih et al. (2015)：Atari 数万 ep 才收敛；R3 均值 ep=3000 后饱和，继续加 ep 收益边际为零
`epsilon_decay`	0.995	0.9985	0.9985	0.9985	van Hasselt et al. (2016)：ε 应在训练期 10–25% 内衰减完；R1 ep≈800 触底，后 1200 ep 样本单一
`buffer_capacity`	20000	20000	80000	80000	Lin (1992)：ER 核心价值是保留稀有样本；Mnih et al. (2015) 原版 1M；20k≈250 局，成功样本快速消失
`target_update_freq`	500	500	1500	1500	Mnih et al. (2015) 原版 10000 步；固定目标 $\theta^-$ 保证 TD 收敛性，过频同步等价于"移动靶"监督学习
`revisit_penalty`	0	0	0	~~-1.0~~ → 弃用	Round 4 实验后因违反马尔可夫性放弃，改用 visited_map 第四通道编码访问历史
checkpoint 保存策略	训练奖励触发	训练奖励触发	训练奖励触发	EVAL 最优触发	R3 实测：训练奖励与 EVAL 成功率时序不对齐，导致 Holdout 74% vs EVAL 峰值 84%，差 10pp

轮次	核心变更	Holdout 成功率	EVAL 峰值	主要发现
R1	基线（随机起终点初版）	61.0%	—	诊断 P1（训练量）+ P2（探索）+ P3（buffer）+ P4（target）
R2	`ep=6000` + `decay=0.9985`	64.0%	74.0%	P1/P2 消除；振荡周期 400–500 ep（P3 定量确认）
R3	`buffer=80k` + `target=1500`	74.0%	84.0%	峰值突破 80%；Holdout 低于峰值 10pp（P6：保存策略错位）
R4	EVAL-based checkpoint + visited_map 第四通道（revisit_penalty 因违反马尔可夫性弃用）	84.0%（dueling）	88.0%（dueling，ep=4900）	四算法横向消融最优；double(A3) Holdout 78%，见 experiment_log.md Round 4

Henderson et al. (2018) 实证结论：RL 超参敏感度远高于监督学习，需单变量消融，避免多参数同时变动导致无法归因。

R2：仅修复 P1+P2，验证收敛形状
R3：同时修复 P3+P4，验证振荡是否消除
R4：修复保存策略（P6）+ visited_map 第四通道（revisit_penalty 已弃用），A3（double）Holdout 78.0% / Dueling 横评 84.0%

Mnih et al. (2015). Human-level control through deep reinforcement learning. Nature.
van Hasselt, Guez & Silver (2016). Deep Reinforcement Learning with Double Q-learning. AAAI.
Wang et al. (2016). Dueling Network Architectures for Deep Reinforcement Learning. ICML.
Ng et al. (1999). Policy invariance under reward transformations. ICML.
Lin (1992). Self-improving reactive agents based on reinforcement learning. Machine Learning.
Anderson et al. (2018). On Evaluation of Embodied Navigation Agents. arXiv:1807.06757.
Henderson et al. (2018). Deep Reinforcement Learning that Matters. AAAI.