# 超参决策参考表 > 各轮核心超参变更、论文依据与效果的快速索引。 > 完整逐轮诊断数据见 `docs/experiment_log.md`。 --- ## 超参调整历程 | 超参 | R1 | R2 | R3 | R4 | 论文依据 | |------|:--:|:--:|:--:|:--:|---------| | `num_episodes` | 2000 | **6000** | 6000 | **5000** | Mnih et al. (2015):Atari 数万 ep 才收敛;R3 均值 ep=3000 后饱和,继续加 ep 收益边际为零 | | `epsilon_decay` | 0.995 | **0.9985** | 0.9985 | 0.9985 | van Hasselt et al. (2016):ε 应在训练期 10–25% 内衰减完;R1 ep≈800 触底,后 1200 ep 样本单一 | | `buffer_capacity` | 20000 | 20000 | **80000** | 80000 | Lin (1992):ER 核心价值是保留稀有样本;Mnih et al. (2015) 原版 1M;20k≈250 局,成功样本快速消失 | | `target_update_freq` | 500 | 500 | **1500** | 1500 | Mnih et al. (2015) 原版 10000 步;固定目标 $\theta^-$ 保证 TD 收敛性,过频同步等价于"移动靶"监督学习 | | `revisit_penalty` | 0 | 0 | 0 | ~~-1.0~~ → **弃用** | Round 4 实验后因违反马尔可夫性放弃,改用 visited_map 第四通道编码访问历史 | | checkpoint 保存策略 | 训练奖励触发 | 训练奖励触发 | 训练奖励触发 | **EVAL 最优触发** | R3 实测:训练奖励与 EVAL 成功率时序不对齐,导致 Holdout 74% vs EVAL 峰值 84%,差 10pp | --- ## 各轮效果汇总 | 轮次 | 核心变更 | Holdout 成功率 | EVAL 峰值 | 主要发现 | |------|---------|:--------------:|:---------:|---------| | R1 | 基线(随机起终点初版) | 61.0% | — | 诊断 P1(训练量)+ P2(探索)+ P3(buffer)+ P4(target)| | R2 | `ep=6000` + `decay=0.9985` | 64.0% | 74.0% | P1/P2 消除;振荡周期 400–500 ep(P3 定量确认)| | R3 | `buffer=80k` + `target=1500` | **74.0%** | **84.0%** | 峰值突破 80%;Holdout 低于峰值 10pp(P6:保存策略错位)| | R4 | EVAL-based checkpoint + visited_map 第四通道(revisit_penalty 因违反马尔可夫性弃用) | **84.0%**(dueling) | **88.0%**(dueling,ep=4900) | 四算法横向消融最优;double(A3) Holdout 78%,见 experiment_log.md Round 4 | --- ## 迭代原则 Henderson et al. (2018) 实证结论:**RL 超参敏感度远高于监督学习,需单变量消融**,避免多参数同时变动导致无法归因。 - R2:仅修复 P1+P2,验证收敛形状 - R3:同时修复 P3+P4,验证振荡是否消除 - R4:修复保存策略(P6)+ visited_map 第四通道(revisit_penalty 已弃用),A3(double)Holdout 78.0% / Dueling 横评 84.0% --- ## 参考文献 1. Mnih et al. (2015). *Human-level control through deep reinforcement learning*. Nature. 2. van Hasselt, Guez & Silver (2016). *Deep Reinforcement Learning with Double Q-learning*. AAAI. 3. Wang et al. (2016). *Dueling Network Architectures for Deep Reinforcement Learning*. ICML. 4. Ng et al. (1999). *Policy invariance under reward transformations*. ICML. 5. Lin (1992). *Self-improving reactive agents based on reinforcement learning*. Machine Learning. 6. Anderson et al. (2018). *On Evaluation of Embodied Navigation Agents*. arXiv:1807.06757. 7. Henderson et al. (2018). *Deep Reinforcement Learning that Matters*. AAAI.