File size: 3,245 Bytes
bf17b0c b14b412 bf17b0c 92423f0 acbd4c5 bf17b0c 92423f0 bf17b0c | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 | # 超参决策参考表
> 各轮核心超参变更、论文依据与效果的快速索引。
> 完整逐轮诊断数据见 `docs/experiment_log.md`。
---
## 超参调整历程
| 超参 | R1 | R2 | R3 | R4 | 论文依据 |
|------|:--:|:--:|:--:|:--:|---------|
| `num_episodes` | 2000 | **6000** | 6000 | **5000** | Mnih et al. (2015):Atari 数万 ep 才收敛;R3 均值 ep=3000 后饱和,继续加 ep 收益边际为零 |
| `epsilon_decay` | 0.995 | **0.9985** | 0.9985 | 0.9985 | van Hasselt et al. (2016):ε 应在训练期 10–25% 内衰减完;R1 ep≈800 触底,后 1200 ep 样本单一 |
| `buffer_capacity` | 20000 | 20000 | **80000** | 80000 | Lin (1992):ER 核心价值是保留稀有样本;Mnih et al. (2015) 原版 1M;20k≈250 局,成功样本快速消失 |
| `target_update_freq` | 500 | 500 | **1500** | 1500 | Mnih et al. (2015) 原版 10000 步;固定目标 $\theta^-$ 保证 TD 收敛性,过频同步等价于"移动靶"监督学习 |
| `revisit_penalty` | 0 | 0 | 0 | ~~-1.0~~ → **弃用** | Round 4 实验后因违反马尔可夫性放弃,改用 visited_map 第四通道编码访问历史 |
| checkpoint 保存策略 | 训练奖励触发 | 训练奖励触发 | 训练奖励触发 | **EVAL 最优触发** | R3 实测:训练奖励与 EVAL 成功率时序不对齐,导致 Holdout 74% vs EVAL 峰值 84%,差 10pp |
---
## 各轮效果汇总
| 轮次 | 核心变更 | Holdout 成功率 | EVAL 峰值 | 主要发现 |
|------|---------|:--------------:|:---------:|---------|
| R1 | 基线(随机起终点初版) | 61.0% | — | 诊断 P1(训练量)+ P2(探索)+ P3(buffer)+ P4(target)|
| R2 | `ep=6000` + `decay=0.9985` | 64.0% | 74.0% | P1/P2 消除;振荡周期 400–500 ep(P3 定量确认)|
| R3 | `buffer=80k` + `target=1500` | **74.0%** | **84.0%** | 峰值突破 80%;Holdout 低于峰值 10pp(P6:保存策略错位)|
| R4 | EVAL-based checkpoint + visited_map 第四通道(revisit_penalty 因违反马尔可夫性弃用) | **84.0%**(dueling) | **88.0%**(dueling,ep=4900) | 四算法横向消融最优;double(A3) Holdout 78%,见 experiment_log.md Round 4 |
---
## 迭代原则
Henderson et al. (2018) 实证结论:**RL 超参敏感度远高于监督学习,需单变量消融**,避免多参数同时变动导致无法归因。
- R2:仅修复 P1+P2,验证收敛形状
- R3:同时修复 P3+P4,验证振荡是否消除
- R4:修复保存策略(P6)+ visited_map 第四通道(revisit_penalty 已弃用),A3(double)Holdout 78.0% / Dueling 横评 84.0%
---
## 参考文献
1. Mnih et al. (2015). *Human-level control through deep reinforcement learning*. Nature.
2. van Hasselt, Guez & Silver (2016). *Deep Reinforcement Learning with Double Q-learning*. AAAI.
3. Wang et al. (2016). *Dueling Network Architectures for Deep Reinforcement Learning*. ICML.
4. Ng et al. (1999). *Policy invariance under reward transformations*. ICML.
5. Lin (1992). *Self-improving reactive agents based on reinforcement learning*. Machine Learning.
6. Anderson et al. (2018). *On Evaluation of Embodied Navigation Agents*. arXiv:1807.06757.
7. Henderson et al. (2018). *Deep Reinforcement Learning that Matters*. AAAI.
|