upscale / todo.md

Upload todo.md with huggingface_hub

8fab504 verified 29 days ago

3.65 kB

	# 视频超分模型对比评分任务

	## 任务目标
	使用 Validator 的评分代码（VMAF + PIE-APP）对4个视频超分模型进行对比评分。

	## 文件路径说明（更新后）

	### 原始视频（Reference）
	- 路径: `/workspace/video/ori_video/`
	- 文件命名: `1_video.mp4` 到 `8_video.mp4`（共8个视频）

	### 超分模型输出视频（Distorted）

	\| 模型名称 \| 文件夹路径 \| 输出文件名格式 \|
	\|---------\|-----------\|--------------\|
	\| Anime4K \| `/workspace/video/output_anime4k/` \| `{i}_video_anime4k.mp4` \|
	\| RealESRGAN \| `/workspace/video/output_realesrgan/` \| `{i}_video_x2plus.mp4` \|
	\| StreamVSR \| `/workspace/video/streamvsr_output_4k/` \| `{i}_video_4K.mp4` \|
	\| FlashVSR \| `/workspace/video/video_flashvsr/` \| `{i}_video_flashvsr.mp4` \|

	## 评分指标说明

	### 1. VMAF (Video Multi-Method Assessment Fusion)
	- 说明: Netflix开发的感知视频质量评估算法，获奖算法
	- 范围: 0-100，越高越好
	- 计算方式: 将参考视频上采样到与超分视频相同的分辨率（4K），然后计算 VMAF 分数

	### 2. PIE-APP (Perceptual Image-Error Assessment through Pairwise Preferences)
	- 说明: 基于成对偏好的感知图像误差评估
	- 范围: 0-2，越低越好（实际使用sigmoid转换后的分数）
	- 计算方式: 为降低计算开销，将4K帧下采样到1080p后计算

	### 3. Final Score
	- 说明: 基于 PIE-APP 分数通过 sigmoid 变换计算得出的最终得分
	- 范围: 0-1，越高越好

	## 当前状态

	### 已完成
	- [x] VMAF 工具安装 (`vmaf` 命令行工具)
	- [x] PIE-APP 模型加载配置
	- [x] 评分脚本开发 (`/workspace/compare_upscale_models_fast.py`)

	### 待完成
	- [ ] 运行评分脚本完成所有8个视频 × 4个模型 = 32个评分类对
	- [ ] 生成 `/workspace/new_scored.md` 评分报告

	## 遇到的问题及解决方案

	### 问题1: 分辨率不匹配
	- 现象: VMAF 和 PIE-APP 要求参考视频和超分视频分辨率相同
	- 解决: VMAF计算时将参考视频上采样到4K；PIE-APP计算时统一下采样到1080p

	### 问题2: PIE-APP GPU OOM
	- 现象: 4K分辨率导致CUDA显存不足（需要10GB+显存）
	- 解决: 使用CPU计算PIE-APP，并将帧下采样到1080p以加速

	### 问题3: CPU计算过慢
	- 现象: 4K帧在CPU上处理每个视频需要10+分钟
	- 解决: 下采样到1080p后，预计每个视频处理时间降至1-2分钟

	## 运行脚本

	```bash
	cd /workspace
	python3 compare_upscale_models_fast.py
	```

	## 预期输出

	评分报告将保存在 `/workspace/new_scored.md`，包含：
	1. Summary Table: 各模型的平均 VMAF、PIE-APP、Final Score 排名
	2. Detailed Results: 每个视频各模型的详细得分
	3. Model Analysis: 各模型的性能分析
	4. Raw Data: JSON格式的原始数据

	## 文件清单

	```
	/workspace/
	├── video/ # 视频文件根目录
	│ ├── ori_video/ # 原始视频 1-8
	│ ├── output_anime4k/ # Anime4K 超分结果
	│ ├── output_realesrgan/ # RealESRGAN 超分结果
	│ ├── streamvsr_output_4k/ # StreamVSR 超分结果
	│ └── video_flashvsr/ # FlashVSR 超分结果
	├── compare_upscale_models_fast.py # 评分脚本（优化版）
	└── new_scored.md # 评分报告（待生成）
	```

	## 注意事项

	1. PIE-APP 模型首次运行时会自动从 HuggingFace 下载 (~100MB)
	2. 评分过程可能需要 30-60 分钟（取决于CPU性能）
	3. 随机种子已固定为42，确保结果可复现