Upload Report_StreamDiffVSR_4k.md with huggingface_hub
4464278 verified
Stream-DiffVSR 4K 视频超分辨率实验报告
一、实验概述
| 项目 |
内容 |
| 实验日期 |
2026-03-17 |
| 实验模型 |
Stream-DiffVSR (Jamichsu/Stream-DiffVSR) |
| 输入分辨率 |
960×540 (540p) |
| 目标分辨率 |
3840×2160 (4K UHD) |
| 放大倍数 |
4×4 = 16倍像素 |
| 推理步数 |
4步 (快速模式) |
二、实验环境
硬件配置
| 组件 |
规格 |
| GPU |
NVIDIA RTX A6000 |
| 显存 |
48 GB |
| CUDA版本 |
12.4 |
软件环境
| 组件 |
版本 |
| PyTorch |
2.5.1+cu124 |
| Diffusers |
0.32.2 |
| Transformers |
4.50.3 |
| MMCV |
2.2.0 |
| Python |
3.11 |
三、输入视频参数
| 参数 |
数值 |
| 文件路径 |
/workspace/new_video_test/7a_downscaled_540p.mp4 |
| 分辨率 |
960 × 540 |
| 像素数 |
518,400 像素/帧 (0.52 MP) |
| 帧率 |
30 fps |
| 总帧数 |
299 帧 |
| 时长 |
9.97 秒 |
| 文件大小 |
3.51 MB |
四、输出视频参数
| 参数 |
数值 |
| 文件路径 |
/workspace/new_video_test/output_video/7a_upscaled_4K.mp4 |
| 分辨率 |
3840 × 2160 ✓ |
| 像素数 |
8,294,400 像素/帧 (8.29 MP) |
| 帧率 |
30 fps |
| 总帧数 |
299 帧 ✓ |
| 时长 |
9.97 秒 |
| 文件大小 |
65.51 MB |
五、验证结果
5.1 分辨率验证 ✓
- 期望输出: 3840×2160 (标准4K UHD)
- 实际输出: 3840×2160
- 结论: ✓ 完美匹配,无偏差
5.2 帧数验证 ✓
- 输入帧数: 299 帧
- 输出帧数: 299 帧
- 结论: ✓ 帧数完全一致,无丢帧、无重复
5.3 放大倍数验证 ✓
- 宽度放大: 960 → 3840 = 4.0×
- 高度放大: 540 → 2160 = 4.0×
- 面积放大: 0.52 MP → 8.29 MP = 16×
六、关键技术参数
6.1 显存优化策略
由于 4K 光流计算需要 62GB+ 显存,本实验采用以下优化:
| 优化项 |
设置 |
效果 |
| of_rescale_factor |
4 |
光流计算在 1/4 分辨率下进行 |
| Batch Size |
32帧 |
分批处理,降低峰值显存 |
| xformers |
启用 |
内存高效注意力机制 |
6.2 处理流程
视频输入 (960×540)
↓
帧提取 (299帧 PNG)
↓
分批超分辨率推理 (每批32帧)
- 光流计算: 240×135 (1/4 分辨率)
- 扩散推理: 3840×2160 (完整4K)
↓
帧合成 (299帧 4K PNG)
↓
视频输出 (3840×2160 30fps MP4)
七、质量评估
7.1 视觉对比
选取第 5 秒帧进行对比:
| 版本 |
分辨率 |
文件大小 |
细节表现 |
| 输入 (540p) |
960×540 |
470 KB |
模糊,锯齿明显 |
| 输出 (4K) |
3840×2160 |
4,787 KB |
清晰,边缘锐利,细节丰富 |
7.2 画质改善点
- 边缘锐化: 金属结构边缘从模糊变为清晰
- 纹理重建: 衣物纹理、火花颗粒感明显提升
- 降噪效果: 压缩伪影得到有效抑制
- 时序一致性: 视频播放流畅,无闪烁
八、性能统计
| 指标 |
数值 |
| 处理时间 |
~25分钟 (含模型加载) |
| 平均每帧处理时间 |
~5秒 |
| GPU利用率 |
峰值 90%+ |
| 显存峰值 |
~40GB |
九、结论
9.1 主要成果 ✓
- 成功将 540p 视频超分辨率至 4K UHD
- 帧数保持 299 帧,无丢帧
- 在 48GB 显存限制下完成 4K 推理
9.2 技术优势
- 基于扩散模型的生成式超分辨率
- 时序一致性保持(光流引导)
- 仅需 4 步推理即可达到较好效果
9.3 适用场景
- 老视频修复与增强
- 低分辨率素材升频至 4K 播放
- 影视后期制作辅助
十、文件清单
/workspace/new_video_test/
├── 7a_downscaled_540p.mp4 # 输入视频 (3.5MB)
├── frames_input/ # 提取的 540p 帧
├── frames_output/ # 生成的 4K 帧
├── output_video/
│ └── 7a_upscaled_4K.mp4 # 输出视频 (65.5MB) ⭐
└── comparison_frames/ # 对比截图
├── frame_1s_input_540p.png
├── frame_1s_output_4K.png
├── frame_3s_input_540p.png
├── frame_3s_output_4K.png
├── frame_5s_input_540p.png
├── frame_5s_output_4K.png
├── frame_7s_input_540p.png
└── frame_7s_output_4K.png
报告生成时间: 2026-03-17
实验负责人: AI Assistant (Claude)