sn85 / Report_StreamDiffVSR_4k.md
Sumail's picture
Upload Report_StreamDiffVSR_4k.md with huggingface_hub
4464278 verified

Stream-DiffVSR 4K 视频超分辨率实验报告

一、实验概述

项目 内容
实验日期 2026-03-17
实验模型 Stream-DiffVSR (Jamichsu/Stream-DiffVSR)
输入分辨率 960×540 (540p)
目标分辨率 3840×2160 (4K UHD)
放大倍数 4×4 = 16倍像素
推理步数 4步 (快速模式)

二、实验环境

硬件配置

组件 规格
GPU NVIDIA RTX A6000
显存 48 GB
CUDA版本 12.4

软件环境

组件 版本
PyTorch 2.5.1+cu124
Diffusers 0.32.2
Transformers 4.50.3
MMCV 2.2.0
Python 3.11

三、输入视频参数

参数 数值
文件路径 /workspace/new_video_test/7a_downscaled_540p.mp4
分辨率 960 × 540
像素数 518,400 像素/帧 (0.52 MP)
帧率 30 fps
总帧数 299 帧
时长 9.97 秒
文件大小 3.51 MB

四、输出视频参数

参数 数值
文件路径 /workspace/new_video_test/output_video/7a_upscaled_4K.mp4
分辨率 3840 × 2160
像素数 8,294,400 像素/帧 (8.29 MP)
帧率 30 fps
总帧数 299 帧
时长 9.97 秒
文件大小 65.51 MB

五、验证结果

5.1 分辨率验证 ✓

  • 期望输出: 3840×2160 (标准4K UHD)
  • 实际输出: 3840×2160
  • 结论: ✓ 完美匹配,无偏差

5.2 帧数验证 ✓

  • 输入帧数: 299 帧
  • 输出帧数: 299 帧
  • 结论: ✓ 帧数完全一致,无丢帧、无重复

5.3 放大倍数验证 ✓

  • 宽度放大: 960 → 3840 = 4.0×
  • 高度放大: 540 → 2160 = 4.0×
  • 面积放大: 0.52 MP → 8.29 MP = 16×

六、关键技术参数

6.1 显存优化策略

由于 4K 光流计算需要 62GB+ 显存,本实验采用以下优化:

优化项 设置 效果
of_rescale_factor 4 光流计算在 1/4 分辨率下进行
Batch Size 32帧 分批处理,降低峰值显存
xformers 启用 内存高效注意力机制

6.2 处理流程

视频输入 (960×540)
    ↓
帧提取 (299帧 PNG)
    ↓
分批超分辨率推理 (每批32帧)
    - 光流计算: 240×135 (1/4 分辨率)
    - 扩散推理: 3840×2160 (完整4K)
    ↓
帧合成 (299帧 4K PNG)
    ↓
视频输出 (3840×2160 30fps MP4)

七、质量评估

7.1 视觉对比

选取第 5 秒帧进行对比:

版本 分辨率 文件大小 细节表现
输入 (540p) 960×540 470 KB 模糊,锯齿明显
输出 (4K) 3840×2160 4,787 KB 清晰,边缘锐利,细节丰富

7.2 画质改善点

  1. 边缘锐化: 金属结构边缘从模糊变为清晰
  2. 纹理重建: 衣物纹理、火花颗粒感明显提升
  3. 降噪效果: 压缩伪影得到有效抑制
  4. 时序一致性: 视频播放流畅,无闪烁

八、性能统计

指标 数值
处理时间 ~25分钟 (含模型加载)
平均每帧处理时间 ~5秒
GPU利用率 峰值 90%+
显存峰值 ~40GB

九、结论

9.1 主要成果 ✓

  1. 成功将 540p 视频超分辨率至 4K UHD
  2. 帧数保持 299 帧,无丢帧
  3. 在 48GB 显存限制下完成 4K 推理

9.2 技术优势

  • 基于扩散模型的生成式超分辨率
  • 时序一致性保持(光流引导)
  • 仅需 4 步推理即可达到较好效果

9.3 适用场景

  • 老视频修复与增强
  • 低分辨率素材升频至 4K 播放
  • 影视后期制作辅助

十、文件清单

/workspace/new_video_test/
├── 7a_downscaled_540p.mp4          # 输入视频 (3.5MB)
├── frames_input/                    # 提取的 540p 帧
├── frames_output/                   # 生成的 4K 帧
├── output_video/
│   └── 7a_upscaled_4K.mp4          # 输出视频 (65.5MB) ⭐
└── comparison_frames/               # 对比截图
    ├── frame_1s_input_540p.png
    ├── frame_1s_output_4K.png
    ├── frame_3s_input_540p.png
    ├── frame_3s_output_4K.png
    ├── frame_5s_input_540p.png
    ├── frame_5s_output_4K.png
    ├── frame_7s_input_540p.png
    └── frame_7s_output_4K.png

报告生成时间: 2026-03-17 实验负责人: AI Assistant (Claude)