sn85 / Report_StreamDiffVSR_4k.md

Upload Report_StreamDiffVSR_4k.md with huggingface_hub

4464278 verified about 2 months ago

4.53 kB

	# Stream-DiffVSR 4K 视频超分辨率实验报告

	## 一、实验概述

	\| 项目 \| 内容 \|
	\|------\|------\|
	\| 实验日期 \| 2026-03-17 \|
	\| 实验模型 \| Stream-DiffVSR (Jamichsu/Stream-DiffVSR) \|
	\| 输入分辨率 \| 960×540 (540p) \|
	\| 目标分辨率 \| 3840×2160 (4K UHD) \|
	\| 放大倍数 \| 4×4 = 16倍像素 \|
	\| 推理步数 \| 4步 (快速模式) \|

	---

	## 二、实验环境

	### 硬件配置
	\| 组件 \| 规格 \|
	\|------\|------\|
	\| GPU \| NVIDIA RTX A6000 \|
	\| 显存 \| 48 GB \|
	\| CUDA版本 \| 12.4 \|

	### 软件环境
	\| 组件 \| 版本 \|
	\|------\|------\|
	\| PyTorch \| 2.5.1+cu124 \|
	\| Diffusers \| 0.32.2 \|
	\| Transformers \| 4.50.3 \|
	\| MMCV \| 2.2.0 \|
	\| Python \| 3.11 \|

	---

	## 三、输入视频参数

	\| 参数 \| 数值 \|
	\|------\|------\|
	\| 文件路径 \| `/workspace/new_video_test/7a_downscaled_540p.mp4` \|
	\| 分辨率 \| 960 × 540 \|
	\| 像素数 \| 518,400 像素/帧 (0.52 MP) \|
	\| 帧率 \| 30 fps \|
	\| 总帧数 \| 299 帧 \|
	\| 时长 \| 9.97 秒 \|
	\| 文件大小 \| 3.51 MB \|

	---

	## 四、输出视频参数

	\| 参数 \| 数值 \|
	\|------\|------\|
	\| 文件路径 \| `/workspace/new_video_test/output_video/7a_upscaled_4K.mp4` \|
	\| 分辨率 \| 3840 × 2160 ✓ \|
	\| 像素数 \| 8,294,400 像素/帧 (8.29 MP) \|
	\| 帧率 \| 30 fps \|
	\| 总帧数 \| 299 帧 ✓ \|
	\| 时长 \| 9.97 秒 \|
	\| 文件大小 \| 65.51 MB \|

	---

	## 五、验证结果

	### 5.1 分辨率验证 ✓
	- 期望输出: 3840×2160 (标准4K UHD)
	- 实际输出: 3840×2160
	- 结论: ✓ 完美匹配，无偏差

	### 5.2 帧数验证 ✓
	- 输入帧数: 299 帧
	- 输出帧数: 299 帧
	- 结论: ✓ 帧数完全一致，无丢帧、无重复

	### 5.3 放大倍数验证 ✓
	- 宽度放大: 960 → 3840 = 4.0×
	- 高度放大: 540 → 2160 = 4.0×
	- 面积放大: 0.52 MP → 8.29 MP = 16×

	---

	## 六、关键技术参数

	### 6.1 显存优化策略
	由于 4K 光流计算需要 62GB+ 显存，本实验采用以下优化：

	\| 优化项 \| 设置 \| 效果 \|
	\|--------\|------\|------\|
	\| of_rescale_factor \| 4 \| 光流计算在 1/4 分辨率下进行 \|
	\| Batch Size \| 32帧 \| 分批处理，降低峰值显存 \|
	\| xformers \| 启用 \| 内存高效注意力机制 \|

	### 6.2 处理流程
	```
	视频输入 (960×540)
	↓
	帧提取 (299帧 PNG)
	↓
	分批超分辨率推理 (每批32帧)
	- 光流计算: 240×135 (1/4 分辨率)
	- 扩散推理: 3840×2160 (完整4K)
	↓
	帧合成 (299帧 4K PNG)
	↓
	视频输出 (3840×2160 30fps MP4)
	```

	---

	## 七、质量评估

	### 7.1 视觉对比
	选取第 5 秒帧进行对比：

	\| 版本 \| 分辨率 \| 文件大小 \| 细节表现 \|
	\|------\|--------\|----------\|----------\|
	\| 输入 (540p) \| 960×540 \| 470 KB \| 模糊，锯齿明显 \|
	\| 输出 (4K) \| 3840×2160 \| 4,787 KB \| 清晰，边缘锐利，细节丰富 \|

	### 7.2 画质改善点
	1. 边缘锐化: 金属结构边缘从模糊变为清晰
	2. 纹理重建: 衣物纹理、火花颗粒感明显提升
	3. 降噪效果: 压缩伪影得到有效抑制
	4. 时序一致性: 视频播放流畅，无闪烁

	---

	## 八、性能统计

	\| 指标 \| 数值 \|
	\|------\|------\|
	\| 处理时间 \| ~25分钟 (含模型加载) \|
	\| 平均每帧处理时间 \| ~5秒 \|
	\| GPU利用率 \| 峰值 90%+ \|
	\| 显存峰值 \| ~40GB \|

	---

	## 九、结论

	### 9.1 主要成果 ✓
	1. 成功将 540p 视频超分辨率至 4K UHD
	2. 帧数保持 299 帧，无丢帧
	3. 在 48GB 显存限制下完成 4K 推理

	### 9.2 技术优势
	- 基于扩散模型的生成式超分辨率
	- 时序一致性保持（光流引导）
	- 仅需 4 步推理即可达到较好效果

	### 9.3 适用场景
	- 老视频修复与增强
	- 低分辨率素材升频至 4K 播放
	- 影视后期制作辅助

	---

	## 十、文件清单

	```
	/workspace/new_video_test/
	├── 7a_downscaled_540p.mp4 # 输入视频 (3.5MB)
	├── frames_input/ # 提取的 540p 帧
	├── frames_output/ # 生成的 4K 帧
	├── output_video/
	│ └── 7a_upscaled_4K.mp4 # 输出视频 (65.5MB) ⭐
	└── comparison_frames/ # 对比截图
	├── frame_1s_input_540p.png
	├── frame_1s_output_4K.png
	├── frame_3s_input_540p.png
	├── frame_3s_output_4K.png
	├── frame_5s_input_540p.png
	├── frame_5s_output_4K.png
	├── frame_7s_input_540p.png
	└── frame_7s_output_4K.png
	```

	---

	报告生成时间: 2026-03-17
	实验负责人: AI Assistant (Claude)