Spaces:

jbilcke-hf
/

VideoModelStudio

Paused

VideoModelStudio / docs /finetrainers-src-codebase /finetrainers /utils /diffusion.py

Julian Bilcke

we are going to hack into finetrainers

9fd1204 10 months ago

6.17 kB

	import math
	from typing import Optional, Union

	import torch
	from diffusers import CogVideoXDDIMScheduler, FlowMatchEulerDiscreteScheduler
	from diffusers.training_utils import compute_loss_weighting_for_sd3


	# Default values copied from https://github.com/huggingface/diffusers/blob/8957324363d8b239d82db4909fbf8c0875683e3d/src/diffusers/schedulers/scheduling_flow_match_euler_discrete.py#L47
	def resolution_dependent_timestep_flow_shift(
	latents: torch.Tensor,
	sigmas: torch.Tensor,
	base_image_seq_len: int = 256,
	max_image_seq_len: int = 4096,
	base_shift: float = 0.5,
	max_shift: float = 1.15,
	) -> torch.Tensor:
	image_or_video_sequence_length = 0
	if latents.ndim == 4:
	image_or_video_sequence_length = latents.shape[2] * latents.shape[3]
	elif latents.ndim == 5:
	image_or_video_sequence_length = latents.shape[2] * latents.shape[3] * latents.shape[4]
	else:
	raise ValueError(f"Expected 4D or 5D tensor, got {latents.ndim}D tensor")

	m = (max_shift - base_shift) / (max_image_seq_len - base_image_seq_len)
	b = base_shift - m * base_image_seq_len
	mu = m * image_or_video_sequence_length + b
	sigmas = default_flow_shift(latents, sigmas, shift=mu)
	return sigmas


	def default_flow_shift(sigmas: torch.Tensor, shift: float = 1.0) -> torch.Tensor:
	sigmas = (sigmas * shift) / (1 + (shift - 1) * sigmas)
	return sigmas


	def compute_density_for_timestep_sampling(
	weighting_scheme: str,
	batch_size: int,
	logit_mean: float = None,
	logit_std: float = None,
	mode_scale: float = None,
	device: torch.device = torch.device("cpu"),
	generator: Optional[torch.Generator] = None,
	) -> torch.Tensor:
	r"""
	Compute the density for sampling the timesteps when doing SD3 training.

	Courtesy: This was contributed by Rafie Walker in https://github.com/huggingface/diffusers/pull/8528.

	SD3 paper reference: https://arxiv.org/abs/2403.03206v1.
	"""
	if weighting_scheme == "logit_normal":
	# See 3.1 in the SD3 paper ($rf/lognorm(0.00,1.00)$).
	u = torch.normal(mean=logit_mean, std=logit_std, size=(batch_size,), device=device, generator=generator)
	u = torch.nn.functional.sigmoid(u)
	elif weighting_scheme == "mode":
	u = torch.rand(size=(batch_size,), device=device, generator=generator)
	u = 1 - u - mode_scale * (torch.cos(math.pi * u / 2) ** 2 - 1 + u)
	else:
	u = torch.rand(size=(batch_size,), device=device, generator=generator)
	return u


	def get_scheduler_alphas(scheduler: Union[CogVideoXDDIMScheduler, FlowMatchEulerDiscreteScheduler]) -> torch.Tensor:
	if isinstance(scheduler, FlowMatchEulerDiscreteScheduler):
	return None
	elif isinstance(scheduler, CogVideoXDDIMScheduler):
	return scheduler.alphas_cumprod.clone()
	else:
	raise ValueError(f"Unsupported scheduler type {type(scheduler)}")


	def get_scheduler_sigmas(scheduler: Union[CogVideoXDDIMScheduler, FlowMatchEulerDiscreteScheduler]) -> torch.Tensor:
	if isinstance(scheduler, FlowMatchEulerDiscreteScheduler):
	return scheduler.sigmas.clone()
	elif isinstance(scheduler, CogVideoXDDIMScheduler):
	return scheduler.timesteps.clone().float() / float(scheduler.config.num_train_timesteps)
	else:
	raise ValueError(f"Unsupported scheduler type {type(scheduler)}")


	def prepare_sigmas(
	scheduler: Union[CogVideoXDDIMScheduler, FlowMatchEulerDiscreteScheduler],
	sigmas: torch.Tensor,
	batch_size: int,
	num_train_timesteps: int,
	flow_weighting_scheme: str = "none",
	flow_logit_mean: float = 0.0,
	flow_logit_std: float = 1.0,
	flow_mode_scale: float = 1.29,
	device: torch.device = torch.device("cpu"),
	generator: Optional[torch.Generator] = None,
	) -> torch.Tensor:
	if isinstance(scheduler, FlowMatchEulerDiscreteScheduler):
	weights = compute_density_for_timestep_sampling(
	weighting_scheme=flow_weighting_scheme,
	batch_size=batch_size,
	logit_mean=flow_logit_mean,
	logit_std=flow_logit_std,
	mode_scale=flow_mode_scale,
	device=device,
	generator=generator,
	)
	indices = (weights * num_train_timesteps).long()
	elif isinstance(scheduler, CogVideoXDDIMScheduler):
	# TODO(aryan): Currently, only uniform sampling is supported. Add more sampling schemes.
	weights = torch.rand(size=(batch_size,), device=device, generator=generator)
	indices = (weights * num_train_timesteps).long()
	else:
	raise ValueError(f"Unsupported scheduler type {type(scheduler)}")

	return sigmas[indices]


	def prepare_loss_weights(
	scheduler: Union[CogVideoXDDIMScheduler, FlowMatchEulerDiscreteScheduler],
	alphas: Optional[torch.Tensor] = None,
	sigmas: Optional[torch.Tensor] = None,
	flow_weighting_scheme: str = "none",
	) -> torch.Tensor:
	if isinstance(scheduler, FlowMatchEulerDiscreteScheduler):
	return compute_loss_weighting_for_sd3(sigmas=sigmas, weighting_scheme=flow_weighting_scheme)
	elif isinstance(scheduler, CogVideoXDDIMScheduler):
	# SNR is computed as (alphas / (1 - alphas)), but for some reason CogVideoX uses 1 / (1 - alphas).
	# TODO(aryan): Experiment if using alphas / (1 - alphas) gives better results.
	return 1 / (1 - alphas)
	else:
	raise ValueError(f"Unsupported scheduler type {type(scheduler)}")


	def prepare_target(
	scheduler: Union[CogVideoXDDIMScheduler, FlowMatchEulerDiscreteScheduler],
	noise: torch.Tensor,
	latents: torch.Tensor,
	) -> torch.Tensor:
	if isinstance(scheduler, FlowMatchEulerDiscreteScheduler):
	target = noise - latents
	elif isinstance(scheduler, CogVideoXDDIMScheduler):
	target = latents
	else:
	raise ValueError(f"Unsupported scheduler type {type(scheduler)}")

	return target


	def _enable_vae_memory_optimizations(vae, enable_slicing: bool = False, enable_tiling: bool = False):
	if hasattr(vae, "enable_slicing") and enable_slicing:
	vae.enable_slicing()
	if hasattr(vae, "enable_tiling") and enable_tiling:
	vae.enable_tiling()