Update train.py

b2ac71b verified 12 days ago

10.7 kB

	import os
	import dataclasses
	import torch
	import transformers
	from transformers import Trainer, TrainingArguments, TrainerCallback
	from peft import LoraConfig, get_peft_model, TaskType
	from huggingface_hub import HfApi, login
	import wandb
	from dotenv import load_dotenv
	from config import TrainConfig, ModelConfig
	from model import MultiModalModel
	from data import AudioTextDataset, DataCollator


	class SamplePredictionCallback(TrainerCallback):
	"""Every N steps, print ground-truth vs model-predicted transcript for a few samples."""

	def __init__(self, tokenizer, data_collator, train_dataset, sample_every_n_steps: int = 100, num_samples: int = 2, prompt: str = "Transcribe the following audio:"):
	self.tokenizer = tokenizer
	self.data_collator = data_collator
	self.train_dataset = train_dataset
	self.sample_every_n_steps = sample_every_n_steps
	self.num_samples = num_samples
	self.prompt = prompt
	def on_log(self, args, state, control, model=None, **kwargs):
	if state.global_step == 0 or state.global_step % self.sample_every_n_steps != 0:
	return
	if model is None:
	return
	model.eval()
	device = next(model.parameters()).device
	try:
	indices = [i % len(self.train_dataset) for i in range(self.num_samples)]
	batch = self.data_collator([self.train_dataset[i] for i in indices])
	audio_values = batch["audio_values"].to(device)
	labels_batch = batch["labels"]
	continuations = batch.get("continuation", [""] * audio_values.size(0))
	prompt_ids = self.tokenizer(self.prompt, return_tensors="pt", add_special_tokens=True).input_ids.to(device)
	prompt_ids = prompt_ids.expand(audio_values.size(0), -1)
	with torch.no_grad():
	gen_ids = model.generate(
	input_ids=prompt_ids,
	audio_values=audio_values,
	max_new_tokens=120,
	do_sample=False,
	pad_token_id=self.tokenizer.pad_token_id or self.tokenizer.eos_token_id,
	)
	prompt_len = prompt_ids.size(1)

	# Create a wandb Table
	columns = ["Step", "Audio Index", "Ground Truth", "Prediction", "Continuation"]
	table = wandb.Table(columns=columns)

	print(f"\n[WandB] Logging sample predictions at step {state.global_step}")

	for i in range(audio_values.size(0)):
	gt_tokens = [t for t in labels_batch[i].tolist() if t != -100]
	gt_text = self.tokenizer.decode(gt_tokens, skip_special_tokens=True).strip()
	pred_text = self.tokenizer.decode(gen_ids[i][prompt_len:], skip_special_tokens=True).strip()

	cont_ref = continuations[i] if i < len(continuations) else ""

	# Add row to table
	table.add_data(state.global_step, i, gt_text, pred_text, cont_ref)

	# Log the table to wandb
	if wandb.run is not None:
	wandb.log({"sample_predictions": table}, step=state.global_step)
	else:
	print("Warning: WandB run not active, skipping logging.")

	except Exception as e:
	print(f"[SamplePredictionCallback] Error: {e}\n")
	finally:
	model.train()


	import shutil
	import glob
	from transformers.trainer_utils import get_last_checkpoint

	class AggressiveDeleteCallback(TrainerCallback):
	"""
	Deletes ALL existing checkpoints in output_dir before saving a new one
	to ensure we don't run out of disk space.
	Only keeps the one we are currently training on (in memory) effectively,
	but on disk we want 0 checkpoints just before save.

	WARNING: If save fails, we have NO checkpoints on disk. Risk accepted by user.
	"""
	def __init__(self, output_dir):
	self.output_dir = output_dir

	def on_step_end(self, args, state, control, **kwargs):
	# Check if we are about to save
	# Trainer checks: if save_strategy == "steps" and global_step % save_steps == 0
	if args.save_strategy == "steps" and args.save_steps > 0:
	if state.global_step > 0 and state.global_step % args.save_steps == 0:
	# We are about to save. Delete old checkpoints.
	print(f"\n[AggressiveDeleteCallback] Step {state.global_step}: Deleting old checkpoints to free space before saving...")

	# Verify we aren't deleting something we just wrote (unlikely in on_step_end, save happens after)
	# But we might be resuming.

	ckpts = glob.glob(os.path.join(self.output_dir, "checkpoint-*"))
	for ckpt in ckpts:
	try:
	shutil.rmtree(ckpt)
	print(f" Deleted {ckpt}")
	except Exception as e:
	print(f" Failed to delete {ckpt}: {e}")

	def train():
	# Load environment variables
	load_dotenv()

	# Load Configs
	train_config = TrainConfig()
	model_config = ModelConfig()

	# Initialize WandB
	wandb.init(
	project=train_config.wandb_project,
	entity=train_config.wandb_entity,
	name=train_config.wandb_run_name,
	config=dataclasses.asdict(train_config),
	)


	# Initialize Tokenizer & Processor
	tokenizer = transformers.AutoTokenizer.from_pretrained(model_config.text_model_id)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	processor = transformers.AutoProcessor.from_pretrained(model_config.audio_model_id)

	# Initialize Model
	model = MultiModalModel(model_config)

	# Apply LoRA if requested
	if train_config.use_lora:
	peft_config = LoraConfig(
	task_type=TaskType.CAUSAL_LM,
	inference_mode=False,
	r=train_config.lora_r,
	lora_alpha=train_config.lora_alpha,
	lora_dropout=train_config.lora_dropout,
	target_modules=["q_proj", "v_proj"]
	)
	model.llm = get_peft_model(model.llm, peft_config)
	model.llm.print_trainable_parameters()

	# Dataset
	train_dataset = AudioTextDataset(train_config, processor, model_config, tokenizer)
	data_collator = DataCollator(processor, tokenizer)

	# Training Arguments (tuned for A100 80GB: bf16, larger batch, fast dataloader)
	training_args = TrainingArguments(
	output_dir=train_config.output_dir,
	per_device_train_batch_size=train_config.batch_size,
	gradient_accumulation_steps=train_config.accum_steps,
	learning_rate=train_config.learning_rate,
	lr_scheduler_type=train_config.lr_scheduler_type,
	num_train_epochs=train_config.num_epochs,
	max_steps=train_config.max_steps,
	bf16=train_config.use_bf16,
	gradient_checkpointing=train_config.gradient_checkpointing,
	dataloader_num_workers=train_config.dataloader_num_workers,
	dataloader_pin_memory=train_config.dataloader_pin_memory,
	logging_steps=train_config.log_steps,
	logging_first_step=True,
	logging_nan_inf_filter=True,
	save_steps=train_config.save_steps,
	save_total_limit=train_config.save_total_limit,
	eval_strategy="no", # change if val set provided
	remove_unused_columns=False, # Important because we have custom forward signature
	report_to="wandb",
	log_level="info",
	log_level_replica="info",
	)

	sample_callback = SamplePredictionCallback(
	tokenizer=tokenizer,
	data_collator=data_collator,
	train_dataset=train_dataset,
	sample_every_n_steps=train_config.sample_pred_every_steps,
	num_samples=2,
	prompt="Transcribe the following audio:",
	)

	aggressive_delete_callback = AggressiveDeleteCallback(train_config.output_dir)

	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=train_dataset,
	data_collator=data_collator,
	callbacks=[sample_callback, aggressive_delete_callback],
	)

	total_steps = train_config.max_steps
	print(f"\n>>> Training: max_steps={total_steps}, batch_size={train_config.batch_size}, "
	f"grad_accum={train_config.accum_steps} (effective batch={train_config.batch_size * train_config.accum_steps})")
	print(f">>> Sample predictions (GT vs predicted transcript) every {train_config.sample_pred_every_steps} steps.\n")

	# Resume from checkpoint if exists
	last_checkpoint = get_last_checkpoint(train_config.output_dir)
	if last_checkpoint is not None:
	print(f">>> Resuming from checkpoint: {last_checkpoint}")
	trainer.train(resume_from_checkpoint=last_checkpoint)
	else:
	trainer.train()

	# Save
	trainer.save_model(train_config.output_dir)
	tokenizer.save_pretrained(train_config.output_dir)
	processor.save_pretrained(train_config.output_dir)

	# Push to Hub
	if train_config.push_to_hub:
	print(f"\n>>> Pushing model to Hugging Face Hub: {train_config.hub_model_id}")
	if train_config.hub_token:
	login(token=train_config.hub_token)

	api = HfApi()

	# Create repo if needed
	# private=True by default for safety, user can adjust
	try:
	api.create_repo(repo_id=train_config.hub_model_id, private=train_config.hub_private_repo, exist_ok=True)
	except Exception as e:
	print(f"Warning: Could not create repo {train_config.hub_model_id}. Error: {e}")

	# Upload model folder
	try:
	api.upload_folder(
	folder_path=train_config.output_dir,
	repo_id=train_config.hub_model_id,
	repo_type="model",
	)

	# Upload code files to ensure custom model works
	for file in ["model.py", "config.py", "data.py", "inference.py"]:
	if os.path.exists(file):
	api.upload_file(
	path_or_fileobj=file,
	path_in_repo=file,
	repo_id=train_config.hub_model_id,
	repo_type="model",
	)

	print(f">>> Successfully pushed to {train_config.hub_model_id}")
	except Exception as e:
	print(f"Error pushing to hub: {e}")

	if __name__ == "__main__":
	train()