kltn-experiments / 1_pointer_base_actions_4 /1_pointer_base_actions_4.py

Upload 1_pointer_base_actions_4's state dict

95580b8 verified about 1 month ago

75.9 kB

	# %% [code]
	get_ipython().system('pip install evaluate seqeval underthesea positional-encodings[pytorch]')

	# %% [code]
	import warnings
	warnings.filterwarnings('ignore')

	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.utils.data import Dataset, TensorDataset, DataLoader
	import torch.nn.functional as F
	import albumentations as albu
	from transformers import AutoTokenizer, AutoModel
	import torch.distributed as dist
	from torch.nn.parallel import DistributedDataParallel as DDP
	from positional_encodings.torch_encodings import PositionalEncoding1D

	from sklearn.metrics import f1_score
	from sklearn.preprocessing import MinMaxScaler, StandardScaler
	from scipy.spatial.transform import Rotation as R
	from sklearn.model_selection import KFold, StratifiedGroupKFold, GroupKFold, StratifiedKFold
	from sklearn.metrics import precision_recall_fscore_support
	from timm.utils import ModelEmaV3
	import timm

	import os
	import gc
	import json
	from pathlib import Path
	import pickle
	from tqdm.auto import tqdm
	import copy
	import numpy as np
	import pandas as pd
	import polars as pl
	from PIL import Image
	import time
	from tqdm import tqdm
	from matplotlib import pyplot as plt
	import seaborn as sns
	from multiprocessing import Manager as MemoryManager
	from functools import lru_cache
	import shutil
	import glob
	import cv2
	import random
	import re
	import joblib
	import math
	from huggingface_hub import HfApi, snapshot_download
	import evaluate
	from underthesea import word_tokenize as vi_tokenize_tool
	import spacy
	en_tokenize_tool = spacy.load("en_core_web_sm")
	from collections import defaultdict, Counter

	# %% [code]
	# Global config
	SEEDS = [26092004]
	topk = 1
	nfolds = 5
	only_fold_idx = 0
	test_only = 0
	debug_only = 0

	# Config thư mục
	dataset = 'kltn/only_actions' # vhe, bkee, casie, kltn/only_issues, kltn/only_actions
	root_dir = f'/kaggle/input/notebooks/sambui22022517/kltn-data/{dataset}' ## Thư mục chứa file train, val, test
	train_dir = f'{root_dir}'
	# val_dir = f'{root_dir}/val'
	test_dir = f'{root_dir}'

	# Config checkpoints

	# Config training
	epochs = 18 if not debug_only else 2
	batch_size = 32
	device = "cuda" if torch.cuda.is_available() else "cpu"
	# # Thêm biến toàn cục nào đó vào đây
	repo_name = 'SS3M/kltn-experiments'
	state_dict_save_name = "1_pointer_base_actions_4"
	checkpoints_dir = state_dict_save_name
	pretrained_dir = "/kaggle/working"
	os.makedirs(f'{checkpoints_dir}', exist_ok=True)

	backbone_model_name = "bert-base-uncased" if dataset == "casie" else "vinai/phobert-base"
	word_tokenize = lambda text: [token.text for token in en_tokenize_tool(text)] if dataset == "casie" else vi_tokenize_tool(text)
	max_len_dict = {
	'kltn/only_issues': 52,
	'kltn/only_actions': 69,
	'vhe': 51,
	'bkee': 62,
	'casie': 40,
	}
	zero_events_rate_dict = {
	'kltn/only_issues': 0,
	'kltn/only_actions': 0.2,
	'vhe': 1000, # mean keep all zero-events samples
	'bkee': 1000,
	'casie': 1000,
	}

	max_len = max_len_dict[dataset]
	max_n_parts = 1
	max_span_len = 14
	zero_events_rate = zero_events_rate_dict[dataset]

	# Trainer
	trainer_params = {
	"training_time": "00:11:30:00",
	"eval_mode": "max",
	"topk": topk,
	"save_name": state_dict_save_name,
	"save_best": True,
	"save_last": True,
	"device": device,
	"logging": True,
	"logging_file": True,
	"checkpoints_dir": checkpoints_dir,
	"early_stopping": 30,
	"eval_from_ratio": 0.4,
	"eval_every": 1,
	"schedule_in_step": False,
	"use_ema": True,
	"ema_from_ratio": 0.3,
	"ema_decay": 0.9995,
	"max_grad_norm": 200.0,
	"return_best": True,
	"return_last": True,
	}

	# Memory
	train_memory_params = {
	'max_len': max_len,
	'max_n_parts': max_n_parts,
	}
	val_memory_params = {
	'max_len': max_len,
	'max_n_parts': max_n_parts,
	}

	# Data Loader
	def seed_worker(worker_id):
	worker_seed = torch.initial_seed() % 2**32
	np.random.seed(worker_seed)
	random.seed(worker_seed)

	train_loader_params = {
	'batch_size': batch_size,
	'shuffle': True,
	'pin_memory':True,
	'num_workers': 2,
	'drop_last': False,
	'worker_init_fn': seed_worker,
	'persistent_workers': False,
	}
	val_loader_params = {
	'batch_size': batch_size,
	'shuffle': False,
	'pin_memory':True,
	'num_workers': 1,
	'drop_last': False,
	'worker_init_fn': seed_worker,
	'persistent_workers': False,
	}

	# Model
	model_params = {
	'backbone_model_name': backbone_model_name,
	}

	# Loss Func
	loss_func_params = {
	'lambda_trg_ce': 1.0,
	'lambda_arg_ce': 1.0,
	}
	eval_func_params = {}

	# Optim
	optim_params = {
	'name': 'AdamW',
	'lr': 1e-4,
	'weight_decay': 1e-4,
	}
	scheduler_params = {
	'name': 'CosineAnnealingLR',
	'T_max': 20, # Số epoch để hoàn thành một chu kỳ giảm LR
	'eta_min': 1e-6 # Learning rate nhỏ nhất trong chu kỳ
	}

	# %% [code]
	def set_seed(seed=42):
	random.seed(seed)
	np.random.seed(seed)
	torch.manual_seed(seed)
	torch.cuda.manual_seed(seed)
	torch.cuda.manual_seed_all(seed) # if using multi-GPU
	torch.use_deterministic_algorithms(False)
	torch.backends.cudnn.deterministic = True
	torch.backends.cudnn.benchmark = False
	os.environ['PYTHONHASHSEED'] = str(seed)

	# %% [code]
	class CustomLoss(nn.Module):
	def __init__(
	self,
	lambda_trg_ce=1.0,
	lambda_arg_ce=1.0,
	):
	super().__init__()
	self.lambda_trg_ce = lambda_trg_ce
	self.lambda_arg_ce = lambda_arg_ce
	self.ce = nn.CrossEntropyLoss(ignore_index=-100)

	def forward(
	self,
	trg_start_logits, trg_start_labels,
	trg_end_logits, trg_end_labels,
	arg_start_logits, pred_arg_start_labels,
	arg_end_logits, pred_arg_end_labels,
	):
	device = trg_start_logits.device

	# ===== TRG START CE =====
	B, N, C = trg_start_logits.shape

	trg_start_logits_flat = trg_start_logits.view(B * N, C)
	trg_start_labels_flat = trg_start_labels.view(-1)

	trg_start_loss = self.ce(
	trg_start_logits_flat,
	trg_start_labels_flat
	)

	# ===== TRG END CE =====
	B, N, C = trg_end_logits.shape

	trg_end_logits_flat = trg_end_logits.view(B * N, C)
	trg_end_labels_flat = trg_end_labels.view(-1)

	trg_end_loss = self.ce(
	trg_end_logits_flat,
	trg_end_labels_flat
	)

	# ===== ARG CE =====
	B, K, M, C = arg_start_logits.shape
	arg_start_logits_flat = arg_start_logits.view(B * K * M, C)
	arg_start_labels_flat = pred_arg_start_labels.view(-1)

	arg_mask = (arg_start_labels_flat != -100)

	if arg_mask.sum() == 0:
	arg_start_loss = torch.tensor(0.0, device=device)
	else:
	arg_start_loss = self.ce(arg_start_logits_flat, arg_start_labels_flat) # (BKM,)

	B, K, M, C = arg_end_logits.shape
	arg_end_logits_flat = arg_end_logits.view(B * K * M, C)
	arg_end_labels_flat = pred_arg_end_labels.view(-1)

	arg_mask = (arg_end_labels_flat != -100)

	if arg_mask.sum() == 0:
	arg_end_loss = torch.tensor(0.0, device=device)
	else:
	arg_end_loss = self.ce(arg_end_logits_flat, arg_end_labels_flat) # (BKM,)

	# ===== TOTAL =====
	total_loss = (
	self.lambda_trg_ce * (trg_start_loss + trg_end_loss) +
	self.lambda_arg_ce * (arg_start_loss + arg_end_loss)
	)

	return {
	"total": total_loss,
	"trg_start_loss": trg_start_loss,
	"trg_end_loss": trg_end_loss,
	"arg_start_loss": arg_start_loss,
	"arg_end_loss": arg_end_loss,
	}

	# %% [code]
	## Viết eval_fn vào đây

	# Bỏ hết eval_fn và trọng số vào đây
	class CustomEvalFn(nn.Module):
	def __init__(self):
	super().__init__()

	def compute_f1(self, tp, fp, fn):
	precision = tp / (tp + fp + 1e-8)
	recall = tp / (tp + fn + 1e-8)
	f1 = 2 * precision * recall / (precision + recall + 1e-8)
	return precision, recall, f1

	def forward(self, pred, gold):
	pred_set = set(pred)
	gold_set = set(gold)

	tp = len(pred_set & gold_set)
	fp = len(pred_set - gold_set)
	fn = len(gold_set - pred_set)

	precision, recall, f1 = self.compute_f1(tp, fp, fn)

	return {
	f"precision": precision,
	f"recall": recall,
	f"f1": f1,
	}

	class SpanErrorAnalyzer:
	def __init__(self, pad_token_id=0):
	self.pad_token_id = pad_token_id

	# ===== helper =====
	def _to_set(self, data):
	"""
	data: list of (b, tuple(ids))
	-> dict[b] = set(tuple(ids))
	"""
	res = defaultdict(set)
	for b, ids in data:
	ids = tuple([i for i in ids if i != self.pad_token_id])
	if len(ids) > 0:
	res[b].add(ids)
	return res

	def _iou(self, a, b):
	"""
	a, b: tuple(ids)
	"""
	set_a, set_b = set(a), set(b)
	inter = len(set_a & set_b)
	union = len(set_a \| set_b)
	if union == 0:
	return 0.0
	return inter / union

	def _boundary_error(self, pred, gold):
	"""
	đo lệch boundary dựa trên overlap prefix/suffix
	"""
	# left match
	left = 0
	for i in range(min(len(pred), len(gold))):
	if pred[i] == gold[i]:
	left += 1
	else:
	break

	# right match
	right = 0
	for i in range(1, min(len(pred), len(gold)) + 1):
	if pred[-i] == gold[-i]:
	right += 1
	else:
	break

	return {
	"left_match": left,
	"right_match": right,
	"pred_len": len(pred),
	"gold_len": len(gold),
	}

	# ===== main =====
	def analyze(self, preds, golds):
	pred_map = self._to_set(preds)
	gold_map = self._to_set(golds)

	all_batches = set(pred_map.keys()) \| set(gold_map.keys())

	stats = Counter()

	detailed_errors = []

	for b in all_batches:
	pset = pred_map.get(b, set())
	gset = gold_map.get(b, set())

	matched_gold = set()

	# ===== check predictions =====
	for p in pset:
	if p in gset:
	stats["exact_match"] += 1
	matched_gold.add(p)
	else:
	# tìm gold gần nhất
	best_iou = 0
	best_g = None

	for g in gset:
	iou = self._iou(p, g)
	if iou > best_iou:
	best_iou = iou
	best_g = g

	if best_iou > 0:
	stats["partial_match"] += 1

	boundary = self._boundary_error(p, best_g)

	detailed_errors.append({
	"type": "boundary_error",
	"batch": b,
	"pred": p,
	"gold": best_g,
	"iou": best_iou,
	**boundary
	})
	else:
	if b not in gold_map:
	stats["no_event_sample"] += 1
	err_type = "no_event_sample"
	else:
	stats["completely_wrong"] += 1
	err_type = "completely_wrong"

	detailed_errors.append({
	"type": err_type,
	"batch": b,
	"pred": p
	})

	# ===== check missing =====
	for g in gset:
	if g not in matched_gold:
	# check if any pred overlaps
	overlap = any(self._iou(p, g) > 0 for p in pset)

	if overlap:
	stats["miss_with_overlap"] += 1
	else:
	stats["miss"] += 1

	detailed_errors.append({
	"type": "miss",
	"batch": b,
	"gold": g
	})

	return {
	"summary": {
	"exact_match": (stats["exact_match"], stats["exact_match"] / len(preds)),
	"partial_match": (stats["partial_match"], stats["partial_match"] / len(preds)),
	"no_event_sample": (stats["no_event_sample"], stats["no_event_sample"] / len(preds)),
	"completely_wrong": (stats["completely_wrong"], stats["completely_wrong"] / len(preds)),
	"miss": (stats["miss"], stats["miss"] / len(golds)),
	"miss_with_overlap": (stats["miss_with_overlap"], stats["miss_with_overlap"] / len(golds)),
	},
	"details": detailed_errors
	}

	# %% [code]
	## Viết cấu trúc model vào đây
	def fix_bio_ids_batch(label_ids):
	"""
	label_ids: (B, L)
	return: (B, L) fixed
	"""
	B, L = label_ids.shape
	fixed = label_ids.clone()

	for b in range(B):
	for i in range(L):
	tag = fixed[b, i].item()

	if tag == 0:
	continue

	# I- (even)
	if tag % 2 == 0:
	if i == 0 or fixed[b, i-1].item() == 0:
	fixed[b, i] = tag - 1
	else:
	prev_tag = fixed[b, i-1].item()

	if prev_tag == 0:
	fixed[b, i] = tag - 1
	else:
	prev_type = (prev_tag - 1) // 2
	curr_type = (tag - 1) // 2

	if prev_type != curr_type:
	fixed[b, i] = tag - 1

	return fixed

	def extract_trigger_spans_batch_tensor(label_ids):
	"""
	label_ids: (B, L)
	return:
	spans_tensor: (B, N, 2) # (s, e), pad = (0,0)
	"""
	B, L = label_ids.shape
	device = label_ids.device

	all_spans = []
	max_n = 0

	# ===== extract spans (list trước) =====
	for b in range(B):
	spans = []
	i = 0

	while i < L:
	tag = label_ids[b, i].item()

	if tag == 0:
	i += 1
	continue

	# B- (odd)
	if tag % 2 == 1:
	type_id = (tag - 1) // 2
	s = i
	e = i
	i += 1

	while i < L:
	next_tag = label_ids[b, i].item()

	if next_tag == 0:
	break

	next_type = (next_tag - 1) // 2

	if next_tag % 2 == 0 and next_type == type_id:
	e = i
	i += 1
	else:
	break

	spans.append((s, e))
	else:
	i += 1

	all_spans.append(spans)
	max_n = max(max_n, len(spans))

	# ===== build tensor =====
	if max_n == 0:
	# không có span nào → return tensor rỗng đúng shape
	return torch.zeros((B, 0, 2), dtype=torch.long, device=device)

	spans_tensor = torch.zeros((B, max_n, 2), dtype=torch.long, device=device)

	for b in range(B):
	for i, (s, e) in enumerate(all_spans[b]):
	spans_tensor[b, i, 0] = s
	spans_tensor[b, i, 1] = e

	return spans_tensor

	def get_span_repr(hidden, spans):
	B, L, H = hidden.size()
	K = spans.size(1)
	device = hidden.device

	start = spans[:, :, 0] # (B, K)
	end = spans[:, :, 1] # (B, K)

	h_s = torch.gather(hidden, 1, start.unsqueeze(-1).expand(-1, -1, H))
	h_e = torch.gather(hidden, 1, end.unsqueeze(-1).expand(-1, -1, H))

	h_diff = h_s - h_e
	h_prod = h_s * h_e

	# ===== 6. concat =====
	span_repr = torch.cat(
	[h_s, h_e, h_diff, h_prod],
	dim=-1
	)

	return span_repr

	class MLP(nn.Module):
	def __init__(self, in_size, hid_size, out_size):
	super().__init__()
	self.model = nn.Sequential(
	nn.Linear(in_size, hid_size),
	nn.ReLU(),
	nn.Linear(hid_size, out_size)
	)

	def forward(self, x):
	return self.model(x)

	class IEModel(nn.Module):
	def __init__(self, backbone_model_name, num_trg_labels, num_arg_labels):
	super().__init__()
	self.encoder = AutoModel.from_pretrained(backbone_model_name)
	hidden_size = self.encoder.config.hidden_size

	self.trg_start_classifier = MLP(hidden_size, hidden_size, num_trg_labels)
	self.trg_end_classifier = MLP(hidden_size, hidden_size, num_trg_labels)

	self.trg_repr_proj = MLP(hidden_size*4, hidden_size, hidden_size)
	self.arg_start_classifier = MLP(hidden_size*2, hidden_size, num_arg_labels)
	self.arg_end_classifier = MLP(hidden_size*2, hidden_size, num_arg_labels)

	def encode(self, input_ids, attention_mask):
	B, n_parts, L = input_ids.shape
	input_ids = input_ids.view(-1, L)
	attention_mask = attention_mask.view(-1, L)

	outputs = self.encoder(input_ids=input_ids, attention_mask=attention_mask)
	hidden_states = outputs.last_hidden_state # B * n_parts, L, H

	hidden_states = hidden_states.view(B, n_parts, L, -1).reshape(B, n_parts*L, -1) # B, L, H
	return hidden_states

	def get_trg_logits(self, hidden_states):
	trg_start_logits = self.trg_start_classifier(hidden_states) # B, N, trg_classes
	trg_end_logits = self.trg_end_classifier(hidden_states) # B, N, trg_classes
	return trg_start_logits, trg_end_logits

	def get_arg_logits(self, hidden_states, trg_repr):
	B, L, H = hidden_states.shape
	_, N, _ = trg_repr.shape

	hidden_expand = hidden_states.unsqueeze(1).expand(-1, N, -1, -1)
	trg_expand = trg_repr.unsqueeze(2).expand(-1, -1, L, -1)

	hidden_trg_repr = torch.cat([hidden_expand, trg_expand], dim=-1) # (B, N, L, 2H)
	arg_start_logits = self.arg_start_classifier(hidden_trg_repr) # (B, N, L, C)
	arg_end_logits = self.arg_end_classifier(hidden_trg_repr) # (B, N, L, C)

	return arg_start_logits, arg_end_logits

	def forward(self, input_ids, attention_mask, trg_spans=None):
	hidden_states = self.encode(input_ids, attention_mask)

	trg_start_logits, trg_end_logits = self.get_trg_logits(hidden_states)

	if trg_spans is None:
	trg_labels = torch.argmax(trg_logits, dim=-1)
	trg_labels = fix_bio_ids_batch(trg_labels)
	trg_spans = extract_trigger_spans_batch_tensor(trg_labels)

	trg_repr = get_span_repr(hidden_states, trg_spans) # B, N, 4H

	trg_repr = self.trg_repr_proj(trg_repr) # B, N, H
	arg_start_logits, arg_end_logits = self.get_arg_logits(hidden_states, trg_repr)

	return trg_start_logits, trg_end_logits, arg_start_logits, arg_end_logits, trg_spans

	def test():
	model = nn.DataParallel(IEModel(backbone_model_name, 7, 5)).to(device)
	model.eval()
	total_params = sum(p.numel() for p in model.parameters())
	print(f"Total params: {total_params:,}")

	vocab_size = model.module.encoder.config.vocab_size
	max_len = model.module.encoder.config.max_position_embeddings

	bz = 32
	i = torch.randint(0, vocab_size, (bz, 5, 10)).to(device)
	a = torch.ones(bz, 5, 10).to(device)
	g = torch.ones(bz, 3, 2, dtype=torch.long).to(device)

	with torch.no_grad():
	r = model(i, a, g)

	if type(r) == tuple:
	print([r[i].shape for i in range(len(r))])
	else:
	print(r.shape)

	test()

	# %% [code]
	def configure_optimizers(network, optim_params, scheduler_params):
	try:
	optim_params = copy.copy(optim_params)
	scheduler_params = copy.copy(scheduler_params)

	optim_name = optim_params.pop('name')
	scheduler_name = scheduler_params.pop('name')

	optimizer_cls = globals().get(optim_name) or getattr(optim, optim_name, None)
	scheduler_cls = globals().get(scheduler_name) or getattr(optim.lr_scheduler, scheduler_name, None)

	if optimizer_cls is None:
	raise ValueError(f"Optimizer '{optim_name}' is not available!")

	optimizer = optimizer_cls(network.parameters(), **optim_params)

	scheduler = None
	if scheduler_params and scheduler_cls: # Chỉ tạo scheduler nếu có tham số
	scheduler = scheduler_cls(optimizer, **scheduler_params)

	return optimizer, scheduler

	except KeyError as e:
	raise ValueError(f"Missing {e} in config!!")

	def freeze(self, model):
	model.eval()
	for param in model.parameters():
	param.requires_grad = False

	def unfreeze(self, model):
	model.train()
	for param in model.parameters():
	param.requires_grad = True

	def reduce_batch_size(loader, ratio=0.5):
	new_bs = max(1, int(loader.batch_size * ratio))

	shuffle = isinstance(loader.sampler, RandomSampler)

	new_loader = DataLoader(
	dataset=loader.dataset,
	batch_size=new_bs,
	shuffle=shuffle,
	sampler=None if shuffle else loader.sampler,
	num_workers=loader.num_workers,
	collate_fn=loader.collate_fn,
	pin_memory=loader.pin_memory,
	drop_last=loader.drop_last,
	timeout=loader.timeout,
	worker_init_fn=loader.worker_init_fn,
	multiprocessing_context=loader.multiprocessing_context,
	generator=loader.generator,
	prefetch_factor=loader.prefetch_factor if loader.num_workers > 0 else None,
	persistent_workers=loader.persistent_workers,
	pin_memory_device=loader.pin_memory_device
	)

	return new_loader

	def list_to_tuple(x):
	if isinstance(x, (list, tuple)):
	return tuple(list_to_tuple(i) for i in x)
	return x

	def fmt(x):
	if isinstance(x, float):
	return round(x, 5)
	if isinstance(x, dict):
	return {k: fmt(v) for k, v in x.items()}
	if isinstance(x, list):
	return [fmt(v) for v in x]
	return x

	class ModelEmaV3Proxy(ModelEmaV3):
	def __getattr__(self, name):
	try:
	return super().__getattr__(name)
	except AttributeError:
	return getattr(self.module, name)

	class DataParallelProxy(nn.DataParallel):
	def __getattr__(self, name):
	try:
	return super().__getattr__(name)
	except AttributeError:
	attr = getattr(self.module, name)

	if callable(attr):
	def wrapper(args, *kwargs):
	return self._parallel_apply_method(name, args, *kwargs)
	return wrapper

	return attr

	def _parallel_apply_method(self, method_name, inputs, *kwargs):
	if not self.device_ids:
	return getattr(self.module, method_name)(inputs, *kwargs)

	inputs_scattered, kwargs_scattered = self.scatter(inputs, kwargs, self.device_ids)

	replicas = self.replicate(self.module, self.device_ids)

	outputs = self.parallel_apply(
	[getattr(replica, method_name) for replica in replicas],
	inputs_scattered,
	kwargs_scattered
	)

	return self.gather(outputs, self.output_device)

	def map_arg_labels(all_arg_labels, trg_spans, pred_spans):
	"""
	all_arg_labels: (B, N, L)
	trg_spans: (B, N, 2)
	pred_spans: (B, M, 2)

	return:
	pred_arg_labels: (B, M, L)
	"""
	B, N, L = all_arg_labels.shape
	_, M, _ = pred_spans.shape

	device = all_arg_labels.device

	# ===== match (B, M, N) =====
	match = (
	(pred_spans.unsqueeze(2) == trg_spans.unsqueeze(1))
	.all(dim=-1)
	)

	# ===== index match =====
	match_idx = match.float().argmax(dim=2) # (B, M)
	has_match = match.any(dim=2) # (B, M)

	# ===== gather =====
	gather_idx = match_idx.unsqueeze(-1).expand(-1, -1, L) # (B, M, L)

	gathered = torch.gather(
	all_arg_labels,
	dim=1,
	index=gather_idx
	) # (B, M, L)

	# ===== build output =====
	# base = 0 nhưng giữ -100
	base = torch.zeros((B, M, L), dtype=torch.long, device=device)

	# mask vị trí -100 từ source (lấy từ n=0 cũng được vì mask thường giống nhau)
	ignore_mask = (all_arg_labels[:, 0] == -100).unsqueeze(1).expand(-1, M, -1)
	base[ignore_mask] = -100

	# ===== fill match =====
	pred_arg_labels = torch.where(
	has_match.unsqueeze(-1), # (B, M, 1)
	gathered,
	base
	)

	return pred_arg_labels.long()

	def decode_spans(start_labels, end_labels):
	"""
	start_labels/end_labels: (L,)
	return: [(s, e, label_id)]
	"""

	L = len(start_labels)

	used_start = set()
	used_end = set()

	spans = []

	for s in range(L):

	s_label = start_labels[s]

	if s_label == 0:
	continue

	if s in used_start:
	continue

	nearest_e = None

	for e in range(s, L):

	if e in used_end:
	continue

	e_label = end_labels[e]

	if e_label == s_label:
	nearest_e = e
	break

	if nearest_e is None:
	continue

	used_start.add(s)
	used_end.add(nearest_e)

	spans.append((s, nearest_e, s_label))

	return spans

	def decode_spans_batch(start_labels, end_labels):
	"""
	Args:
	start_labels: (B, L)
	end_labels: (B, L)

	Returns:
	spans_tensor: (B, N, 2)

	N = số span lớn nhất trong batch
	padding = (0, 0)
	"""

	B, L = start_labels.shape

	all_spans = []
	max_n = 0

	for bidx in range(B):

	used_start = set()
	used_end = set()

	spans = []

	for s in range(L):

	s_label = start_labels[bidx, s].item()

	if s_label == 0:
	continue

	if s in used_start:
	continue

	nearest_e = None

	for e in range(s, L):

	if e in used_end:
	continue

	e_label = end_labels[bidx, e].item()

	if e_label == s_label:
	nearest_e = e
	break

	if nearest_e is None:
	continue

	used_start.add(s)
	used_end.add(nearest_e)

	spans.append((s, nearest_e))

	all_spans.append(spans)
	max_n = max(max_n, len(spans))

	# ===== padding =====
	spans_tensor = torch.zeros(
	(B, max_n, 2),
	dtype=torch.long,
	device=start_labels.device
	)

	for bidx, spans in enumerate(all_spans):
	for n, (s, e) in enumerate(spans):
	spans_tensor[bidx, n, 0] = s
	spans_tensor[bidx, n, 1] = e

	return spans_tensor

	def extract_arguments(
	input_ids,
	trg_start_logits,
	trg_end_logits,
	arg_start_logits,
	arg_end_logits,
	pred_trg_spans,
	id2label
	):
	"""
	input_ids: (B, L)

	trg_start_logits: (B, L, C_trg)
	trg_end_logits: (B, L, C_trg)

	arg_start_logits: (B, N, L, C_arg)
	arg_end_logits: (B, N, L, C_arg)

	pred_trg_spans: (B, N, 2)

	id2label = {
	'Trg': {id: label},
	'Arg': {id: label}
	}
	"""

	B, L = input_ids.shape

	# ===== decode trigger =====
	trg_start_ids = torch.argmax(trg_start_logits, dim=-1) # (B, L)
	trg_end_ids = torch.argmax(trg_end_logits, dim=-1) # (B, L)

	# ===== extract trigger spans =====
	trg_spans = []

	for bidx in range(B):
	spans = decode_spans(
	trg_start_ids[bidx].tolist(),
	trg_end_ids[bidx].tolist()
	)
	trg_spans.append(spans)

	results = []

	for bidx in range(B):

	# map span -> label
	span2label = {
	(s, e): id2label['Trg'][t_id]
	for (s, e, t_id) in trg_spans[bidx]
	}

	for n in range(pred_trg_spans.shape[1]):

	s_trg = pred_trg_spans[bidx, n, 0].item()
	e_trg = pred_trg_spans[bidx, n, 1].item()

	# skip padding
	if s_trg == 0 and e_trg == 0:
	continue

	if (s_trg, e_trg) not in span2label:
	continue

	trg_label = span2label[(s_trg, e_trg)]

	trg_tokens = input_ids[
	bidx,
	s_trg:e_trg + 1
	].tolist()

	# ===== argument =====
	arg_start_ids = torch.argmax(
	arg_start_logits[bidx, n],
	dim=-1
	).tolist()

	arg_end_ids = torch.argmax(
	arg_end_logits[bidx, n],
	dim=-1
	).tolist()

	arg_spans = decode_spans(
	arg_start_ids,
	arg_end_ids
	)

	for s_arg, e_arg, arg_label_id in arg_spans:

	arg_label = id2label['Arg'][arg_label_id]

	arg_tokens = input_ids[
	bidx,
	s_arg:e_arg + 1
	].tolist()

	results.append((
	bidx,
	(tuple(trg_tokens), trg_label),
	(tuple(arg_tokens), arg_label)
	))

	return results

	class Trainer:
	def __init__(
	self, training_time="00:11:30:00", eval_mode="max", topk=1, save_name="network", save_best=True, save_last=False, max_grad_norm=200.0,
	logging=0, logging_file=False, checkpoints_dir="", early_stopping=False, eval_from_ratio=-1, eval_every=1, device='cpu',
	schedule_in_step=True, use_ema=True, ema_from_ratio=-1, ema_decay=0.999, return_best=True, return_last=True
	):
	self.ema_net = None

	self.training_time = self._time_str_to_seconds(training_time)
	self.mode = eval_mode
	self.topk = topk
	self.device = device
	self.logging = logging if logging < epochs else 1
	self.logging_file = logging_file
	self.checkpoints_dir = checkpoints_dir
	self.early_stopping = early_stopping
	self.eval_from_ratio = eval_from_ratio
	self.eval_every = eval_every
	self.save_name = save_name
	self.save_best = save_best
	self.save_last = save_last
	self.return_best = return_best
	self.return_last = return_last
	self.max_grad_norm = max_grad_norm
	self.schedule_in_step = schedule_in_step
	self.use_ema = use_ema
	self.ema_from_ratio = ema_from_ratio
	self.ema_decay = ema_decay

	self.best_stage = [[float('-inf') if self.mode == 'max' else float('inf'), None, None]]
	self.grad_scaler = torch.amp.GradScaler(self.device, init_scale=1024.0)

	def fit(self, network, optimizer, scheduler, loss_fn, epochs, train_loader, val_loader=None, eval_fn=None, start_epoch=1, start_training_time=None, id2label=None):
	if eval_fn is None:
	if self.mode == "max":
	eval_fn = lambda x: -loss_fn(x)
	else:
	eval_fn = lambda x: loss_fn(x)

	if torch.cuda.device_count() > 1:
	network = DataParallelProxy(network)
	network = network.to(self.device)

	if not start_training_time:
	start_training_time = time.time()

	start_ema = int(epochs * self.ema_from_ratio)
	start_eval = int(epochs * self.eval_from_ratio)

	if val_loader is None:
	print(f'[Trainer CallBack] 📢 Không có Val Set, không thể đánh giá và Early Stopping!')
	else:
	model_to_use_str = 'mô hình EMA' if self.use_ema else 'mô hình gốc'
	start_model_update_str = f'Bắt đầu cập nhật EMA từ epoch {start_epoch + start_ema}!' if self.use_ema else ''
	print(f'[Trainer CallBack] 📢 Đánh giá bằng {model_to_use_str} từ epoch {start_epoch + start_eval}!', start_model_update_str)

	training_log = {}
	for epoch in range(start_epoch, epochs+start_epoch):
	if self.use_ema and self.ema_net is None and epoch - start_epoch >= start_ema:
	self.ema_net = ModelEmaV3Proxy(network, self.ema_decay, device=self.device)

	try:
	teaching_rate = math.cos(math.pi / 2 * epoch / epochs)
	train_loss_epoch, train_loss_epoch_dict = self._train_epoch(network, train_loader, optimizer, scheduler, loss_fn, teaching_rate)
	logging_dict = {'lr': [group['lr'] for group in optimizer.param_groups], 'train_loss': train_loss_epoch}
	logging_dict.update(train_loss_epoch_dict)

	if val_loader is not None and epoch - start_epoch >= start_eval and (epoch - start_epoch - start_eval) % self.eval_every == 0:
	eval_net = self.ema_net.module if (self.use_ema and self.ema_net is not None) else network

	val_score, val_score_dict, _ = self._eval_epoch(eval_net, val_loader, eval_fn, id2label)
	update = self._update_best_network(eval_net, val_score, epoch)
	logging_dict.update({'val_score': val_score, 'best_score': self.best_stage[0][0], 'new_best_model': update})
	logging_dict.update(val_score_dict)
	if not self.schedule_in_step and scheduler:
	scheduler.step()

	except RuntimeError as e:
	if "out of memory" in str(e).lower():
	print(f"[Trainer CallBack] ⚠️ Epoch {epoch}/{epochs}: CUDA Out of Memory! Clearing GPU cache...")
	torch.cuda.empty_cache()
	gc.collect()
	if torch.cuda.is_available():
	torch.cuda.synchronize()
	print(f"[Trainer CallBack] ✅ Epoch {epoch}/{epochs}: GPU memory cleared")

	train_loader = reduce_batch_size(train_loader, ratio=0.5)
	if val_loader is not None:
	val_loader = reduce_batch_size(val_loader, ratio=0.5)

	logging_dict = {'lr': [group['lr'] for group in optimizer.param_groups], 'train_loss': float('inf')}
	else:
	raise

	training_log[epoch] = logging_dict
	if self.is_early_stopping(epoch):
	print(f'[Trainer CallBack] 📢 Epoch {epoch}/{epochs}: Detect Overfitting! Breaking Training Process...')
	break
	if self.logging:
	if epoch % self.logging == 0:
	print(f'[Trainer CallBack] 📢 Epoch {epoch}/{epochs}:', fmt(logging_dict))
	else:
	print(f'{epoch}...', end=' ')

	if self._at_time_limit(start_training_time):
	print(f'[Trainer CallBack] ⚠️ Epoch {epoch}/{epochs}: Thời gian training giới hạn là {self.training_time}, hết giờ tại epoch {epoch}/{epochs}')
	break

	if self.logging_file:
	os.makedirs(f'{self.checkpoints_dir}/logs', exist_ok=True)
	with open(f"{self.checkpoints_dir}/logs/{self.save_name}_logging.json", "a", encoding="utf-8") as f:
	f.write(json.dumps(training_log))

	if self.use_ema and self.ema_net is not None:
	self._save_state_dict(self.ema_net.module)
	else:
	self._save_state_dict(network)
	print(f'[Trainer CallBack] 📢 Kết thúc training.\n')

	best_model, last_model = None, None
	eval_net = self.ema_net.module if (self.use_ema and self.ema_net is not None) else network
	if self.return_best :
	best_model = self.best_stage[0][2] if self.best_stage[0][2] is not None else eval_net.state_dict()
	best_model = {k.replace("module.", ""): v.detach().cpu().clone() for k, v in best_model.items()}
	if self.return_last:
	last_model = eval_net.state_dict()
	last_model = {k.replace("module.", ""): v.detach().cpu().clone() for k, v in last_model.items()}

	del network
	torch.cuda.empty_cache()
	gc.collect()
	return training_log, best_model, last_model

	def _time_str_to_seconds(self, time_str):
	days, hours, minutes, seconds = map(int, time_str.split(":"))
	return days * 86400 + hours * 3600 + minutes * 60 + seconds

	def _update_best_network(self, network, val_score, epoch):
	topk = max(1, self.topk)
	self.best_stage.append([val_score, epoch, {k: v.detach().cpu().clone() for k, v in network.state_dict().items()}])
	self.best_stage = sorted(self.best_stage, reverse=(self.mode == 'max'), key=lambda x: x[0])[:topk]
	if val_score in [x[0] for x in self.best_stage]:
	return True
	return False

	def is_early_stopping(self, epoch):
	if self.best_stage[0][1] is None:
	return False
	if not self.early_stopping:
	return False
	return epoch - self.best_stage[0][1] >= self.early_stopping

	def _at_time_limit(self, start_training_time):
	return time.time() - start_training_time >= self.training_time

	def _save_state_dict(self, network):
	if self.topk <= 0:
	return

	if self.save_best:
	for r in range(self.topk):
	os.makedirs(f'{self.checkpoints_dir}/r{r+1}s', exist_ok=True)

	for rank, (score, epoch, state_dict) in enumerate(self.best_stage):
	if state_dict is None:
	continue
	state_dict = {k.replace("module.", ""): v.detach().cpu().clone() for k, v in state_dict.items()}
	torch.save(state_dict, f'{self.checkpoints_dir}/r{rank+1}s/{self.save_name}_r{rank+1}_vs{score:.5f}_{"ema" if self.ema_net is not None else ""}.pth')
	if self.save_last:
	os.makedirs(f'{self.checkpoints_dir}/lasts', exist_ok=True)
	state_dict = {k.replace("module.", ""): v.detach().cpu().clone() for k, v in network.state_dict().items()}
	torch.save(state_dict, f'{self.checkpoints_dir}/lasts/{self.save_name}_last_{"ema" if self.ema_net is not None else ""}.pth')

	def _train_epoch(self, network, train_loader, optimizer, scheduler, loss_fn, teaching_rate):
	network.train()
	total_loss = 0
	total_loss_dict = {}
	for batch_idx, batch in enumerate(train_loader):
	optimizer.zero_grad()
	with torch.autocast(device_type=self.device, dtype=torch.float16):
	loss, loss_dict = self._cal_loss(network, batch, batch_idx, loss_fn, teaching_rate)

	for k, v in loss_dict.items():
	t = total_loss_dict.get(k, 0)
	total_loss_dict[k] = t + v
	self.grad_scaler.scale(loss).backward()
	self.grad_scaler.unscale_(optimizer)
	grad_norm = nn.utils.clip_grad_norm_(network.parameters(), self.max_grad_norm)
	# print(grad_norm) # Bỏ cmt dòng này để biết nên chọn max_grad_norm bằng bao nhiêu...
	self.grad_scaler.step(optimizer)
	self.grad_scaler.update()
	if self.schedule_in_step and scheduler:
	scheduler.step()
	if self.use_ema and self.ema_net is not None:
	self.ema_net.update(network)
	total_loss += loss
	return (total_loss / len(train_loader)).item(), {k: v.item() / len(train_loader) for k, v in total_loss_dict.items()}

	def _eval_epoch(self, network, val_loader, eval_fn, id2label):
	network.eval()
	total_score = 0.0
	total_score_dict = {}
	object_lists = None # sẽ init sau

	with torch.no_grad():
	for batch_idx, batch in enumerate(val_loader):
	score, score_dict, objects = self._cal_val_score(network, batch, batch_idx, eval_fn, id2label)
	total_score += score

	for k, v in score_dict.items():
	t = total_score_dict.get(k, 0)
	total_score_dict[k] = t + v

	if objects:
	if object_lists is None:
	object_lists = [[] for _ in range(len(objects))]

	for i, obj in enumerate(objects):
	object_lists[i].append(obj.detach())

	if object_lists is not None:
	object_arrays = [
	torch.concat(obj_list, dim=0).cpu().numpy()
	for obj_list in object_lists
	]
	else:
	object_arrays = []

	return total_score / len(val_loader), {k: v / len(val_loader) for k, v in total_score_dict.items()}, object_arrays

	def _cal_loss(self, network, batch, batch_idx, loss_fn, teaching_rate):
	# Bạn cần override _cal_loss để tính loss
	input_ids = batch['input_ids'].to(self.device)
	attention_mask = batch['attention_mask'].to(self.device)
	trg_spans = batch['trg_spans'].to(self.device) # B, M, 2
	trg_start_labels = batch['trg_start_labels'].to(self.device) # B, L
	trg_end_labels = batch['trg_end_labels'].to(self.device) # B, L
	all_arg_start_labels = batch['all_arg_start_labels'].to(self.device) # B, M, L
	all_arg_end_labels = batch['all_arg_end_labels'].to(self.device) # B, M, L

	hidden_states = network.encode(input_ids, attention_mask)
	trg_start_logits, trg_end_logits = network.get_trg_logits(hidden_states)

	choice = random.random()
	if choice < teaching_rate:
	pred_trg_spans = trg_spans
	else:
	trg_start_ids = torch.argmax(trg_start_logits, dim=-1) # (B, L)
	trg_end_ids = torch.argmax(trg_end_logits, dim=-1) # (B, L)
	pred_trg_spans = decode_spans_batch(trg_start_ids, trg_end_ids)

	trg_repr = get_span_repr(hidden_states, pred_trg_spans) # B, N, 4H

	trg_repr = network.trg_repr_proj(trg_repr) # B, N, H
	arg_start_logits, arg_end_logits = network.get_arg_logits(hidden_states, trg_repr)

	pred_arg_start_labels = map_arg_labels(all_arg_start_labels, trg_spans, pred_trg_spans)
	pred_arg_end_labels = map_arg_labels(all_arg_end_labels, trg_spans, pred_trg_spans)

	loss_dict = loss_fn(
	trg_start_logits, trg_start_labels,
	trg_end_logits, trg_end_labels,
	arg_start_logits, pred_arg_start_labels,
	arg_end_logits, pred_arg_end_labels,
	)
	return loss_dict['total'], loss_dict

	def _cal_val_score(self, network, batch, batch_idx, eval_fn, id2label):
	# Bạn cần override _cal_val_score để tính val score, list bên cạnh là để trả về y hay pred gì đó (nếu cần)
	input_ids = batch['input_ids'].to(self.device)
	attention_mask = batch['attention_mask'].to(self.device)
	gold_events = batch['gold_events']

	B, _, _ = input_ids.shape

	hidden_states = network.encode(input_ids, attention_mask)
	trg_start_logits, trg_end_logits = network.get_trg_logits(hidden_states)

	trg_start_ids = torch.argmax(trg_start_logits, dim=-1) # (B, L)
	trg_end_ids = torch.argmax(trg_end_logits, dim=-1) # (B, L)
	pred_trg_spans = decode_spans_batch(trg_start_ids, trg_end_ids)
	trg_repr = get_span_repr(hidden_states, pred_trg_spans) # B, N, 4H

	trg_repr = network.trg_repr_proj(trg_repr) # B, N, H
	arg_start_logits, arg_end_logits = network.get_arg_logits(hidden_states, trg_repr)

	pred_ids = extract_arguments(input_ids.reshape(B, -1), trg_start_logits, trg_end_logits, arg_start_logits, arg_end_logits, pred_trg_spans, id2label)
	pred_ids = list_to_tuple(pred_ids)

	gold_ids = list_to_tuple(gold_events)

	score_dict = eval_fn(pred_ids, gold_ids)
	return score_dict['f1'], score_dict, []

	# %% [code]
	class PhoBERTSpanAligner:
	def __init__(self, tokenizer, max_len):
	self.tokenizer = tokenizer
	self.max_len = max_len

	# ===== 1. Extract discontinuous spans =====
	def extract_spans(self, sample):
	trigger_spans, arg_spans = [], []

	for event in sample["events"]:
	trigger_type = event["label"]
	spans = [tuple(event["offset"])]
	trigger_spans.append({
	"spans": spans,
	"label": trigger_type
	})
	event_arg_spans = []
	for arg in event['arguments']:
	arg_type = arg["role"]
	spans = [tuple(arg["offset"])]
	event_arg_spans.append({
	"spans": spans,
	"label": arg_type
	})
	arg_spans.append(event_arg_spans)

	return trigger_spans, arg_spans

	# ===== 2. Word offsets =====
	def build_word_offsets(self, text, words):
	offsets = []
	pointer = 0

	for word in words:
	start = text.find(word, pointer)
	end = start + len(word)
	offsets.append((start, end))
	pointer = end

	return offsets

	# ===== 3. Char → word =====
	def char_span_to_word_span(self, word_offsets, start, end):
	start_word = None
	end_word = None

	for i, (w_start, w_end) in enumerate(word_offsets):
	if w_start <= start < w_end:
	start_word = i
	if w_start < end <= w_end:
	end_word = i

	return start_word, end_word

	# ===== 4. Word → subword =====
	def word_to_subword_map(self, words):
	mapping = []
	subword_index = 1 # <s>

	for word in words:
	sub_tokens = self.tokenizer.tokenize(word)
	start = subword_index
	end = subword_index + len(sub_tokens) - 1
	mapping.append((start, end))
	subword_index += len(sub_tokens)

	return mapping

	# ===== 5. Span → subword =====
	def span_to_subword(self, word_offsets, word_subword_map, spans):
	sub_spans = []

	for span_start, span_end in spans:
	w_start, w_end = self.char_span_to_word_span(
	word_offsets, span_start, span_end
	)
	if w_start is None or w_end is None:
	continue

	sub_start = word_subword_map[w_start][0]
	sub_end = word_subword_map[w_end][1]
	sub_spans.append((sub_start, sub_end))

	return sub_spans

	def extract_valid_spans(self, sub_spans):
	valid_spans = []
	for s, e in sub_spans:
	if s < 0 or e < 0 or s >= self.max_len or e >= self.max_len or s > e:
	continue
	valid_spans.append((s, e))
	return valid_spans

	def encode(self, sample):
	text = sample["text"]
	triggers, arguments = self.extract_spans(sample)

	# ===== 1. Word tokenize =====
	words = word_tokenize(text)
	sentence = " ".join(words)

	# ===== 2. Mapping =====
	word_offsets = self.build_word_offsets(text, words)
	word_subword_map = self.word_to_subword_map(words)

	# ===== 3. Tokenize FULL =====
	encoding = self.tokenizer(
	sentence,
	max_length=self.max_len,
	truncation=True,
	padding="max_length",
	return_tensors="pt"
	)
	input_ids = encoding["input_ids"][0]
	attention_mask = encoding["attention_mask"][0]

	# ===== 5. Convert spans =====
	triggers_gold_spans = []
	arguments_gold_spans = []

	for trg, args in zip(triggers, arguments):
	label = trg["label"]

	sub_spans = self.span_to_subword(
	word_offsets,
	word_subword_map,
	trg["spans"]
	)
	valid_spans = self.extract_valid_spans(sub_spans)
	if len(valid_spans) == 0:
	continue
	triggers_gold_spans.append((tuple(valid_spans), label))

	trg_args_gold_spans = []
	for arg in args:
	label = arg["label"]

	sub_spans = self.span_to_subword(
	word_offsets,
	word_subword_map,
	arg["spans"]
	)
	valid_spans = self.extract_valid_spans(sub_spans)
	if len(valid_spans) == 0:
	continue
	trg_args_gold_spans.append((tuple(valid_spans), label))
	arguments_gold_spans.append(tuple(trg_args_gold_spans))

	return {
	"input_ids": input_ids,
	"attention_mask": attention_mask,
	"triggers_gold_spans": triggers_gold_spans,
	"arguments_gold_spans": arguments_gold_spans,
	}

	def generate_candidate_spans(seq_len, max_span_len):
	spans = []
	for i in range(1, seq_len+1):
	for j in range(i, min(i+max_span_len, seq_len+1)):
	spans.append((i, j))
	return spans

	class KLTNDataset(Dataset):
	def __init__(self, all_data, using_idxes, label2id, tokenizer, max_len, max_n_parts):
	super().__init__()
	self.tokenizer = tokenizer
	self.aligner = PhoBERTSpanAligner(tokenizer, max_len*max_n_parts)
	self.all_data = all_data
	self.using_idxes = using_idxes
	self.label2id = label2id
	self.max_len = max_len
	self.max_n_parts = max_n_parts

	def __len__(self):
	return len(self.using_idxes)

	def __getitem__(self, idx):
	ridx = self.using_idxes[idx]
	sample = self.all_data[ridx]
	result = self.aligner.encode(sample)

	input_ids = result["input_ids"].squeeze(0)
	attention_mask = result["attention_mask"].squeeze(0)
	triggers_gold_spans = result["triggers_gold_spans"]
	arguments_gold_spans = result["arguments_gold_spans"]

	# Get event label
	all_trg_spans = torch.tensor([list(trg_spans[0]) for trg_spans, _ in triggers_gold_spans], dtype=torch.long) if triggers_gold_spans else torch.empty(0, 2, dtype=torch.long)
	gold_events = []
	trg_start_labels = torch.ones_like(input_ids) * (1-attention_mask) * (-100)
	trg_end_labels = torch.ones_like(input_ids) * (1-attention_mask) * (-100)
	all_arg_start_labels, all_arg_end_labels = [], []
	for (trg_spans, trg_label), args in zip(triggers_gold_spans, arguments_gold_spans):
	s, e = trg_spans[0]

	trg_start_labels[s] = self.label2id['Trg'][f'{trg_label}']
	trg_end_labels[e] = self.label2id['Trg'][f'{trg_label}']

	event = [(tuple(input_ids[s:e+1].tolist()), trg_label)]

	arg_start_labels = torch.ones_like(input_ids) * (1-attention_mask) * (-100)
	arg_end_labels = torch.ones_like(input_ids) * (1-attention_mask) * (-100)
	for arg_spans, arg_label in args:
	s, e = arg_spans[0]

	arg_start_labels[s] = self.label2id['Arg'][f'{arg_label}']
	arg_end_labels[e] = self.label2id['Arg'][f'{arg_label}']

	event.append((tuple(input_ids[s:e+1].tolist()), arg_label))
	all_arg_start_labels.append(arg_start_labels)
	all_arg_end_labels.append(arg_end_labels)

	gold_events.append(event)

	input_ids = input_ids.reshape(self.max_n_parts, self.max_len)
	attention_mask = attention_mask.reshape(self.max_n_parts, self.max_len)

	n_valid_parts = math.ceil(attention_mask.sum().item() / self.max_len)
	input_ids = input_ids[:n_valid_parts]
	attention_mask = attention_mask[:n_valid_parts]
	trg_start_labels = trg_start_labels[:n_valid_parts*self.max_len]
	trg_end_labels = trg_end_labels[:n_valid_parts*self.max_len]
	all_arg_start_labels = torch.stack([arg_labels[:n_valid_partsself.max_len] for arg_labels in all_arg_start_labels], dim=0) if all_arg_start_labels else torch.empty(0, n_valid_partsself.max_len)
	all_arg_end_labels = torch.stack([arg_labels[:n_valid_partsself.max_len] for arg_labels in all_arg_end_labels], dim=0) if all_arg_end_labels else torch.empty(0, n_valid_partsself.max_len)

	return {
	"input_ids": input_ids,
	"attention_mask": attention_mask,
	"trg_spans": all_trg_spans,
	"trg_start_labels": trg_start_labels,
	"trg_end_labels": trg_end_labels,
	"all_arg_start_labels": all_arg_start_labels,
	"all_arg_end_labels": all_arg_end_labels,
	"gold_events": gold_events,
	}

	def _pad_batch(tensor_list, pad_value=0):
	"""
	tensor_list: list of tensors
	mỗi tensor shape: (Nk, n_parts_i, max_len_i)

	return:
	padded tensor shape: (B, max_Nk, max_n_parts, max_len)
	"""

	# lấy max toàn batch
	max_Nk = max(t.size(0) for t in tensor_list)
	max_n_parts = max(t.size(1) for t in tensor_list)
	max_len = max(t.size(2) for t in tensor_list)

	padded = []

	for t in tensor_list:
	Nk, n_parts_i, max_len_i = t.shape

	# pad chiều n_parts và max_len trước
	if n_parts_i < max_n_parts or max_len_i < max_len:
	new_t = t.new_full(
	(Nk, max_n_parts, max_len),
	pad_value
	)
	new_t[:, :n_parts_i, :max_len_i] = t
	t = new_t

	# pad chiều Nk
	if Nk < max_Nk:
	pad_tensor = t.new_full(
	(max_Nk - Nk, max_n_parts, max_len),
	pad_value
	)
	t = torch.cat([t, pad_tensor], dim=0)

	padded.append(t)

	return torch.stack(padded) # (B, max_Nk, max_n_parts, max_len)

	def collate_fn(batch):
	gold_events = []
	for bidx, b in enumerate(batch):
	for event in b['gold_events']:
	trg = event[0]
	if len(event) > 1:
	for arg in event[1:]:
	gold_events.append([bidx, trg, arg])
	else:
	gold_events.append([bidx, trg, (tuple([]), 0)])

	input_ids = [b["input_ids"].unsqueeze(-1) for b in batch]
	attention_mask = [b["attention_mask"].unsqueeze(-1) for b in batch]
	trg_spans = [b["trg_spans"].unsqueeze(-1) for b in batch]
	trg_start_labels = [b["trg_start_labels"].unsqueeze(-1).unsqueeze(-1) for b in batch]
	trg_end_labels = [b["trg_end_labels"].unsqueeze(-1).unsqueeze(-1) for b in batch]
	all_arg_start_labels = [b["all_arg_start_labels"].unsqueeze(-1) for b in batch]
	all_arg_end_labels = [b["all_arg_end_labels"].unsqueeze(-1) for b in batch]

	# pad theo Nk
	input_ids = _pad_batch(input_ids, pad_value=0).squeeze(-1)
	attention_mask = _pad_batch(attention_mask, pad_value=0).squeeze(-1)
	trg_spans = _pad_batch(trg_spans, pad_value=0).squeeze(-1)
	trg_start_labels = _pad_batch(trg_start_labels, pad_value=-100).squeeze(-1).squeeze(-1)
	trg_end_labels = _pad_batch(trg_end_labels, pad_value=-100).squeeze(-1).squeeze(-1)
	all_arg_start_labels = _pad_batch(all_arg_start_labels, pad_value=-100).squeeze(-1)
	all_arg_end_labels = _pad_batch(all_arg_end_labels, pad_value=-100).squeeze(-1)

	return {
	"input_ids": input_ids,
	"attention_mask": attention_mask,
	"trg_spans": trg_spans,
	"trg_start_labels": trg_start_labels,
	"trg_end_labels": trg_end_labels,
	"all_arg_start_labels": all_arg_start_labels,
	"all_arg_end_labels": all_arg_end_labels,
	"gold_events": gold_events,
	}

	# %% [code]
	def shift_bidx(spans, batch_idx):
	shifted = []
	for bidx, trg, arg in spans:
	new_bidx = bidx + batch_idx * batch_size
	shifted.append((new_bidx, trg, arg))
	return shifted

	def refactor_events(events, save_dict):
	trg_i, trg_c, arg_i, arg_c, soft, strict_dict = [], [], [], [], [], {}
	for bidx, (trg_ids, trg_lb), (arg_k_ids, arg_k_lb) in events:
	if (bidx, trg_ids) not in trg_i:
	trg_i.append((bidx, trg_ids))

	if (bidx, (trg_ids, trg_lb)) not in trg_c:
	trg_c.append((bidx, (trg_ids, trg_lb)))

	if (bidx, trg_ids, arg_k_ids) not in arg_i:
	arg_i.append((bidx, trg_ids, arg_k_ids))

	if (bidx, trg_ids, (arg_k_ids, arg_k_lb)) not in arg_c:
	arg_c.append((bidx, trg_ids, (arg_k_ids, arg_k_lb)))

	if (bidx, (trg_ids, trg_lb), (arg_k_ids, arg_k_lb)) not in soft:
	soft.append((bidx, (trg_ids, trg_lb), (arg_k_ids, arg_k_lb)))

	if bidx not in strict_dict:
	strict_dict[bidx] = {}
	if (trg_ids, trg_lb) not in strict_dict[bidx]:
	strict_dict[bidx][(trg_ids, trg_lb)] = []
	strict_dict[bidx][(trg_ids, trg_lb)].append((arg_k_ids, arg_k_lb))

	strict = []
	for bidx, trg_dict in strict_dict.items():
	for trg, args in trg_dict.items():
	strict.append((bidx, trg, frozenset(args)))

	save_dict['Trg-I'].extend(trg_i)
	save_dict['Trg-C'].extend(trg_c)
	save_dict['Arg-I'].extend(arg_i)
	save_dict['Arg-C'].extend(arg_c)
	save_dict['Soft-Event'].extend(soft)
	save_dict['Strict-Event'].extend(strict)

	def test(network, state_dicts, test_loader, eval_fn, analyzer, device, id2label, tokenizer):
	if torch.cuda.device_count() > 1:
	network = DataParallelProxy(network)
	network = network.to(device)
	network.eval()

	eval_types = ['Trg-I', 'Trg-C', 'Arg-I', 'Arg-C', 'Soft-Event', 'Strict-Event']

	all_pred = {eval_type: [] for eval_type in eval_types}
	all_gold = {eval_type: [] for eval_type in eval_types}

	list_input_ids = []

	with torch.no_grad():
	for batch_idx, batch in enumerate(test_loader):
	input_ids = batch['input_ids'].to(device)
	attention_mask = batch['attention_mask'].to(device)
	gold_events = batch['gold_events']

	B, _, _ = input_ids.shape
	list_input_ids.extend(input_ids.reshape(B, -1).tolist())

	list_trg_start_logits = []
	list_trg_end_logits = []
	list_hidden_states = []
	list_arg_start_logits = []
	list_arg_end_logits = []

	for sd in state_dicts:
	if torch.cuda.device_count() > 1:
	network.module.load_state_dict(sd)
	else:
	network.load_state_dict(sd)

	hidden_states = network.encode(input_ids, attention_mask)
	trg_start_logits, trg_end_logits = network.get_trg_logits(hidden_states)
	list_trg_start_logits.append(trg_start_logits)
	list_trg_end_logits.append(trg_end_logits)
	list_hidden_states.append(hidden_states)

	ensemble_trg_start_logits = torch.stack(list_trg_start_logits, dim=0).mean(dim=0)
	ensemble_trg_end_logits = torch.stack(list_trg_end_logits, dim=0).mean(dim=0)
	trg_start_ids = torch.argmax(ensemble_trg_start_logits, dim=-1) # (B, L)
	trg_end_ids = torch.argmax(ensemble_trg_end_logits, dim=-1) # (B, L)
	pred_trg_spans = decode_spans_batch(trg_start_ids, trg_end_ids)

	for sd, hidden_states in zip(state_dicts, list_hidden_states):
	if torch.cuda.device_count() > 1:
	network.module.load_state_dict(sd)
	else:
	network.load_state_dict(sd)

	trg_repr = get_span_repr(hidden_states, pred_trg_spans) # B, N, 4H
	trg_repr = network.trg_repr_proj(trg_repr) # B, N, H
	arg_start_logits, arg_end_logits = network.get_arg_logits(hidden_states, trg_repr)

	list_arg_start_logits.append(arg_start_logits)
	list_arg_end_logits.append(arg_end_logits)

	ensemble_arg_start_logits = torch.stack(list_arg_start_logits, dim=0).mean(dim=0)
	ensemble_arg_end_logits = torch.stack(list_arg_end_logits, dim=0).mean(dim=0)

	pred_events = extract_arguments(
	input_ids.reshape(B, -1),
	ensemble_trg_start_logits, ensemble_trg_end_logits,
	ensemble_arg_start_logits, ensemble_arg_end_logits,
	pred_trg_spans, id2label
	)
	pred_events = shift_bidx(pred_events, batch_idx)
	refactor_events(pred_events, all_pred)

	gold_events = shift_bidx(gold_events, batch_idx)
	refactor_events(gold_events, all_gold)

	# ===== GLOBAL EVAL =====
	final_score = {}
	for eval_type in eval_types:
	score = eval_fn(list_to_tuple(all_pred[eval_type]), list_to_tuple(all_gold[eval_type]))
	final_score[eval_type] = score

	analyze_result = analyzer.analyze(list_to_tuple(all_pred['Trg-I']), list_to_tuple(all_gold['Trg-I']))

	# ===== PREDICT =====
	predictions = []
	for input_ids in list_input_ids:
	predictions.append([tokenizer.decode(input_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)])
	for event in all_pred['Strict-Event']:
	bidx = event[0]
	trg = tokenizer.decode(event[1][0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
	trg_lb = event[1][1]
	predictions[bidx].append((trg, trg_lb))

	for arg_infor in event[2]:
	arg = tokenizer.decode(arg_infor[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
	arg_lb = arg_infor[1]
	predictions[bidx].append((arg, arg_lb))

	return final_score, analyze_result, predictions

	# %% [code]
	with open(f'{train_dir}/train.json', "r", encoding="utf-8") as f:
	data_train = json.load(f)

	with open(f'{test_dir}/test.json', "r", encoding="utf-8") as f:
	data_test = json.load(f)

	print('Train:', len(data_train))
	print('Test:', len(data_test))

	# %% [code]
	trigger_types = ['O'] + sorted(list(set([e['label'] for d in data_train + data_test for e in d['events']]))) # NBR : Neighbor relation
	# bio_trigger_types = [f'{prefix}-{trg}' for trg in trigger_types for prefix in ['B', 'I']]
	trigger_label2id = {l: i for i, l in enumerate(trigger_types)}
	trigger_id2label = {i: l for l, i in trigger_label2id.items()}

	argument_types = ['O'] + sorted(list(set([a['role'] for d in data_train + data_test for e in d['events'] for a in e['arguments']])))
	# bio_argument_types = [f'{prefix}-{arg}' for arg in argument_types for prefix in ['B', 'I']]
	argument_label2id = {l: i for i, l in enumerate(argument_types)}
	argument_id2label = {i: l for l, i in argument_label2id.items()}

	label2id = {
	'Trg': trigger_label2id,
	'Arg': argument_label2id,
	}

	id2label = {
	'Trg': trigger_id2label,
	'Arg': argument_id2label,
	}

	# %% [code]
	zero_events_idxes = []
	for idx, d in enumerate(data_train):
	if len(d['events']) == 0:
	zero_events_idxes.append(idx)

	n_zero_events_samples = len(zero_events_idxes)
	n_has_events_samples = len(data_train) - n_zero_events_samples

	random.seed(42)
	k = min(int(n_has_events_samples * zero_events_rate), len(zero_events_idxes))
	sampled_zero_events_idxes = random.sample(zero_events_idxes, k)

	new_data_train = []
	for idx, d in enumerate(data_train):
	if len(d['events']) == 0:
	if idx in sampled_zero_events_idxes:
	new_data_train.append(d)
	else:
	new_data_train.append(d)
	data_train = new_data_train

	print('Train:', len(data_train))

	# %% [code]
	if debug_only:
	data_train = data_train[:20]
	data_test = data_test[:20]

	print('Train:', len(data_train))
	print('Test:', len(data_test))

	# %% [code]
	tokenizer = AutoTokenizer.from_pretrained(backbone_model_name)

	# %% [code]
	print('Experiment name:', state_dict_save_name)

	# %% [code]
	if not test_only:
	full_idxes = np.array(range(len(data_train)))
	training_logs, best_models, last_models = [], [], []
	start_training_time = time.time()
	for seed in SEEDS:
	kf = KFold(n_splits=nfolds, shuffle=True, random_state=seed)
	for fold_idx, (tr_idx, va_idx) in enumerate(kf.split(full_idxes)):
	if only_fold_idx is not None and only_fold_idx >= 0 and only_fold_idx != fold_idx:
	continue
	set_seed(seed)

	train_idxes, val_idxes = full_idxes[tr_idx], full_idxes[va_idx]

	trainset = KLTNDataset(data_train, train_idxes, label2id, tokenizer, **train_memory_params)
	valset = KLTNDataset(data_train, val_idxes, label2id, tokenizer, **val_memory_params)

	generator = torch.Generator()
	generator.manual_seed(seed)
	train_loader = DataLoader(trainset, generator=generator, collate_fn=collate_fn, **train_loader_params)
	val_loader = DataLoader(valset, generator=generator, collate_fn=collate_fn, **val_loader_params)

	my_model = IEModel(
	num_trg_labels=len(trigger_label2id),
	num_arg_labels=len(argument_label2id),
	**model_params
	)
	total_params = sum(p.numel() for p in my_model.parameters())
	print(f"Total params: {total_params:,}")

	# optimizer, scheduler = configure_optimizers(my_model, optim_params, scheduler_params)
	encoder_params = set(map(id, my_model.encoder.parameters()))
	other_params = [
	p for p in my_model.parameters()
	if id(p) not in encoder_params
	]
	optimizer = optim.AdamW([
	{"params": my_model.encoder.parameters(), "lr": 2e-5},
	{"params": other_params}
	], lr=5e-4)
	scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=20, eta_min=1e-6)

	loss_fn = CustomLoss(
	**loss_func_params
	)
	eval_fn = CustomEvalFn(**eval_func_params)
	trainer_params['save_name'] = f'{state_dict_save_name}_s{seed}_f{fold_idx}'
	trainer = Trainer(**trainer_params)

	print(f'Start Training Fold {fold_idx}...')
	training_log, best_model, last_model = trainer.fit(
	my_model, optimizer, scheduler, loss_fn, epochs, train_loader, val_loader, eval_fn,
	start_epoch=1, start_training_time=start_training_time, id2label=id2label
	)

	training_logs.append(training_log)
	best_models.append(best_model)
	last_models.append(last_model)

	# %% [code]
	def load_all_state_dicts(folder):
	files = []

	for file in os.listdir(folder):
	if file.endswith(".pt") or file.endswith(".pth"):
	m = re.search(r"f(\d+)", file) # tìm f<số>
	if m:
	fold = int(m.group(1))
	files.append((fold, file))

	# sort theo fold
	files.sort(key=lambda x: x[0])

	state_dicts = []
	for fold, file in files:
	path = os.path.join(folder, file)
	print(f"Loading fold {fold}: {file}")
	state_dict = torch.load(path, map_location="cpu")
	state_dicts.append(state_dict)

	return state_dicts

	if test_only:
	snapshot_download(repo_id=repo_name, local_dir="", repo_type="model", allow_patterns=[f"{state_dict_save_name}/**"])
	get_ipython().system('rm -rf .cache .gitattributes')

	best_models = load_all_state_dicts(f"{state_dict_save_name}/r1s")
	last_models = load_all_state_dicts(f"{state_dict_save_name}/lasts")

	# %% [code]
	os.makedirs(f'{checkpoints_dir}/results', exist_ok=True)
	testset = KLTNDataset(data_test, range(len(data_test)), label2id, tokenizer, **val_memory_params)
	generator = torch.Generator()
	test_loader = DataLoader(testset, generator=generator, collate_fn=collate_fn, **val_loader_params)
	eval_fn = CustomEvalFn(**eval_func_params)
	analyzer = SpanErrorAnalyzer()
	my_model = IEModel(
	num_trg_labels=len(trigger_label2id),
	num_arg_labels=len(argument_label2id),
	**model_params
	)
	total_params = sum(p.numel() for p in my_model.parameters())
	print(f"Total params: {total_params:,}")

	# %% [code]
	start_time = time.time()

	best_score, best_analyze_result, best_pred_test = test(my_model, best_models, test_loader, eval_fn, analyzer, device, id2label, tokenizer)
	last_score, last_analyze_result, last_pred_test = test(my_model, last_models, test_loader, eval_fn, analyzer, device, id2label, tokenizer)

	result_test = {"Best model": best_score, "Last model": last_score}
	analyze_result = {"Best model": best_analyze_result, "Last model": last_analyze_result}
	analyze_result_sumary = {"Best model": best_analyze_result['summary'], "Last model": last_analyze_result['summary']}
	pred_test = {"Best model": best_pred_test, "Last model": last_pred_test}

	with open(f"{checkpoints_dir}/results/{state_dict_save_name}_test.json", "w", encoding="utf-8") as f:
	json.dump(result_test, f, ensure_ascii=False, indent=2)

	with open(f"{checkpoints_dir}/results/{state_dict_save_name}_error_analyze_result.json", "w", encoding="utf-8") as f:
	json.dump(analyze_result, f, ensure_ascii=False, indent=2)

	with open(f"{checkpoints_dir}/results/{state_dict_save_name}_pred_test.json", "w", encoding="utf-8") as f:
	json.dump(pred_test, f, ensure_ascii=False, indent=2)

	print('Test:', time.time() - start_time, 's --> Done!')
	print(json.dumps(analyze_result_sumary, ensure_ascii=False, indent=4))

	# %% [code]
	best_pred_test[:10]

	# %% [code]
	last_pred_test[:10]

	# %% [code]
	def dict_to_df(data):
	row_tuples = []
	row_values = []

	metrics = ["precision", "recall", "f1"]

	# Lấy model đầu tiên
	first_model = next(iter(data.values()))

	# eval_keys
	eval_keys = list(first_model.keys())

	for eval_key in eval_keys:
	row_tuples.append(eval_key)
	row = {}

	for model_name, model_data in data.items():
	for metric in metrics:
	row[(model_name, metric)] = model_data[eval_key][metric]

	row_values.append(row)

	# ===== DataFrame =====
	df = pd.DataFrame(row_values)

	# MultiIndex columns
	df.columns = pd.MultiIndex.from_tuples(df.columns)

	# Index
	df.index = pd.Index(row_tuples, name="evaluation")

	# ===== Sort =====
	sort_keys = []
	if ("Best model", "f1") in df.columns:
	sort_keys.append(("Best model", "f1"))
	if ("Last model", "f1") in df.columns:
	sort_keys.append(("Last model", "f1"))

	if sort_keys:
	df = df.sort_values(by=sort_keys, ascending=False)

	return df

	result_test_df = dict_to_df(result_test)
	result_test_df.to_excel(f"{checkpoints_dir}/results/{state_dict_save_name}_test_df.xlsx")
	result_test_df

	# %% [code]
	key = ("Best model", "f1")
	result_test_df_best = result_test_df.sort_values(by=key, ascending=False).groupby(level="evaluation").head(1)
	result_test_df_best.to_excel(f"{checkpoints_dir}/results/{state_dict_save_name}_test_df_best.xlsx")
	result_test_df_best

	# %% [code]
	def get_avg_best_score(logs):
	return float(np.mean([list(log.values())[-1]['best_score'] for log in logs]))

	def get_avg_log(logs, epochs):
	avg_log = {}

	for epoch in range(1, epochs + 1):
	val_score = 0.0
	train_loss = 0.0
	n_eval = 0

	for idx in range(len(logs)):
	log = logs[idx].get(epoch, logs[idx].get(str(epoch)))
	if log is None:
	continue

	val_score += log.get('val_score', 0.0)
	train_loss += log.get('train_loss', 0.0)
	n_eval += 1

	if n_eval == 0:
	continue

	avg_log[epoch] = {
	'train_loss': train_loss / n_eval,
	'val_score': val_score / n_eval if val_score != 0 else float('inf')
	}

	return avg_log

	def parse_label_key(label: str):
	try:
	first = float(label.split('_', 1)[0]) # số đầu: trước dấu _
	last = float(re.findall(r'_(\d+(?:\.\d+)?)$', label)[0])
	return first, last
	except:
	return (0, 0)

	def plot_training_logs(logs_dict, save_path=None, figsize=(24, 10)):
	fig, axes = plt.subplots(1, 2, figsize=figsize)

	# ===== Plot Train Loss =====
	for name, log in logs_dict.items():
	epochs = sorted(log.keys())
	train_loss = [log[e]['train_loss'] for e in epochs]
	axes[0].plot(epochs, train_loss, label=name)

	axes[0].set_xlabel('Epoch')
	axes[0].set_ylabel('Train Loss')
	axes[0].set_title('Training Loss')
	axes[0].grid(True)

	# ===== Plot Validation Score =====
	for name, log in logs_dict.items():
	epochs = sorted(log.keys())
	val_score = [log[e]['val_score'] for e in epochs]
	axes[1].plot(epochs, val_score, label=name)

	axes[1].set_xlabel('Epoch')
	axes[1].set_ylabel('Validation Score')
	axes[1].set_title('Validation Score')
	axes[1].grid(True)

	# ===== Shared Legend =====
	handles, labels = axes[0].get_legend_handles_labels()
	pairs = list(zip(handles, labels))
	pairs_sorted = sorted(
	pairs,
	key=lambda x: parse_label_key(x[1])
	)
	handles_sorted, labels_sorted = zip(*pairs_sorted)

	axes[0].legend(
	handles_sorted,
	labels_sorted,
	loc='center left',
	bbox_to_anchor=(1.01, 0.5),
	borderaxespad=0.
	)

	plt.tight_layout(rect=[0, 0, 1, 1])

	if save_path is not None:
	os.makedirs(os.path.dirname(save_path), exist_ok=True) if os.path.dirname(save_path) else None
	plt.savefig(save_path, dpi=300, bbox_inches='tight')

	plt.show()

	# %% [code]
	if not test_only:
	snapshot_download(repo_id=repo_name, local_dir="", repo_type="model", allow_patterns=["*/.json"])
	get_ipython().system('rm -rf .cache .gitattributes')

	# %% [code]
	if not test_only:
	experiments = {}
	for experiment in os.listdir(pretrained_dir):
	if '.virtual_documents' in experiment:
	continue
	experiment_logs = []
	try:
	for seed in SEEDS:
	for fold_idx in range(nfolds):
	with open(f"{pretrained_dir}/{experiment}/logs/{experiment}_s{seed}_f{fold_idx}_logging.json", "r", encoding="utf-8") as f:
	experiment_log = json.load(f)
	experiment_logs.append(experiment_log)
	except:
	pass
	experiments[experiment] = get_avg_log(experiment_logs, 1000)
	experiments[state_dict_save_name] = get_avg_log(training_logs, 1000)

	# %% [code]
	if not test_only:
	score = get_avg_best_score(training_logs)
	state_dict_save_name, score

	# %% [code]
	if not test_only:
	plot_training_logs(experiments, save_path=f'{checkpoints_dir}/logs/{state_dict_save_name}_log_plot.jpg', figsize=(18, 7.5))