Node-JEPA / node_jepa_baseline_eval.py

Fix total_mem -> total_memory for PyTorch compatibility

861dbe5 verified about 3 hours ago

25.7 kB

	"""
	Node-JEPA V4.2 — Comprehensive Baseline Evaluation
	====================================================
	Evaluates Node-JEPA on standard benchmarks with:
	1. Linear probe accuracy (raw, L2-norm, StandardScaler)
	2. Embedding geometry metrics (isotropy, alignment, uniformity, effective rank)
	3. Inference timing
	4. Multi-seed robustness

	Benchmarks: Cora, CiteSeer, PubMed, ogbn-arxiv (if scalable)

	Published SSL SOTA for reference:
	Cora: 84.2% (GraphMAE)
	CiteSeer: 73.4% (GraphMAE)
	PubMed: 81.1% (GraphMAE)
	ogbn-arxiv: 71.87% (GraphMAE)

	Run in Colab:
	!pip install torch torch_geometric trackio huggingface_hub ogb scikit-learn
	!wget https://huggingface.co/EPSAGR/node-jepa/resolve/main/node_jepa_baseline_eval.py
	!python node_jepa_baseline_eval.py
	"""

	import math, copy, os, sys, json, time, gc
	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.optim import AdamW
	import warnings
	warnings.filterwarnings("ignore", category=UserWarning)
	warnings.filterwarnings("ignore", category=FutureWarning)

	try:
	from torch_geometric.nn import GATConv, GCNConv
	from torch_geometric.datasets import Planetoid
	from torch_geometric.transforms import NormalizeFeatures
	HAS_PYG = True
	except ImportError:
	HAS_PYG = False
	print("ERROR: torch_geometric not installed. Run: pip install torch_geometric")
	sys.exit(1)

	try:
	from ogb.nodeproppred import PygNodePropPredDataset
	HAS_OGB = True
	except ImportError:
	HAS_OGB = False
	print("WARNING: ogb not installed, skipping ogbn-arxiv. Run: pip install ogb")

	from sklearn.linear_model import LogisticRegression
	from sklearn.preprocessing import StandardScaler

	try:
	import trackio
	HAS_TRACKIO = True
	except:
	HAS_TRACKIO = False

	try:
	from huggingface_hub import HfApi
	HAS_HF_HUB = True
	except:
	HAS_HF_HUB = False


	def decorrelation_loss(z):
	N, D = z.shape
	z_centered = z - z.mean(0)
	z_std = z_centered / (z_centered.std(0) + 1e-8)
	R = (z_std.T @ z_std) / N
	I = torch.eye(D, device=z.device)
	return (R - I).pow(2).sum() / (D * D)

	def sce_loss(pred, target, alpha=1):
	pred = F.normalize(pred, p=2, dim=-1)
	target = F.normalize(target, p=2, dim=-1)
	return (1 - (pred * target).sum(dim=-1)).pow(alpha).mean()


	class GraphAugmentor:
	def __init__(self, feat_mask_p=0.0, edge_drop_p=0.0):
	self.feat_mask_p = feat_mask_p
	self.edge_drop_p = edge_drop_p
	def __call__(self, x, edge_index):
	device = x.device
	if self.feat_mask_p > 0:
	feat_mask = torch.bernoulli(torch.ones_like(x) * (1 - self.feat_mask_p))
	x = x * feat_mask
	if self.edge_drop_p > 0:
	edge_mask = torch.bernoulli(torch.ones(edge_index.size(1), device=device) * (1 - self.edge_drop_p)).bool()
	edge_index = edge_index[:, edge_mask]
	return x, edge_index

	class GATEncoder(nn.Module):
	def __init__(self, in_dim, hidden_dim, out_dim, num_layers=2, num_heads=4, dropout=0.0):
	super().__init__()
	self.num_layers = num_layers
	self.reg_token = nn.Parameter(torch.zeros(1, in_dim))
	nn.init.trunc_normal_(self.reg_token, std=0.02)
	self.input_proj = nn.Linear(in_dim, hidden_dim)
	self.input_bn = nn.BatchNorm1d(hidden_dim, momentum=0.01)
	self.gat_layers = nn.ModuleList()
	self.bns = nn.ModuleList()
	self.activations = nn.ModuleList()
	for _ in range(num_layers):
	self.gat_layers.append(GATConv(hidden_dim, hidden_dim // num_heads, heads=num_heads,
	concat=True, dropout=dropout, add_self_loops=True))
	self.bns.append(nn.BatchNorm1d(hidden_dim, momentum=0.01))
	self.activations.append(nn.PReLU())
	self.output_proj = nn.Linear(hidden_dim, out_dim)
	def forward(self, x, edge_index):
	device = x.device; N = x.size(0)
	x_aug = torch.cat([x, self.reg_token.expand(1, -1).to(device)], dim=0)
	reg_edges = torch.cat([
	torch.stack([torch.full((N,), N, dtype=torch.long, device=device), torch.arange(N, device=device)]),
	torch.stack([torch.arange(N, device=device), torch.full((N,), N, dtype=torch.long, device=device)])], dim=1)
	ei_aug = torch.cat([edge_index, reg_edges], dim=1)
	h = F.prelu(self.input_bn(self.input_proj(x_aug)), torch.tensor(0.25, device=device))
	for i in range(self.num_layers):
	h = self.activations[i](self.bns[i](self.gat_layers[i](h, ei_aug))) + h
	return self.output_proj(h)[:N]

	class GCNEncoder(nn.Module):
	def __init__(self, in_dim, hidden_dim, out_dim, num_layers=2, dropout=0.0):
	super().__init__()
	self.num_layers = num_layers
	self.input_proj = nn.Linear(in_dim, hidden_dim)
	self.input_bn = nn.BatchNorm1d(hidden_dim, momentum=0.01)
	self.gcn_layers = nn.ModuleList()
	self.bns = nn.ModuleList()
	self.activations = nn.ModuleList()
	for _ in range(num_layers):
	self.gcn_layers.append(GCNConv(hidden_dim, hidden_dim))
	self.bns.append(nn.BatchNorm1d(hidden_dim, momentum=0.01))
	self.activations.append(nn.PReLU())
	self.output_proj = nn.Linear(hidden_dim, out_dim)
	def forward(self, x, edge_index):
	h = F.prelu(self.input_bn(self.input_proj(x)), torch.tensor(0.25, device=x.device))
	for i in range(self.num_layers):
	h = self.activations[i](self.bns[i](self.gcn_layers[i](h, edge_index))) + h
	return self.output_proj(h)

	class MLPPredictor(nn.Module):
	def __init__(self, dim, hidden=512):
	super().__init__()
	self.net = nn.Sequential(nn.Linear(dim, hidden), nn.BatchNorm1d(hidden, momentum=0.01), nn.PReLU(), nn.Linear(hidden, dim))
	def forward(self, x): return self.net(x)

	class FeatureDecoder(nn.Module):
	def __init__(self, embed_dim, hidden_dim, out_dim):
	super().__init__()
	self.net = nn.Sequential(nn.Linear(embed_dim, hidden_dim), nn.BatchNorm1d(hidden_dim, momentum=0.01), nn.PReLU(), nn.Linear(hidden_dim, out_dim))
	def forward(self, x): return self.net(x)

	class NodeMasker(nn.Module):
	def __init__(self, feat_dim, mask_rate=0.5, replace_rate=0.05):
	super().__init__()
	self.mask_rate = mask_rate; self.replace_rate = replace_rate
	self.mask_token = nn.Parameter(torch.zeros(1, feat_dim))
	nn.init.trunc_normal_(self.mask_token, std=0.02)
	def forward(self, x):
	N = x.size(0); num_mask = max(1, int(N * self.mask_rate))
	perm = torch.randperm(N, device=x.device)
	mask = torch.zeros(N, dtype=torch.bool, device=x.device); mask[perm[:num_mask]] = True
	x_m = x.clone(); nr = max(0, int(num_mask * self.replace_rate))
	x_m[perm[:num_mask - nr]] = self.mask_token.expand(num_mask - nr, -1)
	if nr > 0: x_m[perm[num_mask - nr:num_mask]] = x[torch.randint(0, N, (nr,), device=x.device)]
	return x_m, mask


	class NodeJEPA(nn.Module):
	def __init__(self, in_dim, hidden_dim=512, out_dim=256, num_layers=2, num_heads=4,
	predictor_hidden=512, mask_rate=0.5, replace_rate=0.05,
	ema_tau_base=0.99, ema_tau_final=1.0,
	aug1_feat_p=0.0, aug1_edge_p=0.0, aug2_feat_p=0.0, aug2_edge_p=0.0,
	lambda_dec=0.0, mu_rec=0.0, sce_alpha=1, encoder_type='gat', dropout=0.0):
	super().__init__()
	self.ema_tau_base = ema_tau_base; self.ema_tau_final = ema_tau_final
	self.lambda_dec = lambda_dec; self.mu_rec = mu_rec; self.sce_alpha = sce_alpha
	if encoder_type == 'gat':
	self.online_encoder = GATEncoder(in_dim, hidden_dim, out_dim, num_layers, num_heads, dropout)
	else:
	self.online_encoder = GCNEncoder(in_dim, hidden_dim, out_dim, num_layers, dropout)
	self.target_encoder = copy.deepcopy(self.online_encoder)
	for p in self.target_encoder.parameters(): p.requires_grad = False
	self.predictor = MLPPredictor(out_dim, predictor_hidden)
	self.masker = NodeMasker(in_dim, mask_rate, replace_rate)
	self.aug1 = GraphAugmentor(aug1_feat_p, aug1_edge_p)
	self.aug2 = GraphAugmentor(aug2_feat_p, aug2_edge_p)
	self.feat_decoder = FeatureDecoder(out_dim, hidden_dim, in_dim) if mu_rec > 0 else None

	@torch.no_grad()
	def update_target(self, tau):
	for po, pt in zip(self.online_encoder.parameters(), self.target_encoder.parameters()):
	pt.data.mul_(tau).add_(po.data, alpha=1 - tau)

	def _jepa_loss(self, x, edge_index, aug_o, aug_t, do_mask=True):
	xo, eio = aug_o(x, edge_index); xt, eit = aug_t(x, edge_index)
	if do_mask: xo, mask = self.masker(xo)
	else: mask = torch.ones(x.size(0), dtype=torch.bool, device=x.device)
	ho = self.online_encoder(xo, eio)
	with torch.no_grad(): ht = self.target_encoder(xt, eit)
	pred = F.normalize(self.predictor(ho[mask]), dim=-1)
	tgt = F.normalize(ht[mask], dim=-1)
	return 2 - 2 * (pred * tgt).sum(-1).mean(), ho, mask

	def forward(self, data):
	x, edge_index = data.x, data.edge_index
	l1, ho1, m1 = self._jepa_loss(x, edge_index, self.aug1, self.aug2, True)
	l2, ho2, m2 = self._jepa_loss(x, edge_index, self.aug2, self.aug1, False)
	l_jepa = (l1 + l2) / 2
	l_dec = self.lambda_dec * (decorrelation_loss(ho1) + decorrelation_loss(ho2)) / 2 if self.lambda_dec > 0 else torch.tensor(0.0, device=x.device)
	l_rec = torch.tensor(0.0, device=x.device)
	if self.mu_rec > 0 and self.feat_decoder is not None:
	l_rec = self.mu_rec * sce_loss(self.feat_decoder(ho1[m1]), x[m1], self.sce_alpha)
	return l_jepa + l_dec + l_rec, l_jepa, l_dec, l_rec

	@torch.no_grad()
	def encode(self, data):
	self.online_encoder.eval()
	return self.online_encoder(data.x, data.edge_index)


	def cosine_scheduler(base, final, steps):
	return [final - (final - base) * (math.cos(math.pi * s / max(steps - 1, 1)) + 1) / 2 for s in range(steps)]


	def compute_geometry_metrics(embeddings, labels=None, sample_size=2000):
	N, D = embeddings.shape
	idx = np.random.choice(N, min(N, sample_size), replace=False) if N > sample_size else np.arange(N)
	embs_sub = embeddings[idx]; labels_sub = labels[idx] if labels is not None else None
	embs_centered = embs_sub - embs_sub.mean(0)
	try: U, S, Vt = np.linalg.svd(embs_centered, full_matrices=False)
	except: S = np.ones(min(embs_sub.shape))
	total_var = (S**2).sum()
	if total_var < 1e-12: eff_rank_95, eff_rank_99 = 1, 1
	else:
	ev = np.cumsum(S**2) / total_var
	eff_rank_95 = int(np.searchsorted(ev, 0.95) + 1); eff_rank_99 = int(np.searchsorted(ev, 0.99) + 1)
	if len(S) > 1 and S[0] > 1e-12:
	isotropy = float(S[-1] / S[0])
	log_s2 = np.log(S**2 + 1e-12)
	isotropy_ratio = np.exp(log_s2.mean()) / ((S**2).mean() + 1e-12)
	else: isotropy = 0.0; isotropy_ratio = 0.0
	norms = np.linalg.norm(embs_sub, axis=1, keepdims=True) + 1e-8
	embs_norm = embs_sub / norms; n = embs_sub.shape[0]
	cos_matrix = embs_norm @ embs_norm.T; np.fill_diagonal(cos_matrix, 0)
	avg_cos = cos_matrix.sum() / (n * (n - 1))
	alignment = 0.0
	if labels_sub is not None:
	sims = []
	for c in np.unique(labels_sub):
	mc = labels_sub == c
	if mc.sum() > 1:
	ec = embs_norm[mc]; cc = ec @ ec.T; np.fill_diagonal(cc, 0)
	sims.extend(cc[np.triu_indices(ec.shape[0], k=1)].tolist())
	if sims: alignment = float(np.mean(sims))
	diff = embs_norm[:, None, :] - embs_norm[None, :, :]
	sq_dist = (diff ** 2).sum(-1); umask = ~np.eye(n, dtype=bool)
	uniformity = float(np.log(np.exp(-2 * sq_dist[umask]).mean() + 1e-12))
	return {
	"isotropy_minmax": float(isotropy), "isotropy_ratio": float(isotropy_ratio),
	"alignment": float(alignment), "uniformity": float(uniformity),
	"effective_rank_95": eff_rank_95, "effective_rank_99": eff_rank_99,
	"avg_cos_sim": float(avg_cos), "std_per_dim": float(embeddings.std(axis=0).mean()),
	"embed_dim": D, "num_nodes": N,
	}


	def linear_eval_multi(embeddings, labels, train_mask, val_mask, test_mask, num_seeds=20, max_iter=2000):
	results = {}
	for norm_name, norm_fn in [
	("raw", lambda e: e),
	("l2", lambda e: e / (np.linalg.norm(e, axis=1, keepdims=True) + 1e-8)),
	("standard", lambda e: StandardScaler().fit_transform(e)),
	]:
	embs = norm_fn(embeddings.copy())
	X_train, y_train = embs[train_mask], labels[train_mask]
	X_val, y_val = embs[val_mask], labels[val_mask]
	X_test, y_test = embs[test_mask], labels[test_mask]
	test_accs = []
	for seed in range(num_seeds):
	best_val, best_test = -1, -1
	for C in [0.001, 0.01, 0.1, 0.5, 1.0, 5.0, 10.0, 50.0, 100.0]:
	clf = LogisticRegression(max_iter=max_iter, solver='lbfgs', random_state=seed, C=C)
	clf.fit(X_train, y_train)
	v = clf.score(X_val, y_val)
	if v > best_val:
	best_val = v
	best_test = clf.score(X_test, y_test)
	test_accs.append(best_test * 100)
	results[norm_name] = {"mean": float(np.mean(test_accs)), "std": float(np.std(test_accs))}
	return results

	def measure_inference_time(model, data, num_runs=100, warmup=10):
	model.eval(); device = next(model.parameters()).device; data = data.to(device)
	with torch.no_grad():
	for _ in range(warmup): _ = model.encode(data)
	if device.type == 'cuda': torch.cuda.synchronize()
	times = []
	with torch.no_grad():
	for _ in range(num_runs):
	if device.type == 'cuda': torch.cuda.synchronize()
	t0 = time.perf_counter(); _ = model.encode(data)
	if device.type == 'cuda': torch.cuda.synchronize()
	times.append((time.perf_counter() - t0) * 1000)
	return {"mean_ms": float(np.mean(times)), "std_ms": float(np.std(times)),
	"median_ms": float(np.median(times)), "num_nodes": data.num_nodes,
	"ms_per_1k_nodes": float(np.mean(times) / (data.num_nodes / 1000))}


	def get_lr(epoch, warmup_epochs, total_epochs, base_lr, min_lr=1e-6):
	if epoch < warmup_epochs: return base_lr * (epoch + 1) / warmup_epochs
	progress = (epoch - warmup_epochs) / max(total_epochs - warmup_epochs, 1)
	return min_lr + (base_lr - min_lr) * (1 + math.cos(math.pi * progress)) / 2

	def train_and_evaluate(dataset_name, data, device, config, seed=42):
	torch.manual_seed(seed); np.random.seed(seed)
	if device.type == 'cuda': torch.cuda.manual_seed(seed)
	epochs, lr, warmup = config['epochs'], config['lr'], config['warmup']
	model = NodeJEPA(
	in_dim=data.num_features, hidden_dim=config['hidden_dim'], out_dim=config['out_dim'],
	num_layers=config['num_layers'], num_heads=config.get('num_heads', 4),
	predictor_hidden=config['hidden_dim'], mask_rate=config['mask_rate'],
	ema_tau_base=config['ema_tau_base'],
	aug1_feat_p=config['aug1_feat_p'], aug1_edge_p=config['aug1_edge_p'],
	aug2_feat_p=config['aug2_feat_p'], aug2_edge_p=config['aug2_edge_p'],
	lambda_dec=config.get('lambda_dec', 0.0), mu_rec=config.get('mu_rec', 0.0),
	encoder_type=config.get('encoder_type', 'gat'),
	).to(device)
	optimizer = AdamW([p for p in model.parameters() if p.requires_grad], lr=lr, weight_decay=config.get('weight_decay', 1e-5))
	ema_sched = cosine_scheduler(config['ema_tau_base'], 1.0, epochs)
	t0 = time.time(); eval_interval = max(1, epochs // 10); log_interval = max(1, epochs // 30)
	best_eval, best_ep, train_losses = 0, 0, []
	for ep in range(epochs):
	model.train(); cur_lr = get_lr(ep, warmup, epochs, lr)
	for pg in optimizer.param_groups: pg['lr'] = cur_lr
	total_loss, l_jepa, l_dec, l_rec = model(data)
	optimizer.zero_grad(); total_loss.backward()
	torch.nn.utils.clip_grad_norm_(model.parameters(), 3.0)
	optimizer.step(); model.update_target(ema_sched[ep])
	train_losses.append(total_loss.item())
	if (ep + 1) % log_interval == 0 or ep == 0:
	print(f" [{dataset_name}] Ep {ep+1:4d}/{epochs} \| L={total_loss.item():.4f} (j={l_jepa.item():.4f} d={l_dec.item():.4f} r={l_rec.item():.4f}) \| LR={cur_lr:.1e} \| {time.time()-t0:.0f}s"); sys.stdout.flush()
	if (ep + 1) % eval_interval == 0:
	model.eval()
	with torch.no_grad(): embs = model.encode(data).cpu().numpy()
	ln = data.y.cpu().numpy()
	if len(ln.shape) > 1: ln = ln.squeeze()
	X_tr, y_tr = embs[data.train_mask.cpu().numpy()], ln[data.train_mask.cpu().numpy()]
	X_te, y_te = embs[data.test_mask.cpu().numpy()], ln[data.test_mask.cpu().numpy()]
	clf = LogisticRegression(max_iter=2000, solver='lbfgs', C=1.0); clf.fit(X_tr, y_tr)
	acc = clf.score(X_te, y_te) * 100
	if acc > best_eval: best_eval = acc; best_ep = ep + 1
	print(f" [{dataset_name}] EVAL @{ep+1}: raw={acc:.1f}% \| BEST={best_eval:.1f}%@{best_ep}"); sys.stdout.flush()
	train_time = time.time() - t0
	print(f"\n [{dataset_name}] === FINAL COMPREHENSIVE EVALUATION ===")
	model.eval()
	with torch.no_grad(): embeddings = model.encode(data).cpu().numpy()
	labels_np = data.y.cpu().numpy()
	if len(labels_np.shape) > 1: labels_np = labels_np.squeeze()
	train_mask = data.train_mask.cpu().numpy()
	val_mask = data.val_mask.cpu().numpy() if hasattr(data, 'val_mask') and data.val_mask is not None else train_mask
	test_mask = data.test_mask.cpu().numpy()
	print(f" [{dataset_name}] Running 20-seed linear probe...")
	probe = linear_eval_multi(embeddings, labels_np, train_mask, val_mask, test_mask, num_seeds=20)
	best_acc = max(probe[k]['mean'] for k in probe)
	best_norm = max(probe, key=lambda k: probe[k]['mean'])
	print(f" [{dataset_name}] ACCURACY: raw={probe['raw']['mean']:.2f}+/-{probe['raw']['std']:.2f} \| l2={probe['l2']['mean']:.2f}+/-{probe['l2']['std']:.2f} \| std={probe['standard']['mean']:.2f}+/-{probe['standard']['std']:.2f}")
	print(f" [{dataset_name}] BEST: {best_acc:.2f}% ({best_norm})")
	print(f" [{dataset_name}] Computing embedding geometry...")
	geometry = compute_geometry_metrics(embeddings, labels_np)
	print(f" [{dataset_name}] GEOMETRY: isotropy={geometry['isotropy_ratio']:.6f} align={geometry['alignment']:.4f} uniform={geometry['uniformity']:.4f} rank95={geometry['effective_rank_95']} cos={geometry['avg_cos_sim']:.4f}")
	print(f" [{dataset_name}] Measuring inference time...")
	timing = measure_inference_time(model, data)
	print(f" [{dataset_name}] TIMING: {timing['mean_ms']:.2f}+/-{timing['std_ms']:.2f}ms \| {timing['ms_per_1k_nodes']:.2f}ms/1K nodes")
	checks = {"isotropy_ratio > 0.3": geometry['isotropy_ratio'] > 0.3, "alignment 0.4-0.8": 0.4 <= geometry['alignment'] <= 0.8,
	"uniformity < -2.0": geometry['uniformity'] < -2.0, "inference <= 5ms/1K": timing['ms_per_1k_nodes'] <= 5.0}
	print(f" [{dataset_name}] CHECKS: " + " \| ".join(f"{'PASS' if v else 'FAIL'}:{k}" for k, v in checks.items()))
	return {"dataset": dataset_name, "config": {k: v for k, v in config.items()}, "seed": seed,
	"accuracy": probe, "best_accuracy": best_acc, "best_norm": best_norm,
	"geometry": geometry, "timing": timing, "train_time": train_time,
	"train_losses": train_losses[-10:], "checks": {k: bool(v) for k, v in checks.items()}}


	CONFIGS = {
	"Cora": {'epochs': 600, 'lr': 1e-3, 'warmup': 100, 'hidden_dim': 512, 'out_dim': 256, 'num_layers': 2, 'num_heads': 4, 'mask_rate': 0.5, 'ema_tau_base': 0.99, 'weight_decay': 1e-5, 'aug1_feat_p': 0.5, 'aug1_edge_p': 0.5, 'aug2_feat_p': 0.3, 'aug2_edge_p': 0.5, 'encoder_type': 'gcn', 'lambda_dec': 0.0, 'mu_rec': 2.0},
	"CiteSeer": {'epochs': 600, 'lr': 3e-4, 'warmup': 200, 'hidden_dim': 512, 'out_dim': 256, 'num_layers': 2, 'num_heads': 4, 'mask_rate': 0.5, 'ema_tau_base': 0.99, 'weight_decay': 1e-5, 'aug1_feat_p': 0.5, 'aug1_edge_p': 0.4, 'aug2_feat_p': 0.3, 'aug2_edge_p': 0.4, 'encoder_type': 'gat', 'lambda_dec': 0.0, 'mu_rec': 2.0},
	"PubMed": {'epochs': 600, 'lr': 1e-3, 'warmup': 100, 'hidden_dim': 512, 'out_dim': 256, 'num_layers': 2, 'num_heads': 4, 'mask_rate': 0.6, 'ema_tau_base': 0.99, 'weight_decay': 1e-5, 'aug1_feat_p': 0.5, 'aug1_edge_p': 0.4, 'aug2_feat_p': 0.3, 'aug2_edge_p': 0.5, 'encoder_type': 'gcn', 'lambda_dec': 0.0, 'mu_rec': 2.0},
	}

	ARXIV_CONFIG = {'epochs': 300, 'lr': 1e-3, 'warmup': 100, 'hidden_dim': 1024, 'out_dim': 512, 'num_layers': 3, 'num_heads': 4, 'mask_rate': 0.5, 'ema_tau_base': 0.996, 'weight_decay': 1e-5, 'aug1_feat_p': 0.5, 'aug1_edge_p': 0.4, 'aug2_feat_p': 0.3, 'aug2_edge_p': 0.4, 'encoder_type': 'gcn', 'lambda_dec': 0.0, 'mu_rec': 2.0}


	def main():
	torch.manual_seed(42); np.random.seed(42)
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	print(f"Device: {device}")
	if device.type == "cuda":
	print(f" GPU: {torch.cuda.get_device_name(0)}")
	try:
	print(f" VRAM: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
	except AttributeError:
	print(f" VRAM: unknown")
	torch.cuda.manual_seed(42)
	tracker = None
	if HAS_TRACKIO:
	try: trackio.init(name="node-jepa-v4.2-baseline", project="node-jepa"); tracker = True; print("Trackio initialized")
	except Exception as e: print(f"Trackio init failed: {e}")
	all_results = {}; ssl_sota = {"Cora": 84.2, "CiteSeer": 73.4, "PubMed": 81.1}
	for ds in ["Cora", "CiteSeer", "PubMed"]:
	print(f"\n{'='80}\nBENCHMARK: {ds} (SSL SOTA: {ssl_sota[ds]}%)\n{'='80}")
	dataset = Planetoid(root="/tmp/pyg_data", name=ds, transform=NormalizeFeatures())
	data = dataset[0].to(device)
	print(f" {data.num_nodes} nodes, {data.num_edges} edges, {data.num_features} feat, {dataset.num_classes} classes")
	seeds_res = []
	for seed in [42, 123, 456]:
	print(f"\n --- Seed {seed} ---")
	r = train_and_evaluate(ds, data, device, CONFIGS[ds], seed=seed); seeds_res.append(r)
	if tracker: trackio.log({f"{ds}/s{seed}/acc": r['best_accuracy'], f"{ds}/s{seed}/rank95": r['geometry']['effective_rank_95']})
	accs = [r['best_accuracy'] for r in seeds_res]
	all_results[ds] = {"seeds": seeds_res, "mean_accuracy": float(np.mean(accs)), "std_accuracy": float(np.std(accs)),
	"max_accuracy": float(np.max(accs)), "ssl_sota": ssl_sota[ds], "gap_to_sota": float(ssl_sota[ds] - np.mean(accs))}
	print(f"\n [{ds}] SUMMARY: {np.mean(accs):.2f}+/-{np.std(accs):.2f}% (max {np.max(accs):.2f}%) \| SOTA: {ssl_sota[ds]}% \| Gap: {ssl_sota[ds]-np.mean(accs):.1f}pts")
	del data, dataset; gc.collect()
	if device.type == 'cuda': torch.cuda.empty_cache()
	if HAS_OGB and device.type == 'cuda':
	print(f"\n{'='80}\nBENCHMARK: ogbn-arxiv (SSL SOTA: 71.87%)\n{'='80}")
	try:
	dataset = PygNodePropPredDataset(name='ogbn-arxiv', root='/tmp/ogb_data'); data = dataset[0]
	si = dataset.get_idx_split(); N = data.x.size(0)
	tm, vm, tsm = torch.zeros(N, dtype=torch.bool), torch.zeros(N, dtype=torch.bool), torch.zeros(N, dtype=torch.bool)
	tm[si['train']] = True; vm[si['valid']] = True; tsm[si['test']] = True
	data.train_mask, data.val_mask, data.test_mask = tm, vm, tsm; data.y = data.y.squeeze()
	ei = data.edge_index; data.edge_index = torch.cat([ei, torch.stack([ei[1], ei[0]])], dim=1)
	data = data.to(device); print(f" {data.num_nodes} nodes, {data.edge_index.size(1)} edges")
	r = train_and_evaluate("ogbn-arxiv", data, device, ARXIV_CONFIG, seed=42)
	all_results["ogbn-arxiv"] = {"seeds": [r], "mean_accuracy": r['best_accuracy'], "ssl_sota": 71.87, "gap_to_ssl_sota": 71.87 - r['best_accuracy']}
	except Exception as e: print(f" ogbn-arxiv FAILED: {e}"); import traceback; traceback.print_exc()
	print(f"\n{'='100}\nNODE-JEPA V4.2 — COMPREHENSIVE BASELINE RESULTS\n{'='100}")
	print(f"\n{'Dataset':<15} {'Ours':>10} {'SOTA':>8} {'Gap':>7} {'Isotropy':>10} {'Align':>8} {'Uniform':>10} {'Rank95':>8} {'ms/1K':>8}")
	print("-" * 95)
	for ds in ["Cora", "CiteSeer", "PubMed", "ogbn-arxiv"]:
	if ds not in all_results or "error" in all_results.get(ds, {}):
	print(f" {ds:<13} {'SKIP':>10}"); continue
	r = all_results[ds]; g = r['seeds'][0]['geometry']; t = r['seeds'][0]['timing']
	print(f" {ds:<13} {r['mean_accuracy']:>9.2f}% {r['ssl_sota']:>7.1f}% {r.get('gap_to_sota', r['ssl_sota']-r['mean_accuracy']):>+6.1f} {g['isotropy_ratio']:>9.4f} {g['alignment']:>7.4f} {g['uniformity']:>9.4f} {g['effective_rank_95']:>8} {t['ms_per_1k_nodes']:>7.2f}")
	print(f"\nRef: GraphMAE (KDD'22) \| Note: ogbn-arxiv SSL ceiling ~72%, ogbn-products has NO published SSL baseline")
	out = "/tmp/v4.2_baseline_results.json"
	with open(out, "w") as f: json.dump(all_results, f, indent=2, default=str)
	if HAS_HF_HUB:
	try:
	api = HfApi()
	api.upload_file(path_or_fileobj=out, path_in_repo="v4.2_baseline_results.json", repo_id="EPSAGR/Node-JEPA", repo_type="model")
	print(f"Pushed to https://huggingface.co/EPSAGR/Node-JEPA")
	except: pass
	if tracker: trackio.finish()
	print("\nDone!")

	if __name__ == "__main__":
	main()