Upload folder using huggingface_hub

2eef7fa verified about 2 months ago

27.8 kB

	"""
	LookingGlass - A DNA Language Model

	Pure PyTorch implementation of LookingGlass, a pretrained language model for DNA sequences.
	Based on AWD-LSTM architecture, originally trained with fastai v1.

	Paper: Hoarfrost et al., "Deep learning of a bacterial and archaeal universal language
	of life enables transfer learning and illuminates microbial dark matter",
	Nature Communications, 2022.

	Usage:
	from lookingglass import LookingGlass, LookingGlassTokenizer

	# Load from HuggingFace Hub
	model = LookingGlass.from_pretrained('HoarfrostLab/lookingglass-v1')
	tokenizer = LookingGlassTokenizer()

	# Or load from local path
	model = LookingGlass.from_pretrained('./lookingglass-v1')

	inputs = tokenizer(["GATTACA", "ATCGATCG"], return_tensors=True)
	embeddings = model.get_embeddings(inputs['input_ids']) # (batch, 104)
	"""

	import json
	import os
	import warnings
	from dataclasses import dataclass, asdict
	from typing import Optional, Tuple, List, Dict, Union

	import torch
	import torch.nn as nn
	import torch.nn.functional as F

	try:
	from huggingface_hub import hf_hub_download
	HF_HUB_AVAILABLE = True
	except ImportError:
	HF_HUB_AVAILABLE = False


	__version__ = "1.1.0"


	def _is_hf_hub_id(path: str) -> bool:
	"""Check if path looks like a HuggingFace Hub model ID (e.g., 'user/model')."""
	if os.path.exists(path):
	return False
	return '/' in path and not path.startswith(('.', '/'))


	def _download_from_hub(repo_id: str, filename: str) -> str:
	"""Download a file from HuggingFace Hub and return the local path."""
	if not HF_HUB_AVAILABLE:
	raise ImportError(
	"huggingface_hub is required to load models from the Hub. "
	"Install it with: pip install huggingface_hub"
	)
	return hf_hub_download(repo_id=repo_id, filename=filename)
	__all__ = [
	"LookingGlassConfig",
	"LookingGlass",
	"LookingGlassLM",
	"LookingGlassTokenizer",
	]


	# =============================================================================
	# Configuration
	# =============================================================================

	@dataclass
	class LookingGlassConfig:
	"""
	Configuration for LookingGlass model.

	Default values match the original pretrained LookingGlass model.
	"""
	vocab_size: int = 8
	hidden_size: int = 104 # embedding/output size
	intermediate_size: int = 1152 # LSTM hidden size
	num_hidden_layers: int = 3
	pad_token_id: int = 1
	bos_token_id: int = 2
	eos_token_id: int = 3
	bidirectional: bool = False # original LG is unidirectional
	output_dropout: float = 0.1
	hidden_dropout: float = 0.15
	input_dropout: float = 0.25
	embed_dropout: float = 0.02
	weight_dropout: float = 0.2
	tie_weights: bool = True
	output_bias: bool = True
	model_type: str = "lookingglass"

	def to_dict(self) -> Dict:
	return asdict(self)

	def save_pretrained(self, save_directory: str):
	os.makedirs(save_directory, exist_ok=True)
	with open(os.path.join(save_directory, "config.json"), 'w') as f:
	json.dump(self.to_dict(), f, indent=2)

	@classmethod
	def from_pretrained(cls, pretrained_path: str) -> "LookingGlassConfig":
	if _is_hf_hub_id(pretrained_path):
	try:
	config_path = _download_from_hub(pretrained_path, "config.json")
	except Exception:
	return cls()
	elif os.path.isdir(pretrained_path):
	config_path = os.path.join(pretrained_path, "config.json")
	else:
	config_path = pretrained_path

	if os.path.exists(config_path):
	with open(config_path, 'r') as f:
	config_dict = json.load(f)
	valid_fields = {f.name for f in cls.__dataclass_fields__.values()}
	return cls(**{k: v for k, v in config_dict.items() if k in valid_fields})
	return cls()


	# =============================================================================
	# Tokenizer
	# =============================================================================

	VOCAB = ['xxunk', 'xxpad', 'xxbos', 'xxeos', 'G', 'A', 'C', 'T']
	VOCAB_TO_ID = {tok: i for i, tok in enumerate(VOCAB)}
	ID_TO_VOCAB = {i: tok for i, tok in enumerate(VOCAB)}


	class LookingGlassTokenizer:
	"""
	Tokenizer for DNA sequences.

	Each nucleotide (G, A, C, T) is a single token. By default, adds BOS token
	at the start of each sequence (matching original LookingGlass training).

	Special tokens:
	- xxunk (0): Unknown
	- xxpad (1): Padding
	- xxbos (2): Beginning of sequence
	- xxeos (3): End of sequence
	"""

	vocab = VOCAB
	vocab_to_id = VOCAB_TO_ID
	id_to_vocab = ID_TO_VOCAB

	def __init__(
	self,
	add_bos_token: bool = True, # original LG uses BOS
	add_eos_token: bool = False, # original LG does not use EOS
	padding_side: str = "right",
	):
	self.add_bos_token = add_bos_token
	self.add_eos_token = add_eos_token
	self.padding_side = padding_side

	self.unk_token_id = 0
	self.pad_token_id = 1
	self.bos_token_id = 2
	self.eos_token_id = 3

	@property
	def vocab_size(self) -> int:
	return len(self.vocab)

	def encode(self, sequence: str, add_special_tokens: bool = True) -> List[int]:
	"""Encode a DNA sequence to token IDs."""
	tokens = []

	if add_special_tokens and self.add_bos_token:
	tokens.append(self.bos_token_id)

	for char in sequence.upper():
	if char in self.vocab_to_id:
	tokens.append(self.vocab_to_id[char])
	elif char.strip():
	tokens.append(self.unk_token_id)

	if add_special_tokens and self.add_eos_token:
	tokens.append(self.eos_token_id)

	return tokens

	def decode(self, token_ids: Union[List[int], torch.Tensor], skip_special_tokens: bool = True) -> str:
	"""Decode token IDs back to DNA sequence."""
	if isinstance(token_ids, torch.Tensor):
	token_ids = token_ids.tolist()

	special_ids = {0, 1, 2, 3}
	tokens = []
	for tid in token_ids:
	if skip_special_tokens and tid in special_ids:
	continue
	tokens.append(self.id_to_vocab.get(tid, 'xxunk'))
	return ''.join(tokens)

	def __call__(
	self,
	sequences: Union[str, List[str]],
	padding: Union[bool, str] = False,
	max_length: Optional[int] = None,
	truncation: bool = False,
	return_tensors: Union[bool, str] = False,
	return_attention_mask: bool = True,
	) -> Dict[str, torch.Tensor]:
	"""Tokenize DNA sequence(s)."""
	if isinstance(sequences, str):
	sequences = [sequences]
	single = True
	else:
	single = False

	encoded = [self.encode(seq) for seq in sequences]

	if truncation and max_length:
	encoded = [e[:max_length] for e in encoded]

	# Padding
	if padding or len(encoded) > 1:
	if padding == 'max_length' and max_length:
	pad_len = max_length
	else:
	pad_len = max(len(e) for e in encoded)

	padded = []
	masks = []
	for e in encoded:
	pad_amount = pad_len - len(e)
	mask = [1] * len(e) + [0] * pad_amount
	if self.padding_side == 'right':
	e = e + [self.pad_token_id] * pad_amount
	else:
	e = [self.pad_token_id] * pad_amount + e
	mask = [0] * pad_amount + [1] * len(e)
	padded.append(e)
	masks.append(mask)
	encoded = padded
	else:
	masks = [[1] * len(e) for e in encoded]

	result = {}
	if return_tensors in ('pt', True):
	result['input_ids'] = torch.tensor(encoded, dtype=torch.long)
	if return_attention_mask:
	result['attention_mask'] = torch.tensor(masks, dtype=torch.long)
	else:
	result['input_ids'] = encoded[0] if single else encoded
	if return_attention_mask:
	result['attention_mask'] = masks[0] if single else masks

	return result

	def save_pretrained(self, save_directory: str):
	os.makedirs(save_directory, exist_ok=True)
	with open(os.path.join(save_directory, "vocab.json"), 'w') as f:
	json.dump(self.vocab_to_id, f, indent=2)
	with open(os.path.join(save_directory, "tokenizer_config.json"), 'w') as f:
	json.dump({
	"add_bos_token": self.add_bos_token,
	"add_eos_token": self.add_eos_token,
	"padding_side": self.padding_side,
	}, f, indent=2)

	@classmethod
	def from_pretrained(cls, pretrained_path: str) -> "LookingGlassTokenizer":
	kwargs = {}
	if _is_hf_hub_id(pretrained_path):
	try:
	config_path = _download_from_hub(pretrained_path, "tokenizer_config.json")
	with open(config_path, 'r') as f:
	kwargs = json.load(f)
	except Exception:
	pass
	else:
	config_path = os.path.join(pretrained_path, "tokenizer_config.json")
	if os.path.exists(config_path):
	with open(config_path, 'r') as f:
	kwargs = json.load(f)
	return cls(**kwargs)


	# =============================================================================
	# Model Components
	# =============================================================================

	def _dropout_mask(x: torch.Tensor, size: Tuple[int, ...], p: float) -> torch.Tensor:
	"""Create dropout mask with inverted scaling."""
	return x.new_empty(*size).bernoulli_(1 - p).div_(1 - p)


	class _RNNDropout(nn.Module):
	"""Dropout consistent across sequence dimension."""

	def __init__(self, p: float = 0.5):
	super().__init__()
	self.p = p

	def forward(self, x: torch.Tensor) -> torch.Tensor:
	if not self.training or self.p == 0.:
	return x
	mask = _dropout_mask(x.data, (x.size(0), 1, x.size(2)), self.p)
	return x * mask


	class _EmbeddingDropout(nn.Module):
	"""Dropout applied to entire embedding rows."""

	def __init__(self, embedding: nn.Embedding, p: float):
	super().__init__()
	self.embedding = embedding
	self.p = p

	def forward(self, x: torch.Tensor) -> torch.Tensor:
	if self.training and self.p != 0:
	mask = _dropout_mask(self.embedding.weight.data,
	(self.embedding.weight.size(0), 1), self.p)
	masked_weight = self.embedding.weight * mask
	else:
	masked_weight = self.embedding.weight

	padding_idx = self.embedding.padding_idx if self.embedding.padding_idx is not None else -1
	return F.embedding(x, masked_weight, padding_idx,
	self.embedding.max_norm, self.embedding.norm_type,
	self.embedding.scale_grad_by_freq, self.embedding.sparse)


	class _WeightDropout(nn.Module):
	"""DropConnect applied to RNN hidden-to-hidden weights."""

	def __init__(self, module: nn.Module, p: float, layer_names='weight_hh_l0'):
	super().__init__()
	self.module = module
	self.p = p
	self.layer_names = [layer_names] if isinstance(layer_names, str) else layer_names

	for layer in self.layer_names:
	w = getattr(self.module, layer)
	delattr(self.module, layer)
	self.register_parameter(f'{layer}_raw', nn.Parameter(w.data))
	setattr(self.module, layer, w.clone())

	if isinstance(self.module, nn.RNNBase):
	self.module.flatten_parameters = lambda: None

	def _set_weights(self):
	for layer in self.layer_names:
	raw_w = getattr(self, f'{layer}_raw')
	w = F.dropout(raw_w, p=self.p, training=self.training) if self.training else raw_w.clone()
	setattr(self.module, layer, w)

	def forward(self, *args):
	self._set_weights()
	with warnings.catch_warnings():
	warnings.simplefilter("ignore", category=UserWarning)
	return self.module(*args)


	class _AWDLSTMEncoder(nn.Module):
	"""AWD-LSTM encoder backbone."""

	_init_range = 0.1

	def __init__(self, config: LookingGlassConfig):
	super().__init__()
	self.config = config
	self.hidden_size = config.hidden_size
	self.intermediate_size = config.intermediate_size
	self.num_layers = config.num_hidden_layers
	self.num_directions = 2 if config.bidirectional else 1
	self._batch_size = 1

	# Embedding
	self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size,
	padding_idx=config.pad_token_id)
	self.embed_tokens.weight.data.uniform_(-self._init_range, self._init_range)
	self.embed_dropout = _EmbeddingDropout(self.embed_tokens, config.embed_dropout)

	# LSTM layers
	self.layers = nn.ModuleList()
	for i in range(config.num_hidden_layers):
	input_size = config.hidden_size if i == 0 else config.intermediate_size
	output_size = (config.intermediate_size if i != config.num_hidden_layers - 1
	else config.hidden_size) // self.num_directions
	lstm = nn.LSTM(input_size, output_size, num_layers=1,
	batch_first=True, bidirectional=config.bidirectional)
	self.layers.append(_WeightDropout(lstm, config.weight_dropout))

	# Dropout
	self.input_dropout = _RNNDropout(config.input_dropout)
	self.hidden_dropout = nn.ModuleList([
	_RNNDropout(config.hidden_dropout) for _ in range(config.num_hidden_layers)
	])

	self._hidden_state = None
	self.reset()

	def reset(self):
	"""Reset LSTM hidden states."""
	self._hidden_state = [self._init_hidden(i) for i in range(self.num_layers)]

	def _init_hidden(self, layer_idx: int) -> Tuple[torch.Tensor, torch.Tensor]:
	nh = (self.intermediate_size if layer_idx != self.num_layers - 1
	else self.hidden_size) // self.num_directions
	weight = next(self.parameters())
	return (weight.new_zeros(self.num_directions, self._batch_size, nh),
	weight.new_zeros(self.num_directions, self._batch_size, nh))

	def _resize_hidden(self, batch_size: int):
	new_hidden = []
	for i in range(self.num_layers):
	nh = (self.intermediate_size if i != self.num_layers - 1
	else self.hidden_size) // self.num_directions
	h, c = self._hidden_state[i]

	if self._batch_size < batch_size:
	h = torch.cat([h, h.new_zeros(self.num_directions, batch_size - self._batch_size, nh)], dim=1)
	c = torch.cat([c, c.new_zeros(self.num_directions, batch_size - self._batch_size, nh)], dim=1)
	elif self._batch_size > batch_size:
	h = h[:, :batch_size].contiguous()
	c = c[:, :batch_size].contiguous()
	new_hidden.append((h, c))

	self._hidden_state = new_hidden
	self._batch_size = batch_size

	def forward(self, input_ids: torch.LongTensor) -> torch.Tensor:
	"""Returns hidden states for all positions: (batch, seq_len, hidden_size)"""
	batch_size, seq_len = input_ids.shape

	if batch_size != self._batch_size:
	self._resize_hidden(batch_size)

	hidden = self.input_dropout(self.embed_dropout(input_ids))

	new_hidden = []
	for i, (layer, hdp) in enumerate(zip(self.layers, self.hidden_dropout)):
	hidden, h = layer(hidden, self._hidden_state[i])
	new_hidden.append(h)
	if i != self.num_layers - 1:
	hidden = hdp(hidden)

	self._hidden_state = [(h.detach(), c.detach()) for h, c in new_hidden]
	return hidden


	class _LMHead(nn.Module):
	"""Language modeling head."""

	_init_range = 0.1

	def __init__(self, config: LookingGlassConfig, embed_tokens: Optional[nn.Embedding] = None):
	super().__init__()
	self.output_dropout = _RNNDropout(config.output_dropout)
	self.decoder = nn.Linear(config.hidden_size, config.vocab_size, bias=config.output_bias)
	self.decoder.weight.data.uniform_(-self._init_range, self._init_range)

	if config.output_bias:
	self.decoder.bias.data.zero_()

	if embed_tokens is not None and config.tie_weights:
	self.decoder.weight = embed_tokens.weight

	def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
	return self.decoder(self.output_dropout(hidden_states))


	# =============================================================================
	# Models
	# =============================================================================

	class LookingGlass(nn.Module):
	"""
	LookingGlass encoder model.

	Outputs sequence embeddings for downstream tasks (classification, clustering, etc.).
	Uses last-token embedding by default, matching original LookingGlass.

	Example:
	>>> model = LookingGlass.from_pretrained('lookingglass-v1')
	>>> tokenizer = LookingGlassTokenizer()
	>>> inputs = tokenizer("GATTACA", return_tensors=True)
	>>> embeddings = model.get_embeddings(inputs['input_ids']) # (1, 104)
	"""

	config_class = LookingGlassConfig

	def __init__(self, config: Optional[LookingGlassConfig] = None):
	super().__init__()
	self.config = config or LookingGlassConfig()
	self.encoder = _AWDLSTMEncoder(self.config)

	def reset(self):
	"""Reset hidden states."""
	self.encoder.reset()

	def forward(self, input_ids: torch.LongTensor, **kwargs) -> torch.Tensor:
	"""
	Forward pass. Returns last-token embeddings.

	Args:
	input_ids: Token indices (batch, seq_len)

	Returns:
	Embeddings (batch, hidden_size)
	"""
	return self.get_embeddings(input_ids)

	def get_embeddings(self, input_ids: torch.LongTensor) -> torch.Tensor:
	"""
	Get sequence embeddings using last-token pooling (original LG method).

	Resets hidden state before encoding for deterministic results.

	Args:
	input_ids: Token indices (batch, seq_len)

	Returns:
	Embeddings (batch, hidden_size)
	"""
	self.encoder.reset()
	hidden = self.encoder(input_ids) # (batch, seq_len, hidden_size)
	return hidden[:, -1] # last token

	def get_hidden_states(self, input_ids: torch.LongTensor) -> torch.Tensor:
	"""
	Get hidden states for all positions.

	Resets hidden state before encoding for deterministic results.

	Args:
	input_ids: Token indices (batch, seq_len)

	Returns:
	Hidden states (batch, seq_len, hidden_size)
	"""
	self.encoder.reset()
	return self.encoder(input_ids)

	def save_pretrained(self, save_directory: str):
	os.makedirs(save_directory, exist_ok=True)
	self.config.save_pretrained(save_directory)
	torch.save(self.state_dict(), os.path.join(save_directory, "pytorch_model.bin"))

	@classmethod
	def from_pretrained(cls, pretrained_path: str, config: Optional[LookingGlassConfig] = None) -> "LookingGlass":
	config = config or LookingGlassConfig.from_pretrained(pretrained_path)
	model = cls(config)

	if _is_hf_hub_id(pretrained_path):
	model_path = _download_from_hub(pretrained_path, "pytorch_model.bin")
	else:
	model_path = os.path.join(pretrained_path, "pytorch_model.bin")

	if os.path.exists(model_path):
	state_dict = torch.load(model_path, map_location='cpu')
	# Only load encoder weights
	encoder_state_dict = {k: v for k, v in state_dict.items()
	if not k.startswith('lm_head.')}
	model.load_state_dict(encoder_state_dict, strict=False)

	return model


	class LookingGlassLM(nn.Module):
	"""
	LookingGlass with language modeling head.

	Full model for next-token prediction. Can also extract embeddings.

	Example:
	>>> model = LookingGlassLM.from_pretrained('lookingglass-v1')
	>>> tokenizer = LookingGlassTokenizer()
	>>> inputs = tokenizer("GATTACA", return_tensors=True)
	>>> logits = model(inputs['input_ids']) # (1, 8, 8)
	>>> embeddings = model.get_embeddings(inputs['input_ids']) # (1, 104)
	"""

	config_class = LookingGlassConfig

	def __init__(self, config: Optional[LookingGlassConfig] = None):
	super().__init__()
	self.config = config or LookingGlassConfig()
	self.encoder = _AWDLSTMEncoder(self.config)
	self.lm_head = _LMHead(
	self.config,
	embed_tokens=self.encoder.embed_tokens if self.config.tie_weights else None
	)

	def reset(self):
	"""Reset hidden states."""
	self.encoder.reset()

	def forward(self, input_ids: torch.LongTensor, **kwargs) -> torch.Tensor:
	"""
	Forward pass. Returns logits for next-token prediction.

	Args:
	input_ids: Token indices (batch, seq_len)

	Returns:
	Logits (batch, seq_len, vocab_size)
	"""
	hidden = self.encoder(input_ids)
	return self.lm_head(hidden)

	def get_embeddings(self, input_ids: torch.LongTensor) -> torch.Tensor:
	"""
	Get sequence embeddings using last-token pooling.

	Resets hidden state before encoding for deterministic results.

	Args:
	input_ids: Token indices (batch, seq_len)

	Returns:
	Embeddings (batch, hidden_size)
	"""
	self.encoder.reset()
	hidden = self.encoder(input_ids)
	return hidden[:, -1]

	def get_hidden_states(self, input_ids: torch.LongTensor) -> torch.Tensor:
	"""
	Get hidden states for all positions.

	Resets hidden state before encoding for deterministic results.

	Args:
	input_ids: Token indices (batch, seq_len)

	Returns:
	Hidden states (batch, seq_len, hidden_size)
	"""
	self.encoder.reset()
	return self.encoder(input_ids)

	def save_pretrained(self, save_directory: str):
	os.makedirs(save_directory, exist_ok=True)
	self.config.save_pretrained(save_directory)
	torch.save(self.state_dict(), os.path.join(save_directory, "pytorch_model.bin"))

	@classmethod
	def from_pretrained(cls, pretrained_path: str, config: Optional[LookingGlassConfig] = None) -> "LookingGlassLM":
	config = config or LookingGlassConfig.from_pretrained(pretrained_path)
	model = cls(config)

	if _is_hf_hub_id(pretrained_path):
	model_path = _download_from_hub(pretrained_path, "pytorch_model.bin")
	else:
	model_path = os.path.join(pretrained_path, "pytorch_model.bin")

	if os.path.exists(model_path):
	state_dict = torch.load(model_path, map_location='cpu')
	model.load_state_dict(state_dict, strict=False)

	return model


	# =============================================================================
	# Weight Loading
	# =============================================================================

	def load_original_weights(model: Union[LookingGlass, LookingGlassLM], weights_path: str) -> None:
	"""
	Load weights from original fastai-trained LookingGlass checkpoint.

	Args:
	model: Model to load weights into
	weights_path: Path to LookingGlass.pth or LookingGlass_enc.pth
	"""
	checkpoint = torch.load(weights_path, map_location='cpu')

	if 'model' in checkpoint:
	state_dict = checkpoint['model']
	else:
	state_dict = checkpoint

	is_lm_model = isinstance(model, LookingGlassLM)

	new_state_dict = {}
	for k, v in state_dict.items():
	if '.module.weight_hh_l0' in k:
	continue

	if k.startswith('0.'):
	new_k = k[2:]
	new_k = new_k.replace('encoder.', 'embed_tokens.')
	new_k = new_k.replace('encoder_dp.emb.', 'embed_tokens.')
	new_k = new_k.replace('rnns.', 'layers.')
	new_k = new_k.replace('hidden_dps.', 'hidden_dropout.')
	new_k = new_k.replace('input_dp.', 'input_dropout.')
	new_state_dict['encoder.' + new_k] = v

	elif k.startswith('1.') and is_lm_model:
	new_k = k[2:]
	new_k = new_k.replace('output_dp.', 'output_dropout.')
	new_state_dict['lm_head.' + new_k] = v

	else:
	new_k = k.replace('encoder.', 'embed_tokens.')
	new_k = new_k.replace('encoder_dp.emb.', 'embed_tokens.')
	new_k = new_k.replace('rnns.', 'layers.')
	new_k = new_k.replace('hidden_dps.', 'hidden_dropout.')
	new_k = new_k.replace('input_dp.', 'input_dropout.')
	new_state_dict['encoder.' + new_k] = v

	model.load_state_dict(new_state_dict, strict=False)


	def convert_checkpoint(input_path: str, output_dir: str) -> None:
	"""Convert original checkpoint to new format."""
	config = LookingGlassConfig()
	model = LookingGlassLM(config)
	load_original_weights(model, input_path)
	model.save_pretrained(output_dir)

	tokenizer = LookingGlassTokenizer()
	tokenizer.save_pretrained(output_dir)
	print(f"Saved to {output_dir}")


	# =============================================================================
	# CLI
	# =============================================================================

	if __name__ == '__main__':
	import argparse

	parser = argparse.ArgumentParser(description='LookingGlass DNA Language Model')
	parser.add_argument('--convert', type=str, help='Convert original weights')
	parser.add_argument('--output', type=str, default='./lookingglass-v1', help='Output directory')
	parser.add_argument('--test', action='store_true', help='Run tests')
	args = parser.parse_args()

	if args.convert:
	convert_checkpoint(args.convert, args.output)

	elif args.test:
	print("Testing LookingGlass...\n")

	tokenizer = LookingGlassTokenizer()
	print(f"Vocab: {tokenizer.vocab}")
	print(f"BOS token added: {tokenizer.add_bos_token}")
	print(f"EOS token added: {tokenizer.add_eos_token}")

	inputs = tokenizer("GATTACA", return_tensors=True)
	print(f"\nTokenized 'GATTACA': {inputs['input_ids']}")
	print(f"Decoded: {tokenizer.decode(inputs['input_ids'][0])}")

	config = LookingGlassConfig()
	print(f"\nConfig: bidirectional={config.bidirectional}")

	# Test LookingGlass (encoder)
	encoder = LookingGlass(config)
	print(f"\nLookingGlass params: {sum(p.numel() for p in encoder.parameters()):,}")

	encoder.eval()
	with torch.no_grad():
	emb = encoder.get_embeddings(inputs['input_ids'])
	print(f"Embeddings shape: {emb.shape}")

	# Test LookingGlassLM
	lm = LookingGlassLM(config)
	print(f"\nLookingGlassLM params: {sum(p.numel() for p in lm.parameters()):,}")

	lm.eval()
	with torch.no_grad():
	logits = lm(inputs['input_ids'])
	emb = lm.get_embeddings(inputs['input_ids'])
	print(f"Logits shape: {logits.shape}")
	print(f"Embeddings shape: {emb.shape}")

	print("\nAll tests passed!")

	else:
	parser.print_help()