Release Reframr-RFM-v1-Base public checkpoint

2147ce8 verified about 2 months ago

171 kB

	import json
	import hashlib
	import random
	import site
	import string
	import sys
	import unicodedata
	from dataclasses import dataclass
	from pathlib import Path

	_VENDOR_ROOT = Path(__file__).resolve().parent.parent / ".vendor"
	for _vendor_path in (_VENDOR_ROOT / "python", _VENDOR_ROOT / "sitepkgs"):
	if _vendor_path.exists():
	vendor_text = str(_vendor_path)
	if vendor_text not in sys.path:
	sys.path.insert(0, vendor_text)

	try:
	import numpy as np
	except ModuleNotFoundError:
	user_site = site.getusersitepackages()
	if user_site and user_site not in sys.path:
	sys.path.append(user_site)
	try:
	import numpy as np
	except ModuleNotFoundError:
	np = None

	if np is not None and not hasattr(np, "asarray"):
	np = None

	from .checkpoint import read_safetensor_file, write_safetensor_file
	from .config import ReframrConfig
	from .embeddings import EmbeddingModel, fit_ppmi_embedding_from_tokens
	from .hippo import AnalyticalMemoryUnit, analytical_embedding_drive, analytical_embedding_drive_fast
	from .linalg import Vector, dot, mean, norm, softmax, zeros_vector
	from .reservoir import apply_readout, ridge_regression_readout
	from .reasoning import reasoning_prefix
	from .ternary import apply_ternary_mask, derive_ternary_mask_from_states
	from .tokenizer import NativeTokenizer

	ASSOCIATIVE_BLEND = 0.42
	TRANSITION_BLEND = 0.08
	COPY_BLEND = 0.04
	BASE_BLEND = 0.34
	FAST_ASSOCIATIVE_BLEND = 0.06
	FAST_TRANSITION_BLEND = 0.14
	FAST_COPY_BLEND = 0.04
	FAST_BASE_BLEND = 0.58
	FAST_PREFERENCE_BLEND = 0.15
	FAST_ANSWER_BLEND = 0.30
	PROMPT_READOUT_LOGIT_ZSCORE_SCALE = 0.48
	ASSOCIATIVE_TOP_K = 12
	ANSWER_TOP_K = 48
	ANSWER_START_TOP_K = 32
	ANSWER_SEQUENCE_MATCH_FLOOR = 0.30
	ANSWER_SEQUENCE_DISTRIBUTED_LOCK_FLOOR = 0.45
	ANSWER_SEQUENCE_LOCK_FLOOR = 0.55
	ANSWER_SEQUENCE_SPIKE_CONFIDENCE = 0.80
	READOUT_LOGIT_ZSCORE_SCALE = 0.22
	TRACE_IDENTITY_SCALE = 0.78
	TRACE_IDENTITY_HASHES = (
	(1103515245, 12345, 214013, 2531011),
	(1664525, 1013904223, 22695477, 1),
	(69069, 362437, 134775813, 17),
	(134775813, 97, 1103515245, 31),
	(22695477, 911, 1664525, 73),
	(214013, 2531011, 69069, 19),
	(48271, 0, 69621, 11),
	(16807, 37, 40692, 101),
	(279470273, 173, 1299709, 53),
	(39916801, 29, 2147483629, 7),
	)
	NGRAM_KEY_SEPARATOR = "\u0001"
	TRANSITION_ORDERS = (10, 8, 6, 5, 4, 3, 2, 1)
	DEFAULT_GENERATION_TEMPERATURE = 0.82
	DEFAULT_GENERATION_TOP_K = 24
	DEFAULT_GENERATION_TOP_P = 0.92
	DEFAULT_REPETITION_PENALTY = 1.18
	ANSWER_SEQUENCE_MAX_TOKENS = 192
	RUNTIME_ARRAY_DTYPE = np.float32 if np is not None else None


	@dataclass(frozen=True, slots=True)
	class CharacterCountFact:
	character: str
	word: str
	count: int
	surface_seed: int


	def _normalize_vector(values: Vector) -> Vector:
	total = sum(values)
	if total <= 0.0:
	return [0.0 for _ in values]
	return [value / total for value in values]


	def _encode_ngram_key(tokens: tuple[str, ...]) -> str:
	return NGRAM_KEY_SEPARATOR.join(tokens)


	def _decode_ngram_key(key: str) -> tuple[str, ...]:
	return tuple(part for part in key.split(NGRAM_KEY_SEPARATOR) if part)


	def _last_index(values: list[str], target: str) -> int \| None:
	for index in range(len(values) - 1, -1, -1):
	if values[index] == target:
	return index
	return None


	@dataclass(slots=True)
	class DecodeState:
	hidden_states: list[Vector]
	context_traces: list[Vector]
	combined_state: Vector
	context_tokens: list[str]
	answer_anchor_state: Vector \| None = None
	answer_matches: list[tuple[float, int, int]] \| None = None
	answer_start_matches: list[tuple[float, int, int]] \| None = None
	answer_sequence_matches: list[tuple[float, int, int]] \| None = None
	prompt_answer_prior: object \| None = None
	prompt_answer_start_prior: object \| None = None


	@dataclass(slots=True)
	class ReframrModel:
	config: ReframrConfig
	tokenizer: NativeTokenizer \| None = None
	embedding_model: EmbeddingModel \| None = None
	memory_units: list[AnalyticalMemoryUnit] \| None = None
	ternary_scale: float = 1.0
	ternary_mask: list[int] \| None = None
	ternary_mask_array: object \| None = None
	readout_weights: list[list[float]] \| None = None
	readout_weights_array: object \| None = None
	readout_bias: Vector \| None = None
	readout_bias_array: object \| None = None
	prompt_answer_weights: list[list[float]] \| None = None
	prompt_answer_weights_array: object \| None = None
	prompt_answer_bias: Vector \| None = None
	prompt_answer_bias_array: object \| None = None
	prompt_answer_start_weights: list[list[float]] \| None = None
	prompt_answer_start_weights_array: object \| None = None
	prompt_answer_start_bias: Vector \| None = None
	prompt_answer_start_bias_array: object \| None = None
	trace_token_weights: Vector \| None = None
	trace_token_weights_array: object \| None = None
	trace_embedding_table_array: object \| None = None
	preference_bias: Vector \| None = None
	preference_bias_array: object \| None = None
	preference_valid_mask_array: object \| None = None
	state_offset: Vector \| None = None
	state_offset_array: object \| None = None
	associative_keys: list[Vector] \| None = None
	associative_keys_array: object \| None = None
	associative_key_norms: list[float] \| None = None
	associative_key_norms_array: object \| None = None
	associative_values: list[int] \| None = None
	associative_values_array: object \| None = None
	associative_valid_mask_array: object \| None = None
	answer_keys: list[Vector] \| None = None
	answer_keys_array: object \| None = None
	answer_key_norms: list[float] \| None = None
	answer_key_norms_array: object \| None = None
	answer_similarity_keys_array: object \| None = None
	answer_similarity_key_norms_array: object \| None = None
	answer_similarity_mask_array: object \| None = None
	answer_values: list[int] \| None = None
	answer_values_array: object \| None = None
	answer_valid_mask_array: object \| None = None
	answer_start_keys: list[Vector] \| None = None
	answer_start_keys_array: object \| None = None
	answer_start_key_norms: list[float] \| None = None
	answer_start_key_norms_array: object \| None = None
	answer_start_similarity_keys_array: object \| None = None
	answer_start_similarity_key_norms_array: object \| None = None
	answer_start_values: list[int] \| None = None
	answer_start_values_array: object \| None = None
	answer_start_valid_mask_array: object \| None = None
	answer_sequence_keys: list[Vector] \| None = None
	answer_sequence_keys_array: object \| None = None
	answer_sequence_key_norms: list[float] \| None = None
	answer_sequence_key_norms_array: object \| None = None
	answer_sequence_similarity_keys_array: object \| None = None
	answer_sequence_similarity_key_norms_array: object \| None = None
	answer_sequence_prompt_tokens: list[list[int]] \| None = None
	answer_sequence_prompt_tokens_array: object \| None = None
	answer_sequence_tokens: list[list[int]] \| None = None
	answer_sequence_tokens_array: object \| None = None
	answer_sequence_prompt_weight_maps: list[dict[int, float]] \| None = None
	answer_sequence_prompt_weight_norms: list[float] \| None = None
	answer_sequence_prompt_bigram_sets: list[set[tuple[int, int]]] \| None = None
	answer_sequence_prompt_trigram_sets: list[set[tuple[int, int, int]]] \| None = None
	answer_sequence_prompt_number_sets: list[set[str]] \| None = None
	answer_sequence_prompt_inverted_index: dict[int, list[int]] \| None = None
	answer_sequence_prompt_specificity: dict[int, float] \| None = None
	transition_tables: dict[int, dict[tuple[str, ...], dict[str, float]]] \| None = None

	def fit(self, text: str) -> "ReframrModel":
	self.tokenizer = NativeTokenizer.train(
	text,
	vocab_size=self.config.tokenizer_vocab_size,
	min_pair_frequency=self.config.tokenizer_min_pair_frequency,
	lowercase=self.config.lowercase,
	)
	tokens = self.tokenizer.encode(text)
	if len(tokens) < 2:
	raise ValueError("REFRAMR needs at least two tokens to derive a next-token readout.")

	self.embedding_model = fit_ppmi_embedding_from_tokens(
	tokens,
	embedding_dim=self.config.embedding_dim,
	window_size=self.config.window_size,
	min_frequency=self.config.min_frequency,
	max_vocab=self.config.max_vocab,
	)
	self.memory_units = [
	AnalyticalMemoryUnit(self.config.state_dim, timescale)
	for timescale in self.config.timescales
	]
	token_counts: dict[str, float] = {}
	for token in tokens:
	token_counts[token] = token_counts.get(token, 0.0) + 1.0
	self.trace_token_weights = self._derive_trace_token_weights_from_counts(token_counts)

	raw_states, targets, target_ids = self._collect_training_examples(tokens)
	self.ternary_scale, self.ternary_mask = derive_ternary_mask_from_states(raw_states)
	analytical_states = [
	apply_ternary_mask(state, self.ternary_mask, self.ternary_scale)
	for state in raw_states
	]
	self.associative_keys = [state[:] for state in analytical_states]
	self.associative_key_norms = [norm(state) for state in analytical_states]
	self.associative_values = target_ids[:]
	self.answer_keys = []
	self.answer_key_norms = []
	self.answer_values = []
	self.answer_start_keys = []
	self.answer_start_key_norms = []
	self.answer_start_values = []
	self.answer_sequence_keys = []
	self.answer_sequence_key_norms = []
	self.answer_sequence_prompt_tokens = []
	self.answer_sequence_tokens = []
	self.prompt_answer_weights = []
	self.prompt_answer_bias = [0.0 for _ in self.embedding_model.id_to_token]
	self.prompt_answer_start_weights = []
	self.prompt_answer_start_bias = [0.0 for _ in self.embedding_model.id_to_token]
	self.transition_tables = self._build_transition_tables(tokens)
	self._fit_answer_memory_from_text(text)
	self.readout_weights = ridge_regression_readout(
	analytical_states,
	targets,
	regularization=self.config.regularization,
	)
	self.readout_bias = [0.0 for _ in self.embedding_model.id_to_token]
	self.preference_bias = [0.0 for _ in self.embedding_model.id_to_token]
	self.state_offset = [0.0 for _ in analytical_states[0]] if analytical_states else []
	self._refresh_numeric_caches()
	return self

	def _fit_answer_memory_from_text(self, text: str) -> None:
	assert self.tokenizer is not None
	assert self.embedding_model is not None
	if (
	self.answer_keys is None
	or self.answer_key_norms is None
	or self.answer_values is None
	or self.answer_start_keys is None
	or self.answer_start_key_norms is None
	or self.answer_start_values is None
	or self.answer_sequence_keys is None
	or self.answer_sequence_key_norms is None
	or self.answer_sequence_prompt_tokens is None
	or self.answer_sequence_tokens is None
	):
	return

	for line in text.splitlines():
	if "<answer>" not in line:
	continue
	prompt_text, answer_text = line.split("<answer>", 1)
	prompt_text = prompt_text.strip()
	answer_text = answer_text.strip()
	if not prompt_text or not answer_text:
	continue

	prompt_tokens = self.tokenizer.encode(prompt_text) + ["<answer>"]
	answer_tokens = [
	token
	for token in self.tokenizer.encode(answer_text)
	if token in self.embedding_model.token_to_id
	and token not in self.tokenizer.special_tokens
	]
	if not prompt_tokens or not answer_tokens:
	continue

	key = self._encode_context(prompt_tokens)
	key_norm = norm(key)
	if key_norm <= 0.0:
	continue

	answer_ids = [
	self.embedding_model.token_to_id[token]
	for token in answer_tokens[:ANSWER_SEQUENCE_MAX_TOKENS]
	]
	prompt_ids = [
	self.embedding_model.token_to_id[token]
	for token in prompt_tokens[:ANSWER_SEQUENCE_MAX_TOKENS]
	if token in self.embedding_model.token_to_id
	and token not in self.tokenizer.special_tokens
	]
	if not answer_ids:
	continue

	self.answer_keys.append(key[:])
	self.answer_key_norms.append(key_norm)
	self.answer_values.append(answer_ids[0])
	self.answer_start_keys.append(key[:])
	self.answer_start_key_norms.append(key_norm)
	self.answer_start_values.append(answer_ids[0])
	self.answer_sequence_keys.append(key[:])
	self.answer_sequence_key_norms.append(key_norm)
	self.answer_sequence_prompt_tokens.append(
	prompt_ids
	+ [-1 for _ in range(ANSWER_SEQUENCE_MAX_TOKENS - len(prompt_ids))]
	)
	self.answer_sequence_tokens.append(
	answer_ids
	+ [-1 for _ in range(ANSWER_SEQUENCE_MAX_TOKENS - len(answer_ids))]
	)

	def predict_next_distribution(
	self,
	context: str,
	*,
	reasoning_mode: str \| None = None,
	) -> dict[str, float]:
	self._require_fit()
	assert self.tokenizer is not None
	assert self.embedding_model is not None
	probabilities = self.predict_next_token_distribution(
	context,
	reasoning_mode=reasoning_mode,
	)
	distribution: dict[str, float] = {}
	for token, probability in probabilities.items():
	rendered = self._render_token(token)
	distribution[rendered] = distribution.get(rendered, 0.0) + probability
	return distribution

	def predict_next_token_distribution(
	self,
	context: str,
	*,
	reasoning_mode: str \| None = None,
	) -> dict[str, float]:
	self._require_fit()
	assert self.tokenizer is not None
	assert self.embedding_model is not None
	assert self.readout_weights is not None

	active_mode = reasoning_mode or self.config.default_reasoning_profile
	context_tokens = reasoning_prefix(active_mode) + self.tokenizer.encode(context)
	return self._predict_next_token_distribution_from_tokens(context_tokens)

	def generate_text(
	self,
	context: str,
	*,
	max_tokens: int = 64,
	reasoning_mode: str \| None = None,
	temperature: float = 0.0,
	top_k: int = DEFAULT_GENERATION_TOP_K,
	top_p: float = DEFAULT_GENERATION_TOP_P,
	repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
	) -> str:
	character_count_response = self._character_count_response(
	context,
	temperature=temperature,
	)
	if character_count_response is not None:
	return character_count_response
	self._require_fit()
	self._ensure_numeric_caches()
	assert self.tokenizer is not None
	if (
	np is not None
	and self.readout_weights_array is not None
	and self.embedding_model is not None
	and len(self.embedding_model.id_to_token) >= 1024
	):
	return self._generate_text_fast(
	context,
	max_tokens=max_tokens,
	reasoning_mode=reasoning_mode,
	temperature=temperature,
	top_k=top_k,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	)

	active_mode = reasoning_mode or self.config.default_reasoning_profile
	_, context_tokens = self._generation_prompt_tokens(context, active_mode)
	decode_state = self._build_decode_state(context_tokens)
	generated_tokens: list[str] = []
	for _ in range(max_tokens):
	distribution, _ = self._score_next_token_from_state(
	decode_state,
	include_trace=False,
	generated_tokens=generated_tokens,
	)
	next_token = self._select_generation_token(
	distribution,
	context_tokens=decode_state.context_tokens,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=top_k,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	preserve_dominant_candidates=self._answer_decode_has_continuation(
	decode_state,
	generated_tokens,
	),
	)
	if not next_token:
	break
	generated_tokens.append(next_token)
	self._advance_decode_state(decode_state, next_token)
	if self._should_stop_answer_sequence(decode_state, generated_tokens):
	break
	if self._should_stop_generation(
	generated_tokens
	) and not self._answer_decode_has_continuation(decode_state, generated_tokens):
	break
	overflow_budget = 6
	while (
	generated_tokens
	and not self._starts_new_word(generated_tokens[-1])
	and overflow_budget > 0
	):
	distribution, _ = self._score_next_token_from_state(
	decode_state,
	include_trace=False,
	generated_tokens=generated_tokens,
	)
	next_token = self._select_generation_token(
	distribution,
	context_tokens=decode_state.context_tokens,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=top_k,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	preserve_dominant_candidates=self._answer_decode_has_continuation(
	decode_state,
	generated_tokens,
	),
	)
	if not next_token or self._starts_new_word(next_token):
	break
	generated_tokens.append(next_token)
	self._advance_decode_state(decode_state, next_token)
	overflow_budget -= 1
	return self._decode_tokens(generated_tokens)

	@staticmethod
	def _character_count_fact(context: str) -> CharacterCountFact \| None:
	normalized = unicodedata.normalize("NFKC", context).strip()
	tokens = ReframrModel._character_count_word_tokens(normalized)
	if not tokens:
	return None
	lowered = [token.casefold() for token in tokens]
	count_terms = {"count", "counts", "counting", "many"}
	unit_terms = {"character", "characters", "letter", "letters"}
	if not any(token in count_terms for token in lowered):
	return None
	if not any(token in unit_terms for token in lowered) and "count" not in lowered:
	return None

	filler_terms = {"a", "an", "the", "single", "one", "please"}
	word_markers = {"in", "inside"}
	char_index = ReframrModel._character_count_target_index(
	lowered,
	unit_terms=unit_terms,
	filler_terms=filler_terms,
	)
	word_index = ReframrModel._character_count_word_index(
	lowered,
	char_index=char_index,
	filler_terms=filler_terms,
	word_markers=word_markers,
	)
	if char_index is None or word_index is None:
	return None
	character = tokens[char_index]
	word = tokens[word_index]
	if len(character) != 1 or not word:
	return None
	order_offset = 0 if char_index < word_index else 1
	surface_seed = ((char_index + 1) * 7 + (word_index + 1) * 3 + len(tokens) + order_offset) % 4
	return CharacterCountFact(
	character=character,
	word=word,
	count=word.casefold().count(character.casefold()),
	surface_seed=surface_seed,
	)

	@staticmethod
	def _character_count_word_tokens(text: str) -> list[str]:
	tokens: list[str] = []
	current: list[str] = []
	for character in text:
	if character != "_" and character.isalnum():
	current.append(character)
	continue
	if current:
	tokens.append("".join(current))
	current = []
	if current:
	tokens.append("".join(current))
	return tokens

	@staticmethod
	def _character_count_target_index(
	tokens: list[str],
	*,
	unit_terms: set[str],
	filler_terms: set[str],
	) -> int \| None:
	for index, token in enumerate(tokens):
	if token not in unit_terms:
	continue
	for adjacent in (index - 1, index + 1):
	if 0 <= adjacent < len(tokens) and len(tokens[adjacent]) == 1:
	return adjacent
	before = ReframrModel._nearest_content_index(tokens, index - 1, -1, filler_terms)
	after = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
	for candidate in (before, after):
	if candidate is not None and len(tokens[candidate]) == 1:
	return candidate
	for index, token in enumerate(tokens):
	if token not in {"count", "counts", "counting"}:
	continue
	candidate = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
	if candidate is not None and tokens[candidate] in unit_terms:
	candidate = ReframrModel._nearest_content_index(tokens, candidate + 1, 1, filler_terms)
	if candidate is not None and len(tokens[candidate]) == 1:
	return candidate
	return None

	@staticmethod
	def _character_count_word_index(
	tokens: list[str],
	*,
	char_index: int \| None,
	filler_terms: set[str],
	word_markers: set[str],
	) -> int \| None:
	for index, token in enumerate(tokens):
	if token != "word":
	continue
	candidate = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
	if candidate is not None and candidate != char_index and len(tokens[candidate]) > 1:
	return candidate
	for index, token in enumerate(tokens):
	if token not in word_markers:
	continue
	candidate = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
	if candidate is not None and tokens[candidate] == "word":
	candidate = ReframrModel._nearest_content_index(tokens, candidate + 1, 1, filler_terms)
	if candidate is not None and candidate != char_index and len(tokens[candidate]) > 1:
	return candidate
	skipped_terms = {
	"how",
	"many",
	"count",
	"counts",
	"counting",
	"letter",
	"letters",
	"character",
	"characters",
	"word",
	"there",
	"are",
	"is",
	"appear",
	"appears",
	"times",
	} \| filler_terms \| word_markers
	for index in range(len(tokens) - 1, -1, -1):
	if index == char_index:
	continue
	if len(tokens[index]) <= 1 or tokens[index] in skipped_terms:
	continue
	return index
	return None

	@staticmethod
	def _nearest_content_index(
	tokens: list[str],
	start: int,
	direction: int,
	skipped_terms: set[str],
	) -> int \| None:
	index = start
	while 0 <= index < len(tokens):
	if tokens[index] not in skipped_terms:
	return index
	index += direction
	return None

	@classmethod
	def _character_count_response(cls, context: str, *, temperature: float = 0.0) -> str \| None:
	fact = cls._character_count_fact(context)
	if fact is None:
	return None
	return cls._render_character_count_fact(fact, temperature=temperature)

	@staticmethod
	def _render_character_count_fact(fact: CharacterCountFact, *, temperature: float = 0.0) -> str:
	character_label = f"'{fact.character}'"
	word_label = f"'{fact.word}'"
	character_noun = "character" if fact.count == 1 else "characters"
	plural_times = "" if fact.count == 1 else "s"
	surfaces = (
	f"There {'is' if fact.count == 1 else 'are'} {fact.count} {character_label} {character_noun} in {word_label}.",
	f"{word_label} contains {fact.count} {character_label} {character_noun}.",
	f"In {word_label}, {character_label} appears {fact.count} time{plural_times}.",
	f"The count is {fact.count} for {character_label} in {word_label}.",
	)
	if temperature > 0.0:
	return surfaces[(random.randrange(len(surfaces)) + fact.surface_seed) % len(surfaces)]
	return surfaces[fact.surface_seed % len(surfaces)]

	def _generate_text_fast(
	self,
	context: str,
	*,
	max_tokens: int,
	reasoning_mode: str \| None,
	temperature: float,
	top_k: int,
	top_p: float,
	repetition_penalty: float,
	) -> str:
	assert self.tokenizer is not None

	active_mode = reasoning_mode or self.config.default_reasoning_profile
	_, context_tokens = self._generation_prompt_tokens(context, active_mode)
	decode_state = self._build_decode_state(context_tokens)
	generated_tokens: list[str] = []
	for _ in range(max_tokens):
	probabilities, _ = self._score_next_token_array_from_state(
	decode_state,
	include_associative=True,
	generated_tokens=generated_tokens,
	)
	next_token = self._select_generation_token_from_array(
	probabilities,
	context_tokens=decode_state.context_tokens,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=top_k,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	preserve_dominant_candidates=self._answer_decode_has_continuation(
	decode_state,
	generated_tokens,
	),
	)
	if not next_token:
	break
	generated_tokens.append(next_token)
	self._advance_decode_state(decode_state, next_token)
	if self._should_stop_answer_sequence(decode_state, generated_tokens):
	break
	if self._should_stop_generation(
	generated_tokens
	) and not self._answer_decode_has_continuation(decode_state, generated_tokens):
	break

	overflow_budget = 6
	while (
	generated_tokens
	and not self._starts_new_word(generated_tokens[-1])
	and overflow_budget > 0
	):
	probabilities, _ = self._score_next_token_array_from_state(
	decode_state,
	include_associative=True,
	generated_tokens=generated_tokens,
	)
	next_token = self._select_generation_token_from_array(
	probabilities,
	context_tokens=decode_state.context_tokens,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=top_k,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	preserve_dominant_candidates=self._answer_decode_has_continuation(
	decode_state,
	generated_tokens,
	),
	)
	if not next_token or self._starts_new_word(next_token):
	break
	generated_tokens.append(next_token)
	self._advance_decode_state(decode_state, next_token)
	overflow_budget -= 1
	return self._decode_tokens(generated_tokens)

	def trace_next_token(
	self,
	context: str,
	*,
	reasoning_mode: str \| None = None,
	top_k: int = 5,
	) -> dict[str, object]:
	self._require_fit()
	assert self.tokenizer is not None

	active_mode = reasoning_mode or self.config.default_reasoning_profile
	context_tokens = reasoning_prefix(active_mode) + self.tokenizer.encode(context)
	_, trace = self._score_next_token_from_tokens(
	context_tokens,
	top_k=top_k,
	include_trace=True,
	)
	trace.update(
	{
	"context": context,
	"reasoning_mode": active_mode,
	"reasoning_tokens": reasoning_prefix(active_mode),
	"context_tokens": context_tokens,
	}
	)
	return trace

	def trace_generation(
	self,
	context: str,
	*,
	max_tokens: int = 16,
	reasoning_mode: str \| None = None,
	top_k: int = 5,
	temperature: float = 0.0,
	top_p: float = DEFAULT_GENERATION_TOP_P,
	repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
	) -> dict[str, object]:
	character_count_response = self._character_count_response(
	context,
	temperature=temperature,
	)
	if character_count_response is not None:
	active_mode = reasoning_mode or self.config.default_reasoning_profile
	prompt = context if "<answer>" in context else f"{context} <answer>"
	return {
	"context": context,
	"prompt": prompt,
	"reasoning_mode": active_mode,
	"reasoning_tokens": reasoning_prefix(active_mode),
	"generation_policy": {
	"temperature": temperature,
	"top_k": max(DEFAULT_GENERATION_TOP_K, top_k),
	"top_p": top_p,
	"repetition_penalty": repetition_penalty,
	},
	"prompt_tokens": [],
	"generated_tokens": [],
	"generated_text": character_count_response,
	"generated_token_count": len(character_count_response.split()),
	"steps": [],
	"reasoning_summary": (
	"The prompt matched the generic character-counting path, so Reframr "
	"read the requested character and word from the prompt and counted "
	"the characters directly."
	),
	}
	self._require_fit()
	assert self.tokenizer is not None

	active_mode = reasoning_mode or self.config.default_reasoning_profile
	prompt, context_tokens = self._generation_prompt_tokens(context, active_mode)
	decode_state = self._build_decode_state(context_tokens)
	prompt_tokens = decode_state.context_tokens[:]
	generated_tokens: list[str] = []
	steps: list[dict[str, object]] = []

	for step_index in range(1, max_tokens + 1):
	distribution, trace = self._score_next_token_from_state(
	decode_state,
	top_k=top_k,
	include_trace=True,
	generated_tokens=generated_tokens,
	)
	next_token = self._select_generation_token(
	distribution,
	context_tokens=decode_state.context_tokens,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=max(DEFAULT_GENERATION_TOP_K, top_k),
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	)
	if not next_token:
	break
	generated_tokens.append(next_token)
	self._advance_decode_state(decode_state, next_token)
	trace["step"] = step_index
	trace["chosen_token"] = next_token
	trace["chosen_text"] = self._render_token(next_token)
	trace["chosen_probability"] = distribution[next_token]
	steps.append(trace)
	if self._should_stop_generation(
	generated_tokens
	) and not self._answer_decode_has_continuation(decode_state, generated_tokens):
	break

	overflow_budget = 6
	while (
	generated_tokens
	and not self._starts_new_word(generated_tokens[-1])
	and overflow_budget > 0
	):
	distribution, trace = self._score_next_token_from_state(
	decode_state,
	top_k=top_k,
	include_trace=True,
	generated_tokens=generated_tokens,
	)
	next_token = self._select_generation_token(
	distribution,
	context_tokens=decode_state.context_tokens,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=max(DEFAULT_GENERATION_TOP_K, top_k),
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	)
	if not next_token or self._starts_new_word(next_token):
	break
	generated_tokens.append(next_token)
	self._advance_decode_state(decode_state, next_token)
	trace["step"] = len(steps) + 1
	trace["chosen_token"] = next_token
	trace["chosen_text"] = self._render_token(next_token)
	trace["chosen_probability"] = distribution[next_token]
	steps.append(trace)
	overflow_budget -= 1

	return {
	"context": context,
	"prompt": prompt,
	"reasoning_mode": active_mode,
	"reasoning_tokens": reasoning_prefix(active_mode),
	"generation_policy": {
	"temperature": temperature,
	"top_k": max(DEFAULT_GENERATION_TOP_K, top_k),
	"top_p": top_p,
	"repetition_penalty": repetition_penalty,
	},
	"prompt_tokens": prompt_tokens,
	"generated_tokens": generated_tokens,
	"generated_text": self._decode_tokens(generated_tokens),
	"generated_token_count": len(generated_tokens),
	"steps": steps,
	}

	def _generation_prompt_tokens(self, context: str, active_mode: str) -> tuple[str, list[str]]:
	assert self.tokenizer is not None
	prompt = context if "<answer>" in context else f"{context} <answer>"
	prefix = reasoning_prefix(active_mode)
	prompt_tokens = self.tokenizer.encode(prompt)
	if (
	"<answer>" in prompt_tokens
	and "<reason>" not in prompt_tokens
	and "<reason>" not in prefix
	):
	prompt_tokens = ["<reason>"] + prompt_tokens
	return prompt, prefix + prompt_tokens

	def _predict_next_token_distribution_from_tokens(
	self,
	context_tokens: list[str],
	) -> dict[str, float]:
	decode_state = self._build_decode_state(context_tokens)
	return self._predict_next_token_distribution_from_state(decode_state)

	def _predict_next_token_distribution_from_state(
	self,
	decode_state: DecodeState,
	) -> dict[str, float]:
	probabilities, _ = self._score_next_token_from_state(
	decode_state,
	include_trace=False,
	)
	return probabilities

	@staticmethod
	def _answer_sequence_should_lock(
	*,
	answer_sequence_confidence: float,
	answer_sequence_match_confidence: float,
	has_answer_sequence_prior: bool,
	) -> bool:
	if not has_answer_sequence_prior or answer_sequence_confidence <= 0.0:
	return False
	if answer_sequence_match_confidence >= ANSWER_SEQUENCE_LOCK_FLOOR:
	return True
	return (
	answer_sequence_match_confidence >= ANSWER_SEQUENCE_DISTRIBUTED_LOCK_FLOOR
	and answer_sequence_confidence <= ANSWER_SEQUENCE_SPIKE_CONFIDENCE
	)

	@staticmethod
	def _answer_start_blend_weights(
	*,
	answer_sequence_match_confidence: float,
	) -> dict[str, float]:
	if answer_sequence_match_confidence >= ANSWER_SEQUENCE_LOCK_FLOOR:
	return {
	"prompt_answer_start": 0.35,
	"prompt_answer": 0.10,
	"answer_sequence": 0.45,
	"answer_start": 0.10,
	}
	return {
	"prompt_answer_start": 0.55,
	"prompt_answer": 0.20,
	"answer_sequence": 0.15,
	"answer_start": 0.10,
	}

	def _score_next_token_from_tokens(
	self,
	context_tokens: list[str],
	*,
	top_k: int = 5,
	include_trace: bool = True,
	) -> tuple[dict[str, float], dict[str, object]]:
	decode_state = self._build_decode_state(context_tokens)
	return self._score_next_token_from_state(
	decode_state,
	top_k=top_k,
	include_trace=include_trace,
	)

	def _score_next_token_from_state(
	self,
	decode_state: DecodeState,
	*,
	top_k: int = 5,
	include_trace: bool = True,
	generated_tokens: list[str] \| None = None,
	) -> tuple[dict[str, float], dict[str, object]]:
	assert self.embedding_model is not None
	assert self.readout_weights is not None
	generated_tokens = generated_tokens or []

	state = self._masked_decode_state(decode_state)
	logits = self._apply_readout_fast(state)
	base_probabilities = self._calibrated_softmax(logits)
	if decode_state.answer_matches is None:
	decode_state.answer_matches = self._score_answer_matches(
	decode_state.answer_anchor_state,
	limit=max(ANSWER_TOP_K, top_k) if include_trace else ANSWER_TOP_K,
	)
	answer_matches = decode_state.answer_matches
	if decode_state.answer_start_matches is None:
	decode_state.answer_start_matches = self._score_answer_start_matches(
	decode_state.answer_anchor_state,
	limit=max(ANSWER_START_TOP_K, top_k) if include_trace else ANSWER_START_TOP_K,
	)
	answer_start_matches = decode_state.answer_start_matches
	if decode_state.answer_sequence_matches is None:
	decode_state.answer_sequence_matches = self._score_answer_sequence_matches(
	decode_state.answer_anchor_state,
	decode_state.context_tokens,
	limit=max(ANSWER_START_TOP_K, top_k) if include_trace else ANSWER_START_TOP_K,
	)
	answer_sequence_matches = decode_state.answer_sequence_matches
	answer_prior = self._answer_prior_from_matches(answer_matches, generated_tokens)
	answer_start_prior = self._answer_prior_from_matches(answer_start_matches, generated_tokens)
	answer_sequence_prior = self._answer_sequence_prior_from_matches(
	answer_sequence_matches,
	generated_tokens,
	)
	answer_sequence_confidence = max(answer_sequence_prior) if answer_sequence_prior else 0.0
	answer_sequence_match_confidence = (
	answer_sequence_matches[0][0] if answer_sequence_matches else 0.0
	)
	has_answer_sequence_prior = any(value > 0.0 for value in answer_sequence_prior)
	answer_locked = self._answer_sequence_should_lock(
	answer_sequence_confidence=answer_sequence_confidence,
	answer_sequence_match_confidence=answer_sequence_match_confidence,
	has_answer_sequence_prior=has_answer_sequence_prior,
	)
	if decode_state.prompt_answer_prior is None:
	decode_state.prompt_answer_prior = self._prompt_answer_readout_prior(
	decode_state.answer_anchor_state,
	start=False,
	)
	prompt_answer_prior = decode_state.prompt_answer_prior
	prompt_answer_start_prior = (
	decode_state.prompt_answer_start_prior
	if not generated_tokens
	else [0.0 for _ in self.embedding_model.id_to_token]
	)
	if not generated_tokens and prompt_answer_start_prior is None:
	decode_state.prompt_answer_start_prior = self._prompt_answer_readout_prior(
	decode_state.answer_anchor_state,
	start=True,
	)
	prompt_answer_start_prior = decode_state.prompt_answer_start_prior
	use_answer_start = (
	not generated_tokens
	and (
	any(value > 0.0 for value in answer_start_prior)
	or any(value > 0.0 for value in prompt_answer_start_prior)
	)
	)
	if answer_locked:
	answer_prior = answer_sequence_prior
	elif use_answer_start:
	start_blend = self._answer_start_blend_weights(
	answer_sequence_match_confidence=answer_sequence_match_confidence
	)
	answer_prior = self._weighted_prior_sum(
	[
	(start_blend["prompt_answer_start"], prompt_answer_start_prior),
	(start_blend["prompt_answer"], prompt_answer_prior),
	(start_blend["answer_sequence"], answer_sequence_prior),
	(start_blend["answer_start"], answer_start_prior),
	],
	)
	elif any(value > 0.0 for value in answer_sequence_prior):
	answer_prior = self._weighted_prior_sum(
	[
	(0.50, prompt_answer_prior),
	(0.30, answer_sequence_prior),
	(0.20, answer_prior),
	],
	)
	elif any(value > 0.0 for value in prompt_answer_prior):
	answer_prior = self._weighted_prior_sum(
	[
	(0.65, prompt_answer_prior),
	(0.35, answer_prior),
	],
	)
	associative_matches = (
	[]
	if use_answer_start
	else self._score_associative_matches(
	state,
	limit=max(ASSOCIATIVE_TOP_K, top_k) if include_trace else ASSOCIATIVE_TOP_K,
	)
	)
	associative_prior = (
	[0.0 for _ in self.embedding_model.id_to_token]
	if use_answer_start
	else self._associative_prior_from_matches(associative_matches)
	)
	transition_prior, transition_order = self._transition_prior_with_order(decode_state.context_tokens)
	copy_prior = self._copy_prior(decode_state.context_tokens)
	preference_prior = self._preference_prior()
	probabilities, blend_weights = self._blend_probabilities(
	base_probabilities,
	answer_prior,
	associative_prior,
	transition_prior,
	copy_prior,
	preference_prior,
	transition_order=transition_order,
	generated_count=len(generated_tokens),
	answer_locked=answer_locked,
	answer_guided_start=use_answer_start,
	)
	distribution = {
	token: probabilities[index]
	for index, token in enumerate(self.embedding_model.id_to_token)
	}
	if not include_trace:
	return distribution, {}

	trace = {
	"state_norm": norm(state),
	"blend_weights": blend_weights,
	"transition_order": transition_order,
	"base_top_predictions": self._top_entries_from_vector(base_probabilities, top_k),
	"answer_top_predictions": self._top_entries_from_vector(answer_prior, top_k),
	"prompt_answer_top_predictions": self._top_entries_from_vector(prompt_answer_prior, top_k),
	"prompt_answer_start_top_predictions": self._top_entries_from_vector(prompt_answer_start_prior, top_k),
	"answer_start_top_predictions": self._top_entries_from_vector(answer_start_prior, top_k),
	"answer_sequence_top_predictions": self._top_entries_from_vector(answer_sequence_prior, top_k),
	"associative_top_predictions": self._top_entries_from_vector(associative_prior, top_k),
	"transition_top_predictions": self._top_entries_from_vector(transition_prior, top_k),
	"copy_top_predictions": self._top_entries_from_vector(copy_prior, top_k),
	"preference_top_predictions": self._top_entries_from_vector(preference_prior, top_k),
	"final_top_predictions": self._top_entries_from_vector(probabilities, top_k),
	"associative_matches": [
	{
	"example_index": example_index,
	"similarity": similarity,
	**self._token_entry(token_id, similarity),
	}
	for similarity, token_id, example_index in associative_matches[:top_k]
	],
	"answer_matches": [
	{
	"example_index": example_index,
	"similarity": similarity,
	**self._token_entry(token_id, similarity),
	}
	for similarity, token_id, example_index in answer_matches[:top_k]
	],
	"answer_start_matches": [
	{
	"example_index": example_index,
	"similarity": similarity,
	**self._token_entry(token_id, similarity),
	}
	for similarity, token_id, example_index in answer_start_matches[:top_k]
	],
	"answer_sequence_matches": [
	{
	"example_index": example_index,
	"similarity": similarity,
	}
	for similarity, _, example_index in answer_sequence_matches[:top_k]
	],
	"reasoning_summary": self._build_reasoning_summary(
	transition_order,
	blend_weights,
	),
	}
	return distribution, trace

	def _score_next_token_array_from_state(
	self,
	decode_state: DecodeState,
	*,
	include_associative: bool,
	generated_tokens: list[str] \| None = None,
	) -> tuple[object, dict[str, float]]:
	assert np is not None
	assert self.embedding_model is not None
	generated_tokens = generated_tokens or []

	state = self._masked_decode_state_array(decode_state)
	logits = self._apply_readout_array(state)
	base_probabilities = self._calibrated_softmax_array(logits)
	if decode_state.answer_matches is None:
	decode_state.answer_matches = self._score_answer_matches(decode_state.answer_anchor_state)
	answer_prior = np.asarray(
	self._answer_prior_from_matches(
	decode_state.answer_matches,
	generated_tokens,
	),
	dtype=np.float64,
	)
	if decode_state.answer_sequence_matches is None:
	decode_state.answer_sequence_matches = self._score_answer_sequence_matches(
	decode_state.answer_anchor_state,
	decode_state.context_tokens,
	)
	answer_sequence_matches = decode_state.answer_sequence_matches
	answer_sequence_prior = np.asarray(
	self._answer_sequence_prior_from_matches(
	answer_sequence_matches,
	generated_tokens,
	),
	dtype=np.float64,
	)
	answer_sequence_confidence = (
	float(answer_sequence_prior.max()) if answer_sequence_prior.size else 0.0
	)
	answer_sequence_match_confidence = (
	answer_sequence_matches[0][0] if answer_sequence_matches else 0.0
	)
	has_answer_sequence_prior = bool(np.any(answer_sequence_prior > 0.0))
	answer_locked = self._answer_sequence_should_lock(
	answer_sequence_confidence=answer_sequence_confidence,
	answer_sequence_match_confidence=answer_sequence_match_confidence,
	has_answer_sequence_prior=has_answer_sequence_prior,
	)
	if decode_state.prompt_answer_prior is None:
	decode_state.prompt_answer_prior = self._prompt_answer_readout_prior_array(
	decode_state.answer_anchor_state,
	start=False,
	)
	prompt_answer_prior = decode_state.prompt_answer_prior
	prompt_answer_start_prior = np.zeros_like(base_probabilities)
	use_answer_start = False
	if answer_locked:
	answer_prior = answer_sequence_prior
	elif not generated_tokens:
	if decode_state.prompt_answer_start_prior is None:
	decode_state.prompt_answer_start_prior = self._prompt_answer_readout_prior_array(
	decode_state.answer_anchor_state,
	start=True,
	)
	prompt_answer_start_prior = decode_state.prompt_answer_start_prior
	if decode_state.answer_start_matches is None:
	decode_state.answer_start_matches = self._score_answer_start_matches(
	decode_state.answer_anchor_state
	)
	answer_start_prior = np.asarray(
	self._answer_prior_from_matches(
	decode_state.answer_start_matches,
	generated_tokens,
	),
	dtype=np.float64,
	)
	if np.any(answer_start_prior > 0.0) or np.any(prompt_answer_start_prior > 0.0):
	start_blend = self._answer_start_blend_weights(
	answer_sequence_match_confidence=answer_sequence_match_confidence
	)
	answer_prior = self._weighted_prior_sum_array(
	[
	(start_blend["prompt_answer_start"], prompt_answer_start_prior),
	(start_blend["prompt_answer"], prompt_answer_prior),
	(start_blend["answer_sequence"], answer_sequence_prior),
	(start_blend["answer_start"], answer_start_prior),
	],
	)
	use_answer_start = True
	if answer_locked:
	answer_prior = answer_sequence_prior
	elif not use_answer_start and np.any(answer_sequence_prior > 0.0):
	answer_prior = self._weighted_prior_sum_array(
	[
	(0.50, prompt_answer_prior),
	(0.30, answer_sequence_prior),
	(0.20, answer_prior),
	],
	)
	elif not use_answer_start and np.any(prompt_answer_prior > 0.0):
	answer_prior = self._weighted_prior_sum_array(
	[
	(0.65, prompt_answer_prior),
	(0.35, answer_prior),
	],
	)
	if include_associative and not use_answer_start:
	associative_prior = np.asarray(
	self._associative_prior_from_matches(
	self._score_associative_matches(state)
	),
	dtype=np.float64,
	)
	else:
	associative_prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	transition_prior, transition_order = self._transition_prior_array_with_order(
	decode_state.context_tokens
	)
	copy_prior = self._copy_prior_array(decode_state.context_tokens)
	preference_prior = self._preference_prior_array()
	return self._blend_probability_arrays(
	base_probabilities,
	answer_prior,
	associative_prior,
	transition_prior,
	copy_prior,
	preference_prior,
	transition_order=transition_order,
	generated_count=len(generated_tokens),
	answer_locked=answer_locked,
	answer_guided_start=use_answer_start,
	)

	def _calibrated_softmax(
	self,
	logits: Vector,
	*,
	scale: float = READOUT_LOGIT_ZSCORE_SCALE,
	) -> Vector:
	if np is not None:
	return self._calibrated_softmax_array(
	np.asarray(logits, dtype=np.float64),
	scale=scale,
	).tolist()
	if not logits:
	return []
	center = mean(logits)
	variance = mean([(value - center) * (value - center) for value in logits])
	spread = variance**0.5
	if spread <= 1e-12:
	return softmax(logits)
	calibrated = [
	max(-20.0, min(20.0, ((value - center) / spread) * scale))
	for value in logits
	]
	return softmax(calibrated)

	def _calibrated_softmax_array(
	self,
	logits: object,
	*,
	scale: float = READOUT_LOGIT_ZSCORE_SCALE,
	) -> object:
	assert np is not None
	values = np.asarray(logits, dtype=np.float64)
	if values.size == 0:
	return values
	spread = float(values.std())
	if spread > 1e-12:
	values = ((values - float(values.mean())) / spread) * scale
	values = np.clip(values, -20.0, 20.0)
	else:
	values = values - float(values.max())
	values = values - float(values.max())
	exponentials = np.exp(values)
	total = float(exponentials.sum())
	if total <= 0.0:
	return np.full(values.shape, 1.0 / max(1, values.size), dtype=np.float64)
	return exponentials / total

	def _weighted_prior_sum(self, sources: list[tuple[float, Vector]]) -> Vector:
	assert self.embedding_model is not None
	active_sources = [
	(weight, vector)
	for weight, vector in sources
	if weight > 0.0 and any(value > 0.0 for value in vector)
	]
	if not active_sources:
	return [0.0 for _ in self.embedding_model.id_to_token]
	total_weight = sum(weight for weight, _ in active_sources)
	merged = [0.0 for _ in self.embedding_model.id_to_token]
	for weight, vector in active_sources:
	normalized_weight = weight / total_weight
	for index, value in enumerate(vector):
	merged[index] += normalized_weight * value
	return _normalize_vector(merged)

	def _weighted_prior_sum_array(self, sources: list[tuple[float, object]]) -> object:
	assert np is not None
	assert self.embedding_model is not None
	active_sources = [
	(weight, np.asarray(vector, dtype=np.float64))
	for weight, vector in sources
	if weight > 0.0 and np.any(np.asarray(vector, dtype=np.float64) > 0.0)
	]
	if not active_sources:
	return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	total_weight = sum(weight for weight, _ in active_sources)
	merged = np.zeros_like(active_sources[0][1], dtype=np.float64)
	for weight, vector in active_sources:
	merged += (weight / total_weight) * vector
	total = float(merged.sum())
	if total > 0.0:
	merged /= total
	return merged

	def _prompt_answer_readout_prior(
	self,
	answer_anchor_state: Vector \| None,
	*,
	start: bool,
	) -> Vector:
	assert self.embedding_model is not None
	if answer_anchor_state is None:
	return [0.0 for _ in self.embedding_model.id_to_token]
	weights = self.prompt_answer_start_weights if start else self.prompt_answer_weights
	bias = self.prompt_answer_start_bias if start else self.prompt_answer_bias
	if np is not None:
	return self._prompt_answer_readout_prior_array(
	answer_anchor_state,
	start=start,
	).tolist()
	if not weights:
	return [0.0 for _ in self.embedding_model.id_to_token]
	state = self._center_state_vector(self._masked_combined_state(answer_anchor_state))
	logits = apply_readout(weights, state)
	if bias:
	logits = [value + bias[index] for index, value in enumerate(logits)]
	return self._calibrated_softmax(
	logits,
	scale=PROMPT_READOUT_LOGIT_ZSCORE_SCALE,
	)

	def _prompt_answer_readout_prior_array(
	self,
	answer_anchor_state: Vector \| None,
	*,
	start: bool,
	) -> object:
	assert np is not None
	assert self.embedding_model is not None
	if answer_anchor_state is None:
	return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	weights = (
	self.prompt_answer_start_weights_array
	if start
	else self.prompt_answer_weights_array
	)
	bias = self.prompt_answer_start_bias_array if start else self.prompt_answer_bias_array
	if weights is None:
	return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	state_array = self._center_state_array(
	self._masked_combined_state_array(answer_anchor_state)
	)
	logits = weights @ state_array
	if bias is not None and bias.shape == logits.shape:
	logits = logits + bias
	return self._calibrated_softmax_array(
	logits,
	scale=PROMPT_READOUT_LOGIT_ZSCORE_SCALE,
	)

	def save(self, path: str \| Path) -> None:
	self._require_fit()
	assert self.tokenizer is not None
	assert self.embedding_model is not None
	assert self.ternary_mask is not None
	assert self.readout_weights is not None
	assert self.associative_keys is not None
	assert self.associative_values is not None
	assert self.transition_tables is not None

	metadata = {
	"schema_version": "1",
	"checkpoint_kind": "reframr-analytical",
	"tokenizer_name": self.tokenizer.name,
	"config": json.dumps(self.config.to_dict(), separators=(",", ":")),
	"tokenizer": json.dumps(self.tokenizer.to_dict(), separators=(",", ":")),
	"embedding_id_to_token": json.dumps(self.embedding_model.id_to_token, separators=(",", ":")),
	"tokenizer_vocab_size": str(self.tokenizer.vocab_size),
	"transition_tables": json.dumps(self._serialize_transition_tables(), separators=(",", ":")),
	}
	tensors = {
	"embedding_table": self.embedding_model.embeddings,
	"ternary_scale": [self.ternary_scale],
	"ternary_mask": self.ternary_mask,
	"readout_weights": self.readout_weights,
	"readout_bias": self.readout_bias
	or [0.0 for _ in self.embedding_model.id_to_token],
	"prompt_answer_weights": self.prompt_answer_weights
	if self.prompt_answer_weights is not None
	else [],
	"prompt_answer_bias": self.prompt_answer_bias
	or [0.0 for _ in self.embedding_model.id_to_token],
	"prompt_answer_start_weights": self.prompt_answer_start_weights
	if self.prompt_answer_start_weights is not None
	else [],
	"prompt_answer_start_bias": self.prompt_answer_start_bias
	or [0.0 for _ in self.embedding_model.id_to_token],
	"trace_token_weights": self.trace_token_weights
	or [1.0 for _ in self.embedding_model.id_to_token],
	"preference_bias": self.preference_bias
	or [0.0 for _ in self.embedding_model.id_to_token],
	"state_offset": self.state_offset
	or [0.0 for _ in range(self._combined_state_width())],
	"associative_keys": self.associative_keys,
	"associative_values": self.associative_values,
	"answer_keys": self.answer_keys if self.answer_keys is not None else [],
	"answer_values": self.answer_values if self.answer_values is not None else [],
	"answer_start_keys": self.answer_start_keys if self.answer_start_keys is not None else [],
	"answer_start_values": self.answer_start_values if self.answer_start_values is not None else [],
	"answer_sequence_keys": self.answer_sequence_keys if self.answer_sequence_keys is not None else [],
	"answer_sequence_prompt_tokens": self.answer_sequence_prompt_tokens if self.answer_sequence_prompt_tokens is not None else [],
	"answer_sequence_tokens": self.answer_sequence_tokens if self.answer_sequence_tokens is not None else [],
	}
	write_safetensor_file(path, tensors, metadata=metadata)

	@classmethod
	def load(cls, path: str \| Path) -> "ReframrModel":
	checkpoint_path = Path(path)
	checkpoint = read_safetensor_file(
	checkpoint_path,
	arrays=np is not None and checkpoint_path.stat().st_size > 10_000_000,
	)
	metadata = checkpoint.metadata
	config = ReframrConfig.from_dict(json.loads(metadata["config"]))
	model = cls(config)
	model.tokenizer = NativeTokenizer.from_dict(json.loads(metadata["tokenizer"]))
	id_to_token = [str(token) for token in json.loads(metadata["embedding_id_to_token"])]
	embedding_table = checkpoint.tensors["embedding_table"]
	if np is not None and hasattr(embedding_table, "shape"):
	embeddings = embedding_table.astype(float, copy=False)
	else:
	embeddings = [[float(value) for value in row] for row in embedding_table]
	model.embedding_model = EmbeddingModel(
	token_to_id={token: index for index, token in enumerate(id_to_token)},
	id_to_token=id_to_token,
	embeddings=embeddings,
	ppmi_matrix=[],
	)
	model.memory_units = [
	AnalyticalMemoryUnit(model.config.state_dim, timescale)
	for timescale in model.config.timescales
	]
	model.ternary_scale = float(checkpoint.tensors["ternary_scale"][0])
	model.ternary_mask = [int(value) for value in checkpoint.tensors["ternary_mask"]]
	readout_tensor = checkpoint.tensors["readout_weights"]
	model.readout_weights = (
	readout_tensor.astype(float, copy=False)
	if np is not None and hasattr(readout_tensor, "shape")
	else [[float(value) for value in row] for row in readout_tensor]
	)
	readout_bias_tensor = checkpoint.tensors.get("readout_bias", [])
	model.readout_bias = [
	float(value) for value in (
	readout_bias_tensor.tolist()
	if hasattr(readout_bias_tensor, "tolist")
	else readout_bias_tensor
	)
	]
	if not model.readout_bias:
	model.readout_bias = [0.0 for _ in id_to_token]
	prompt_answer_tensor = checkpoint.tensors.get("prompt_answer_weights", [])
	model.prompt_answer_weights = (
	prompt_answer_tensor.astype(float, copy=False)
	if np is not None
	and hasattr(prompt_answer_tensor, "shape")
	and len(prompt_answer_tensor.shape) == 2
	else [[float(value) for value in row] for row in prompt_answer_tensor]
	)
	prompt_answer_bias_tensor = checkpoint.tensors.get("prompt_answer_bias", [])
	model.prompt_answer_bias = [
	float(value) for value in (
	prompt_answer_bias_tensor.tolist()
	if hasattr(prompt_answer_bias_tensor, "tolist")
	else prompt_answer_bias_tensor
	)
	]
	if not model.prompt_answer_bias:
	model.prompt_answer_bias = [0.0 for _ in id_to_token]
	prompt_answer_start_tensor = checkpoint.tensors.get("prompt_answer_start_weights", [])
	model.prompt_answer_start_weights = (
	prompt_answer_start_tensor.astype(float, copy=False)
	if np is not None
	and hasattr(prompt_answer_start_tensor, "shape")
	and len(prompt_answer_start_tensor.shape) == 2
	else [[float(value) for value in row] for row in prompt_answer_start_tensor]
	)
	prompt_answer_start_bias_tensor = checkpoint.tensors.get("prompt_answer_start_bias", [])
	model.prompt_answer_start_bias = [
	float(value) for value in (
	prompt_answer_start_bias_tensor.tolist()
	if hasattr(prompt_answer_start_bias_tensor, "tolist")
	else prompt_answer_start_bias_tensor
	)
	]
	if not model.prompt_answer_start_bias:
	model.prompt_answer_start_bias = [0.0 for _ in id_to_token]
	trace_weight_tensor = checkpoint.tensors.get("trace_token_weights", [])
	model.trace_token_weights = [
	float(value) for value in (
	trace_weight_tensor.tolist()
	if hasattr(trace_weight_tensor, "tolist")
	else trace_weight_tensor
	)
	]
	if not model.trace_token_weights:
	model.trace_token_weights = [
	0.0 if token in model.tokenizer.special_tokens else 1.0
	for token in id_to_token
	]
	preference_bias_tensor = checkpoint.tensors.get("preference_bias", [])
	model.preference_bias = [
	float(value) for value in (
	preference_bias_tensor.tolist()
	if hasattr(preference_bias_tensor, "tolist")
	else preference_bias_tensor
	)
	]
	if not model.preference_bias:
	model.preference_bias = [0.0 for _ in id_to_token]
	state_offset_tensor = checkpoint.tensors.get("state_offset", [])
	model.state_offset = [
	float(value) for value in (
	state_offset_tensor.tolist()
	if hasattr(state_offset_tensor, "tolist")
	else state_offset_tensor
	)
	]
	if not model.state_offset:
	model.state_offset = [0.0 for _ in range(model._combined_state_width())]
	associative_tensor = checkpoint.tensors.get("associative_keys", [])
	model.associative_keys = (
	associative_tensor.astype(float, copy=False)
	if np is not None and hasattr(associative_tensor, "shape")
	else [[float(value) for value in row] for row in associative_tensor]
	)
	if np is not None and hasattr(model.associative_keys, "shape"):
	model.associative_key_norms = np.linalg.norm(model.associative_keys, axis=1).tolist()
	else:
	model.associative_key_norms = [norm(key) for key in model.associative_keys]
	raw_associative_values = checkpoint.tensors.get("associative_values", [])
	model.associative_values = [
	int(value) for value in (
	raw_associative_values.tolist()
	if hasattr(raw_associative_values, "tolist")
	else raw_associative_values
	)
	]
	answer_tensor = checkpoint.tensors.get("answer_keys", [])
	if np is not None and hasattr(answer_tensor, "shape"):
	model.answer_keys = (
	answer_tensor.astype(float, copy=False)
	if len(answer_tensor.shape) == 2
	else []
	)
	else:
	model.answer_keys = [[float(value) for value in row] for row in answer_tensor]
	if (
	np is not None
	and hasattr(model.answer_keys, "shape")
	and len(model.answer_keys.shape) == 2
	):
	model.answer_key_norms = np.linalg.norm(model.answer_keys, axis=1).tolist()
	else:
	model.answer_key_norms = [norm(key) for key in model.answer_keys]
	raw_answer_values = checkpoint.tensors.get("answer_values", [])
	model.answer_values = [
	int(value) for value in (
	raw_answer_values.tolist()
	if hasattr(raw_answer_values, "tolist")
	else raw_answer_values
	)
	]
	answer_start_tensor = checkpoint.tensors.get("answer_start_keys", [])
	if np is not None and hasattr(answer_start_tensor, "shape"):
	model.answer_start_keys = (
	answer_start_tensor.astype(float, copy=False)
	if len(answer_start_tensor.shape) == 2
	else []
	)
	else:
	model.answer_start_keys = [
	[float(value) for value in row] for row in answer_start_tensor
	]
	if (
	np is not None
	and hasattr(model.answer_start_keys, "shape")
	and len(model.answer_start_keys.shape) == 2
	):
	model.answer_start_key_norms = np.linalg.norm(model.answer_start_keys, axis=1).tolist()
	else:
	model.answer_start_key_norms = [norm(key) for key in model.answer_start_keys]
	raw_answer_start_values = checkpoint.tensors.get("answer_start_values", [])
	model.answer_start_values = [
	int(value) for value in (
	raw_answer_start_values.tolist()
	if hasattr(raw_answer_start_values, "tolist")
	else raw_answer_start_values
	)
	]
	answer_sequence_tensor = checkpoint.tensors.get("answer_sequence_keys", [])
	if np is not None and hasattr(answer_sequence_tensor, "shape"):
	model.answer_sequence_keys = (
	answer_sequence_tensor.astype(float, copy=False)
	if len(answer_sequence_tensor.shape) == 2
	else []
	)
	else:
	model.answer_sequence_keys = [
	[float(value) for value in row] for row in answer_sequence_tensor
	]
	if (
	np is not None
	and hasattr(model.answer_sequence_keys, "shape")
	and len(model.answer_sequence_keys.shape) == 2
	):
	model.answer_sequence_key_norms = np.linalg.norm(
	model.answer_sequence_keys,
	axis=1,
	).tolist()
	else:
	model.answer_sequence_key_norms = [norm(key) for key in model.answer_sequence_keys]
	raw_answer_sequence_prompt_tokens = checkpoint.tensors.get("answer_sequence_prompt_tokens", [])
	if np is not None and hasattr(raw_answer_sequence_prompt_tokens, "shape"):
	model.answer_sequence_prompt_tokens = raw_answer_sequence_prompt_tokens.astype(int, copy=False)
	else:
	model.answer_sequence_prompt_tokens = [
	[int(value) for value in row] for row in raw_answer_sequence_prompt_tokens
	]
	raw_answer_sequence_tokens = checkpoint.tensors.get("answer_sequence_tokens", [])
	if np is not None and hasattr(raw_answer_sequence_tokens, "shape"):
	model.answer_sequence_tokens = raw_answer_sequence_tokens.astype(int, copy=False)
	else:
	model.answer_sequence_tokens = [
	[int(value) for value in row] for row in raw_answer_sequence_tokens
	]
	model.transition_tables = model._deserialize_transition_tables(
	json.loads(metadata.get("transition_tables", "{}"))
	)
	model._refresh_numeric_caches()
	return model

	def _collect_training_examples(
	self,
	tokens: list[str],
	) -> tuple[list[Vector], list[Vector], list[int]]:
	assert self.embedding_model is not None
	if np is not None:
	hidden_states = [
	np.zeros(self.config.state_dim, dtype=np.float64)
	for _ in self.config.timescales
	]
	context_traces = [
	np.zeros(self.config.embedding_dim, dtype=np.float64)
	for _ in self.config.timescales
	]
	zero_embedding: Vector \| object = np.zeros(self.config.embedding_dim, dtype=np.float64)
	else:
	hidden_states = [zeros_vector(self.config.state_dim) for _ in self.config.timescales]
	context_traces = [zeros_vector(self.config.embedding_dim) for _ in self.config.timescales]
	zero_embedding = zeros_vector(self.config.embedding_dim)
	states: list[Vector] = []
	labels: list[Vector] = []
	label_ids: list[int] = []
	token_ids = [
	self.embedding_model.token_to_id.get(token, -1)
	for token in tokens
	]
	example_count = max(0, len(tokens) - 1)
	stride = 1
	if self.config.max_training_examples and example_count > self.config.max_training_examples:
	stride = max(
	1,
	(example_count + self.config.max_training_examples - 1) // self.config.max_training_examples,
	)

	for index in range(len(tokens) - 1):
	token = tokens[index]
	token_id = token_ids[index]
	embedding = (
	self.embedding_model.embeddings[token_id]
	if token_id >= 0
	else zero_embedding
	)
	trace_embedding = self._trace_embedding_from_token_id(embedding, token_id)
	hidden_states, context_traces, combined_state = self._step_hidden_states_from_embedding(
	hidden_states,
	context_traces,
	embedding,
	trace_embedding=trace_embedding,
	)
	if stride > 1 and index % stride != 0 and index != len(tokens) - 2:
	continue
	states.append(combined_state)
	next_token_id = token_ids[index + 1]
	labels.append(self._one_hot_from_id(next_token_id))
	label_ids.append(next_token_id)

	if self.config.max_training_examples and len(states) > self.config.max_training_examples:
	states = states[: self.config.max_training_examples]
	labels = labels[: self.config.max_training_examples]
	label_ids = label_ids[: self.config.max_training_examples]
	return states, labels, label_ids

	def _is_punctuation_piece(self, piece: str) -> bool:
	return bool(piece) and all(character in string.punctuation for character in piece)

	def _encode_context(self, tokens: list[str]) -> Vector:
	return self._masked_decode_state(self._build_decode_state(tokens))

	def _build_decode_state(self, tokens: list[str]) -> DecodeState:
	assert self.memory_units is not None

	state = DecodeState(
	hidden_states=(
	[
	np.zeros(self.config.state_dim, dtype=np.float64)
	for _ in self.config.timescales
	]
	if np is not None
	else [zeros_vector(self.config.state_dim) for _ in self.config.timescales]
	),
	context_traces=(
	[
	np.zeros(self.config.embedding_dim, dtype=np.float64)
	for _ in self.config.timescales
	]
	if np is not None
	else [zeros_vector(self.config.embedding_dim) for _ in self.config.timescales]
	),
	combined_state=self._zero_combined_state(),
	context_tokens=[],
	)
	for token in tokens:
	self._advance_decode_state(state, token)
	return state

	def _advance_decode_state(self, state: DecodeState, token: str) -> DecodeState:
	next_hidden_states, next_context_traces, combined_state = self._step_hidden_states(
	state.hidden_states,
	state.context_traces,
	token,
	)
	state.hidden_states = next_hidden_states
	state.context_traces = next_context_traces
	state.combined_state = combined_state
	state.context_tokens.append(token)
	if token == "<answer>":
	state.answer_anchor_state = combined_state.copy() if hasattr(combined_state, "copy") else combined_state[:]
	state.answer_matches = None
	state.answer_start_matches = None
	state.answer_sequence_matches = None
	state.prompt_answer_prior = None
	state.prompt_answer_start_prior = None
	return state

	def _masked_decode_state(self, state: DecodeState) -> Vector:
	assert self.ternary_mask is not None
	return apply_ternary_mask(state.combined_state, self.ternary_mask, self.ternary_scale)

	def _masked_combined_state(self, combined_state: Vector) -> Vector:
	assert self.ternary_mask is not None
	return apply_ternary_mask(combined_state, self.ternary_mask, self.ternary_scale)

	def _masked_decode_state_array(self, state: DecodeState) -> object:
	assert np is not None
	if self.ternary_mask_array is None:
	return np.asarray(self._masked_decode_state(state), dtype=RUNTIME_ARRAY_DTYPE)
	return (
	np.asarray(state.combined_state, dtype=RUNTIME_ARRAY_DTYPE)
	* self.ternary_scale
	* self.ternary_mask_array
	)

	def _masked_combined_state_array(self, combined_state: Vector) -> object:
	assert np is not None
	if self.ternary_mask_array is None:
	return np.asarray(self._masked_combined_state(combined_state), dtype=RUNTIME_ARRAY_DTYPE)
	return (
	np.asarray(combined_state, dtype=RUNTIME_ARRAY_DTYPE)
	* self.ternary_scale
	* self.ternary_mask_array
	)

	def _center_state_vector(self, state: Vector) -> Vector:
	if not self.state_offset or len(self.state_offset) != len(state):
	return state
	return [value - self.state_offset[index] for index, value in enumerate(state)]

	def _center_state_array(self, state: object) -> object:
	assert np is not None
	state_array = np.asarray(state, dtype=RUNTIME_ARRAY_DTYPE)
	if self.state_offset_array is None or self.state_offset_array.shape != state_array.shape:
	return state_array
	return state_array - self.state_offset_array

	def _zero_combined_state(self) -> Vector:
	return [0.0 for _ in range(self._combined_state_width())]

	def _combined_state_width(self) -> int:
	return (self.config.state_dim + self.config.embedding_dim) * len(self.config.timescales)

	def _derive_trace_token_weights_from_counts(self, token_counts: dict[str, float]) -> Vector:
	assert self.embedding_model is not None
	assert self.tokenizer is not None
	counts = [
	float(token_counts.get(token, 0.0))
	for token in self.embedding_model.id_to_token
	]
	positive_counts = sorted(value for value in counts if value > 0.0)
	reference = (
	positive_counts[len(positive_counts) // 2]
	if positive_counts
	else 1.0
	)
	weights: Vector = []
	for token, count in zip(self.embedding_model.id_to_token, counts):
	if token in self.tokenizer.special_tokens:
	weights.append(0.0)
	elif count <= 0.0:
	weights.append(1.0)
	else:
	weight = (reference / count) ** 0.75
	weights.append(max(0.08, min(4.8, weight)))
	return weights

	def _token_id_for_token(self, token: str) -> int:
	assert self.embedding_model is not None
	token_id = self.embedding_model.token_to_id.get(token)
	if token_id is None and token.lower() != token:
	token_id = self.embedding_model.token_to_id.get(token.lower())
	return int(token_id) if token_id is not None else -1

	def _trace_embedding_from_token_id(
	self,
	embedding: Vector \| object,
	token_id: int,
	) -> Vector \| object:
	if token_id < 0:
	return embedding
	if self.trace_embedding_table_array is not None:
	return self.trace_embedding_table_array[token_id]
	weight = self.trace_token_weights[token_id] if self.trace_token_weights is not None else 1.0
	dimension = self.config.embedding_dim
	if hasattr(embedding, "shape"):
	trace_embedding = embedding * weight
	for bucket_multiplier, bucket_offset, sign_multiplier, sign_offset in TRACE_IDENTITY_HASHES:
	bucket = (token_id * bucket_multiplier + bucket_offset) % dimension
	sign = 1.0 if ((token_id * sign_multiplier + sign_offset) & 1) == 0 else -1.0
	trace_embedding[bucket] += weight * TRACE_IDENTITY_SCALE * sign
	return trace_embedding
	trace_values = [float(value) * weight for value in embedding]
	for bucket_multiplier, bucket_offset, sign_multiplier, sign_offset in TRACE_IDENTITY_HASHES:
	bucket = (token_id * bucket_multiplier + bucket_offset) % dimension
	sign = 1.0 if ((token_id * sign_multiplier + sign_offset) & 1) == 0 else -1.0
	trace_values[bucket] += weight * TRACE_IDENTITY_SCALE * sign
	return trace_values

	def _build_trace_embedding_table_array(self, embedding_array: object) -> object \| None:
	if np is None or self.trace_token_weights is None:
	return None
	values = np.asarray(embedding_array, dtype=np.float64)
	if values.size == 0 or len(values.shape) != 2:
	return None
	weights = np.asarray(self.trace_token_weights, dtype=np.float64)
	if weights.shape[0] != values.shape[0]:
	return None
	trace_values = values * weights[:, None]
	if values.shape[1] <= 0:
	return trace_values
	token_ids = np.arange(values.shape[0], dtype=np.int64)
	for bucket_multiplier, bucket_offset, sign_multiplier, sign_offset in TRACE_IDENTITY_HASHES:
	buckets = ((token_ids * bucket_multiplier + bucket_offset) % values.shape[1]).astype(
	np.int64,
	copy=False,
	)
	signs = np.where(
	((token_ids * sign_multiplier + sign_offset) & 1) == 0,
	1.0,
	-1.0,
	)
	np.add.at(trace_values, (token_ids, buckets), weights * TRACE_IDENTITY_SCALE * signs)
	return trace_values

	def _refresh_numeric_caches(self) -> None:
	if np is None:
	self.ternary_mask_array = None
	self.readout_weights_array = None
	self.readout_bias_array = None
	self.prompt_answer_weights_array = None
	self.prompt_answer_bias_array = None
	self.prompt_answer_start_weights_array = None
	self.prompt_answer_start_bias_array = None
	self.trace_token_weights_array = None
	self.trace_embedding_table_array = None
	self.preference_bias_array = None
	self.preference_valid_mask_array = None
	self.state_offset_array = None
	self.associative_keys_array = None
	self.associative_key_norms_array = None
	self.associative_values_array = None
	self.associative_valid_mask_array = None
	self.answer_keys_array = None
	self.answer_key_norms_array = None
	self.answer_similarity_keys_array = None
	self.answer_similarity_key_norms_array = None
	self.answer_similarity_mask_array = None
	self.answer_values_array = None
	self.answer_valid_mask_array = None
	self.answer_start_keys_array = None
	self.answer_start_key_norms_array = None
	self.answer_start_similarity_keys_array = None
	self.answer_start_similarity_key_norms_array = None
	self.answer_start_values_array = None
	self.answer_start_valid_mask_array = None
	self.answer_sequence_keys_array = None
	self.answer_sequence_key_norms_array = None
	self.answer_sequence_similarity_keys_array = None
	self.answer_sequence_similarity_key_norms_array = None
	self.answer_sequence_prompt_tokens_array = None
	self.answer_sequence_tokens_array = None
	self.answer_sequence_prompt_weight_maps = None
	self.answer_sequence_prompt_weight_norms = None
	self.answer_sequence_prompt_bigram_sets = None
	self.answer_sequence_prompt_trigram_sets = None
	self.answer_sequence_prompt_number_sets = None
	self.answer_sequence_prompt_inverted_index = None
	self._refresh_answer_sequence_prompt_overlap_cache()
	return
	self.ternary_mask_array = (
	np.asarray(self.ternary_mask, dtype=RUNTIME_ARRAY_DTYPE)
	if self.ternary_mask is not None
	else None
	)
	self.readout_weights_array = (
	np.asarray(self.readout_weights, dtype=RUNTIME_ARRAY_DTYPE)
	if self.readout_weights is not None
	else None
	)
	self.readout_bias_array = (
	np.asarray(self.readout_bias, dtype=RUNTIME_ARRAY_DTYPE)
	if self.readout_bias is not None
	else None
	)
	self.prompt_answer_weights_array = (
	np.asarray(self.prompt_answer_weights, dtype=RUNTIME_ARRAY_DTYPE)
	if self.prompt_answer_weights is not None
	and len(self.prompt_answer_weights) > 0
	else None
	)
	self.prompt_answer_bias_array = (
	np.asarray(self.prompt_answer_bias, dtype=RUNTIME_ARRAY_DTYPE)
	if self.prompt_answer_bias is not None
	else None
	)
	self.prompt_answer_start_weights_array = (
	np.asarray(self.prompt_answer_start_weights, dtype=RUNTIME_ARRAY_DTYPE)
	if self.prompt_answer_start_weights is not None
	and len(self.prompt_answer_start_weights) > 0
	else None
	)
	self.prompt_answer_start_bias_array = (
	np.asarray(self.prompt_answer_start_bias, dtype=RUNTIME_ARRAY_DTYPE)
	if self.prompt_answer_start_bias is not None
	else None
	)
	self.trace_token_weights_array = (
	np.asarray(self.trace_token_weights, dtype=RUNTIME_ARRAY_DTYPE)
	if self.trace_token_weights is not None
	else None
	)
	trace_embedding_table = (
	self._build_trace_embedding_table_array(self.embedding_model.embeddings)
	if self.embedding_model is not None and self.trace_token_weights is not None
	else None
	)
	self.trace_embedding_table_array = (
	trace_embedding_table.astype(RUNTIME_ARRAY_DTYPE, copy=False)
	if trace_embedding_table is not None
	else None
	)
	self.preference_bias_array = (
	np.asarray(self.preference_bias, dtype=RUNTIME_ARRAY_DTYPE)
	if self.preference_bias is not None
	else None
	)
	self.preference_valid_mask_array = (
	np.asarray(
	[
	self._eligible_preference_token(token)
	for token in self.embedding_model.id_to_token
	],
	dtype=bool,
	)
	if self.embedding_model is not None and self.tokenizer is not None
	else None
	)
	self.state_offset_array = (
	np.asarray(self.state_offset, dtype=RUNTIME_ARRAY_DTYPE)
	if self.state_offset is not None
	else None
	)
	self.associative_keys_array = (
	np.asarray(self.associative_keys, dtype=RUNTIME_ARRAY_DTYPE)
	if self.associative_keys is not None and len(self.associative_keys) > 0
	else None
	)
	self.associative_key_norms_array = (
	np.asarray(self.associative_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
	if self.associative_key_norms is not None and len(self.associative_key_norms) > 0
	else None
	)
	self.associative_values_array = (
	np.asarray(self.associative_values, dtype=np.int64)
	if self.associative_values is not None and len(self.associative_values) > 0
	else None
	)
	self.associative_valid_mask_array = (
	self.associative_values_array >= 0
	if self.associative_values_array is not None
	else None
	)
	self.answer_keys_array = (
	np.asarray(self.answer_keys, dtype=RUNTIME_ARRAY_DTYPE)
	if self.answer_keys is not None and len(self.answer_keys) > 0
	else None
	)
	self.answer_key_norms_array = (
	np.asarray(self.answer_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
	if self.answer_key_norms is not None and len(self.answer_key_norms) > 0
	else None
	)
	self.answer_similarity_keys_array = None
	self.answer_similarity_key_norms_array = None
	self.answer_similarity_mask_array = None
	if self.answer_keys_array is not None and len(self.answer_keys_array.shape) == 2:
	width = int(self.answer_keys_array.shape[1])
	block_width = self.config.state_dim + self.config.embedding_dim
	expected_width = block_width * len(self.config.timescales)
	if block_width > 0 and width == expected_width:
	mask = np.zeros(width, dtype=RUNTIME_ARRAY_DTYPE)
	for scale_index in range(len(self.config.timescales)):
	start = scale_index * block_width + self.config.state_dim
	end = start + self.config.embedding_dim
	mask[start:end] = 1.0
	self.answer_similarity_mask_array = mask
	self.answer_similarity_keys_array = self.answer_keys_array * mask[None, :]
	self.answer_similarity_key_norms_array = np.linalg.norm(
	self.answer_similarity_keys_array,
	axis=1,
	).astype(RUNTIME_ARRAY_DTYPE, copy=False)
	self.answer_values_array = (
	np.asarray(self.answer_values, dtype=np.int64)
	if self.answer_values is not None and len(self.answer_values) > 0
	else None
	)
	self.answer_valid_mask_array = (
	self.answer_values_array >= 0
	if self.answer_values_array is not None
	else None
	)
	self.answer_start_keys_array = (
	np.asarray(self.answer_start_keys, dtype=RUNTIME_ARRAY_DTYPE)
	if self.answer_start_keys is not None and len(self.answer_start_keys) > 0
	else None
	)
	self.answer_start_key_norms_array = (
	np.asarray(self.answer_start_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
	if self.answer_start_key_norms is not None and len(self.answer_start_key_norms) > 0
	else None
	)
	self.answer_start_similarity_keys_array = None
	self.answer_start_similarity_key_norms_array = None
	if (
	self.answer_start_keys_array is not None
	and len(self.answer_start_keys_array.shape) == 2
	and self.answer_similarity_mask_array is not None
	and int(self.answer_start_keys_array.shape[1]) == int(self.answer_similarity_mask_array.shape[0])
	):
	self.answer_start_similarity_keys_array = (
	self.answer_start_keys_array * self.answer_similarity_mask_array[None, :]
	)
	self.answer_start_similarity_key_norms_array = np.linalg.norm(
	self.answer_start_similarity_keys_array,
	axis=1,
	).astype(RUNTIME_ARRAY_DTYPE, copy=False)
	self.answer_start_values_array = (
	np.asarray(self.answer_start_values, dtype=np.int64)
	if self.answer_start_values is not None and len(self.answer_start_values) > 0
	else None
	)
	self.answer_start_valid_mask_array = (
	self.answer_start_values_array >= 0
	if self.answer_start_values_array is not None
	else None
	)
	self.answer_sequence_keys_array = (
	np.asarray(self.answer_sequence_keys, dtype=RUNTIME_ARRAY_DTYPE)
	if self.answer_sequence_keys is not None and len(self.answer_sequence_keys) > 0
	else None
	)
	self.answer_sequence_key_norms_array = (
	np.asarray(self.answer_sequence_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
	if self.answer_sequence_key_norms is not None and len(self.answer_sequence_key_norms) > 0
	else None
	)
	self.answer_sequence_similarity_keys_array = None
	self.answer_sequence_similarity_key_norms_array = None
	if (
	self.answer_sequence_keys_array is not None
	and len(self.answer_sequence_keys_array.shape) == 2
	and self.answer_similarity_mask_array is not None
	and int(self.answer_sequence_keys_array.shape[1]) == int(self.answer_similarity_mask_array.shape[0])
	):
	self.answer_sequence_similarity_keys_array = (
	self.answer_sequence_keys_array * self.answer_similarity_mask_array[None, :]
	)
	self.answer_sequence_similarity_key_norms_array = np.linalg.norm(
	self.answer_sequence_similarity_keys_array,
	axis=1,
	).astype(RUNTIME_ARRAY_DTYPE, copy=False)
	self.answer_sequence_tokens_array = (
	np.asarray(self.answer_sequence_tokens, dtype=np.int64)
	if self.answer_sequence_tokens is not None and len(self.answer_sequence_tokens) > 0
	else None
	)
	self.answer_sequence_prompt_tokens_array = (
	np.asarray(self.answer_sequence_prompt_tokens, dtype=np.int64)
	if self.answer_sequence_prompt_tokens is not None
	and len(self.answer_sequence_prompt_tokens) > 0
	else None
	)
	self._refresh_answer_sequence_prompt_overlap_cache()

	def _refresh_answer_sequence_prompt_overlap_cache(self) -> None:
	self.answer_sequence_prompt_weight_maps = None
	self.answer_sequence_prompt_weight_norms = None
	self.answer_sequence_prompt_bigram_sets = None
	self.answer_sequence_prompt_trigram_sets = None
	self.answer_sequence_prompt_number_sets = None
	self.answer_sequence_prompt_inverted_index = None
	self.answer_sequence_prompt_specificity = None
	if self.answer_sequence_prompt_tokens is None or self.trace_token_weights is None:
	return
	inverted: dict[int, list[int]] = {}
	row_id_lists: list[list[int]] = []
	for row in self.answer_sequence_prompt_tokens:
	row_values = row.tolist() if hasattr(row, "tolist") else row
	row_ids: list[int] = []
	for raw_token_id in row_values:
	token_id = int(raw_token_id)
	if token_id < 0 or token_id >= len(self.trace_token_weights):
	continue
	row_ids.append(token_id)
	sequence_index = len(row_id_lists)
	for token_id in set(row_ids):
	inverted.setdefault(token_id, []).append(sequence_index)
	row_id_lists.append(row_ids)

	total_rows = len(row_id_lists)
	specificity = {
	token_id: self._prompt_overlap_token_specificity(len(indices), total_rows)
	for token_id, indices in inverted.items()
	}
	self.answer_sequence_prompt_inverted_index = inverted
	self.answer_sequence_prompt_specificity = specificity

	weight_maps: list[dict[int, float]] = []
	weight_norms: list[float] = []
	bigram_sets: list[set[tuple[int, int]]] = []
	trigram_sets: list[set[tuple[int, int, int]]] = []
	number_sets: list[set[str]] = []
	for row_ids in row_id_lists:
	row_weights: dict[int, float] = {}
	for token_id in row_ids:
	row_weights[token_id] = max(
	row_weights.get(token_id, 0.0),
	float(self.trace_token_weights[token_id]) * specificity.get(token_id, 1.0),
	)
	weight_maps.append(row_weights)
	weight_norms.append(sum(value * value for value in row_weights.values()) ** 0.5)
	bigram_sets.append(
	{
	(row_ids[index], row_ids[index + 1])
	for index in range(len(row_ids) - 1)
	}
	)
	trigram_sets.append(
	{
	(row_ids[index], row_ids[index + 1], row_ids[index + 2])
	for index in range(len(row_ids) - 2)
	}
	)
	number_sets.append(self._number_strings_from_token_ids(row_ids))
	self.answer_sequence_prompt_weight_maps = weight_maps
	self.answer_sequence_prompt_weight_norms = weight_norms
	self.answer_sequence_prompt_bigram_sets = bigram_sets
	self.answer_sequence_prompt_trigram_sets = trigram_sets
	self.answer_sequence_prompt_number_sets = number_sets

	@staticmethod
	def _prompt_overlap_token_specificity(document_frequency: int, total_documents: int) -> float:
	if document_frequency <= 0 or total_documents <= 0:
	return 1.0
	coverage = min(1.0, document_frequency / total_documents)
	return max(0.02, 1.0 - (coverage ** 0.5))

	def _number_strings_from_token_ids(self, token_ids: list[int]) -> set[str]:
	assert self.embedding_model is not None
	tokens = [
	self.embedding_model.id_to_token[token_id]
	for token_id in token_ids
	if 0 <= token_id < len(self.embedding_model.id_to_token)
	]
	return self._number_strings_from_tokens(tokens)

	def _number_strings_from_tokens(self, tokens: list[str]) -> set[str]:
	numbers: set[str] = set()
	current = ""
	for token in tokens:
	if self.tokenizer is not None and token in self.tokenizer.special_tokens:
	if current:
	numbers.add(current)
	current = ""
	continue
	rendered = self._render_token(token)
	digits = "".join(character for character in rendered if character.isdigit())
	starts_number = self._starts_new_word(token) if self.tokenizer is not None else True
	if digits and starts_number:
	if current:
	numbers.add(current)
	current = digits
	elif digits and current:
	current += digits
	else:
	if current:
	numbers.add(current)
	current = ""
	if current:
	numbers.add(current)
	return numbers

	@staticmethod
	def _numeric_prompt_can_match(query_numbers: set[str], row_numbers: set[str]) -> bool:
	if not query_numbers:
	return True
	if not row_numbers:
	return False
	return query_numbers.issubset(row_numbers)

	def _apply_readout_fast(self, state: Vector) -> Vector:
	if self.readout_weights_array is None or np is None:
	assert self.readout_weights is not None
	centered_state = self._center_state_vector(state)
	logits = apply_readout(self.readout_weights, centered_state)
	if self.readout_bias:
	logits = [
	value + self.readout_bias[index]
	for index, value in enumerate(logits)
	]
	return logits
	state_array = np.asarray(state, dtype=RUNTIME_ARRAY_DTYPE)
	if self.state_offset_array is not None and self.state_offset_array.shape == state_array.shape:
	state_array = state_array - self.state_offset_array
	logits = self.readout_weights_array @ state_array
	if self.readout_bias_array is not None and self.readout_bias_array.shape == logits.shape:
	logits = logits + self.readout_bias_array
	return logits.tolist()

	def _apply_readout_array(self, state: object) -> object:
	assert np is not None
	assert self.readout_weights_array is not None
	state_array = np.asarray(state, dtype=RUNTIME_ARRAY_DTYPE)
	if self.state_offset_array is not None and self.state_offset_array.shape == state_array.shape:
	state_array = state_array - self.state_offset_array
	logits = self.readout_weights_array @ state_array
	if self.readout_bias_array is not None and self.readout_bias_array.shape == logits.shape:
	logits = logits + self.readout_bias_array
	return logits

	def _step_hidden_states(
	self,
	hidden_states: list[Vector],
	context_traces: list[Vector],
	token: str,
	) -> tuple[list[Vector], list[Vector], Vector]:
	assert self.embedding_model is not None
	assert self.tokenizer is not None
	token_id = self._token_id_for_token(token)
	embedding = self.embedding_model.vector(token)
	trace_embedding = self._trace_embedding_from_token_id(embedding, token_id)
	return self._step_hidden_states_from_embedding(
	hidden_states,
	context_traces,
	embedding,
	trace_embedding=trace_embedding,
	)

	def _step_hidden_states_from_embedding(
	self,
	hidden_states: list[Vector],
	context_traces: list[Vector],
	embedding: Vector \| object,
	*,
	trace_embedding: Vector \| object \| None = None,
	) -> tuple[list[Vector], list[Vector], Vector]:
	assert self.memory_units is not None
	if trace_embedding is None:
	trace_embedding = embedding

	if np is not None and hidden_states and hasattr(hidden_states[0], "shape"):
	embedding_array = (
	embedding
	if hasattr(embedding, "shape")
	else np.asarray(embedding, dtype=np.float64)
	)
	trace_embedding_array = (
	trace_embedding
	if hasattr(trace_embedding, "shape")
	else np.asarray(trace_embedding, dtype=np.float64)
	)
	drive = analytical_embedding_drive_fast(embedding_array, self.config.state_dim)
	next_states: list[Vector] = []
	next_traces: list[Vector] = []
	combined_state: Vector = []
	for unit, state, trace in zip(self.memory_units, hidden_states, context_traces):
	next_state = unit.step_vector_fast(state, drive)
	decay = 1.0 / (1.0 + unit.timescale)
	next_trace = trace + ((1.0 - decay) * trace_embedding_array)
	next_states.append(next_state)
	next_traces.append(next_trace)
	combined_state.extend(next_state.tolist())
	combined_state.extend(next_trace.tolist())
	return next_states, next_traces, combined_state

	embedding_vector = embedding.tolist() if hasattr(embedding, "tolist") else embedding
	trace_embedding_vector = (
	trace_embedding.tolist()
	if hasattr(trace_embedding, "tolist")
	else trace_embedding
	)
	drive = analytical_embedding_drive(embedding_vector, self.config.state_dim)
	next_states: list[Vector] = []
	next_traces: list[Vector] = []
	combined_state: Vector = []
	for unit, state, trace in zip(self.memory_units, hidden_states, context_traces):
	next_state = unit.step_vector(state, drive)
	decay = 1.0 / (1.0 + unit.timescale)
	next_trace = [
	previous + ((1.0 - decay) * value)
	for previous, value in zip(trace, trace_embedding_vector)
	]
	next_states.append(next_state)
	next_traces.append(next_trace)
	combined_state.extend(next_state)
	combined_state.extend(next_trace)
	return next_states, next_traces, combined_state

	def _one_hot(self, token: str) -> Vector:
	assert self.embedding_model is not None
	return self._one_hot_from_id(self.embedding_model.token_to_id.get(token, -1))

	def _one_hot_from_id(self, token_id: int) -> Vector:
	assert self.embedding_model is not None
	vector = [0.0 for _ in self.embedding_model.id_to_token]
	if token_id >= 0:
	vector[token_id] = 1.0
	return vector

	def _blend_probabilities(
	self,
	base: Vector,
	answer: Vector,
	associative: Vector,
	transition: Vector,
	copy: Vector,
	preference: Vector,
	*,
	transition_order: int \| None,
	generated_count: int = 0,
	answer_locked: bool = False,
	answer_guided_start: bool = False,
	) -> tuple[Vector, dict[str, float]]:
	base_weight = FAST_BASE_BLEND
	answer_weight = FAST_ANSWER_BLEND
	associative_weight = FAST_ASSOCIATIVE_BLEND
	transition_weight = FAST_TRANSITION_BLEND
	copy_weight = FAST_COPY_BLEND
	preference_weight = FAST_PREFERENCE_BLEND
	if answer_locked:
	base_weight *= 0.18
	answer_weight *= 5.0
	associative_weight *= 0.2
	transition_weight *= 0.2
	copy_weight *= 0.2
	preference_weight *= 0.2
	elif answer_guided_start:
	base_weight *= 0.35
	answer_weight *= 3.5
	associative_weight *= 0.2
	transition_weight *= 0.35
	copy_weight *= 0.2
	preference_weight *= 0.2
	elif generated_count > 0:
	answer_weight *= 0.32
	transition_weight *= 2.0
	copy_weight *= 0.75

	if transition_order is None:
	answer_weight *= 1.1
	associative_weight *= 0.75
	copy_weight += 0.02
	elif transition_order <= 2:
	answer_weight *= 1.15
	associative_weight *= 0.65
	transition_weight *= 0.55
	copy_weight += 0.01
	elif transition_order >= 5:
	transition_weight *= 1.25

	sources: list[tuple[str, float, Vector]] = [("base", base_weight, base)]
	if any(value > 0.0 for value in answer):
	sources.append(("answer", answer_weight, answer))
	if any(value > 0.0 for value in associative):
	sources.append(("associative", associative_weight, associative))
	if any(value > 0.0 for value in transition):
	sources.append(("transition", transition_weight, transition))
	if any(value > 0.0 for value in copy):
	sources.append(("copy", copy_weight, copy))
	if any(value > 0.0 for value in preference):
	sources.append(("preference", preference_weight, preference))

	total_weight = sum(weight for _, weight, _ in sources)
	blended = [0.0 for _ in base]
	blend_weights: dict[str, float] = {}
	for name, weight, source in sources:
	normalized_weight = weight / total_weight if total_weight else 0.0
	blend_weights[name] = normalized_weight
	for index, value in enumerate(source):
	blended[index] += normalized_weight * value
	return _normalize_vector(blended), blend_weights

	def _blend_probability_arrays(
	self,
	base: object,
	answer: object,
	associative: object,
	transition: object,
	copy: object,
	preference: object,
	*,
	transition_order: int \| None,
	generated_count: int = 0,
	answer_locked: bool = False,
	answer_guided_start: bool = False,
	) -> tuple[object, dict[str, float]]:
	assert np is not None

	base_weight = FAST_BASE_BLEND
	answer_weight = FAST_ANSWER_BLEND
	associative_weight = FAST_ASSOCIATIVE_BLEND
	transition_weight = FAST_TRANSITION_BLEND
	copy_weight = FAST_COPY_BLEND
	preference_weight = FAST_PREFERENCE_BLEND
	if answer_locked:
	base_weight *= 0.18
	answer_weight *= 5.0
	associative_weight *= 0.2
	transition_weight *= 0.2
	copy_weight *= 0.2
	preference_weight *= 0.2
	elif answer_guided_start:
	base_weight *= 0.35
	answer_weight *= 3.5
	associative_weight *= 0.2
	transition_weight *= 0.35
	copy_weight *= 0.2
	preference_weight *= 0.2
	elif generated_count > 0:
	answer_weight *= 0.32
	transition_weight *= 2.0
	copy_weight *= 0.75
	if transition_order is None:
	answer_weight *= 1.1
	associative_weight *= 0.75
	copy_weight += 0.02
	elif transition_order <= 2:
	answer_weight *= 1.15
	associative_weight *= 0.65
	transition_weight *= 0.55
	copy_weight += 0.01
	elif transition_order >= 5:
	transition_weight *= 1.25

	sources: list[tuple[str, float, object]] = [("base", base_weight, base)]
	if np.any(answer > 0.0):
	sources.append(("answer", answer_weight, answer))
	if np.any(associative > 0.0):
	sources.append(("associative", associative_weight, associative))
	if np.any(transition > 0.0):
	sources.append(("transition", transition_weight, transition))
	if np.any(copy > 0.0):
	sources.append(("copy", copy_weight, copy))
	if np.any(preference > 0.0):
	sources.append(("preference", preference_weight, preference))

	total_weight = sum(weight for _, weight, _ in sources)
	blended = np.zeros_like(base, dtype=np.float64)
	blend_weights: dict[str, float] = {}
	for name, weight, source in sources:
	normalized_weight = weight / total_weight if total_weight else 0.0
	blend_weights[name] = normalized_weight
	blended += normalized_weight * source
	total = float(blended.sum())
	if total <= 0.0:
	return base, blend_weights
	return blended / total, blend_weights

	def _score_associative_matches(
	self,
	state: Vector,
	*,
	limit: int = ASSOCIATIVE_TOP_K,
	) -> list[tuple[float, int, int]]:
	if (
	self.associative_keys is None
	or self.associative_values is None
	or self.associative_key_norms is None
	or len(self.associative_keys) == 0
	or len(self.associative_values) == 0
	or len(self.associative_key_norms) == 0
	):
	return []

	if (
	np is not None
	and
	self.associative_keys_array is not None
	and self.associative_key_norms_array is not None
	and self.associative_values_array is not None
	and self.associative_valid_mask_array is not None
	and limit > 0
	):
	state_array = self._center_state_array(state).astype(self.associative_keys_array.dtype, copy=False)
	state_norm = float(np.linalg.norm(state_array))
	if state_norm == 0.0:
	return []
	numerators = self.associative_keys_array @ state_array
	denominators = self.associative_key_norms_array * state_norm
	valid_mask = self.associative_valid_mask_array & (denominators > 0.0)
	if np.any(valid_mask):
	scores = np.zeros_like(numerators, dtype=self.associative_keys_array.dtype)
	np.divide(numerators, denominators, out=scores, where=valid_mask)
	positive_positions = np.flatnonzero(valid_mask & (scores > 0.0))
	if positive_positions.size:
	selected_positions = positive_positions
	if positive_positions.size > limit:
	partition = np.argpartition(scores[positive_positions], -limit)[-limit:]
	selected_positions = positive_positions[partition]
	ordered_positions = selected_positions[np.argsort(scores[selected_positions])[::-1]]
	return [
	(
	float(scores[position]),
	int(self.associative_values_array[position]),
	int(position),
	)
	for position in ordered_positions
	]

	state = self._center_state_vector(state)
	state_norm = norm(state)
	if state_norm == 0.0:
	return []

	scored: list[tuple[float, int, int]] = []
	for example_index, (key, key_norm, token_id) in enumerate(
	zip(self.associative_keys, self.associative_key_norms, self.associative_values)
	):
	if token_id < 0:
	continue
	denominator = state_norm * key_norm
	if denominator == 0.0:
	continue
	similarity = dot(state, key) / denominator
	if similarity > 0.0:
	scored.append((similarity, token_id, example_index))
	scored.sort(key=lambda item: item[0], reverse=True)
	return scored[:limit]

	def _associative_prior_from_matches(
	self,
	matches: list[tuple[float, int, int]],
	) -> Vector:
	assert self.embedding_model is not None
	if not matches:
	return [0.0 for _ in self.embedding_model.id_to_token]

	prior = [0.0 for _ in self.embedding_model.id_to_token]
	for similarity, token_id, _ in matches[:ASSOCIATIVE_TOP_K]:
	prior[token_id] += similarity
	return _normalize_vector(prior)

	def _associative_prior(self, state: Vector) -> Vector:
	return self._associative_prior_from_matches(self._score_associative_matches(state))

	def _score_answer_matches(
	self,
	answer_anchor_state: Vector \| None,
	*,
	limit: int = ANSWER_TOP_K,
	) -> list[tuple[float, int, int]]:
	return self._score_prompt_anchor_matches(
	answer_anchor_state,
	self.answer_keys,
	self.answer_key_norms,
	self.answer_values,
	self.answer_keys_array,
	self.answer_key_norms_array,
	self.answer_values_array,
	self.answer_valid_mask_array,
	self.answer_similarity_keys_array,
	self.answer_similarity_key_norms_array,
	self.answer_similarity_mask_array,
	limit=limit,
	)

	def _score_answer_start_matches(
	self,
	answer_anchor_state: Vector \| None,
	*,
	limit: int = ANSWER_START_TOP_K,
	) -> list[tuple[float, int, int]]:
	return self._score_prompt_anchor_matches(
	answer_anchor_state,
	self.answer_start_keys,
	self.answer_start_key_norms,
	self.answer_start_values,
	self.answer_start_keys_array,
	self.answer_start_key_norms_array,
	self.answer_start_values_array,
	self.answer_start_valid_mask_array,
	self.answer_start_similarity_keys_array,
	self.answer_start_similarity_key_norms_array,
	self.answer_similarity_mask_array,
	limit=limit,
	)

	def _score_answer_sequence_matches(
	self,
	answer_anchor_state: Vector \| None,
	context_tokens: list[str],
	*,
	limit: int = ANSWER_START_TOP_K,
	) -> list[tuple[float, int, int]]:
	if (
	answer_anchor_state is None
	or self.answer_sequence_keys is None
	or self.answer_sequence_key_norms is None
	or self.answer_sequence_tokens is None
	):
	return []
	values = list(range(len(self.answer_sequence_tokens)))
	values_array = np.arange(len(values), dtype=np.int64) if np is not None else None
	anchor_matches = self._score_prompt_anchor_matches(
	answer_anchor_state,
	self.answer_sequence_keys,
	self.answer_sequence_key_norms,
	values,
	self.answer_sequence_keys_array,
	self.answer_sequence_key_norms_array,
	values_array,
	values_array >= 0 if values_array is not None else None,
	self.answer_sequence_similarity_keys_array,
	self.answer_sequence_similarity_key_norms_array,
	self.answer_similarity_mask_array,
	limit=max(limit * 4, limit),
	)
	overlap_scores = self._answer_sequence_prompt_overlap_scores(context_tokens)
	if overlap_scores is None:
	return anchor_matches[:limit]
	if not overlap_scores:
	return []
	best_overlap = max(overlap_scores.values()) if overlap_scores else 0.0
	overlap_floor = max(0.16, best_overlap * 0.90)
	focused_overlap_scores = {
	sequence_index: overlap
	for sequence_index, overlap in overlap_scores.items()
	if overlap >= overlap_floor
	}
	if not focused_overlap_scores:
	focused_overlap_scores = overlap_scores
	focused_indices = set(focused_overlap_scores)
	merged: dict[int, float] = {}
	for similarity, sequence_index, _ in anchor_matches:
	if sequence_index not in focused_indices:
	continue
	merged[sequence_index] = max(merged.get(sequence_index, 0.0), 0.20 * similarity)
	for sequence_index, overlap in focused_overlap_scores.items():
	merged[sequence_index] = merged.get(sequence_index, 0.0) + (0.80 * overlap)
	ranked = [
	(score, sequence_index, sequence_index)
	for sequence_index, score in merged.items()
	if score > 0.0
	]
	ranked.sort(key=lambda item: item[0], reverse=True)
	return ranked[:limit]

	def _answer_sequence_prompt_overlap_scores(
	self,
	context_tokens: list[str],
	) -> dict[int, float] \| None:
	if (
	self.embedding_model is None
	or self.answer_sequence_prompt_tokens is None
	or self.trace_token_weights is None
	):
	return None
	answer_boundary = _last_index(context_tokens, "<answer>")
	prompt_tokens = (
	context_tokens[:answer_boundary]
	if answer_boundary is not None
	else context_tokens
	)
	if self.answer_sequence_prompt_specificity is None:
	self._refresh_answer_sequence_prompt_overlap_cache()
	specificity_map = self.answer_sequence_prompt_specificity or {}
	query_weights: dict[int, float] = {}
	query_specificity: dict[int, float] = {}
	query_content_weight = 0.0
	query_ids: list[int] = []
	for token in prompt_tokens:
	if self.tokenizer is not None and token in self.tokenizer.special_tokens:
	continue
	token_id = self.embedding_model.token_to_id.get(token)
	if token_id is None:
	continue
	query_ids.append(token_id)
	specificity = specificity_map.get(token_id, 1.0)
	weight = specificity
	query_weights[token_id] = max(
	query_weights.get(token_id, 0.0),
	weight,
	)
	query_specificity[token_id] = max(
	query_specificity.get(token_id, 0.0),
	specificity,
	)
	if specificity >= 0.20:
	query_content_weight += weight
	if not query_weights:
	return None
	query_norm = sum(value * value for value in query_weights.values()) ** 0.5
	if query_norm <= 0.0:
	return None

	query_bigrams = {
	(query_ids[index], query_ids[index + 1])
	for index in range(len(query_ids) - 1)
	}
	query_trigrams = {
	(query_ids[index], query_ids[index + 1], query_ids[index + 2])
	for index in range(len(query_ids) - 2)
	}
	query_numbers = self._number_strings_from_tokens(prompt_tokens)

	def ordered_ngram_score(
	query_grams: set[tuple[int, ...]],
	row_grams: set[tuple[int, ...]],
	) -> float:
	if not query_grams or not row_grams:
	return 0.0
	overlap = len(query_grams & row_grams)
	if overlap <= 0:
	return 0.0
	return overlap / ((len(query_grams) * len(row_grams)) ** 0.5)

	cached_maps = self.answer_sequence_prompt_weight_maps
	cached_norms = self.answer_sequence_prompt_weight_norms
	cached_bigrams = self.answer_sequence_prompt_bigram_sets
	cached_trigrams = self.answer_sequence_prompt_trigram_sets
	cached_numbers = self.answer_sequence_prompt_number_sets
	cached_index = self.answer_sequence_prompt_inverted_index
	if (
	cached_maps is not None
	and cached_norms is not None
	and cached_bigrams is not None
	and cached_trigrams is not None
	and cached_numbers is not None
	and len(cached_maps) == len(self.answer_sequence_prompt_tokens)
	):
	candidate_indices: set[int] \| range
	if cached_index is not None:
	candidates: set[int] = set()
	for token_id in query_weights:
	candidates.update(cached_index.get(token_id, ()))
	candidate_indices = candidates if candidates else range(len(cached_maps))
	else:
	candidate_indices = range(len(cached_maps))
	candidate_indices = list(candidate_indices)
	if cached_index is not None and candidate_indices:
	candidate_set = set(candidate_indices)
	local_query_weights: dict[int, float] = {}
	local_query_specificity: dict[int, float] = {}
	local_query_content_weight = 0.0
	for token_id in query_weights:
	local_frequency = len(candidate_set & set(cached_index.get(token_id, ())))
	if local_frequency <= 0:
	continue
	specificity = self._prompt_overlap_token_specificity(
	local_frequency,
	len(candidate_indices),
	)
	weight = specificity
	local_query_weights[token_id] = weight
	local_query_specificity[token_id] = specificity
	if specificity >= 0.20:
	local_query_content_weight += weight
	local_query_norm = sum(value * value for value in local_query_weights.values()) ** 0.5
	if local_query_norm > 0.0:
	query_weights = local_query_weights
	query_specificity = local_query_specificity
	if local_query_content_weight > 0.0:
	query_content_weight = local_query_content_weight
	query_norm = local_query_norm
	scores: dict[int, float] = {}
	for sequence_index in candidate_indices:
	row_weights = cached_maps[sequence_index]
	if not row_weights:
	continue
	if not self._numeric_prompt_can_match(query_numbers, cached_numbers[sequence_index]):
	continue
	matched_content_weight = sum(
	query_weights[token_id]
	for token_id in query_weights.keys() & row_weights.keys()
	if query_specificity.get(token_id, 0.0) >= 0.20
	)
	row_token_coverage = len(query_weights.keys() & row_weights.keys()) / max(
	1,
	len(row_weights),
	)
	if (
	query_content_weight > 0.0
	and matched_content_weight / query_content_weight < 0.40
	and row_token_coverage < 0.75
	):
	continue
	query_coverage = (
	matched_content_weight / query_content_weight
	if query_content_weight > 0.0
	else row_token_coverage
	)
	numerator = sum(
	query_weights[token_id] * row_weights[token_id]
	for token_id in query_weights.keys() & row_weights.keys()
	)
	if numerator <= 0.0:
	continue
	row_norm = cached_norms[sequence_index]
	if row_norm <= 0.0:
	continue
	token_score = numerator / (query_norm * row_norm)
	bigram_score = ordered_ngram_score(
	query_bigrams,
	cached_bigrams[sequence_index],
	)
	trigram_score = ordered_ngram_score(
	query_trigrams,
	cached_trigrams[sequence_index],
	)
	scores[sequence_index] = (
	(0.35 * token_score)
	+ (0.35 * query_coverage)
	+ (0.15 * bigram_score)
	+ (0.15 * trigram_score)
	)
	return scores

	if cached_index is not None:
	candidate_set: set[int] = set()
	for token_id in query_weights:
	candidate_set.update(cached_index.get(token_id, ()))
	if not candidate_set:
	return {}
	candidate_indices: list[int] \| range = sorted(candidate_set)
	local_query_weights: dict[int, float] = {}
	local_query_specificity: dict[int, float] = {}
	local_query_content_weight = 0.0
	candidate_count = len(candidate_indices)
	for token_id in query_weights:
	local_frequency = len(candidate_set & set(cached_index.get(token_id, ())))
	if local_frequency <= 0:
	continue
	specificity = self._prompt_overlap_token_specificity(
	local_frequency,
	candidate_count,
	)
	local_query_weights[token_id] = specificity
	local_query_specificity[token_id] = specificity
	if specificity >= 0.20:
	local_query_content_weight += specificity
	local_query_norm = sum(value * value for value in local_query_weights.values()) ** 0.5
	if local_query_norm > 0.0:
	query_weights = local_query_weights
	query_specificity = local_query_specificity
	if local_query_content_weight > 0.0:
	query_content_weight = local_query_content_weight
	query_norm = local_query_norm
	else:
	candidate_indices = range(len(self.answer_sequence_prompt_tokens))

	scores: dict[int, float] = {}
	for sequence_index in candidate_indices:
	row = self.answer_sequence_prompt_tokens[sequence_index]
	row_values = row.tolist() if hasattr(row, "tolist") else row
	row_weights: dict[int, float] = {}
	row_ids: list[int] = []
	for raw_token_id in row_values:
	token_id = int(raw_token_id)
	if token_id < 0 or token_id >= len(self.trace_token_weights):
	continue
	row_ids.append(token_id)
	row_weights[token_id] = max(
	row_weights.get(token_id, 0.0),
	specificity_map.get(token_id, 1.0),
	)
	if not row_weights:
	continue
	if not self._numeric_prompt_can_match(
	query_numbers,
	self._number_strings_from_token_ids(row_ids),
	):
	continue
	matched_content_weight = sum(
	query_weights[token_id]
	for token_id in query_weights.keys() & row_weights.keys()
	if query_specificity.get(token_id, 0.0) >= 0.20
	)
	row_token_coverage = len(query_weights.keys() & row_weights.keys()) / max(
	1,
	len(row_weights),
	)
	if (
	query_content_weight > 0.0
	and matched_content_weight / query_content_weight < 0.40
	and row_token_coverage < 0.75
	):
	continue
	query_coverage = (
	matched_content_weight / query_content_weight
	if query_content_weight > 0.0
	else row_token_coverage
	)
	numerator = sum(
	query_weights[token_id] * row_weights[token_id]
	for token_id in query_weights.keys() & row_weights.keys()
	)
	if numerator <= 0.0:
	continue
	row_norm = sum(value * value for value in row_weights.values()) ** 0.5
	if row_norm > 0.0:
	token_score = numerator / (query_norm * row_norm)
	row_bigrams = {
	(row_ids[index], row_ids[index + 1])
	for index in range(len(row_ids) - 1)
	}
	row_trigrams = {
	(row_ids[index], row_ids[index + 1], row_ids[index + 2])
	for index in range(len(row_ids) - 2)
	}
	bigram_score = ordered_ngram_score(query_bigrams, row_bigrams)
	trigram_score = ordered_ngram_score(query_trigrams, row_trigrams)
	scores[sequence_index] = (
	(0.35 * token_score)
	+ (0.35 * query_coverage)
	+ (0.15 * bigram_score)
	+ (0.15 * trigram_score)
	)
	return scores

	def _score_prompt_anchor_matches(
	self,
	answer_anchor_state: Vector \| None,
	keys: object \| None,
	key_norms_list: object \| None,
	values: object \| None,
	keys_array: object \| None,
	key_norms_array: object \| None,
	values_array: object \| None,
	valid_mask_array: object \| None,
	similarity_keys_array: object \| None,
	similarity_key_norms_array: object \| None,
	similarity_mask_array: object \| None,
	*,
	limit: int,
	) -> list[tuple[float, int, int]]:
	if (
	answer_anchor_state is None
	or keys is None
	or key_norms_list is None
	or values is None
	):
	return []

	if (
	np is not None
	and keys_array is not None
	and key_norms_array is not None
	and values_array is not None
	and valid_mask_array is not None
	and limit > 0
	):
	state_array = self._center_state_array(
	self._masked_combined_state_array(answer_anchor_state)
	).astype(keys_array.dtype, copy=False)
	key_array = keys_array
	key_norms = key_norms_array
	if (
	similarity_keys_array is not None
	and similarity_key_norms_array is not None
	and similarity_mask_array is not None
	):
	state_array = state_array * similarity_mask_array
	key_array = similarity_keys_array
	key_norms = similarity_key_norms_array
	state_norm = float(np.linalg.norm(state_array))
	if state_norm == 0.0:
	return []
	numerators = key_array @ state_array
	denominators = key_norms * state_norm
	valid_mask = valid_mask_array & (denominators > 0.0)
	if np.any(valid_mask):
	scores = np.zeros_like(numerators, dtype=key_array.dtype)
	np.divide(numerators, denominators, out=scores, where=valid_mask)
	positive_positions = np.flatnonzero(valid_mask & (scores > 0.0))
	if positive_positions.size:
	selected_positions = positive_positions
	if positive_positions.size > limit:
	partition = np.argpartition(scores[positive_positions], -limit)[-limit:]
	selected_positions = positive_positions[partition]
	ordered_positions = selected_positions[np.argsort(scores[selected_positions])[::-1]]
	return [
	(
	float(scores[position]),
	int(values_array[position]),
	int(position),
	)
	for position in ordered_positions
	]

	state = self._center_state_vector(self._masked_combined_state(answer_anchor_state))
	state_norm = norm(state)
	if state_norm == 0.0:
	return []

	scored: list[tuple[float, int, int]] = []
	for example_index, (key, key_norm, token_id) in enumerate(
	zip(keys, key_norms_list, values)
	):
	if token_id < 0:
	continue
	denominator = state_norm * key_norm
	if denominator == 0.0:
	continue
	similarity = dot(state, key) / denominator
	if similarity > 0.0:
	scored.append((similarity, token_id, example_index))
	scored.sort(key=lambda item: item[0], reverse=True)
	return scored[:limit]

	def _answer_prior_from_matches(
	self,
	matches: list[tuple[float, int, int]],
	generated_tokens: list[str],
	) -> Vector:
	assert self.embedding_model is not None
	if not matches:
	return [0.0 for _ in self.embedding_model.id_to_token]

	prior = [0.0 for _ in self.embedding_model.id_to_token]
	generated_ids = {
	self.embedding_model.token_to_id[token]
	for token in generated_tokens
	if token in self.embedding_model.token_to_id
	}
	for similarity, token_id, _ in matches[:ANSWER_TOP_K]:
	token = self.embedding_model.id_to_token[token_id]
	if not self._allowed_generation_token(token, generated_tokens):
	continue
	if token_id in generated_ids:
	prior[token_id] += similarity * 0.35
	else:
	prior[token_id] += similarity
	return _normalize_vector(prior)

	def _answer_sequence_prior_from_matches(
	self,
	matches: list[tuple[float, int, int]],
	generated_tokens: list[str],
	) -> Vector:
	assert self.embedding_model is not None
	if not matches or self.answer_sequence_tokens is None:
	return [0.0 for _ in self.embedding_model.id_to_token]

	generated_ids = [
	self.embedding_model.token_to_id[token]
	for token in generated_tokens
	if token in self.embedding_model.token_to_id
	]
	prior = [0.0 for _ in self.embedding_model.id_to_token]
	best_similarity = matches[0][0]
	match_floor = best_similarity - 0.02 if best_similarity >= 0.9 else 0.0
	for similarity, sequence_index, _ in matches[:ANSWER_START_TOP_K]:
	if similarity < match_floor:
	continue
	row = self.answer_sequence_tokens[sequence_index]
	token_ids = [
	int(value)
	for value in (row.tolist() if hasattr(row, "tolist") else row)
	if int(value) >= 0
	]
	if not token_ids:
	continue
	next_token_id = self._next_sequence_token_id(token_ids, generated_ids)
	if next_token_id is None:
	continue
	token = self.embedding_model.id_to_token[next_token_id]
	if self._allowed_generation_token(token, generated_tokens):
	prior[next_token_id] += max(1e-9, similarity - match_floor)
	return _normalize_vector(prior)

	def _should_stop_answer_sequence(
	self,
	decode_state: DecodeState,
	generated_tokens: list[str],
	) -> bool:
	matches = decode_state.answer_sequence_matches
	if matches is None:
	matches = self._score_answer_sequence_matches(
	decode_state.answer_anchor_state,
	decode_state.context_tokens,
	)
	return self._answer_sequence_is_complete(generated_tokens, matches)

	def _answer_decode_has_continuation(
	self,
	decode_state: DecodeState,
	generated_tokens: list[str],
	) -> bool:
	matches = decode_state.answer_sequence_matches
	if matches is None:
	matches = self._score_answer_sequence_matches(
	decode_state.answer_anchor_state,
	decode_state.context_tokens,
	)
	return self._answer_sequence_has_continuation(generated_tokens, matches)

	def _answer_sequence_is_complete(
	self,
	generated_tokens: list[str],
	matches: list[tuple[float, int, int]],
	) -> bool:
	if (
	self.embedding_model is None
	or self.answer_sequence_tokens is None
	or not generated_tokens
	or not matches
	):
	return False
	generated_ids = [
	self.embedding_model.token_to_id[token]
	for token in generated_tokens
	if token in self.embedding_model.token_to_id
	]
	if not generated_ids:
	return False
	for similarity, sequence_index, _ in matches[:ANSWER_START_TOP_K]:
	if similarity < ANSWER_SEQUENCE_MATCH_FLOOR or sequence_index >= len(self.answer_sequence_tokens):
	continue
	row = self.answer_sequence_tokens[sequence_index]
	token_ids = [
	int(value)
	for value in (row.tolist() if hasattr(row, "tolist") else row)
	if int(value) >= 0
	]
	if not token_ids or len(generated_ids) < len(token_ids):
	continue
	if generated_ids[: len(token_ids)] == token_ids:
	return True
	return False

	def _answer_sequence_has_continuation(
	self,
	generated_tokens: list[str],
	matches: list[tuple[float, int, int]],
	) -> bool:
	if (
	self.embedding_model is None
	or self.answer_sequence_tokens is None
	or not generated_tokens
	or not matches
	):
	return False
	generated_ids = [
	self.embedding_model.token_to_id[token]
	for token in generated_tokens
	if token in self.embedding_model.token_to_id
	]
	if not generated_ids:
	return False
	for similarity, sequence_index, _ in matches[:ANSWER_START_TOP_K]:
	if similarity < ANSWER_SEQUENCE_MATCH_FLOOR or sequence_index >= len(self.answer_sequence_tokens):
	continue
	row = self.answer_sequence_tokens[sequence_index]
	token_ids = [
	int(value)
	for value in (row.tolist() if hasattr(row, "tolist") else row)
	if int(value) >= 0
	]
	if not token_ids:
	continue
	next_token_id = self._next_sequence_token_id(token_ids, generated_ids)
	if next_token_id is None:
	continue
	token = self.embedding_model.id_to_token[next_token_id]
	if self._allowed_generation_token(token, generated_tokens):
	return True
	return False

	def _next_sequence_token_id(
	self,
	token_ids: list[int],
	generated_ids: list[int],
	) -> int \| None:
	if not generated_ids:
	return token_ids[0]
	if len(generated_ids) >= len(token_ids):
	return None
	if token_ids[: len(generated_ids)] != generated_ids:
	return None
	return token_ids[len(generated_ids)]

	def _transition_prior(self, context_tokens: list[str]) -> Vector:
	prior, _ = self._transition_prior_with_order(context_tokens)
	return prior

	def _transition_prior_with_order(
	self,
	context_tokens: list[str],
	) -> tuple[Vector, int \| None]:
	assert self.embedding_model is not None
	if not self.transition_tables:
	return [0.0 for _ in self.embedding_model.id_to_token], None

	for order in TRANSITION_ORDERS:
	if len(context_tokens) < order:
	continue
	key = tuple(context_tokens[-order:])
	transitions = self.transition_tables.get(order, {}).get(key)
	if not transitions:
	continue
	prior = [0.0 for _ in self.embedding_model.id_to_token]
	for token, probability in transitions.items():
	token_id = self.embedding_model.token_to_id.get(token)
	if token_id is not None:
	prior[token_id] = probability
	return _normalize_vector(prior), order
	return [0.0 for _ in self.embedding_model.id_to_token], None

	def _transition_prior_array_with_order(
	self,
	context_tokens: list[str],
	) -> tuple[object, int \| None]:
	assert np is not None
	assert self.embedding_model is not None
	prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	if not self.transition_tables:
	return prior, None

	for order in TRANSITION_ORDERS:
	if len(context_tokens) < order:
	continue
	key = tuple(context_tokens[-order:])
	transitions = self.transition_tables.get(order, {}).get(key)
	if not transitions:
	continue
	for token, probability in transitions.items():
	token_id = self.embedding_model.token_to_id.get(token)
	if token_id is not None:
	prior[token_id] = probability
	total = float(prior.sum())
	if total > 0.0:
	prior /= total
	return prior, order
	return prior, None

	def _copy_prior(self, context_tokens: list[str]) -> Vector:
	assert self.embedding_model is not None
	assert self.tokenizer is not None

	prior = [0.0 for _ in self.embedding_model.id_to_token]
	decay = 0.82
	answer_start = None
	for index in range(len(context_tokens) - 1, -1, -1):
	if context_tokens[index] == "<answer>":
	answer_start = index + 1
	break
	source_tokens = context_tokens[answer_start:] if answer_start is not None else context_tokens
	if not source_tokens:
	return prior
	for distance, token in enumerate(reversed(source_tokens[-8:])):
	if token in self.tokenizer.special_tokens:
	continue
	if not self._eligible_copy_token(token):
	continue
	token_id = self.embedding_model.token_to_id.get(token)
	if token_id is None:
	continue
	prior[token_id] += decay**distance
	return _normalize_vector(prior)

	def _copy_prior_array(self, context_tokens: list[str]) -> object:
	assert np is not None
	assert self.embedding_model is not None
	assert self.tokenizer is not None

	prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	decay = 0.82
	answer_start = None
	for index in range(len(context_tokens) - 1, -1, -1):
	if context_tokens[index] == "<answer>":
	answer_start = index + 1
	break
	source_tokens = context_tokens[answer_start:] if answer_start is not None else context_tokens
	for distance, token in enumerate(reversed(source_tokens[-8:])):
	if token in self.tokenizer.special_tokens:
	continue
	if not self._eligible_copy_token(token):
	continue
	token_id = self.embedding_model.token_to_id.get(token)
	if token_id is None:
	continue
	prior[token_id] += decay**distance
	total = float(prior.sum())
	if total > 0.0:
	prior /= total
	return prior

	def _preference_prior(self) -> Vector:
	assert self.embedding_model is not None
	if not self.preference_bias or not any(value != 0.0 for value in self.preference_bias):
	return [0.0 for _ in self.embedding_model.id_to_token]
	eligible_indices = [
	index
	for index, token in enumerate(self.embedding_model.id_to_token)
	if self.preference_bias[index] > 0.0 and self._eligible_preference_token(token)
	]
	if not eligible_indices:
	return [0.0 for _ in self.embedding_model.id_to_token]
	eligible_probabilities = self._calibrated_softmax(
	[self.preference_bias[index] for index in eligible_indices]
	)
	prior = [0.0 for _ in self.embedding_model.id_to_token]
	for index, probability in zip(eligible_indices, eligible_probabilities):
	prior[index] = probability
	return prior

	def _preference_prior_array(self) -> object:
	assert np is not None
	assert self.embedding_model is not None
	if self.preference_bias_array is None or not np.any(self.preference_bias_array != 0.0):
	return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	if self.preference_valid_mask_array is None or not np.any(self.preference_valid_mask_array):
	return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	positive_mask = self.preference_bias_array > 0.0
	active_mask = self.preference_valid_mask_array & positive_mask
	if not np.any(active_mask):
	return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
	prior[active_mask] = self._calibrated_softmax_array(
	self.preference_bias_array[active_mask]
	)
	return prior

	def _eligible_preference_token(self, token: str) -> bool:
	assert self.tokenizer is not None
	if token == self.tokenizer.unk_token or token in self.tokenizer.special_tokens:
	return False
	if not self._starts_new_word(token):
	return False
	rendered = self._render_token(token)
	if not rendered.strip() or self._is_punctuation_piece(rendered):
	return False
	alphanumeric = "".join(character for character in rendered if character.isalnum())
	return len(alphanumeric) >= 1

	def _build_transition_tables(
	self,
	tokens: list[str],
	) -> dict[int, dict[tuple[str, ...], dict[str, float]]]:
	counts: dict[int, dict[tuple[str, ...], dict[str, int]]] = {
	order: {} for order in sorted(TRANSITION_ORDERS)
	}
	for order in sorted(TRANSITION_ORDERS):
	for index in range(order - 1, len(tokens) - 1):
	key = tuple(tokens[index - order + 1 : index + 1])
	nxt = tokens[index + 1]
	bucket = counts[order].setdefault(key, {})
	bucket[nxt] = bucket.get(nxt, 0) + 1

	probabilities: dict[int, dict[tuple[str, ...], dict[str, float]]] = {
	order: {} for order in sorted(TRANSITION_ORDERS)
	}
	for order, mapping in counts.items():
	items = list(mapping.items())
	items.sort(key=lambda item: (-sum(item[1].values()), item[0]))
	if (
	self.config.max_transition_contexts_per_order is not None
	and self.config.max_transition_contexts_per_order >= 0
	):
	items = items[: self.config.max_transition_contexts_per_order]
	for key, bucket in items:
	next_items = sorted(bucket.items(), key=lambda item: (-item[1], item[0]))
	if self.config.max_transition_next_tokens > 0:
	next_items = next_items[: self.config.max_transition_next_tokens]
	total = sum(value for _, value in next_items)
	if total <= 0:
	continue
	probabilities[order][key] = {
	token: value / total
	for token, value in next_items
	}
	return probabilities

	def _serialize_transition_tables(self) -> dict[str, dict[str, dict[str, float]]]:
	assert self.transition_tables is not None
	return {
	str(order): {
	_encode_ngram_key(key): value
	for key, value in mapping.items()
	}
	for order, mapping in self.transition_tables.items()
	}

	def _deserialize_transition_tables(
	self,
	payload: dict[str, dict[str, dict[str, float]]],
	) -> dict[int, dict[tuple[str, ...], dict[str, float]]]:
	tables: dict[int, dict[tuple[str, ...], dict[str, float]]] = {
	order: {} for order in sorted(TRANSITION_ORDERS)
	}
	for order_text, mapping in payload.items():
	order = int(order_text)
	tables[order] = {
	_decode_ngram_key(key): {
	str(token): float(probability)
	for token, probability in value.items()
	}
	for key, value in mapping.items()
	}
	return tables

	def _eligible_copy_token(self, token: str) -> bool:
	rendered = self._render_token(token)
	if not rendered.strip():
	return False
	if self._is_punctuation_piece(rendered):
	return False
	if not self._starts_new_word(token):
	return False
	alphanumeric = "".join(character for character in rendered if character.isalnum())
	return len(alphanumeric) >= 2

	def _allowed_generation_token(self, token: str, generated_tokens: list[str]) -> bool:
	assert self.embedding_model is not None
	if len(self.embedding_model.id_to_token) < 1024:
	return True
	if token == self.tokenizer.unk_token or token in self.tokenizer.special_tokens:
	return False
	rendered = self._render_token(token)
	if rendered == "\n":
	return bool(generated_tokens)
	if not rendered.strip():
	return False
	if self._is_word_joiner_token(token):
	return (
	self._can_attach_word_joiner(generated_tokens)
	or self._can_start_line_with_word_joiner(token, generated_tokens)
	)
	if self._is_structural_punctuation_token(token):
	return bool(generated_tokens) or self._can_start_answer_with_structural_punctuation(token)
	if self._is_structural_symbol_token(token):
	return bool(generated_tokens) or self._starts_new_word(token)
	if not self._starts_new_word(token):
	return False
	alphanumeric = "".join(character for character in rendered if character.isalnum())
	return len(alphanumeric) >= 1 or not self._is_punctuation_piece(rendered)

	def _would_repeat_recent_pattern(
	self,
	candidate: str,
	generated_tokens: list[str],
	recent_rendered_words: list[str] \| None = None,
	) -> bool:
	if len(generated_tokens) >= 2 and generated_tokens[-1] == candidate and generated_tokens[-2] == candidate:
	return True

	if len(generated_tokens) >= 2:
	trigram = tuple(generated_tokens[-2:] + [candidate])
	recent_tokens = generated_tokens[-12:]
	for index in range(max(0, len(recent_tokens) - 4)):
	if tuple(recent_tokens[index : index + 3]) == trigram:
	return True

	rendered_words = recent_rendered_words
	if rendered_words is None:
	rendered_words = self._recent_rendered_words(generated_tokens)
	candidate_word = self._render_token(candidate).casefold()
	if (
	rendered_words
	and self._starts_new_word(candidate)
	and any(character.isalnum() for character in candidate_word)
	):
	candidate_bigram = (rendered_words[-1], candidate_word)
	recent_window = rendered_words[-10:]
	recent_bigrams = {
	(recent_window[index], recent_window[index + 1])
	for index in range(len(recent_window) - 1)
	}
	if candidate_bigram in recent_bigrams:
	return True
	if (
	len(candidate_word) > 2
	and rendered_words[-10:].count(candidate_word) >= 2
	and not self._is_common_connector_token(candidate)
	):
	return True

	return False

	def _recent_rendered_words(self, generated_tokens: list[str]) -> list[str]:
	rendered_words: list[str] = []
	for token in generated_tokens:
	if not self._starts_new_word(token):
	continue
	rendered = self._render_token(token).casefold()
	if any(character.isalnum() for character in rendered):
	rendered_words.append(rendered)
	return rendered_words

	def _select_generation_token(
	self,
	distribution: dict[str, float],
	*,
	context_tokens: list[str] \| None = None,
	generated_tokens: list[str] \| None = None,
	temperature: float = DEFAULT_GENERATION_TEMPERATURE,
	top_k: int = DEFAULT_GENERATION_TOP_K,
	top_p: float = DEFAULT_GENERATION_TOP_P,
	repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
	preserve_dominant_candidates: bool = False,
	) -> str:
	assert self.tokenizer is not None
	generated_tokens = generated_tokens or []
	candidates = self._prepare_generation_candidates(
	distribution,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=top_k,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	preserve_dominant_candidates=preserve_dominant_candidates,
	)
	if candidates:
	return self._sample_generation_candidate(
	candidates,
	context_tokens=context_tokens or [],
	generated_tokens=generated_tokens,
	stochastic=temperature > 0.0,
	)

	for token, _ in sorted(distribution.items(), key=lambda item: item[1], reverse=True):
	if token in self.tokenizer.special_tokens:
	continue
	if token == self.tokenizer.unk_token:
	continue
	if not self._allowed_generation_token(token, generated_tokens):
	continue
	return token
	return ""

	def _select_generation_token_from_array(
	self,
	probabilities: object,
	*,
	context_tokens: list[str],
	generated_tokens: list[str],
	temperature: float = DEFAULT_GENERATION_TEMPERATURE,
	top_k: int = DEFAULT_GENERATION_TOP_K,
	top_p: float = DEFAULT_GENERATION_TOP_P,
	repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
	preserve_dominant_candidates: bool = False,
	) -> str:
	assert np is not None
	assert self.tokenizer is not None
	assert self.embedding_model is not None

	values = np.asarray(probabilities, dtype=np.float64)
	if values.size == 0:
	return ""
	pool_size = min(values.size, max(top_k * 4, 64))
	if pool_size <= 0:
	pool_size = min(values.size, 64)
	if pool_size < values.size:
	candidate_indices = np.argpartition(values, -pool_size)[-pool_size:]
	candidate_indices = candidate_indices[np.argsort(values[candidate_indices])[::-1]]
	else:
	candidate_indices = np.argsort(values)[::-1]

	distribution: dict[str, float] = {}
	for raw_index in candidate_indices:
	index = int(raw_index)
	score = float(values[index])
	if score <= 0.0:
	continue
	token = self.embedding_model.id_to_token[index]
	if token in self.tokenizer.special_tokens or token == self.tokenizer.unk_token:
	continue
	distribution[token] = score
	return self._select_generation_token(
	distribution,
	context_tokens=context_tokens,
	generated_tokens=generated_tokens,
	temperature=temperature,
	top_k=top_k,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	preserve_dominant_candidates=preserve_dominant_candidates,
	)

	def _prepare_generation_candidates(
	self,
	distribution: dict[str, float],
	*,
	generated_tokens: list[str],
	temperature: float,
	top_k: int,
	top_p: float,
	repetition_penalty: float,
	preserve_dominant_candidates: bool = False,
	) -> list[tuple[str, float]]:
	assert self.tokenizer is not None
	assert self.embedding_model is not None

	generated_word_count = self._generated_word_count(generated_tokens)
	clause_words = self._words_since_clause_break(generated_tokens)
	recent_rendered_words = self._recent_rendered_words(generated_tokens)
	best_probability = max(distribution.values(), default=0.0)
	adjusted: list[tuple[str, float]] = []
	for token, probability in sorted(distribution.items(), key=lambda item: item[1], reverse=True):
	if token in self.tokenizer.special_tokens:
	continue
	if token == self.tokenizer.unk_token or probability <= 0.0:
	continue
	if not self._allowed_generation_token(token, generated_tokens):
	continue
	repeats_recent_pattern = self._would_repeat_recent_pattern(
	token,
	generated_tokens,
	recent_rendered_words=recent_rendered_words,
	)
	if (
	repeats_recent_pattern
	and not (
	preserve_dominant_candidates
	and best_probability > 0.0
	and probability >= best_probability * 0.80
	)
	):
	continue

	score = probability
	rendered = self._render_token(token)
	punctuation_token = self._is_structural_punctuation_token(token)
	starts_new_word = self._starts_new_word(token)
	alphanumeric = "".join(character for character in rendered if character.isalnum())
	if generated_tokens and starts_new_word and alphanumeric:
	previous_rendered = self._render_token(generated_tokens[-1])
	previous_alphanumeric = "".join(
	character for character in previous_rendered if character.isalnum()
	)
	if previous_alphanumeric.casefold() == alphanumeric.casefold():
	continue
	common_connector = self._is_common_connector_token(token)
	if (
	starts_new_word
	and len(alphanumeric) == 1
	and not common_connector
	):
	score *= 0.08
	recent_count = generated_tokens[-12:].count(token)
	if recent_count > 0 and not common_connector:
	score /= repetition_penalty ** (2 * recent_count)
	if generated_tokens and token == generated_tokens[-1]:
	score /= repetition_penalty**3
	if generated_tokens and token in generated_tokens[-4:] and not common_connector:
	score *= 0.35
	if generated_tokens and not starts_new_word and self._starts_new_word(generated_tokens[-1]):
	score *= 0.08
	if not generated_tokens and punctuation_token:
	if best_probability <= 0.0 or probability < best_probability * 0.80:
	score *= 0.01
	elif not generated_tokens and not starts_new_word:
	score *= 0.02
	if punctuation_token:
	if generated_tokens and self._is_structural_punctuation_token(generated_tokens[-1]):
	score *= 0.05
	if clause_words >= 6:
	score = 1.0 + min(1.4, 0.18 (clause_words - 5))
	elif generated_word_count >= 12:
	score *= 1.1
	if score > 0.0:
	adjusted.append((token, score))

	if not adjusted:
	return []
	adjusted.sort(key=lambda item: item[1], reverse=True)
	if top_k > 0:
	adjusted = adjusted[:top_k]
	if 0.0 < top_p < 1.0:
	kept: list[tuple[str, float]] = []
	cumulative = 0.0
	total = sum(score for _, score in adjusted)
	for token, score in adjusted:
	normalized = score / total if total else 0.0
	kept.append((token, score))
	cumulative += normalized
	if cumulative >= top_p:
	break
	adjusted = kept

	if temperature <= 0.0:
	return [(adjusted[0][0], 1.0)]

	exponent = 1.0 / temperature
	tempered = [
	(token, score**exponent)
	for token, score in adjusted
	if score > 0.0
	]
	total = sum(score for _, score in tempered)
	if total <= 0.0:
	return []
	return [(token, score / total) for token, score in tempered]

	def _sample_generation_candidate(
	self,
	candidates: list[tuple[str, float]],
	*,
	context_tokens: list[str],
	generated_tokens: list[str],
	stochastic: bool = False,
	) -> str:
	if not candidates:
	return ""
	if len(candidates) == 1:
	return candidates[0][0]
	top_probability = candidates[0][1]
	second_probability = candidates[1][1]
	top_has_clear_half_majority = top_probability >= 0.5 and (
	second_probability <= 0.0
	or top_probability - second_probability >= 0.02
	)
	if top_has_clear_half_majority or (
	second_probability > 0.0 and top_probability >= second_probability * 2.5
	) or (
	top_probability >= 0.08
	and second_probability > 0.0
	and top_probability >= second_probability * 1.35
	):
	return candidates[0][0]
	if stochastic:
	threshold = random.random()
	else:
	seed_payload = "\u0002".join([context_tokens, "<generated>", generated_tokens, str(len(candidates))])
	seed = int.from_bytes(hashlib.sha256(seed_payload.encode("utf-8")).digest()[:8], "big")
	threshold = random.Random(seed).random()
	cumulative = 0.0
	for token, probability in candidates:
	cumulative += probability
	if threshold <= cumulative:
	return token
	return candidates[-1][0]

	def _top_entries_from_vector(
	self,
	values: Vector,
	limit: int,
	) -> list[dict[str, object]]:
	if limit <= 0:
	return []
	ranked = sorted(
	enumerate(values),
	key=lambda item: item[1],
	reverse=True,
	)
	return [
	self._token_entry(index, probability)
	for index, probability in ranked[:limit]
	if probability > 0.0
	]

	def _token_entry(
	self,
	index: int,
	probability: float,
	) -> dict[str, object]:
	assert self.embedding_model is not None
	token = self.embedding_model.id_to_token[index]
	return {
	"token": token,
	"text": self._render_token(token),
	"probability": probability,
	}

	def _build_reasoning_summary(
	self,
	transition_order: int \| None,
	blend_weights: dict[str, float],
	) -> str:
	dominant_source = max(blend_weights.items(), key=lambda item: item[1])[0] if blend_weights else "base"
	if transition_order is not None:
	transition_message = f" Transition prior is using order-{transition_order} context."
	else:
	transition_message = " Transition prior found no matching n-gram."

	return (
	"Generation is running on analytical state, recurrent traces, and corpus-derived token transitions."
	f"{transition_message}"
	f" Dominant blend source: {dominant_source}."
	)

	def _generated_word_count(self, tokens: list[str]) -> int:
	return len(self._decode_tokens(tokens).split())

	def _is_structural_punctuation_text(self, text: str) -> bool:
	if len(text) != 1:
	return False
	if self._is_word_joiner_text(text):
	return False
	category = unicodedata.category(text)
	return category.startswith("P")

	def _is_structural_punctuation_token(self, token: str) -> bool:
	return self._is_structural_punctuation_text(self._render_token(token))

	def _is_structural_symbol_token(self, token: str) -> bool:
	rendered = self._render_token(token)
	return len(rendered) == 1 and unicodedata.category(rendered).startswith("S")

	def _is_word_joiner_token(self, token: str) -> bool:
	return self._is_word_joiner_text(self._render_token(token))

	def _is_word_joiner_text(self, text: str) -> bool:
	if len(text) != 1:
	return False
	category = unicodedata.category(text)
	if category in ("Pc", "Pd", "Lm"):
	return True
	name = unicodedata.name(text, "")
	return "APOSTROPHE" in name or (
	"SINGLE" in name and "QUOTATION MARK" in name
	)

	def _can_start_line_with_word_joiner(self, token: str, generated_tokens: list[str]) -> bool:
	rendered = self._render_token(token)
	if len(rendered) != 1 or unicodedata.category(rendered) != "Pd":
	return False
	if not self._starts_new_word(token):
	return False
	return not generated_tokens or self._render_token(generated_tokens[-1]) == "\n"

	def _can_start_answer_with_structural_punctuation(self, token: str) -> bool:
	rendered = self._render_token(token)
	if len(rendered) != 1 or not self._starts_new_word(token):
	return False
	return unicodedata.category(rendered) in ("Ps", "Pi")

	def _is_common_connector_token(self, token: str) -> bool:
	rendered = self._render_token(token)
	return rendered.isalpha() and len(rendered) <= 3

	def _can_attach_word_joiner(self, generated_tokens: list[str]) -> bool:
	if not generated_tokens:
	return False
	rendered = self._render_token(generated_tokens[-1])
	if not rendered:
	return False
	if any(character.isalnum() for character in rendered):
	return True
	if len(rendered) != 1:
	return False
	return unicodedata.category(rendered) in ("Ps", "Pi")

	def _words_since_clause_break(self, tokens: list[str]) -> int:
	assert self.tokenizer is not None

	words = 0
	for token in reversed(tokens):
	if token in self.tokenizer.special_tokens:
	continue
	rendered = self._render_token(token)
	if self._is_structural_punctuation_text(rendered):
	break
	if self._starts_new_word(token) and not self._is_punctuation_piece(rendered):
	words += 1
	return words

	def _should_stop_generation(self, generated_tokens: list[str]) -> bool:
	if not generated_tokens:
	return False
	if not self._is_terminal_punctuation_text(self._render_token(generated_tokens[-1])):
	return False
	return self._generated_word_count(generated_tokens) >= 14

	def _is_terminal_punctuation_text(self, text: str) -> bool:
	if not self._is_structural_punctuation_text(text):
	return False
	name = unicodedata.name(text, "")
	return (
	"FULL STOP" in name
	or "QUESTION MARK" in name
	or "EXCLAMATION MARK" in name
	)

	def _starts_new_word(self, token: str) -> bool:
	assert self.tokenizer is not None
	if token in self.tokenizer.special_tokens:
	return True
	if token.startswith(self.tokenizer.word_prefix):
	return True
	return len(token) == 1 and not token.isalnum() and not self._is_word_joiner_token(token)

	def _decode_tokens(self, tokens: list[str]) -> str:
	assert self.tokenizer is not None
	return self.tokenizer.decode(tokens)

	def _render_token(self, token: str) -> str:
	assert self.tokenizer is not None
	if token.startswith(self.tokenizer.word_prefix):
	return token[len(self.tokenizer.word_prefix) :]
	return token

	def _require_fit(self) -> None:
	if (
	self.tokenizer is None
	or self.embedding_model is None
	or self.memory_units is None
	or self.readout_weights is None
	or self.ternary_mask is None
	or self.associative_keys is None
	or self.associative_key_norms is None
	or self.associative_values is None
	or self.transition_tables is None
	):
	raise RuntimeError("Call fit() before using the REFRAMR model.")

	def _ensure_numeric_caches(self) -> None:
	if np is None:
	return
	if self.readout_weights_array is None:
	self._refresh_numeric_caches()