Upload folder using huggingface_hub

714cf46 verified 3 days ago

123 kB

	import entrypoint_setup

	import os
	import tkinter as tk
	import argparse
	import base64
	import json
	import queue
	import subprocess
	import sys
	import traceback
	import webbrowser
	from types import SimpleNamespace
	from tkinter import ttk, messagebox, filedialog
	from concurrent.futures import ThreadPoolExecutor

	from base_models.get_base_models import BaseModelArguments, standard_models
	from data.supported_datasets import supported_datasets, standard_data_benchmark, internal_datasets
	from embedder import EmbeddingArguments
	from probes.get_probe import ProbeArguments
	from probes.trainers import TrainerArguments
	from main import MainProcess
	from data.data_mixin import DataArguments
	from modal_utils import parse_modal_api_key
	from utils import print_message, print_done, print_title, expand_dms_ids_all
	from visualization.plot_result import create_plots
	from benchmarks.proteingym.compare_scoring_methods import compare_scoring_methods
	from hyperopt_utils import HyperoptModule


	class BackgroundTask:
	def __init__(self, target, args, *kwargs):
	self.target = target
	self.args = args
	self.kwargs = kwargs
	self.result = None
	self.error = None
	self._complete = False

	def run(self):
	try:
	self.result = self.target(self.args, *self.kwargs)
	except Exception as e:
	self.error = e
	print_message(f"Error in background task: {str(e)}")
	traceback.print_exc()
	finally:
	self._complete = True

	@property
	def complete(self):
	return self._complete


	class GUI(MainProcess):
	def __init__(self, master):
	super().__init__(argparse.Namespace(), GUI=True) # Initialize MainProcess with empty namespace
	self.master = master
	self.master.title("Settings GUI")
	self.master.geometry("600x800")

	icon = tk.PhotoImage(file="protify_logo.png")
	# Set the window icon
	self.master.iconphoto(True, icon)

	# Dictionary to store Tkinter variables for settings
	self.settings_vars = {}

	# Create the Notebook widget
	self.notebook = ttk.Notebook(master)
	self.notebook.pack(fill='both', expand=True)

	# Create frames for each settings tab
	self.info_tab = ttk.Frame(self.notebook)
	self.data_tab = ttk.Frame(self.notebook)
	self.embed_tab = ttk.Frame(self.notebook)
	self.model_tab = ttk.Frame(self.notebook)
	self.probe_tab = ttk.Frame(self.notebook)
	self.trainer_tab = ttk.Frame(self.notebook)
	self.wandb_tab = ttk.Frame(self.notebook)
	self.modal_tab = ttk.Frame(self.notebook)
	self.scikit_tab = ttk.Frame(self.notebook)
	self.replay_tab = ttk.Frame(self.notebook)
	self.viz_tab = ttk.Frame(self.notebook)
	self.proteingym_tab = ttk.Frame(self.notebook)

	# Add tabs to the notebook
	self.notebook.add(self.info_tab, text="Info")
	self.notebook.add(self.model_tab, text="Model")
	self.notebook.add(self.data_tab, text="Data")
	self.notebook.add(self.embed_tab, text="Embedding")
	self.notebook.add(self.probe_tab, text="Probe")
	self.notebook.add(self.trainer_tab, text="Trainer")
	self.notebook.add(self.wandb_tab, text="W&B Sweep")
	self.notebook.add(self.modal_tab, text="Modal")
	self.notebook.add(self.proteingym_tab, text="ProteinGym")
	self.notebook.add(self.scikit_tab, text="Scikit")
	self.notebook.add(self.replay_tab, text="Replay")
	self.notebook.add(self.viz_tab, text="Visualization")

	# Build these lines
	self.task_queue = queue.Queue()
	self.thread_pool = ThreadPoolExecutor(max_workers=1)
	self.current_task = None
	self.modal_polling_active = False

	# Start the queue checker
	self.check_task_queue()

	# Build each tab
	self.build_info_tab()
	self.build_model_tab()
	self.build_data_tab()
	self.build_embed_tab()
	self.build_probe_tab()
	self.build_trainer_tab()
	self.build_wandb_tab()
	self.build_modal_tab()
	self.build_proteingym_tab()
	self.build_scikit_tab()
	self.build_replay_tab()
	self.build_viz_tab()

	def check_task_queue(self):
	"""Periodically check for completed background tasks"""
	if self.current_task and self.current_task.complete:
	if self.current_task.error:
	print_message(f"Task failed: {self.current_task.error}")
	self.current_task = None

	if not self.current_task and not self.task_queue.empty():
	self.current_task = self.task_queue.get()
	self.thread_pool.submit(self.current_task.run)

	# Schedule next check
	self.master.after(100, self.check_task_queue)

	def run_in_background(self, target, args, *kwargs):
	"""Queue a task to run in background"""
	task = BackgroundTask(target, args, *kwargs)
	self.task_queue.put(task)
	return task

	def _open_url(self, url):
	"""Open a URL in the default web browser"""
	webbrowser.open_new_tab(url)

	def build_info_tab(self):
	# Create a frame for IDs
	id_frame = ttk.LabelFrame(self.info_tab, text="Identification")
	id_frame.pack(fill="x", padx=10, pady=5)

	# Huggingface Username
	ttk.Label(id_frame, text="Huggingface Username:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["huggingface_username"] = tk.StringVar(value="Synthyra")
	entry_huggingface_username = ttk.Entry(id_frame, textvariable=self.settings_vars["huggingface_username"], width=30)
	entry_huggingface_username.grid(row=0, column=1, padx=10, pady=5)
	self.add_help_button(id_frame, 0, 2, "Your Hugging Face username for model downloads and uploads.")

	# Huggingface token
	ttk.Label(id_frame, text="Huggingface Token:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["huggingface_token"] = tk.StringVar(value="")
	entry_huggingface_token = ttk.Entry(id_frame, textvariable=self.settings_vars["huggingface_token"], width=30)
	entry_huggingface_token.grid(row=1, column=1, padx=10, pady=5)
	self.add_help_button(id_frame, 1, 2, "Your Hugging Face API token for accessing gated or private models.")

	# Wandb API key
	ttk.Label(id_frame, text="Wandb API Key:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["wandb_api_key"] = tk.StringVar(value="")
	entry_wandb_api_key = ttk.Entry(id_frame, textvariable=self.settings_vars["wandb_api_key"], width=30)
	entry_wandb_api_key.grid(row=2, column=1, padx=10, pady=5)
	self.add_help_button(id_frame, 2, 2, "Your Weights & Biases API key for experiment tracking.")

	# Synthyra API key
	ttk.Label(id_frame, text="Synthyra API Key:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["synthyra_api_key"] = tk.StringVar(value="")
	entry_synthyra_api_key = ttk.Entry(id_frame, textvariable=self.settings_vars["synthyra_api_key"], width=30)
	entry_synthyra_api_key.grid(row=3, column=1, padx=10, pady=5)
	self.add_help_button(id_frame, 3, 2, "Your Synthyra API key for accessing premium features.")

	# Backward-compatible Modal API key
	ttk.Label(id_frame, text="Modal API Key (legacy):").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_api_key"] = tk.StringVar(value="")
	entry_modal_api_key = ttk.Entry(id_frame, textvariable=self.settings_vars["modal_api_key"], width=30, show="*")
	entry_modal_api_key.grid(row=4, column=1, padx=10, pady=5)
	self.add_help_button(id_frame, 4, 2, "Legacy format '<modal_token_id>:<modal_token_secret>'.")

	# Modal token ID
	ttk.Label(id_frame, text="Modal Token ID:").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_token_id"] = tk.StringVar(value="")
	entry_modal_token_id = ttk.Entry(id_frame, textvariable=self.settings_vars["modal_token_id"], width=30)
	entry_modal_token_id.grid(row=5, column=1, padx=10, pady=5)
	self.add_help_button(id_frame, 5, 2, "Modal token ID used for CLI/SDK authentication.")

	# Modal token secret
	ttk.Label(id_frame, text="Modal Token Secret:").grid(row=6, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_token_secret"] = tk.StringVar(value="")
	entry_modal_token_secret = ttk.Entry(id_frame, textvariable=self.settings_vars["modal_token_secret"], width=30, show="*")
	entry_modal_token_secret.grid(row=6, column=1, padx=10, pady=5)
	self.add_help_button(id_frame, 6, 2, "Modal token secret used for CLI/SDK authentication.")

	# Create a frame for paths
	paths_frame = ttk.LabelFrame(self.info_tab, text="Paths")
	paths_frame.pack(fill="x", padx=10, pady=5)

	ttk.Label(paths_frame, text='Home Directory:').grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["home_dir"] = tk.StringVar(value=os.getcwd())
	entry_home_dir = ttk.Entry(paths_frame, textvariable=self.settings_vars["home_dir"], width=30)
	entry_home_dir.grid(row=0, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 0, 2, "Home directory for Protify.")

	# HF Home directory
	ttk.Label(paths_frame, text="HF Home Directory:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["hf_home"] = tk.StringVar(value="")
	entry_hf_home = ttk.Entry(paths_frame, textvariable=self.settings_vars["hf_home"], width=30)
	entry_hf_home.grid(row=1, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 1, 2, "Customize the HuggingFace cache directory. Leave empty to use default.")

	# Log directory
	ttk.Label(paths_frame, text="Log Directory:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["log_dir"] = tk.StringVar(value="logs")
	entry_log_dir = ttk.Entry(paths_frame, textvariable=self.settings_vars["log_dir"], width=30)
	entry_log_dir.grid(row=2, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 2, 2, "Directory where log files will be stored.")

	# Results directory
	ttk.Label(paths_frame, text="Results Directory:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["results_dir"] = tk.StringVar(value="results")
	entry_results_dir = ttk.Entry(paths_frame, textvariable=self.settings_vars["results_dir"], width=30)
	entry_results_dir.grid(row=3, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 3, 2, "Directory where results data will be stored.")

	# Model save directory
	ttk.Label(paths_frame, text="Model Save Directory:").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["model_save_dir"] = tk.StringVar(value="weights")
	entry_model_save = ttk.Entry(paths_frame, textvariable=self.settings_vars["model_save_dir"], width=30)
	entry_model_save.grid(row=4, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 4, 2, "Directory where trained models will be saved.")

	ttk.Label(paths_frame, text="Plots Directory:").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["plots_dir"] = tk.StringVar(value="plots")
	entry_plots_dir = ttk.Entry(paths_frame, textvariable=self.settings_vars["plots_dir"], width=30)
	entry_plots_dir.grid(row=5, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 5, 2, "Directory where plots and visualizations will be saved.")

	# Embedding save directory
	ttk.Label(paths_frame, text="Embedding Save Directory:").grid(row=6, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["embedding_save_dir"] = tk.StringVar(value="embeddings")
	entry_embed_save = ttk.Entry(paths_frame, textvariable=self.settings_vars["embedding_save_dir"], width=30)
	entry_embed_save.grid(row=6, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 6, 2, "Directory where computed embeddings will be saved.")

	# Download directory
	ttk.Label(paths_frame, text="Download Directory:").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["download_dir"] = tk.StringVar(value="Synthyra/vector_embeddings")
	entry_download = ttk.Entry(paths_frame, textvariable=self.settings_vars["download_dir"], width=30)
	entry_download.grid(row=7, column=1, padx=10, pady=5)
	self.add_help_button(paths_frame, 7, 2, "HuggingFace repository path for downloading pre-computed embeddings.")

	# button to start logging
	start_logging_button = ttk.Button(self.info_tab, text="Start session", command=self._session_start)
	start_logging_button.pack(pady=10)

	# Add logo and website link at the bottom of the info tab
	try:
	original_logo = tk.PhotoImage(file="synthyra_logo.png")
	# Make logo even smaller (subsample by factor of 3)
	logo = original_logo.subsample(3, 3)

	# Create frame to hold logo and button side by side
	bottom_frame = ttk.Frame(self.info_tab)
	bottom_frame.pack(pady=(10, 20), fill="x")

	# Place logo on the left side
	logo_label = ttk.Label(bottom_frame, image=logo, cursor="hand2")
	logo_label.image = logo # Keep a reference to prevent garbage collection
	logo_label.pack(side=tk.LEFT, padx=(20, 10))
	# Bind click event to the logo
	logo_label.bind("<Button-1>", lambda e: self._open_url("https://synthyra.com"))

	# Add a "Visit Website" button on the right side
	visit_btn = ttk.Button(
	bottom_frame,
	text="Visit Synthyra.com",
	command=lambda: self._open_url("https://synthyra.com"),
	style="Link.TButton"
	)

	# Create a special style for the link button
	style = ttk.Style()
	style.configure("Link.TButton", font=("Helvetica", 12), foreground="blue")

	visit_btn.pack(side=tk.LEFT, padx=(10, 20), pady=10)

	except Exception as e:
	print_message(f"Error setting up logo and link: {str(e)}")

	def build_model_tab(self):
	ttk.Label(self.model_tab, text="Model Names:").grid(row=0, column=0, padx=10, pady=5, sticky="nw")

	self.model_listbox = tk.Listbox(self.model_tab, selectmode="extended", height=24)
	for model_name in standard_models:
	self.model_listbox.insert(tk.END, model_name)
	self.model_listbox.grid(row=0, column=1, padx=10, pady=5, sticky="nw")
	self.add_help_button(self.model_tab, 0, 2, "Select the language models to use for embedding. Multiple models can be selected.")

	ttk.Label(self.model_tab, text="Model DType:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["model_dtype"] = tk.StringVar(value="bf16")
	combo_model_dtype = ttk.Combobox(
	self.model_tab,
	textvariable=self.settings_vars["model_dtype"],
	values=["fp32", "fp16", "bf16", "float32", "float16", "bfloat16"],
	state="readonly",
	)
	combo_model_dtype.grid(row=1, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.model_tab, 1, 2, "Data type used when loading base models.")

	ttk.Label(self.model_tab, text="Use xformers:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["use_xformers"] = tk.BooleanVar(value=False)
	check_use_xformers = ttk.Checkbutton(self.model_tab, variable=self.settings_vars["use_xformers"])
	check_use_xformers.grid(row=2, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.model_tab, 2, 2, "Enable memory-efficient xformers attention where supported.")

	run_button = ttk.Button(self.model_tab, text="Select Models", command=self._select_models)
	run_button.grid(row=99, column=0, columnspan=2, pady=(10, 10))

	def build_data_tab(self):
	ttk.Label(self.data_tab, text="Max Sequence Length:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["max_length"] = tk.IntVar(value=2048)
	spin_max_length = ttk.Spinbox(self.data_tab, from_=1, to=32768, textvariable=self.settings_vars["max_length"])
	spin_max_length.grid(row=0, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.data_tab, 0, 2, "Maximum length of sequences (in tokens) to process.")

	ttk.Label(self.data_tab, text="Trim Sequences:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["trim"] = tk.BooleanVar(value=False)
	check_trim = ttk.Checkbutton(self.data_tab, variable=self.settings_vars["trim"])
	check_trim.grid(row=1, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.data_tab, 1, 2, "Whether to trim sequences to the specified max length.")

	ttk.Label(self.data_tab, text="Delimiter:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["delimiter"] = tk.StringVar(value=",")
	entry_delimiter = ttk.Entry(self.data_tab, textvariable=self.settings_vars["delimiter"], width=5)
	entry_delimiter.grid(row=2, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.data_tab, 2, 2, "Character used to separate columns in CSV data files.")

	ttk.Label(self.data_tab, text="Column Names (comma-separated):").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["col_names"] = tk.StringVar(value="seqs,labels")
	entry_col_names = ttk.Entry(self.data_tab, textvariable=self.settings_vars["col_names"], width=20)
	entry_col_names.grid(row=3, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.data_tab, 3, 2, "Names of columns in data files, separate with commas.")

	ttk.Label(self.data_tab, text="Multi-Column Sequences (space-separated):").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["multi_column"] = tk.StringVar(value="")
	entry_multi_column = ttk.Entry(self.data_tab, textvariable=self.settings_vars["multi_column"], width=20)
	entry_multi_column.grid(row=4, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.data_tab, 4, 2, "If set, list of sequence column names to combine per sample (space-separated). Leave empty if not using multi-column sequences.")

	ttk.Label(self.data_tab, text="Local Data Directories (comma-separated):").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["data_dirs"] = tk.StringVar(value="")
	entry_data_dirs = ttk.Entry(self.data_tab, textvariable=self.settings_vars["data_dirs"], width=30)
	entry_data_dirs.grid(row=5, column=1, padx=10, pady=5, sticky="w")
	browse_data_dir_button = ttk.Button(self.data_tab, text="Browse", command=self._browse_data_dir)
	browse_data_dir_button.grid(row=5, column=2, padx=5, pady=5)
	self.add_help_button(self.data_tab, 5, 3, "Optional local dataset directories. Multiple paths can be comma-separated.")

	ttk.Label(self.data_tab, text="AA -> DNA:").grid(row=6, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["aa_to_dna"] = tk.BooleanVar(value=False)
	ttk.Checkbutton(self.data_tab, variable=self.settings_vars["aa_to_dna"]).grid(row=6, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.data_tab, text="AA -> RNA:").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["aa_to_rna"] = tk.BooleanVar(value=False)
	ttk.Checkbutton(self.data_tab, variable=self.settings_vars["aa_to_rna"]).grid(row=7, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.data_tab, text="DNA -> AA:").grid(row=8, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["dna_to_aa"] = tk.BooleanVar(value=False)
	ttk.Checkbutton(self.data_tab, variable=self.settings_vars["dna_to_aa"]).grid(row=8, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.data_tab, text="RNA -> AA:").grid(row=9, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["rna_to_aa"] = tk.BooleanVar(value=False)
	ttk.Checkbutton(self.data_tab, variable=self.settings_vars["rna_to_aa"]).grid(row=9, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.data_tab, text="Codon -> AA:").grid(row=10, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["codon_to_aa"] = tk.BooleanVar(value=False)
	ttk.Checkbutton(self.data_tab, variable=self.settings_vars["codon_to_aa"]).grid(row=10, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.data_tab, text="AA -> Codon:").grid(row=11, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["aa_to_codon"] = tk.BooleanVar(value=False)
	ttk.Checkbutton(self.data_tab, variable=self.settings_vars["aa_to_codon"]).grid(row=11, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.data_tab, text="Random Pair Flipping:").grid(row=12, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["random_pair_flipping"] = tk.BooleanVar(value=False)
	ttk.Checkbutton(self.data_tab, variable=self.settings_vars["random_pair_flipping"]).grid(row=12, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.data_tab, 12, 2, "Randomly flip paired inputs during training for pair datasets.")

	ttk.Label(self.data_tab, text="Dataset Names:").grid(row=13, column=0, padx=10, pady=5, sticky="nw")
	self.data_listbox = tk.Listbox(self.data_tab, selectmode="extended", height=20, width=25)
	for dataset_name in supported_datasets:
	if dataset_name not in internal_datasets:
	self.data_listbox.insert(tk.END, dataset_name)
	self.data_listbox.grid(row=13, column=1, padx=10, pady=5, sticky="nw")
	self.add_help_button(self.data_tab, 13, 2, "Select datasets to use. Multiple datasets can be selected.")

	run_button = ttk.Button(self.data_tab, text="Get Data", command=self._get_data)
	run_button.grid(row=99, column=0, columnspan=2, pady=(10, 10))

	def build_embed_tab(self):
	# batch_size
	ttk.Label(self.embed_tab, text="Batch Size:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["batch_size"] = tk.IntVar(value=4)
	spin_batch_size = ttk.Spinbox(self.embed_tab, from_=1, to=1024, textvariable=self.settings_vars["batch_size"])
	spin_batch_size.grid(row=1, column=1, padx=10, pady=5)
	self.add_help_button(self.embed_tab, 1, 2, "Number of sequences to process at once during embedding.")

	# num_workers
	ttk.Label(self.embed_tab, text="Num Workers:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["num_workers"] = tk.IntVar(value=0)
	spin_num_workers = ttk.Spinbox(self.embed_tab, from_=0, to=64, textvariable=self.settings_vars["num_workers"])
	spin_num_workers.grid(row=2, column=1, padx=10, pady=5)
	self.add_help_button(self.embed_tab, 2, 2, "Number of worker processes for data loading. 0 means main process only.")

	# download_embeddings
	ttk.Label(self.embed_tab, text="Download Embeddings:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["download_embeddings"] = tk.BooleanVar(value=False)
	check_download = ttk.Checkbutton(self.embed_tab, variable=self.settings_vars["download_embeddings"])
	check_download.grid(row=3, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.embed_tab, 3, 2, "Whether to download pre-computed embeddings from HuggingFace instead of computing them.")

	# matrix_embed
	ttk.Label(self.embed_tab, text="Matrix Embedding:").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["matrix_embed"] = tk.BooleanVar(value=False)
	check_matrix = ttk.Checkbutton(self.embed_tab, variable=self.settings_vars["matrix_embed"])
	check_matrix.grid(row=4, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.embed_tab, 4, 2, "Whether to use matrix embedding (full embedding matrices) instead of pooled embeddings.")

	# pooling_types
	ttk.Label(self.embed_tab, text="Pooling Types (comma-separated):").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["embedding_pooling_types"] = tk.StringVar(value="mean, var")
	entry_pooling = ttk.Entry(self.embed_tab, textvariable=self.settings_vars["embedding_pooling_types"], width=20)
	entry_pooling.grid(row=5, column=1, padx=10, pady=5)
	self.add_help_button(self.embed_tab, 5, 2, "Types of pooling to apply to embeddings, separate with commas.")

	ttk.Label(self.embed_tab, text="Options: mean, max, min, norm, prod, median, std, var, cls, parti").grid(row=6, column=0, columnspan=2, padx=10, pady=2, sticky="w")

	# embed_dtype
	ttk.Label(self.embed_tab, text="Embedding DType:").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["embed_dtype"] = tk.StringVar(value="float32")
	combo_dtype = ttk.Combobox(
	self.embed_tab,
	textvariable=self.settings_vars["embed_dtype"],
	values=["float32", "float16", "bfloat16", "float8_e4m3fn", "float8_e5m2"]
	)
	combo_dtype.grid(row=7, column=1, padx=10, pady=5)
	self.add_help_button(self.embed_tab, 7, 2, "Data type to use for storing embeddings (affects precision and size).")

	# sql
	ttk.Label(self.embed_tab, text="Use SQL:").grid(row=8, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sql"] = tk.BooleanVar(value=False)
	check_sql = ttk.Checkbutton(self.embed_tab, variable=self.settings_vars["sql"])
	check_sql.grid(row=8, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.embed_tab, 8, 2, "Whether to use SQL database for storing embeddings instead of files.")

	run_button = ttk.Button(self.embed_tab, text="Embed sequences to disk", command=self._get_embeddings)
	run_button.grid(row=99, column=0, columnspan=2, pady=(10, 10))

	def build_probe_tab(self):
	# Probe Type
	ttk.Label(self.probe_tab, text="Probe Type:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["probe_type"] = tk.StringVar(value="linear")
	combo_probe = ttk.Combobox(
	self.probe_tab,
	textvariable=self.settings_vars["probe_type"],
	values=["linear", "transformer", "retrievalnet", "lyra"]
	)
	combo_probe.grid(row=0, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 0, 2, "Type of probe architecture to use (linear, transformer, or retrievalnet).")

	# Tokenwise
	ttk.Label(self.probe_tab, text="Tokenwise:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["tokenwise"] = tk.BooleanVar(value=False)
	check_tokenwise = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["tokenwise"])
	check_tokenwise.grid(row=1, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 1, 2, "Whether to use token-wise prediction (operate on each token) instead of sequence-level.")

	# Pre Layer Norm
	ttk.Label(self.probe_tab, text="Pre Layer Norm:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["pre_ln"] = tk.BooleanVar(value=True)
	check_pre_ln = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["pre_ln"])
	check_pre_ln.grid(row=2, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 2, 2, "Whether to use pre-layer normalization in transformer architecture.")

	# Number of Layers
	ttk.Label(self.probe_tab, text="Number of Layers:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["n_layers"] = tk.IntVar(value=1)
	spin_n_layers = ttk.Spinbox(self.probe_tab, from_=1, to=100, textvariable=self.settings_vars["n_layers"])
	spin_n_layers.grid(row=3, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 3, 2, "Number of layers in the probe architecture.")

	# Hidden Dimension
	ttk.Label(self.probe_tab, text="Hidden Dimension:").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["hidden_size"] = tk.IntVar(value=8192)
	spin_hidden_size = ttk.Spinbox(self.probe_tab, from_=1, to=10000, textvariable=self.settings_vars["hidden_size"])
	spin_hidden_size.grid(row=4, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 4, 2, "Size of hidden dimension in the probe model.")

	# Dropout
	ttk.Label(self.probe_tab, text="Dropout:").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["dropout"] = tk.DoubleVar(value=0.2)
	spin_dropout = ttk.Spinbox(self.probe_tab, from_=0.0, to=1.0, increment=0.1, textvariable=self.settings_vars["dropout"])
	spin_dropout.grid(row=5, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 5, 2, "Dropout probability for regularization (0.0-1.0).")

	# Transformer Probe Settings
	ttk.Label(self.probe_tab, text="=== Transformer Probe Settings ===").grid(row=6, column=0, columnspan=2, pady=10)

	# Transformer Hidden Dimension
	ttk.Label(self.probe_tab, text="Transformer Hidden Dimension:").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["transformer_hidden_size"] = tk.IntVar(value=512)
	spin_transformer_hidden_size = ttk.Spinbox(self.probe_tab, from_=64, to=4096, textvariable=self.settings_vars["transformer_hidden_size"])
	spin_transformer_hidden_size.grid(row=7, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 7, 2, "Internal hidden dimension for transformer probe (512 recommended).")

	# FF Dimension
	ttk.Label(self.probe_tab, text="Classifier Dimension:").grid(row=8, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["classifier_size"] = tk.IntVar(value=4096)
	spin_classifier_size = ttk.Spinbox(self.probe_tab, from_=1, to=10000, textvariable=self.settings_vars["classifier_size"])
	spin_classifier_size.grid(row=8, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 8, 2, "Dimension of the classifier/feedforward layer in transformer probe.")

	# Classifier Dropout
	ttk.Label(self.probe_tab, text="Classifier Dropout:").grid(row=9, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["classifier_dropout"] = tk.DoubleVar(value=0.2)
	spin_class_dropout = ttk.Spinbox(self.probe_tab, from_=0.0, to=1.0, increment=0.1, textvariable=self.settings_vars["classifier_dropout"])
	spin_class_dropout.grid(row=9, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 9, 2, "Dropout probability in the classifier layer (0.0-1.0).")

	# Number of Heads
	ttk.Label(self.probe_tab, text="Number of Heads:").grid(row=10, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["n_heads"] = tk.IntVar(value=4)
	spin_n_heads = ttk.Spinbox(self.probe_tab, from_=1, to=32, textvariable=self.settings_vars["n_heads"])
	spin_n_heads.grid(row=10, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 10, 2, "Number of attention heads in transformer probe.")

	# Rotary
	ttk.Label(self.probe_tab, text="Rotary:").grid(row=11, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["rotary"] = tk.BooleanVar(value=True)
	check_rotary = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["rotary"])
	check_rotary.grid(row=11, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 11, 2, "Whether to use rotary position embeddings in transformer.")

	# Pooling Types
	ttk.Label(self.probe_tab, text="Pooling Types (comma-separated):").grid(row=12, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["probe_pooling_types"] = tk.StringVar(value="mean, var")
	entry_pooling = ttk.Entry(self.probe_tab, textvariable=self.settings_vars["probe_pooling_types"], width=20)
	entry_pooling.grid(row=12, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 12, 2, "Types of pooling to use in the probe model, separate with commas.")

	# Transformer Dropout
	ttk.Label(self.probe_tab, text="Transformer Dropout:").grid(row=13, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["transformer_dropout"] = tk.DoubleVar(value=0.1)
	spin_transformer_dropout = ttk.Spinbox(self.probe_tab, from_=0.0, to=1.0, increment=0.1, textvariable=self.settings_vars["transformer_dropout"])
	spin_transformer_dropout.grid(row=13, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 13, 2, "Dropout probability in the transformer layers (0.0-1.0).")

	# Token Attention
	ttk.Label(self.probe_tab, text="Token Attention:").grid(row=14, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["token_attention"] = tk.BooleanVar(value=False)
	check_token_attention = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["token_attention"])
	check_token_attention.grid(row=14, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 14, 2, "If true, use TokenFormer instead of Transformer blocks.")

	# Use Bias
	ttk.Label(self.probe_tab, text="Use Bias:").grid(row=15, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["use_bias"] = tk.BooleanVar(value=False)
	check_use_bias = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["use_bias"])
	check_use_bias.grid(row=15, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 15, 2, "Use bias terms in probe linear layers.")

	# Add Token IDs
	ttk.Label(self.probe_tab, text="Add Token IDs:").grid(row=16, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["add_token_ids"] = tk.BooleanVar(value=False)
	check_add_token_ids = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["add_token_ids"])
	check_add_token_ids.grid(row=16, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 16, 2, "Add learned token type IDs for pair tasks.")

	# RetrievalNet Settings Section
	ttk.Label(self.probe_tab, text="=== RetrievalNet Settings ===").grid(row=17, column=0, columnspan=2, pady=10)

	# Sim Type
	ttk.Label(self.probe_tab, text="Similarity Type:").grid(row=18, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sim_type"] = tk.StringVar(value="dot")
	combo_sim_type = ttk.Combobox(
	self.probe_tab,
	textvariable=self.settings_vars["sim_type"],
	values=["dot", "euclidean", "cosine"]
	)
	combo_sim_type.grid(row=18, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 18, 2, "Cross-attention mechanism for token-parameter-attention (dot, euclidean, or cosine).")

	# Save Model
	ttk.Label(self.probe_tab, text="Save Model:").grid(row=19, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["save_model"] = tk.BooleanVar(value=False)
	check_save_model = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["save_model"])
	check_save_model.grid(row=19, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 19, 2, "Whether to save the trained probe model to disk.")

	# Production Model
	ttk.Label(self.probe_tab, text="Production Model:").grid(row=20, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["production_model"] = tk.BooleanVar(value=False)
	check_prod_model = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["production_model"])
	check_prod_model.grid(row=20, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 20, 2, "Whether to prepare the model for production deployment.")

	# LoRA Settings Section
	ttk.Label(self.probe_tab, text="=== LoRA Settings ===").grid(row=21, column=0, columnspan=2, pady=10)

	# Lora checkbox
	ttk.Label(self.probe_tab, text="Use LoRA:").grid(row=22, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["lora"] = tk.BooleanVar(value=False)
	check_lora = ttk.Checkbutton(self.probe_tab, variable=self.settings_vars["lora"])
	check_lora.grid(row=22, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.probe_tab, 22, 2, "Whether to use Low-Rank Adaptation (LoRA) for fine-tuning.")

	# LoRA r
	ttk.Label(self.probe_tab, text="LoRA r:").grid(row=23, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["lora_r"] = tk.IntVar(value=8)
	spin_lora_r = ttk.Spinbox(self.probe_tab, from_=1, to=128, textvariable=self.settings_vars["lora_r"])
	spin_lora_r.grid(row=23, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 23, 2, "Rank parameter r for LoRA (lower = more efficient, higher = more expressive).")

	# LoRA alpha
	ttk.Label(self.probe_tab, text="LoRA alpha:").grid(row=24, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["lora_alpha"] = tk.DoubleVar(value=32.0)
	spin_lora_alpha = ttk.Spinbox(self.probe_tab, from_=1.0, to=128.0, increment=1.0, textvariable=self.settings_vars["lora_alpha"])
	spin_lora_alpha.grid(row=24, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 24, 2, "Alpha parameter for LoRA, controls update scale.")

	# LoRA dropout
	ttk.Label(self.probe_tab, text="LoRA dropout:").grid(row=25, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["lora_dropout"] = tk.DoubleVar(value=0.01)
	spin_lora_dropout = ttk.Spinbox(self.probe_tab, from_=0.0, to=0.5, increment=0.01, textvariable=self.settings_vars["lora_dropout"])
	spin_lora_dropout.grid(row=25, column=1, padx=10, pady=5)
	self.add_help_button(self.probe_tab, 25, 2, "Dropout probability for LoRA layers (0.0-0.5).")

	# Add a button to create the probe
	run_button = ttk.Button(self.probe_tab, text="Save Probe Arguments", command=self._create_probe_args)
	run_button.grid(row=99, column=0, columnspan=2, pady=(10, 10))

	def build_trainer_tab(self):
	# Hybrid Probe checkbox
	ttk.Label(self.trainer_tab, text="Hybrid Probe:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["hybrid_probe"] = tk.BooleanVar(value=False)
	check_hybrid_probe = ttk.Checkbutton(self.trainer_tab, variable=self.settings_vars["hybrid_probe"])
	check_hybrid_probe.grid(row=0, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.trainer_tab, 0, 2, "Whether to use hybrid probe (combines neural and linear probes).")

	# Full finetuning checkbox
	ttk.Label(self.trainer_tab, text="Full Finetuning:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["full_finetuning"] = tk.BooleanVar(value=False)
	check_full_ft = ttk.Checkbutton(self.trainer_tab, variable=self.settings_vars["full_finetuning"])
	check_full_ft.grid(row=1, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.trainer_tab, 1, 2, "Whether to perform full finetuning of the entire model.")

	# num_epochs
	ttk.Label(self.trainer_tab, text="Number of Epochs:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["num_epochs"] = tk.IntVar(value=200)
	spin_num_epochs = ttk.Spinbox(self.trainer_tab, from_=1, to=1000, textvariable=self.settings_vars["num_epochs"])
	spin_num_epochs.grid(row=2, column=1, padx=10, pady=5)
	self.add_help_button(self.trainer_tab, 2, 2, "Number of training epochs (complete passes through the dataset).")

	# probe_batch_size
	ttk.Label(self.trainer_tab, text="Probe Batch Size:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["probe_batch_size"] = tk.IntVar(value=64)
	spin_probe_batch_size = ttk.Spinbox(self.trainer_tab, from_=1, to=1000, textvariable=self.settings_vars["probe_batch_size"])
	spin_probe_batch_size.grid(row=3, column=1, padx=10, pady=5)
	self.add_help_button(self.trainer_tab, 3, 2, "Batch size for probe training.")

	# base_batch_size
	ttk.Label(self.trainer_tab, text="Base Batch Size:").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["base_batch_size"] = tk.IntVar(value=4)
	spin_base_batch_size = ttk.Spinbox(self.trainer_tab, from_=1, to=1000, textvariable=self.settings_vars["base_batch_size"])
	spin_base_batch_size.grid(row=4, column=1, padx=10, pady=5)
	self.add_help_button(self.trainer_tab, 4, 2, "Batch size for base model training.")

	# probe_grad_accum
	ttk.Label(self.trainer_tab, text="Probe Grad Accum:").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["probe_grad_accum"] = tk.IntVar(value=1)
	spin_probe_grad_accum = ttk.Spinbox(self.trainer_tab, from_=1, to=100, textvariable=self.settings_vars["probe_grad_accum"])
	spin_probe_grad_accum.grid(row=5, column=1, padx=10, pady=5)
	self.add_help_button(self.trainer_tab, 5, 2, "Gradient accumulation steps for probe training.")

	# base_grad_accum
	ttk.Label(self.trainer_tab, text="Base Grad Accum:").grid(row=6, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["base_grad_accum"] = tk.IntVar(value=8)
	spin_base_grad_accum = ttk.Spinbox(self.trainer_tab, from_=1, to=100, textvariable=self.settings_vars["base_grad_accum"])
	spin_base_grad_accum.grid(row=6, column=1, padx=10, pady=5)
	self.add_help_button(self.trainer_tab, 6, 2, "Gradient accumulation steps for base model training.")

	# lr
	ttk.Label(self.trainer_tab, text="Learning Rate:").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["lr"] = tk.DoubleVar(value=1e-4)
	spin_lr = ttk.Spinbox(self.trainer_tab, from_=1e-6, to=1e-2, increment=1e-5, textvariable=self.settings_vars["lr"])
	spin_lr.grid(row=7, column=1, padx=10, pady=5)
	self.add_help_button(self.trainer_tab, 7, 2, "Learning rate for optimizer. Controls step size during training.")

	# weight_decay
	ttk.Label(self.trainer_tab, text="Weight Decay:").grid(row=8, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["weight_decay"] = tk.DoubleVar(value=0.00)
	spin_weight_decay = ttk.Spinbox(self.trainer_tab, from_=0.0, to=1.0, increment=0.01, textvariable=self.settings_vars["weight_decay"])
	spin_weight_decay.grid(row=8, column=1, padx=10, pady=5)
	self.add_help_button(self.trainer_tab, 8, 2, "L2 regularization factor to prevent overfitting (0.0-1.0).")

	# patience
	ttk.Label(self.trainer_tab, text="Patience:").grid(row=9, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["patience"] = tk.IntVar(value=1)
	spin_patience = ttk.Spinbox(self.trainer_tab, from_=1, to=100, textvariable=self.settings_vars["patience"])
	spin_patience.grid(row=9, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.trainer_tab, 9, 2, "Number of epochs with no improvement after which training will stop.")

	# Random Seed
	ttk.Label(self.trainer_tab, text="Random Seed:").grid(row=10, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["seed"] = tk.IntVar(value=42)
	spin_seed = ttk.Spinbox(self.trainer_tab, from_=0, to=10000, textvariable=self.settings_vars["seed"])
	spin_seed.grid(row=10, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.trainer_tab, 10, 2, "Random seed for reproducibility of experiments.")

	# Read Scaler
	ttk.Label(self.trainer_tab, text="Read Scaler:").grid(row=11, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["read_scaler"] = tk.IntVar(value=100)
	spin_read_scaler = ttk.Spinbox(self.trainer_tab, from_=1, to=1000, textvariable=self.settings_vars["read_scaler"])
	spin_read_scaler.grid(row=11, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.trainer_tab, 11, 2, "Read scaler for SQL storage (multiplier for batch size when reading from SQL database).")

	# Deterministic
	ttk.Label(self.trainer_tab, text="Deterministic:").grid(row=12, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["deterministic"] = tk.BooleanVar(value=False)
	check_deterministic = ttk.Checkbutton(self.trainer_tab, variable=self.settings_vars["deterministic"])
	check_deterministic.grid(row=12, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.trainer_tab, 12, 2, "Enable deterministic behavior for reproducibility (will slow down training).")

	# Number of Runs
	ttk.Label(self.trainer_tab, text="Number of Runs:").grid(row=13, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["num_runs"] = tk.IntVar(value=1)
	spin_num_runs = ttk.Spinbox(self.trainer_tab, from_=1, to=100, textvariable=self.settings_vars["num_runs"])
	spin_num_runs.grid(row=13, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.trainer_tab, 13, 2, "Train multiple runs with different seeds and aggregate metrics.")

	run_button = ttk.Button(self.trainer_tab, text="Run trainer", command=self._run_trainer)
	run_button.grid(row=99, column=0, columnspan=2, pady=(10, 10))

	def build_wandb_tab(self):
	ttk.Label(self.wandb_tab, text="Use W&B Hyperopt:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["use_wandb_hyperopt"] = tk.BooleanVar(value=False)
	check_use_wandb_hyperopt = ttk.Checkbutton(self.wandb_tab, variable=self.settings_vars["use_wandb_hyperopt"])
	check_use_wandb_hyperopt.grid(row=0, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.wandb_tab, 0, 2, "Enable Weights & Biases hyperparameter sweeps.")

	ttk.Label(self.wandb_tab, text="W&B Project:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["wandb_project"] = tk.StringVar(value="Protify")
	entry_wandb_project = ttk.Entry(self.wandb_tab, textvariable=self.settings_vars["wandb_project"], width=30)
	entry_wandb_project.grid(row=1, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.wandb_tab, text="W&B Entity (optional):").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["wandb_entity"] = tk.StringVar(value="")
	entry_wandb_entity = ttk.Entry(self.wandb_tab, textvariable=self.settings_vars["wandb_entity"], width=30)
	entry_wandb_entity.grid(row=2, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.wandb_tab, text="Sweep Config Path:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sweep_config_path"] = tk.StringVar(value="yamls/sweep.yaml")
	entry_sweep_config_path = ttk.Entry(self.wandb_tab, textvariable=self.settings_vars["sweep_config_path"], width=30)
	entry_sweep_config_path.grid(row=3, column=1, padx=10, pady=5, sticky="w")
	browse_sweep_path_button = ttk.Button(self.wandb_tab, text="Browse", command=self._browse_sweep_config)
	browse_sweep_path_button.grid(row=3, column=2, padx=5, pady=5)

	ttk.Label(self.wandb_tab, text="Sweep Count:").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sweep_count"] = tk.IntVar(value=10)
	spin_sweep_count = ttk.Spinbox(self.wandb_tab, from_=1, to=10000, textvariable=self.settings_vars["sweep_count"])
	spin_sweep_count.grid(row=4, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.wandb_tab, text="Sweep Method:").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sweep_method"] = tk.StringVar(value="bayes")
	combo_sweep_method = ttk.Combobox(
	self.wandb_tab,
	textvariable=self.settings_vars["sweep_method"],
	values=["bayes", "grid", "random"],
	state="readonly",
	)
	combo_sweep_method.grid(row=5, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.wandb_tab, text="Sweep Metric (Classification):").grid(row=6, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sweep_metric_cls"] = tk.StringVar(value="eval_loss")
	entry_sweep_metric_cls = ttk.Entry(self.wandb_tab, textvariable=self.settings_vars["sweep_metric_cls"], width=30)
	entry_sweep_metric_cls.grid(row=6, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.wandb_tab, text="Sweep Metric (Regression):").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sweep_metric_reg"] = tk.StringVar(value="eval_loss")
	entry_sweep_metric_reg = ttk.Entry(self.wandb_tab, textvariable=self.settings_vars["sweep_metric_reg"], width=30)
	entry_sweep_metric_reg.grid(row=7, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.wandb_tab, text="Sweep Goal:").grid(row=8, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["sweep_goal"] = tk.StringVar(value="minimize")
	combo_sweep_goal = ttk.Combobox(
	self.wandb_tab,
	textvariable=self.settings_vars["sweep_goal"],
	values=["maximize", "minimize"],
	state="readonly",
	)
	combo_sweep_goal.grid(row=8, column=1, padx=10, pady=5, sticky="w")

	run_button = ttk.Button(self.wandb_tab, text="Save W&B Settings", command=self._save_wandb_settings)
	run_button.grid(row=99, column=0, columnspan=2, pady=(10, 10))

	def build_modal_tab(self):
	ttk.Label(self.modal_tab, text="Modal App Name:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_app_name"] = tk.StringVar(value="protify-backend")
	entry_modal_app_name = ttk.Entry(self.modal_tab, textvariable=self.settings_vars["modal_app_name"], width=30)
	entry_modal_app_name.grid(row=0, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Modal Environment (optional):").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_environment"] = tk.StringVar(value="")
	entry_modal_environment = ttk.Entry(self.modal_tab, textvariable=self.settings_vars["modal_environment"], width=30)
	entry_modal_environment.grid(row=1, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Modal Deploy Tag (optional):").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_tag"] = tk.StringVar(value="")
	entry_modal_tag = ttk.Entry(self.modal_tab, textvariable=self.settings_vars["modal_tag"], width=30)
	entry_modal_tag.grid(row=2, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Backend Module Path:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_backend_path"] = tk.StringVar(value="src/protify/modal_backend.py")
	entry_modal_backend_path = ttk.Entry(self.modal_tab, textvariable=self.settings_vars["modal_backend_path"], width=30)
	entry_modal_backend_path.grid(row=3, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="GPU Type:").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_gpu_type"] = tk.StringVar(value="A10")
	combo_modal_gpu_type = ttk.Combobox(
	self.modal_tab,
	textvariable=self.settings_vars["modal_gpu_type"],
	values=["H200", "H100", "A100-80GB", "A100", "L40S", "A10", "L4", "T4"],
	state="readonly",
	)
	combo_modal_gpu_type.grid(row=4, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Runtime Timeout (seconds):").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_timeout_seconds"] = tk.IntVar(value=86400)
	spin_modal_timeout = ttk.Spinbox(self.modal_tab, from_=60, to=604800, textvariable=self.settings_vars["modal_timeout_seconds"])
	spin_modal_timeout.grid(row=5, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Poll Interval (seconds):").grid(row=6, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_poll_interval_seconds"] = tk.IntVar(value=5)
	spin_modal_poll_interval = ttk.Spinbox(self.modal_tab, from_=1, to=600, textvariable=self.settings_vars["modal_poll_interval_seconds"])
	spin_modal_poll_interval.grid(row=6, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Log Tail Length (chars):").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_log_tail_chars"] = tk.IntVar(value=5000)
	spin_modal_log_tail_chars = ttk.Spinbox(self.modal_tab, from_=500, to=100000, textvariable=self.settings_vars["modal_log_tail_chars"])
	spin_modal_log_tail_chars.grid(row=7, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Current Job ID:").grid(row=8, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_job_id"] = tk.StringVar(value="")
	entry_modal_job_id = ttk.Entry(self.modal_tab, textvariable=self.settings_vars["modal_job_id"], width=30)
	entry_modal_job_id.grid(row=8, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Current Call ID:").grid(row=9, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_call_id"] = tk.StringVar(value="")
	entry_modal_call_id = ttk.Entry(self.modal_tab, textvariable=self.settings_vars["modal_call_id"], width=30)
	entry_modal_call_id.grid(row=9, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Artifact Output Directory:").grid(row=10, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_artifacts_dir"] = tk.StringVar(value="modal_artifacts")
	entry_modal_artifacts_dir = ttk.Entry(self.modal_tab, textvariable=self.settings_vars["modal_artifacts_dir"], width=30)
	entry_modal_artifacts_dir.grid(row=10, column=1, padx=10, pady=5, sticky="w")

	ttk.Label(self.modal_tab, text="Auto Poll Health:").grid(row=11, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["modal_auto_poll"] = tk.BooleanVar(value=True)
	check_modal_auto_poll = ttk.Checkbutton(self.modal_tab, variable=self.settings_vars["modal_auto_poll"])
	check_modal_auto_poll.grid(row=11, column=1, padx=10, pady=5, sticky="w")

	deploy_button = ttk.Button(self.modal_tab, text="Deploy Modal Backend", command=self._modal_deploy_backend)
	deploy_button.grid(row=12, column=0, padx=10, pady=10, sticky="w")

	submit_button = ttk.Button(self.modal_tab, text="Submit Remote Run", command=self._modal_submit_run)
	submit_button.grid(row=12, column=1, padx=10, pady=10, sticky="w")

	poll_button = ttk.Button(self.modal_tab, text="Poll Status", command=self._modal_poll_status)
	poll_button.grid(row=13, column=0, padx=10, pady=5, sticky="w")

	cancel_button = ttk.Button(self.modal_tab, text="Cancel Run", command=self._modal_cancel_run)
	cancel_button.grid(row=13, column=1, padx=10, pady=5, sticky="w")

	start_auto_poll_button = ttk.Button(self.modal_tab, text="Start Auto Poll", command=self._modal_start_auto_poll)
	start_auto_poll_button.grid(row=14, column=0, padx=10, pady=5, sticky="w")

	stop_auto_poll_button = ttk.Button(self.modal_tab, text="Stop Auto Poll", command=self._modal_stop_auto_poll)
	stop_auto_poll_button.grid(row=14, column=1, padx=10, pady=5, sticky="w")

	fetch_button = ttk.Button(self.modal_tab, text="Fetch Logs/Results/Plots", command=self._modal_fetch_artifacts)
	fetch_button.grid(row=15, column=0, columnspan=2, padx=10, pady=10, sticky="w")

	def build_proteingym_tab(self):
	# ProteinGym Checkbox
	ttk.Label(self.proteingym_tab, text="Run ProteinGym:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["proteingym"] = tk.BooleanVar(value=False)
	check_proteingym = ttk.Checkbutton(self.proteingym_tab, variable=self.settings_vars["proteingym"])
	check_proteingym.grid(row=0, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.proteingym_tab, 0, 2, "Enable ProteinGym zero-shot evaluation.")

	# DMS IDs
	ttk.Label(self.proteingym_tab, text="DMS IDs (space-separated or 'all'):").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["dms_ids"] = tk.StringVar(value="all")
	entry_dms_ids = ttk.Entry(self.proteingym_tab, textvariable=self.settings_vars["dms_ids"], width=30)
	entry_dms_ids.grid(row=1, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.proteingym_tab, 1, 2, "List of DMS IDs to evaluate, or 'all'.")

	# Mode
	ttk.Label(self.proteingym_tab, text="Mode:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["mode"] = tk.StringVar(value="benchmark")
	combo_mode = ttk.Combobox(
	self.proteingym_tab,
	textvariable=self.settings_vars["mode"],
	values=["benchmark", "indels", "multiples", "singles"]
	)
	combo_mode.grid(row=2, column=1, padx=10, pady=5)
	self.add_help_button(self.proteingym_tab, 2, 2, "ProteinGym zero-shot mode.")

	# Scoring Method
	ttk.Label(self.proteingym_tab, text="Scoring Method:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["scoring_method"] = tk.StringVar(value="masked_marginal")
	combo_scoring_method = ttk.Combobox(
	self.proteingym_tab,
	textvariable=self.settings_vars["scoring_method"],
	values=["masked_marginal", "mutant_marginal", "wildtype_marginal", "pll", "global_log_prob"]
	)
	combo_scoring_method.grid(row=3, column=1, padx=10, pady=5)
	self.add_help_button(self.proteingym_tab, 3, 2, "Scoring method for zero-shot evaluation.")

	# Scoring Window
	ttk.Label(self.proteingym_tab, text="Scoring Window:").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["scoring_window"] = tk.StringVar(value="optimal")
	combo_scoring_window = ttk.Combobox(
	self.proteingym_tab,
	textvariable=self.settings_vars["scoring_window"],
	values=["optimal", "sliding"]
	)
	combo_scoring_window.grid(row=4, column=1, padx=10, pady=5)
	self.add_help_button(self.proteingym_tab, 4, 2, "Windowing strategy for scoring.")

	# Batch Size
	ttk.Label(self.proteingym_tab, text="Batch Size:").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["pg_batch_size"] = tk.IntVar(value=32)
	spin_pg_batch_size = ttk.Spinbox(self.proteingym_tab, from_=1, to=1024, textvariable=self.settings_vars["pg_batch_size"])
	spin_pg_batch_size.grid(row=5, column=1, padx=10, pady=5)
	self.add_help_button(self.proteingym_tab, 5, 2, "Batch size for ProteinGym scoring.")

	# Compare Scoring Methods
	ttk.Label(self.proteingym_tab, text="Compare Scoring Methods:").grid(row=6, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["compare_scoring_methods"] = tk.BooleanVar(value=False)
	check_compare = ttk.Checkbutton(self.proteingym_tab, variable=self.settings_vars["compare_scoring_methods"])
	check_compare.grid(row=6, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.proteingym_tab, 6, 2, "Compare different scoring methods across models and DMS assays.")

	ttk.Label(self.proteingym_tab, text="Score Only:").grid(row=7, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["score_only"] = tk.BooleanVar(value=False)
	check_score_only = ttk.Checkbutton(self.proteingym_tab, variable=self.settings_vars["score_only"])
	check_score_only.grid(row=7, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(self.proteingym_tab, 7, 2, "Skip scoring and run benchmark report generation on existing results.")

	run_button = ttk.Button(self.proteingym_tab, text="Run ProteinGym", command=self._run_proteingym)
	run_button.grid(row=99, column=0, columnspan=2, pady=(10, 10))

	def build_scikit_tab(self):
	# Create a frame for scikit settings
	scikit_frame = ttk.LabelFrame(self.scikit_tab, text="Scikit-Learn Settings")
	scikit_frame.pack(fill="x", padx=10, pady=5)

	# Use Scikit
	ttk.Label(scikit_frame, text="Use Scikit:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["use_scikit"] = tk.BooleanVar(value=False)
	check_scikit = ttk.Checkbutton(scikit_frame, variable=self.settings_vars["use_scikit"])
	check_scikit.grid(row=0, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(scikit_frame, 0, 2, "Whether to use scikit-learn models instead of neural networks.")

	# Scikit Iterations
	ttk.Label(scikit_frame, text="Scikit Iterations:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["scikit_n_iter"] = tk.IntVar(value=10)
	spin_scikit_n_iter = ttk.Spinbox(scikit_frame, from_=1, to=1000, textvariable=self.settings_vars["scikit_n_iter"])
	spin_scikit_n_iter.grid(row=1, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(scikit_frame, 1, 2, "Number of iterations for iterative scikit-learn models.")

	# Scikit CV Folds
	ttk.Label(scikit_frame, text="Scikit CV Folds:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["scikit_cv"] = tk.IntVar(value=3)
	spin_scikit_cv = ttk.Spinbox(scikit_frame, from_=1, to=10, textvariable=self.settings_vars["scikit_cv"])
	spin_scikit_cv.grid(row=2, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(scikit_frame, 2, 2, "Number of cross-validation folds for model evaluation.")

	# Scikit Random State
	ttk.Label(scikit_frame, text="Scikit Random State:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["scikit_random_state"] = tk.IntVar(value=42)
	spin_scikit_rand = ttk.Spinbox(scikit_frame, from_=0, to=10000, textvariable=self.settings_vars["scikit_random_state"])
	spin_scikit_rand.grid(row=3, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(scikit_frame, 3, 2, "Random seed for scikit-learn models to ensure reproducibility.")

	# Scikit Model Name
	ttk.Label(scikit_frame, text="Scikit Model Name (optional):").grid(row=4, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["scikit_model_name"] = tk.StringVar(value="")
	entry_scikit_name = ttk.Entry(scikit_frame, textvariable=self.settings_vars["scikit_model_name"], width=30)
	entry_scikit_name.grid(row=4, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(scikit_frame, 4, 2, "Optional name for the scikit-learn model. Leave blank to use default.")

	# Number of Jobs/Processors
	ttk.Label(scikit_frame, text="Number of Jobs:").grid(row=5, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["n_jobs"] = tk.IntVar(value=1)
	spin_n_jobs = ttk.Spinbox(scikit_frame, from_=1, to=32, textvariable=self.settings_vars["n_jobs"])
	spin_n_jobs.grid(row=5, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(scikit_frame, 5, 2, "Number of CPU cores to use for parallel processing. Use -1 for all cores.")

	run_button = ttk.Button(self.scikit_tab, text="Run Scikit Models", command=self._run_scikit)
	run_button.pack(pady=(20, 10))

	def build_replay_tab(self):
	# Create a frame for replay settings
	replay_frame = ttk.LabelFrame(self.replay_tab, text="Log Replay Settings")
	replay_frame.pack(fill="x", padx=10, pady=5)

	# Replay log path
	ttk.Label(replay_frame, text="Replay Log Path:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["replay_path"] = tk.StringVar(value="")
	entry_replay = ttk.Entry(replay_frame, textvariable=self.settings_vars["replay_path"], width=40)
	entry_replay.grid(row=0, column=1, padx=10, pady=5)
	self.add_help_button(replay_frame, 0, 2, "Path to the log file to replay. Use Browse button to select a file.")

	# Browse button for selecting log file
	browse_button = ttk.Button(replay_frame, text="Browse", command=self._browse_replay_log)
	browse_button.grid(row=0, column=2, padx=5, pady=5)

	# Start replay button
	replay_button = ttk.Button(replay_frame, text="Start Replay", command=self._start_replay)
	replay_button.grid(row=1, column=0, columnspan=3, pady=20)

	def build_viz_tab(self):
	# Create a frame for visualization settings
	viz_frame = ttk.LabelFrame(self.viz_tab, text="Visualization Settings")
	viz_frame.pack(fill="x", padx=10, pady=5)

	# Result ID entry
	ttk.Label(viz_frame, text="Result ID:").grid(row=0, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["result_id"] = tk.StringVar(value="")
	entry_result_id = ttk.Entry(viz_frame, textvariable=self.settings_vars["result_id"], width=30)
	entry_result_id.grid(row=0, column=1, padx=10, pady=5)
	self.add_help_button(viz_frame, 0, 2, "ID of the result to visualize. Will look for results/{result_id}.tsv")

	# Results file path
	ttk.Label(viz_frame, text="Results File:").grid(row=1, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["results_file"] = tk.StringVar(value="")
	entry_results_file = ttk.Entry(viz_frame, textvariable=self.settings_vars["results_file"], width=30)
	entry_results_file.grid(row=1, column=1, padx=10, pady=5)

	# Browse button for selecting results file directly
	browse_button = ttk.Button(viz_frame, text="Browse", command=self._browse_results_file)
	browse_button.grid(row=1, column=2, padx=5, pady=5)

	# Use current run checkbox
	ttk.Label(viz_frame, text="Use Current Run:").grid(row=2, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["use_current_run"] = tk.BooleanVar(value=True)
	check_current_run = ttk.Checkbutton(viz_frame, variable=self.settings_vars["use_current_run"])
	check_current_run.grid(row=2, column=1, padx=10, pady=5, sticky="w")
	self.add_help_button(viz_frame, 2, 2, "Use results from the current run.")

	# Output directory for plots
	ttk.Label(viz_frame, text="Output Directory:").grid(row=3, column=0, padx=10, pady=5, sticky="w")
	self.settings_vars["viz_output_dir"] = tk.StringVar(value="plots")
	entry_output_dir = ttk.Entry(viz_frame, textvariable=self.settings_vars["viz_output_dir"], width=30)
	entry_output_dir.grid(row=3, column=1, padx=10, pady=5)
	self.add_help_button(viz_frame, 3, 2, "Directory where plots will be saved.")


	# Generate plots button
	generate_button = ttk.Button(viz_frame, text="Generate Plots", command=self._generate_plots)
	generate_button.grid(row=99, column=0, columnspan=3, pady=20)

	def add_help_button(self, parent, row, column, help_text):
	"""Add a small help button that displays information when clicked"""
	help_button = ttk.Button(parent, text="?", width=2,
	command=lambda: messagebox.showinfo("Help", help_text))
	help_button.grid(row=row, column=column, padx=(0,5), pady=5)
	return help_button

	def _selected_model_dtype(self):
	dtype_name = self.settings_vars["model_dtype"].get()
	assert dtype_name in self.dtype_map, f"Unsupported model dtype: {dtype_name}"
	return self.dtype_map[dtype_name]

	def _selected_embed_dtype(self):
	dtype_name = self.settings_vars["embed_dtype"].get()
	assert dtype_name in self.dtype_map, f"Unsupported embedding dtype: {dtype_name}"
	return self.dtype_map[dtype_name]

	def _browse_data_dir(self):
	data_dir = filedialog.askdirectory(title="Select Data Directory")
	if not data_dir:
	return
	existing = self.settings_vars["data_dirs"].get().strip()
	if not existing:
	self.settings_vars["data_dirs"].set(data_dir)
	return
	existing_parts = [path.strip() for path in existing.split(",") if path.strip()]
	if data_dir not in existing_parts:
	existing_parts.append(data_dir)
	self.settings_vars["data_dirs"].set(", ".join(existing_parts))

	def _browse_sweep_config(self):
	filename = filedialog.askopenfilename(
	title="Select W&B Sweep Config",
	filetypes=(("YAML files", ".yaml .yml"), ("All files", ".")),
	)
	if filename:
	self.settings_vars["sweep_config_path"].set(filename)

	def _save_wandb_settings(self):
	print_message("Saving W&B sweep settings...")
	self.full_args.use_wandb_hyperopt = self.settings_vars["use_wandb_hyperopt"].get()
	self.full_args.wandb_project = self.settings_vars["wandb_project"].get().strip() or "Protify"
	wandb_entity = self.settings_vars["wandb_entity"].get().strip()
	self.full_args.wandb_entity = wandb_entity if wandb_entity else None
	self.full_args.sweep_config_path = self.settings_vars["sweep_config_path"].get().strip() or "yamls/sweep.yaml"
	self.full_args.sweep_count = self.settings_vars["sweep_count"].get()
	self.full_args.sweep_method = self.settings_vars["sweep_method"].get()
	self.full_args.sweep_metric_cls = self.settings_vars["sweep_metric_cls"].get().strip() or "eval_loss"
	self.full_args.sweep_metric_reg = self.settings_vars["sweep_metric_reg"].get().strip() or "eval_loss"
	self.full_args.sweep_goal = self.settings_vars["sweep_goal"].get()

	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)
	if "log_file" in self.__dict__:
	self._write_args()
	print_message("W&B sweep settings saved")
	print_done()

	def _resolve_repo_root(self):
	return os.path.abspath(os.path.join(os.path.dirname(__file__), "..", ".."))

	def _resolve_modal_backend_path(self):
	configured_path = self.settings_vars["modal_backend_path"].get().strip()
	if not configured_path:
	configured_path = "src/protify/modal_backend.py"
	if os.path.isabs(configured_path):
	backend_path = configured_path
	else:
	home_dir = self.settings_vars["home_dir"].get().strip()
	candidate_home = os.path.abspath(os.path.join(home_dir, configured_path))
	candidate_repo = os.path.abspath(os.path.join(self._resolve_repo_root(), configured_path))
	if os.path.exists(candidate_home):
	backend_path = candidate_home
	else:
	backend_path = candidate_repo
	assert os.path.exists(backend_path), f"Modal backend path not found: {backend_path}"
	return backend_path

	def _resolve_modal_credentials(self):
	modal_api_key = self.settings_vars["modal_api_key"].get().strip()
	modal_token_id = self.settings_vars["modal_token_id"].get().strip()
	modal_token_secret = self.settings_vars["modal_token_secret"].get().strip()
	if modal_api_key and ((not modal_token_id) or (not modal_token_secret)):
	modal_token_id, modal_token_secret = parse_modal_api_key(modal_api_key)
	self.settings_vars["modal_token_id"].set(modal_token_id)
	self.settings_vars["modal_token_secret"].set(modal_token_secret)
	if modal_token_id == "":
	modal_token_id = None
	if modal_token_secret == "":
	modal_token_secret = None
	return modal_token_id, modal_token_secret

	def _build_modal_env(self):
	env = os.environ.copy()
	# Force UTF-8 I/O for Modal subprocesses on Windows.
	env["PYTHONIOENCODING"] = "utf-8"
	env["PYTHONUTF8"] = "1"
	modal_token_id, modal_token_secret = self._resolve_modal_credentials()
	if modal_token_id is not None:
	env["MODAL_TOKEN_ID"] = modal_token_id
	os.environ["MODAL_TOKEN_ID"] = modal_token_id
	if modal_token_secret is not None:
	env["MODAL_TOKEN_SECRET"] = modal_token_secret
	os.environ["MODAL_TOKEN_SECRET"] = modal_token_secret
	modal_environment = self.settings_vars["modal_environment"].get().strip()
	if modal_environment:
	env["MODAL_ENVIRONMENT"] = modal_environment
	os.environ["MODAL_ENVIRONMENT"] = modal_environment
	return env

	def _get_modal_sdk(self):
	try:
	import modal
	except Exception as error:
	raise RuntimeError("Modal SDK is not installed. Install it with: py -m pip install modal") from error
	return modal

	def _get_modal_function(self, function_name):
	modal = self._get_modal_sdk()
	app_name = self.settings_vars["modal_app_name"].get().strip()
	if app_name == "":
	app_name = "protify-backend"
	return modal.Function.from_name(app_name, function_name)

	def _collect_modal_run_config(self):
	selected_model_indices = self.model_listbox.curselection()
	selected_models = [self.model_listbox.get(i) for i in selected_model_indices]
	if len(selected_models) == 0:
	selected_models = standard_models

	selected_dataset_indices = self.data_listbox.curselection()
	selected_datasets = [self.data_listbox.get(i) for i in selected_dataset_indices]
	data_dirs_str = self.settings_vars["data_dirs"].get().strip()
	data_dirs = [path.strip() for path in data_dirs_str.split(",") if path.strip()]

	run_proteingym = self.settings_vars["proteingym"].get()
	if (len(selected_datasets) == 0) and (len(data_dirs) == 0) and (not run_proteingym):
	selected_datasets = standard_data_benchmark

	col_names = [name.strip() for name in self.settings_vars["col_names"].get().split(",") if name.strip()]
	multi_column_raw = self.settings_vars["multi_column"].get().strip()
	if multi_column_raw:
	multi_column = multi_column_raw.split()
	else:
	multi_column = None

	embedding_pooling = [item.strip() for item in self.settings_vars["embedding_pooling_types"].get().split(",") if item.strip()]
	probe_pooling = [item.strip() for item in self.settings_vars["probe_pooling_types"].get().split(",") if item.strip()]

	dms_ids_raw = self.settings_vars["dms_ids"].get().strip()
	if dms_ids_raw.lower() == "all":
	dms_ids = ["all"]
	else:
	dms_ids = [item.strip() for item in dms_ids_raw.split() if item.strip()]

	wandb_entity = self.settings_vars["wandb_entity"].get().strip()
	if wandb_entity == "":
	wandb_entity = None

	scikit_model_name = self.settings_vars["scikit_model_name"].get().strip()
	if scikit_model_name == "":
	scikit_model_name = None

	hf_home = self.settings_vars["hf_home"].get().strip()
	if hf_home == "":
	hf_home = None

	config = {
	"hf_username": self.settings_vars["huggingface_username"].get().strip() or "Synthyra",
	"hf_token": self.settings_vars["huggingface_token"].get().strip() or None,
	"wandb_api_key": self.settings_vars["wandb_api_key"].get().strip() or None,
	"synthyra_api_key": self.settings_vars["synthyra_api_key"].get().strip() or None,
	"hf_home": hf_home,
	"log_dir": self.settings_vars["log_dir"].get().strip() or "logs",
	"results_dir": self.settings_vars["results_dir"].get().strip() or "results",
	"model_save_dir": self.settings_vars["model_save_dir"].get().strip() or "weights",
	"embedding_save_dir": self.settings_vars["embedding_save_dir"].get().strip() or "embeddings",
	"download_dir": self.settings_vars["download_dir"].get().strip() or "Synthyra/vector_embeddings",
	"plots_dir": self.settings_vars["plots_dir"].get().strip() or "plots",
	"replay_path": None,
	"pretrained_probe_path": None,
	"data_names": selected_datasets,
	"data_dirs": data_dirs,
	"delimiter": self.settings_vars["delimiter"].get(),
	"col_names": col_names,
	"max_length": self.settings_vars["max_length"].get(),
	"trim": self.settings_vars["trim"].get(),
	"multi_column": multi_column,
	"aa_to_dna": self.settings_vars["aa_to_dna"].get(),
	"aa_to_rna": self.settings_vars["aa_to_rna"].get(),
	"dna_to_aa": self.settings_vars["dna_to_aa"].get(),
	"rna_to_aa": self.settings_vars["rna_to_aa"].get(),
	"codon_to_aa": self.settings_vars["codon_to_aa"].get(),
	"aa_to_codon": self.settings_vars["aa_to_codon"].get(),
	"random_pair_flipping": self.settings_vars["random_pair_flipping"].get(),
	"model_names": selected_models,
	"model_paths": None,
	"model_types": None,
	"model_dtype": self.settings_vars["model_dtype"].get(),
	"use_xformers": self.settings_vars["use_xformers"].get(),
	"embedding_batch_size": self.settings_vars["batch_size"].get(),
	"embedding_num_workers": self.settings_vars["num_workers"].get(),
	"num_workers": self.settings_vars["num_workers"].get(),
	"download_embeddings": self.settings_vars["download_embeddings"].get(),
	"matrix_embed": self.settings_vars["matrix_embed"].get(),
	"embedding_pooling_types": embedding_pooling,
	"save_embeddings": True,
	"embed_dtype": self.settings_vars["embed_dtype"].get(),
	"sql": self.settings_vars["sql"].get(),
	"probe_type": self.settings_vars["probe_type"].get(),
	"tokenwise": self.settings_vars["tokenwise"].get(),
	"hidden_size": self.settings_vars["hidden_size"].get(),
	"transformer_hidden_size": self.settings_vars["transformer_hidden_size"].get(),
	"dropout": self.settings_vars["dropout"].get(),
	"n_layers": self.settings_vars["n_layers"].get(),
	"pre_ln": self.settings_vars["pre_ln"].get(),
	"classifier_size": self.settings_vars["classifier_size"].get(),
	"transformer_dropout": self.settings_vars["transformer_dropout"].get(),
	"classifier_dropout": self.settings_vars["classifier_dropout"].get(),
	"n_heads": self.settings_vars["n_heads"].get(),
	"rotary": self.settings_vars["rotary"].get(),
	"probe_pooling_types": probe_pooling,
	"use_bias": self.settings_vars["use_bias"].get(),
	"save_model": self.settings_vars["save_model"].get(),
	"production_model": self.settings_vars["production_model"].get(),
	"lora": self.settings_vars["lora"].get(),
	"lora_r": self.settings_vars["lora_r"].get(),
	"lora_alpha": self.settings_vars["lora_alpha"].get(),
	"lora_dropout": self.settings_vars["lora_dropout"].get(),
	"sim_type": self.settings_vars["sim_type"].get(),
	"token_attention": self.settings_vars["token_attention"].get(),
	"add_token_ids": self.settings_vars["add_token_ids"].get(),
	"num_epochs": self.settings_vars["num_epochs"].get(),
	"probe_batch_size": self.settings_vars["probe_batch_size"].get(),
	"base_batch_size": self.settings_vars["base_batch_size"].get(),
	"probe_grad_accum": self.settings_vars["probe_grad_accum"].get(),
	"base_grad_accum": self.settings_vars["base_grad_accum"].get(),
	"lr": self.settings_vars["lr"].get(),
	"weight_decay": self.settings_vars["weight_decay"].get(),
	"patience": self.settings_vars["patience"].get(),
	"seed": self.settings_vars["seed"].get(),
	"deterministic": self.settings_vars["deterministic"].get(),
	"full_finetuning": self.settings_vars["full_finetuning"].get(),
	"hybrid_probe": self.settings_vars["hybrid_probe"].get(),
	"num_runs": self.settings_vars["num_runs"].get(),
	"read_scaler": self.settings_vars["read_scaler"].get(),
	"dms_ids": dms_ids,
	"proteingym": run_proteingym,
	"mode": self.settings_vars["mode"].get(),
	"scoring_method": self.settings_vars["scoring_method"].get(),
	"scoring_window": self.settings_vars["scoring_window"].get(),
	"pg_batch_size": self.settings_vars["pg_batch_size"].get(),
	"compare_scoring_methods": self.settings_vars["compare_scoring_methods"].get(),
	"score_only": self.settings_vars["score_only"].get(),
	"use_wandb_hyperopt": self.settings_vars["use_wandb_hyperopt"].get(),
	"wandb_project": self.settings_vars["wandb_project"].get().strip() or "Protify",
	"wandb_entity": wandb_entity,
	"sweep_config_path": self.settings_vars["sweep_config_path"].get().strip() or "yamls/sweep.yaml",
	"sweep_count": self.settings_vars["sweep_count"].get(),
	"sweep_method": self.settings_vars["sweep_method"].get(),
	"sweep_metric_cls": self.settings_vars["sweep_metric_cls"].get().strip() or "eval_loss",
	"sweep_metric_reg": self.settings_vars["sweep_metric_reg"].get().strip() or "eval_loss",
	"sweep_goal": self.settings_vars["sweep_goal"].get(),
	"use_scikit": self.settings_vars["use_scikit"].get(),
	"scikit_n_iter": self.settings_vars["scikit_n_iter"].get(),
	"scikit_cv": self.settings_vars["scikit_cv"].get(),
	"scikit_random_state": self.settings_vars["scikit_random_state"].get(),
	"scikit_model_name": scikit_model_name,
	"n_jobs": self.settings_vars["n_jobs"].get(),
	}
	return config

	def _modal_deploy_backend(self):
	print_message("Deploying Modal backend...")

	def background_deploy():
	backend_path = self._resolve_modal_backend_path()
	repo_root = self._resolve_repo_root()
	env = self._build_modal_env()

	app_name = self.settings_vars["modal_app_name"].get().strip() or "protify-backend"
	modal_environment = self.settings_vars["modal_environment"].get().strip()
	modal_tag = self.settings_vars["modal_tag"].get().strip()

	command = [sys.executable, "-m", "modal", "deploy", backend_path, "--name", app_name]
	if modal_environment:
	command.extend(["--env", modal_environment])
	if modal_tag:
	command.extend(["--tag", modal_tag])

	try:
	process = subprocess.run(command, cwd=repo_root, env=env, capture_output=True, text=True)
	except FileNotFoundError:
	fallback_command = ["modal", "deploy", backend_path, "--name", app_name]
	if modal_environment:
	fallback_command.extend(["--env", modal_environment])
	if modal_tag:
	fallback_command.extend(["--tag", modal_tag])
	process = subprocess.run(fallback_command, cwd=repo_root, env=env, capture_output=True, text=True)

	if process.returncode != 0:
	if "No module named modal" in process.stderr:
	raise RuntimeError("Modal is not installed in this Python environment. Install it with: py -m pip install modal")
	raise RuntimeError(f"Modal deploy failed:\n{process.stderr}")

	stdout_tail = process.stdout[-4000:] if process.stdout else "Deployment completed."
	print_message(stdout_tail)
	print_done()

	self.run_in_background(background_deploy)

	def _modal_submit_run(self):
	print_message("Submitting remote Modal run...")

	def background_submit():
	self._build_modal_env()
	submit_fn = self._get_modal_function("submit_protify_job")
	config = self._collect_modal_run_config()

	gpu_type = self.settings_vars["modal_gpu_type"].get()
	timeout_seconds = self.settings_vars["modal_timeout_seconds"].get()
	hf_token = self.settings_vars["huggingface_token"].get().strip() or None
	wandb_api_key = self.settings_vars["wandb_api_key"].get().strip() or None
	synthyra_api_key = self.settings_vars["synthyra_api_key"].get().strip() or None

	result = submit_fn.remote(
	config=config,
	gpu_type=gpu_type,
	hf_token=hf_token,
	wandb_api_key=wandb_api_key,
	synthyra_api_key=synthyra_api_key,
	timeout_seconds=timeout_seconds,
	)
	assert isinstance(result, dict), "submit_protify_job returned a non-dict response."
	assert "job_id" in result, "submit_protify_job response missing job_id."
	assert "function_call_id" in result, "submit_protify_job response missing function_call_id."

	job_id = result["job_id"]
	function_call_id = result["function_call_id"]
	self.settings_vars["modal_job_id"].set(job_id)
	self.settings_vars["modal_call_id"].set(function_call_id)
	self.full_args.modal_job_id = job_id
	self.full_args.modal_call_id = function_call_id

	print_message(f"Modal job submitted.\nJob ID: {job_id}\nCall ID: {function_call_id}")
	if self.settings_vars["modal_auto_poll"].get():
	self.modal_polling_active = True
	self.master.after(0, self._modal_auto_poll_loop)
	print_done()

	self.run_in_background(background_submit)

	def _modal_start_auto_poll(self):
	if self.modal_polling_active:
	print_message("Auto polling is already active.")
	return
	self.modal_polling_active = True
	print_message("Started Modal auto polling.")
	self._modal_auto_poll_loop()

	def _modal_stop_auto_poll(self):
	self.modal_polling_active = False
	print_message("Stopped Modal auto polling.")

	def _modal_auto_poll_loop(self):
	if not self.modal_polling_active:
	return
	if not self.settings_vars["modal_auto_poll"].get():
	self.modal_polling_active = False
	return

	job_id = self.settings_vars["modal_job_id"].get().strip()
	if not job_id:
	self.modal_polling_active = False
	return

	self._modal_poll_status()
	poll_interval_seconds = self.settings_vars["modal_poll_interval_seconds"].get()
	self.master.after(max(1, poll_interval_seconds) * 1000, self._modal_auto_poll_loop)

	def _modal_poll_status(self):
	job_id = self.settings_vars["modal_job_id"].get().strip()
	if not job_id:
	print_message("No Modal job ID set. Submit a remote run first.")
	return
	print_message(f"Polling Modal status for job {job_id}...")

	def background_poll():
	self._build_modal_env()
	status_fn = self._get_modal_function("get_job_status")
	log_tail_fn = self._get_modal_function("get_job_log_tail")

	status_payload = status_fn.remote(job_id=job_id)
	max_chars = self.settings_vars["modal_log_tail_chars"].get()
	log_payload = log_tail_fn.remote(job_id=job_id, max_chars=max_chars)

	assert isinstance(status_payload, dict), "get_job_status returned a non-dict response."
	if "function_call_id" in status_payload and status_payload["function_call_id"]:
	self.settings_vars["modal_call_id"].set(status_payload["function_call_id"])

	self.full_args.modal_last_status = status_payload
	status_value = status_payload["status"] if "status" in status_payload else "UNKNOWN"
	phase_value = status_payload["phase"] if "phase" in status_payload else "N/A"
	heartbeat_value = status_payload["last_heartbeat_utc"] if "last_heartbeat_utc" in status_payload else "N/A"
	heartbeat_age = status_payload["heartbeat_age_seconds"] if "heartbeat_age_seconds" in status_payload else None
	error_value = status_payload["error"] if "error" in status_payload else None
	heartbeat_age_text = "N/A" if heartbeat_age is None else f"{heartbeat_age:.1f}s"
	print_message(
	f"Modal Status: {status_value}\n"
	f"Phase: {phase_value}\n"
	f"Last Heartbeat: {heartbeat_value}\n"
	f"Heartbeat Age: {heartbeat_age_text}"
	)
	if error_value:
	print_message(f"Failure Reason: {error_value}")

	if isinstance(log_payload, dict) and "log_tail" in log_payload and log_payload["log_tail"]:
	print_message(f"Latest Logs (tail):\n{log_payload['log_tail']}")

	if status_value in ["SUCCESS", "FAILED", "TERMINATED", "TIMEOUT"]:
	self.modal_polling_active = False
	print_done()

	self.run_in_background(background_poll)

	def _modal_cancel_run(self):
	function_call_id = self.settings_vars["modal_call_id"].get().strip()
	if not function_call_id:
	print_message("No Modal call ID set. Poll status or submit a run first.")
	return
	job_id = self.settings_vars["modal_job_id"].get().strip()
	print_message(f"Cancelling Modal run {function_call_id}...")
	self.modal_polling_active = False

	def background_cancel():
	self._build_modal_env()
	cancel_fn = self._get_modal_function("cancel_protify_job")
	if job_id:
	result = cancel_fn.remote(function_call_id=function_call_id, job_id=job_id)
	else:
	result = cancel_fn.remote(function_call_id=function_call_id, job_id=None)
	print_message(f"Cancel result: {result}")
	print_done()

	self.run_in_background(background_cancel)

	def _modal_fetch_artifacts(self):
	job_id = self.settings_vars["modal_job_id"].get().strip()
	if not job_id:
	print_message("No Modal job ID set. Submit a run first.")
	return
	print_message(f"Fetching Modal artifacts for job {job_id}...")

	def background_fetch():
	self._build_modal_env()
	results_fn = self._get_modal_function("get_results")
	result_payload = results_fn.remote(job_id=job_id)
	assert isinstance(result_payload, dict), "get_results returned a non-dict response."
	assert "success" in result_payload, "get_results response missing success field."
	assert result_payload["success"], f"Modal get_results failed: {result_payload}"

	output_dir_raw = self.settings_vars["modal_artifacts_dir"].get().strip() or "modal_artifacts"
	home_dir = self.settings_vars["home_dir"].get().strip() or os.getcwd()
	if os.path.isabs(output_dir_raw):
	output_dir = output_dir_raw
	else:
	output_dir = os.path.abspath(os.path.join(home_dir, output_dir_raw))
	job_dir = os.path.join(output_dir, job_id)
	os.makedirs(job_dir, exist_ok=True)

	text_file_count = 0
	image_file_count = 0

	files_payload = result_payload["files"] if "files" in result_payload else {}
	for rel_path in files_payload:
	local_path = os.path.join(job_dir, rel_path.replace("/", os.sep))
	local_parent = os.path.dirname(local_path)
	os.makedirs(local_parent, exist_ok=True)
	with open(local_path, "w", encoding="utf-8") as file:
	file.write(files_payload[rel_path])
	text_file_count += 1

	images_payload = result_payload["images"] if "images" in result_payload else {}
	for rel_path in images_payload:
	image_info = images_payload[rel_path]
	if "data" not in image_info:
	continue
	local_path = os.path.join(job_dir, rel_path.replace("/", os.sep))
	local_parent = os.path.dirname(local_path)
	os.makedirs(local_parent, exist_ok=True)
	image_bytes = base64.b64decode(image_info["data"])
	with open(local_path, "wb") as file:
	file.write(image_bytes)
	image_file_count += 1

	metadata_path = os.path.join(job_dir, "modal_fetch_summary.json")
	with open(metadata_path, "w", encoding="utf-8") as file:
	json.dump(result_payload, file, indent=2)

	print_message(
	f"Saved Modal artifacts to {job_dir}\n"
	f"Text files: {text_file_count}\n"
	f"Images: {image_file_count}"
	)
	print_done()

	self.run_in_background(background_fetch)

	def _session_start(self):
	print_message("Starting Protify session...")
	# Update session variables
	hf_token = self.settings_vars["huggingface_token"].get()
	synthyra_api_key = self.settings_vars["synthyra_api_key"].get()
	wandb_api_key = self.settings_vars["wandb_api_key"].get()
	modal_api_key = self.settings_vars["modal_api_key"].get().strip()
	modal_token_id = self.settings_vars["modal_token_id"].get().strip()
	modal_token_secret = self.settings_vars["modal_token_secret"].get().strip()

	def background_login():
	local_modal_token_id = modal_token_id
	local_modal_token_secret = modal_token_secret
	if modal_api_key and ((not local_modal_token_id) or (not local_modal_token_secret)):
	local_modal_token_id, local_modal_token_secret = parse_modal_api_key(modal_api_key)

	if hf_token:
	from huggingface_hub import login
	login(hf_token)
	print_message('Logged in to Hugging Face')
	if wandb_api_key:
	try:
	import wandb
	wandb.login(key=wandb_api_key)
	print_message('Logged in to Weights & Biases')
	except Exception as error:
	print_message(f'W&B login failed: {error}')
	if synthyra_api_key:
	print_message('Synthyra API not integrated yet')

	self.full_args.hf_username = self.settings_vars["huggingface_username"].get()
	self.full_args.hf_token = hf_token
	self.full_args.synthyra_api_key = synthyra_api_key
	self.full_args.wandb_api_key = wandb_api_key
	self.full_args.modal_api_key = modal_api_key if modal_api_key else None
	self.full_args.modal_token_id = local_modal_token_id if local_modal_token_id else None
	self.full_args.modal_token_secret = local_modal_token_secret if local_modal_token_secret else None
	self.full_args.home_dir = self.settings_vars["home_dir"].get()
	self.full_args.model_dtype = self._selected_model_dtype()
	self.full_args.use_xformers = self.settings_vars["use_xformers"].get()
	self.full_args.num_runs = self.settings_vars["num_runs"].get()
	self.full_args.use_wandb_hyperopt = self.settings_vars["use_wandb_hyperopt"].get()
	self.full_args.wandb_project = self.settings_vars["wandb_project"].get().strip() or "Protify"
	wandb_entity = self.settings_vars["wandb_entity"].get().strip()
	self.full_args.wandb_entity = wandb_entity if wandb_entity else None
	self.full_args.sweep_config_path = self.settings_vars["sweep_config_path"].get().strip() or "yamls/sweep.yaml"
	self.full_args.sweep_count = self.settings_vars["sweep_count"].get()
	self.full_args.sweep_method = self.settings_vars["sweep_method"].get()
	self.full_args.sweep_metric_cls = self.settings_vars["sweep_metric_cls"].get().strip() or "eval_loss"
	self.full_args.sweep_metric_reg = self.settings_vars["sweep_metric_reg"].get().strip() or "eval_loss"
	self.full_args.sweep_goal = self.settings_vars["sweep_goal"].get()
	self.full_args.score_only = self.settings_vars["score_only"].get()
	self.full_args.aa_to_dna = self.settings_vars["aa_to_dna"].get()
	self.full_args.aa_to_rna = self.settings_vars["aa_to_rna"].get()
	self.full_args.dna_to_aa = self.settings_vars["dna_to_aa"].get()
	self.full_args.rna_to_aa = self.settings_vars["rna_to_aa"].get()
	self.full_args.codon_to_aa = self.settings_vars["codon_to_aa"].get()
	self.full_args.aa_to_codon = self.settings_vars["aa_to_codon"].get()
	self.full_args.random_pair_flipping = self.settings_vars["random_pair_flipping"].get()
	self.full_args.data_dirs = []

	if self.full_args.modal_token_id:
	os.environ["MODAL_TOKEN_ID"] = self.full_args.modal_token_id
	if self.full_args.modal_token_secret:
	os.environ["MODAL_TOKEN_SECRET"] = self.full_args.modal_token_secret

	if self.full_args.use_xformers:
	os.environ["_USE_XFORMERS"] = "1"
	elif "_USE_XFORMERS" in os.environ:
	del os.environ["_USE_XFORMERS"]

	# Handle hf_home - convert empty string to None
	hf_home_value = self.settings_vars["hf_home"].get().strip()
	self.full_args.hf_home = hf_home_value if hf_home_value else None

	def _make_true_dir(path):
	true_path = os.path.join(self.full_args.home_dir, path)
	os.makedirs(true_path, exist_ok=True)
	return true_path

	self.full_args.log_dir = _make_true_dir(self.settings_vars["log_dir"].get())
	self.full_args.results_dir = _make_true_dir(self.settings_vars["results_dir"].get())
	self.full_args.model_save_dir = _make_true_dir(self.settings_vars["model_save_dir"].get())
	self.full_args.plots_dir = _make_true_dir(self.settings_vars["plots_dir"].get())
	self.full_args.embedding_save_dir = _make_true_dir(self.settings_vars["embedding_save_dir"].get())
	self.full_args.download_dir = _make_true_dir(self.settings_vars["download_dir"].get())

	self.full_args.replay_path = None
	self.logger_args = SimpleNamespace(**self.full_args.__dict__)
	self.start_log_gui()

	print_message(f"Session and logging started for id {self.random_id}")
	print_done()

	self.run_in_background(background_login)

	def _create_probe_args(self):
	print_message("Configuring probe...")

	# Gather settings from variables
	self.full_args.probe_type = self.settings_vars["probe_type"].get()
	self.full_args.tokenwise = self.settings_vars["tokenwise"].get()
	self.full_args.pre_ln = self.settings_vars["pre_ln"].get()
	self.full_args.n_layers = self.settings_vars["n_layers"].get()
	self.full_args.hidden_size = self.settings_vars["hidden_size"].get()
	self.full_args.dropout = self.settings_vars["dropout"].get()

	self.full_args.transformer_hidden_size = self.settings_vars["transformer_hidden_size"].get()
	self.full_args.classifier_size = self.settings_vars["classifier_size"].get()
	self.full_args.classifier_dropout = self.settings_vars["classifier_dropout"].get()
	self.full_args.n_heads = self.settings_vars["n_heads"].get()
	self.full_args.rotary = self.settings_vars["rotary"].get()

	pooling_str = self.settings_vars["probe_pooling_types"].get().strip()
	self.full_args.probe_pooling_types = [p.strip() for p in pooling_str.split(",") if p.strip()]

	self.full_args.transformer_dropout = self.settings_vars["transformer_dropout"].get()
	self.full_args.token_attention = self.settings_vars["token_attention"].get()
	self.full_args.use_bias = self.settings_vars["use_bias"].get()
	self.full_args.add_token_ids = self.settings_vars["add_token_ids"].get()

	self.full_args.sim_type = self.settings_vars["sim_type"].get()
	self.full_args.save_model = self.settings_vars["save_model"].get()
	self.full_args.production_model = self.settings_vars["production_model"].get()

	self.full_args.lora = self.settings_vars["lora"].get()
	self.full_args.lora_r = self.settings_vars["lora_r"].get()
	self.full_args.lora_alpha = self.settings_vars["lora_alpha"].get()
	self.full_args.lora_dropout = self.settings_vars["lora_dropout"].get()

	# Create ProbeArguments
	self.probe_args = ProbeArguments(**self.full_args.__dict__)

	# Update logger args
	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)
	self._write_args()

	print_message("Probe configuration saved")
	print_done()

	def _run_trainer(self):
	print_message("Starting training...")

	# Gather settings
	self.full_args.hybrid_probe = self.settings_vars["hybrid_probe"].get()
	self.full_args.full_finetuning = self.settings_vars["full_finetuning"].get()
	self.full_args.num_epochs = self.settings_vars["num_epochs"].get()
	self.full_args.probe_batch_size = self.settings_vars["probe_batch_size"].get()
	self.full_args.base_batch_size = self.settings_vars["base_batch_size"].get()
	self.full_args.probe_grad_accum = self.settings_vars["probe_grad_accum"].get()
	self.full_args.base_grad_accum = self.settings_vars["base_grad_accum"].get()
	self.full_args.lr = self.settings_vars["lr"].get()
	self.full_args.weight_decay = self.settings_vars["weight_decay"].get()
	self.full_args.patience = self.settings_vars["patience"].get()
	self.full_args.seed = self.settings_vars["seed"].get()
	self.full_args.read_scaler = self.settings_vars["read_scaler"].get()
	self.full_args.deterministic = self.settings_vars["deterministic"].get()
	self.full_args.num_runs = self.settings_vars["num_runs"].get()
	self.full_args.use_wandb_hyperopt = self.settings_vars["use_wandb_hyperopt"].get()
	self.full_args.wandb_project = self.settings_vars["wandb_project"].get().strip() or "Protify"
	wandb_entity = self.settings_vars["wandb_entity"].get().strip()
	self.full_args.wandb_entity = wandb_entity if wandb_entity else None
	self.full_args.sweep_config_path = self.settings_vars["sweep_config_path"].get().strip() or "yamls/sweep.yaml"
	self.full_args.sweep_count = self.settings_vars["sweep_count"].get()
	self.full_args.sweep_method = self.settings_vars["sweep_method"].get()
	self.full_args.sweep_metric_cls = self.settings_vars["sweep_metric_cls"].get().strip() or "eval_loss"
	self.full_args.sweep_metric_reg = self.settings_vars["sweep_metric_reg"].get().strip() or "eval_loss"
	self.full_args.sweep_goal = self.settings_vars["sweep_goal"].get()
	self.full_args.use_xformers = self.settings_vars["use_xformers"].get()
	if self.full_args.use_xformers:
	os.environ["_USE_XFORMERS"] = "1"
	elif "_USE_XFORMERS" in os.environ:
	del os.environ["_USE_XFORMERS"]

	# Create TrainerArguments
	self.trainer_args = TrainerArguments(**self.full_args.__dict__)

	# Update logger args
	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)
	self._write_args()

	def background_train():
	if self.full_args.use_wandb_hyperopt:
	if not self.full_args.full_finetuning:
	self.save_embeddings_to_disk()
	HyperoptModule.run_wandb_hyperopt(self)
	elif self.full_args.full_finetuning:
	self.run_full_finetuning()
	elif self.full_args.hybrid_probe:
	self.run_hybrid_probes()
	else:
	self.run_nn_probes()
	print_done()

	self.run_in_background(background_train)

	def _run_proteingym(self):
	print_message("Starting ProteinGym...")

	# Gather settings
	self.full_args.proteingym = self.settings_vars["proteingym"].get()
	dms_ids_str = self.settings_vars["dms_ids"].get().strip()
	if dms_ids_str == "all":
	self.full_args.dms_ids = ["all"]
	else:
	self.full_args.dms_ids = dms_ids_str.split()

	self.full_args.mode = self.settings_vars["mode"].get()
	self.full_args.scoring_method = self.settings_vars["scoring_method"].get()
	self.full_args.scoring_window = self.settings_vars["scoring_window"].get()
	self.full_args.pg_batch_size = self.settings_vars["pg_batch_size"].get()
	self.full_args.compare_scoring_methods = self.settings_vars["compare_scoring_methods"].get()
	self.full_args.score_only = self.settings_vars["score_only"].get()

	# Update logger args
	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)
	self._write_args()

	def background_proteingym():
	if self.full_args.compare_scoring_methods and self.full_args.proteingym:
	print_message("Running scoring method comparison...")
	dms_ids = expand_dms_ids_all(self.full_args.dms_ids, mode=self.full_args.mode)
	model_names = self.full_args.model_names

	if len(model_names) == 0:
	print_message("Error: No models selected for comparison")
	return

	output_csv = os.path.join(self.full_args.results_dir, 'scoring_methods_comparison.csv')

	compare_scoring_methods(
	model_names=model_names,
	device=None,
	methods=None,
	dms_ids=dms_ids,
	progress=True,
	output_csv=output_csv
	)
	print_message(f"Scoring method comparison complete. Results saved to {output_csv}")

	elif self.full_args.proteingym:
	self.run_proteingym_zero_shot()

	print_done()

	self.run_in_background(background_proteingym)

	def _run_scikit(self):
	print_message("Starting Scikit-learn models...")
	assert "datasets" in self.__dict__, "Datasets are not loaded. Run the Data tab first."
	assert len(self.datasets) > 0, "No datasets are loaded. Run the Data tab first."
	assert "all_seqs" in self.__dict__, "Sequences are not loaded. Run the Data tab first."
	assert len(self.all_seqs) > 0, "No sequences are loaded. Run the Data tab first."

	# Gather model settings
	selected_indices = self.model_listbox.curselection()
	selected_models = [self.model_listbox.get(i) for i in selected_indices]
	if not selected_models:
	selected_models = standard_models
	self.full_args.model_names = selected_models
	self.full_args.model_paths = None
	self.full_args.model_types = None
	self.full_args.model_dtype = self._selected_model_dtype()
	self.full_args.use_xformers = self.settings_vars["use_xformers"].get()
	self.model_args = BaseModelArguments(**self.full_args.__dict__)

	# Gather embedding settings
	pooling_str = self.settings_vars["embedding_pooling_types"].get().strip()
	pooling_list = [p.strip() for p in pooling_str.split(",") if p.strip()]
	dtype_val = self._selected_embed_dtype()

	self.full_args.embedding_batch_size = self.settings_vars["batch_size"].get()
	self.full_args.embedding_num_workers = self.settings_vars["num_workers"].get()
	self.full_args.download_embeddings = self.settings_vars["download_embeddings"].get()
	self.full_args.matrix_embed = self.settings_vars["matrix_embed"].get()
	self.full_args.embedding_pooling_types = pooling_list
	self.full_args.save_embeddings = True
	self.full_args.embed_dtype = dtype_val
	self.full_args.sql = self.settings_vars["sql"].get()
	self._sql = self.full_args.sql
	self._full = self.full_args.matrix_embed
	self.embedding_args = EmbeddingArguments(**self.full_args.__dict__)

	# Gather scikit settings
	self.full_args.use_scikit = self.settings_vars["use_scikit"].get()
	self.full_args.scikit_n_iter = self.settings_vars["scikit_n_iter"].get()
	self.full_args.scikit_cv = self.settings_vars["scikit_cv"].get()
	self.full_args.scikit_random_state = self.settings_vars["scikit_random_state"].get()
	scikit_model_name = self.settings_vars["scikit_model_name"].get().strip()
	if scikit_model_name:
	self.full_args.scikit_model_name = scikit_model_name
	else:
	self.full_args.scikit_model_name = None
	self.full_args.n_jobs = self.settings_vars["n_jobs"].get()
	self.full_args.n_iter = self.full_args.scikit_n_iter
	self.full_args.cv = self.full_args.scikit_cv
	self.full_args.random_state = self.full_args.scikit_random_state
	self.full_args.model_name = self.full_args.scikit_model_name
	self.scikit_args = self._build_scikit_args()

	# Update logger args
	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)
	self._write_args()

	def background_scikit():
	self.save_embeddings_to_disk()
	self.run_scikit_scheme()
	print_done()

	self.run_in_background(background_scikit)

	def _select_models(self):
	print_message("Selecting models...")
	# Gather selected model names
	selected_indices = self.model_listbox.curselection()
	selected_models = [self.model_listbox.get(i) for i in selected_indices]

	# If no selection, default to the entire standard_benchmark
	if not selected_models:
	selected_models = standard_models

	# Update full_args with model settings
	self.full_args.model_names = selected_models
	self.full_args.model_paths = None
	self.full_args.model_types = None
	self.full_args.model_dtype = self._selected_model_dtype()
	self.full_args.use_xformers = self.settings_vars["use_xformers"].get()
	if self.full_args.use_xformers:
	os.environ["_USE_XFORMERS"] = "1"
	elif "_USE_XFORMERS" in os.environ:
	del os.environ["_USE_XFORMERS"]
	print_message(self.full_args.model_names)
	# Create model args from full args
	self.model_args = BaseModelArguments(**self.full_args.__dict__)

	print("Model Args:")
	for k, v in self.model_args.__dict__.items():
	if k != 'model_names':
	print(f"{k}:\n{v}")
	print("=========================\n")
	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)
	self._write_args()
	print_done()

	def _get_data(self):
	print_message("=== Getting Data ===")
	print_message("Loading and preparing datasets...")

	# Gather settings
	selected_indices = self.data_listbox.curselection()
	selected_datasets = [self.data_listbox.get(i) for i in selected_indices]
	data_dirs_str = self.settings_vars["data_dirs"].get().strip()
	data_dirs = [path.strip() for path in data_dirs_str.split(",") if path.strip()]

	if (not selected_datasets) and (len(data_dirs) == 0):
	selected_datasets = standard_data_benchmark

	def background_get_data():
	# Update full_args with data settings
	self.full_args.data_names = selected_datasets
	self.full_args.data_dirs = data_dirs
	self.full_args.max_length = self.settings_vars["max_length"].get()
	self.full_args.trim = self.settings_vars["trim"].get()
	self.full_args.delimiter = self.settings_vars["delimiter"].get()
	self.full_args.col_names = [name.strip() for name in self.settings_vars["col_names"].get().split(",") if name.strip()]
	self.full_args.aa_to_dna = self.settings_vars["aa_to_dna"].get()
	self.full_args.aa_to_rna = self.settings_vars["aa_to_rna"].get()
	self.full_args.dna_to_aa = self.settings_vars["dna_to_aa"].get()
	self.full_args.rna_to_aa = self.settings_vars["rna_to_aa"].get()
	self.full_args.codon_to_aa = self.settings_vars["codon_to_aa"].get()
	self.full_args.aa_to_codon = self.settings_vars["aa_to_codon"].get()
	self.full_args.random_pair_flipping = self.settings_vars["random_pair_flipping"].get()

	# Handle multi_column - convert space-separated string to list or None
	multi_column_str = self.settings_vars["multi_column"].get().strip()
	if multi_column_str:
	self.full_args.multi_column = multi_column_str.split()
	else:
	self.full_args.multi_column = None

	# Update mixin attributes
	self._max_length = self.full_args.max_length
	self._trim = self.full_args.trim
	self._delimiter = self.full_args.delimiter
	self._col_names = self.full_args.col_names
	self._multi_column = self.full_args.multi_column
	self._aa_to_dna = self.full_args.aa_to_dna
	self._aa_to_rna = self.full_args.aa_to_rna
	self._dna_to_aa = self.full_args.dna_to_aa
	self._rna_to_aa = self.full_args.rna_to_aa
	self._codon_to_aa = self.full_args.codon_to_aa
	self._aa_to_codon = self.full_args.aa_to_codon

	# Create data args and get datasets
	self.data_args = DataArguments(**self.full_args.__dict__)
	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)

	self._write_args()
	self.get_datasets()
	print_message("Data downloaded and stored")
	print_done()

	self.run_in_background(background_get_data)

	def _get_embeddings(self):
	if not self.all_seqs:
	print_message('Sequences are not loaded yet. Please run the data tab first.')
	return

	# Gather settings
	print_message("Computing embeddings...")
	pooling_str = self.settings_vars["embedding_pooling_types"].get().strip()
	pooling_list = [p.strip() for p in pooling_str.split(",") if p.strip()]
	dtype_val = self._selected_embed_dtype()

	def background_get_embeddings():
	# Update full args
	self.full_args.all_seqs = self.all_seqs
	self.full_args.model_dtype = self._selected_model_dtype()
	self.full_args.embedding_batch_size = self.settings_vars["batch_size"].get()
	self.full_args.embedding_num_workers = self.settings_vars["num_workers"].get()
	self.full_args.download_embeddings = self.settings_vars["download_embeddings"].get()
	self.full_args.matrix_embed = self.settings_vars["matrix_embed"].get()
	self.full_args.embedding_pooling_types = pooling_list
	self.full_args.save_embeddings = True
	self.full_args.embed_dtype = dtype_val
	self.full_args.sql = self.settings_vars["sql"].get()
	self._sql = self.full_args.sql
	self._full = self.full_args.matrix_embed

	self.embedding_args = EmbeddingArguments(**self.full_args.__dict__)
	args_dict = {k: v for k, v in self.full_args.__dict__.items() if k != 'all_seqs' and 'token' not in k.lower() and 'api' not in k.lower()}
	self.logger_args = SimpleNamespace(**args_dict)
	self._write_args()

	print_message("Saving embeddings to disk")
	self.save_embeddings_to_disk()
	print_message("Embeddings saved to disk")
	print_done()

	self.run_in_background(background_get_embeddings)

	def _browse_replay_log(self):
	filename = filedialog.askopenfilename(
	title="Select Replay Log",
	filetypes=(("Txt files", ".txt"), ("All files", ".*"))
	)
	if filename:
	self.settings_vars["replay_path"].set(filename)

	def _start_replay(self):
	replay_path = self.settings_vars["replay_path"].get()
	if not replay_path:
	print_message("Please select a replay log file first")
	return

	print_message("Starting replay from log file...")

	def background_replay():
	from logger import LogReplayer
	replayer = LogReplayer(replay_path)
	replay_args = replayer.parse_log()
	replay_args.replay_path = replay_path

	# Create a new MainProcess instance with replay_args
	main = MainProcess(replay_args, GUI=False)
	for k, v in main.full_args.__dict__.items():
	print(f"{k}:\t{v}")

	# Run the replay on this MainProcess instance
	replayer.run_replay(main)
	print_done()

	self.run_in_background(background_replay)

	def _browse_results_file(self):
	filename = filedialog.askopenfilename(
	title="Select Results File",
	filetypes=(("TSV files", ".tsv"), ("All files", ".*"))
	)
	if filename:
	self.settings_vars["results_file"].set(filename)
	# Set use_current_run to False since we're selecting a specific file
	self.settings_vars["use_current_run"].set(False)

	def _generate_plots(self):
	print_message("Generating visualization plots...")

	# Determine which results file to use
	results_file = None

	if self.settings_vars["use_current_run"].get() and hasattr(self, 'random_id'):
	# Use the current run's random ID
	results_file = os.path.join(self.settings_vars["results_dir"].get(), f"{self.random_id}.tsv")
	print_message(f"Using current run results: {results_file}")
	elif self.settings_vars["results_file"].get():
	# Use explicitly selected file
	results_file = self.settings_vars["results_file"].get()
	print_message(f"Using selected results file: {results_file}")
	elif self.settings_vars["result_id"].get():
	# Use the specified result ID
	result_id = self.settings_vars["result_id"].get()
	results_file = os.path.join(self.settings_vars["results_dir"].get(), f"{result_id}.tsv")
	print_message(f"Using results file for ID {result_id}: {results_file}")
	else:
	print_message("No results file specified. Please enter a Result ID, browse for a file, or complete a run first.")
	return

	# Check if the results file exists
	if not os.path.exists(results_file):
	print_message(f"Results file not found: {results_file}")
	return

	# Get output directory
	output_dir = self.settings_vars["viz_output_dir"].get()
	def background_generate_plots():
	# Call the plot generation function
	print_message(f"Generating plots in {output_dir}...")
	create_plots(results_file, output_dir)
	print_message("Plots generated successfully!")
	print_done()

	self.run_in_background(background_generate_plots)


	def main():
	root = tk.Tk()
	app = GUI(root)
	print_title("Protify")
	root.mainloop()


	if __name__ == "__main__":
	main()