mxguru1
/

Master-Chief

mxguru1 commited on 19 days ago

Commit

cd6db2d

verified ·

1 Parent(s): 9441121

Upload train_qwen_sovereign.py with huggingface_hub

Files changed (1) hide show

train_qwen_sovereign.py CHANGED Viewed

@@ -21,12 +21,12 @@ def get_config(run_name, hub_model_id):
         logging_steps=1,
         save_strategy="steps",
         save_steps=100,
-        report_to="none", # Trackio handled manually
         run_name=run_name,
         bf16=True,
         max_seq_length=1024,
         gradient_checkpointing=True,
-        optim="paged_adamw_8bit", # Critical for memory efficiency
         max_grad_norm=0.3,
         warmup_ratio=0.03,
         lr_scheduler_type="constant",
@@ -47,14 +47,11 @@ def train_model(model_id, run_name, hub_model_id):
     """Executes the training job."""
     print(f"📦 Starting training for {model_id}...")
-    # Initialize trackio based on detected support for keywords
     try:
-        trackio.init(project="sovereign-qwen-finetuning", run_name=run_name)
-    except TypeError:
-        try:
-            trackio.init(experiment="sovereign-qwen-finetuning")
-        except TypeError:
-            trackio.init()
     # Configure 4-bit loading for all models to ensure stability
     bnb_config = BitsAndBytesConfig(
@@ -74,7 +71,7 @@ def train_model(model_id, run_name, hub_model_id):
         device_map="auto",
         torch_dtype=torch.bfloat16,
         trust_remote_code=True,
-        attn_implementation="sdpa", # Use optimized attention
     )
     print("📥 Loading dataset and applying chat template...")

         logging_steps=1,
         save_strategy="steps",
         save_steps=100,
+        report_to="none",
         run_name=run_name,
         bf16=True,
         max_seq_length=1024,
         gradient_checkpointing=True,
+        optim="paged_adamw_8bit",
         max_grad_norm=0.3,
         warmup_ratio=0.03,
         lr_scheduler_type="constant",
     """Executes the training job."""
     print(f"📦 Starting training for {model_id}...")
+    # Simple initialization for trackio 0.20.2
     try:
+        trackio.init("sovereign-qwen-finetuning")
+    except Exception as e:
+        print(f"⚠️ Trackio init failed: {e}")
     # Configure 4-bit loading for all models to ensure stability
     bnb_config = BitsAndBytesConfig(
         device_map="auto",
         torch_dtype=torch.bfloat16,
         trust_remote_code=True,
+        attn_implementation="sdpa",
     )
     print("📥 Loading dataset and applying chat template...")