Spaces:

saadkhi
/

SQL_chatbot_API

Running

saadkhi commited on 9 days ago

Commit

a93df3d

verified ·

1 Parent(s): b612c20

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import torch
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 # reduce CPU overload on free tier
 torch.set_num_threads(1)
@@ -24,8 +25,14 @@ print("Loading model...")
 # ─────────────────────────
 # Load base model
 # ─────────────────────────
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     device_map="cpu",
     torch_dtype=torch.float32,
     trust_remote_code=True,
@@ -39,7 +46,6 @@ print("Merging LoRA...")
 model = model.merge_and_unload()
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
 model.eval()
 print("Model ready")

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
+from transformers import AutoConfig
 # reduce CPU overload on free tier
 torch.set_num_threads(1)
 # ─────────────────────────
 # Load base model
 # ─────────────────────────
+# load config first and REMOVE quantization
+config = AutoConfig.from_pretrained(BASE_MODEL, trust_remote_code=True)
+config.quantization_config = None   # 🔴 important fix
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
+    config=config,
     device_map="cpu",
     torch_dtype=torch.float32,
     trust_remote_code=True,
 model = model.merge_and_unload()
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
 model.eval()
 print("Model ready")