Spaces:

saadkhi
/

SQL_chatbot_API

Sleeping

App Files Files Community

saadkhi commited on 8 days ago

Commit

bb16527

verified ·

1 Parent(s): 60e496e

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -58

app.py CHANGED Viewed

@@ -1,102 +1,75 @@
-# CPU SAFE HuggingFace Space (2026 stable)
 import warnings
 warnings.filterwarnings("ignore")
 import torch
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
-from peft import PeftModel
-from transformers import AutoConfig
-# reduce CPU overload on free tier
 torch.set_num_threads(1)
-# ─────────────────────────
-# Config
-# ─────────────────────────
-BASE_MODEL = "unsloth/Phi-3-mini-4k-instruct-bnb-4bit"
-LORA_PATH  = "saadkhi/SQL_Chat_finetuned_model"
-MAX_NEW_TOKENS = 180
 print("Loading model...")
-# ─────────────────────────
-# Load base model
-# ─────────────────────────
-# Load config
-config = AutoConfig.from_pretrained(BASE_MODEL, trust_remote_code=True)
-# 🔴 IMPORTANT FIX
-# Replace quantization config with empty dict (NOT None)
-config.quantization_config = {}
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
-    config=config,
     device_map="cpu",
     torch_dtype=torch.float32,
-    trust_remote_code=True,
     low_cpu_mem_usage=True,
 )
-print("Loading LoRA...")
-model = PeftModel.from_pretrained(model, LORA_PATH)
-print("Merging LoRA...")
-model = model.merge_and_unload()
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
 model.eval()
 print("Model ready")
-# ─────────────────────────
-# Inference
-# ─────────────────────────
 def generate_sql(question):
-    if not question:
-        return "Enter a SQL question."
-    messages = [{"role": "user", "content": question}]
-    input_ids = tokenizer.apply_chat_template(
-        messages,
-        tokenize=True,
-        add_generation_prompt=True,
-        return_tensors="pt",
-    )
     with torch.no_grad():
         output = model.generate(
-            input_ids,
-            max_new_tokens=MAX_NEW_TOKENS,
-            temperature=0,
             do_sample=False,
             pad_token_id=tokenizer.eos_token_id,
         )
     text = tokenizer.decode(output[0], skip_special_tokens=True)
-    # clean artifacts
-    for t in ["<|assistant|>", "<|user|>", "<|end|>"]:
-        text = text.replace(t, "")
-    return text.strip()
-# ─────────────────────────
 # UI
-# ─────────────────────────
 demo = gr.Interface(
     fn=generate_sql,
     inputs=gr.Textbox(lines=3, label="SQL Question"),
     outputs=gr.Textbox(lines=8, label="Generated SQL"),
-    title="SQL Chat – Phi-3 mini",
-    description="Free CPU Space. First response may take ~90s",
-    cache_examples=False,
 )
-demo.launch()

 import warnings
 warnings.filterwarnings("ignore")
 import torch
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 torch.set_num_threads(1)
+# ─────────────────────
+# MODEL
+# ─────────────────────
+BASE_MODEL = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 print("Loading model...")
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     device_map="cpu",
     torch_dtype=torch.float32,
     low_cpu_mem_usage=True,
 )
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
 model.eval()
 print("Model ready")
+# ─────────────────────
+# GENERATION
+# ─────────────────────
 def generate_sql(question):
+    if not question.strip():
+        return "Enter SQL question."
+    prompt = f"""
+You are a SQL expert.
+Convert the user request into SQL query only.
+User: {question}
+SQL:
+"""
+    inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
         output = model.generate(
+            **inputs,
+            max_new_tokens=120,
+            temperature=0.2,
             do_sample=False,
             pad_token_id=tokenizer.eos_token_id,
         )
     text = tokenizer.decode(output[0], skip_special_tokens=True)
+    return text.split("SQL:")[-1].strip()
+# ─────────────────────
 # UI
+# ─────────────────────
 demo = gr.Interface(
     fn=generate_sql,
     inputs=gr.Textbox(lines=3, label="SQL Question"),
     outputs=gr.Textbox(lines=8, label="Generated SQL"),
+    title="SQL Generator (Portfolio Demo)",
+    description="Fast CPU model for portfolio demo.",
+    examples=[
+        ["Find duplicate emails in users table"],
+        ["Top 5 highest paid employees"],
+        ["Orders per customer last month"],
+    ],
 )
+demo.launch(server_name="0.0.0.0")