Spaces:

ArchCoder
/

basic_app

Sleeping

App Files Files Community

basic_app / app.py

ArchCoder

Update app.py

e4a835d verified 5 months ago

raw

history blame

9.32 kB

	import gradio as gr
	from faster_whisper import WhisperModel
	from transformers import AutoTokenizer, AutoModelForCausalLM
	import requests
	import time
	import base64
	import tempfile
	import os
	import logging
	from datetime import datetime

	# Setup logging
	logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
	logger = logging.getLogger(__name__)

	# Initialize models
	logger.info("Loading Whisper model...")
	whisper_model = WhisperModel("tiny", device="cpu", compute_type="int8")

	logger.info("Loading Qwen 0.5B (fastest model)...")
	model_name = "Qwen/Qwen2.5-0.5B-Instruct"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForCausalLM.from_pretrained(
	model_name,
	torch_dtype=torch.float32,
	device_map="cpu",
	low_cpu_mem_usage=True
	)

	logger.info("All models loaded!")

	def search_web_google(query, max_results=3):
	"""Use Google Custom Search API (free tier: 100 queries/day)"""
	logger.info(f"[SEARCH] Query: {query}")

	# Free Google Custom Search - No API key needed for basic search
	try:
	# Alternative: SerpAPI free tier or direct Google scraping
	url = "https://www.googleapis.com/customsearch/v1"
	params = {
	'q': query,
	'num': max_results,
	'key': os.getenv('GOOGLE_API_KEY', ''), # Optional
	'cx': os.getenv('GOOGLE_CX', '') # Optional
	}

	# Fallback to Searx (public instance - no API key)
	searx_url = "https://searx.be/search"
	searx_params = {
	'q': query,
	'format': 'json',
	'categories': 'general',
	'language': 'en'
	}

	response = requests.get(searx_url, params=searx_params, timeout=5)

	if response.status_code == 200:
	data = response.json()
	results = data.get('results', [])

	context = ""
	for i, result in enumerate(results[:max_results], 1):
	title = result.get('title', '')
	content = result.get('content', '')
	context += f"\n[Source {i}] {title}\n{content}\n"
	logger.info(f"[SEARCH] Result {i}: {title[:50]}...")

	if context:
	logger.info(f"[SEARCH] Success - {len(results)} results")
	return context.strip()

	logger.warning("[SEARCH] No results from Searx")
	return "Unable to fetch current information. Please try a different question."

	except Exception as e:
	logger.error(f"[SEARCH] Error: {str(e)}")
	return f"Search unavailable: {str(e)}"

	def transcribe_audio_base64(audio_base64):
	"""Transcribe audio from base64"""
	logger.info("[PLUELY STT] Request received")
	try:
	audio_bytes = base64.b64decode(audio_base64)
	logger.info(f"[PLUELY STT] Audio size: {len(audio_bytes)} bytes")

	with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
	temp_audio.write(audio_bytes)
	temp_path = temp_audio.name

	segments, _ = whisper_model.transcribe(temp_path, language="en", beam_size=1)
	transcription = " ".join([seg.text for seg in segments])
	os.unlink(temp_path)

	logger.info(f"[PLUELY STT] Success: {transcription[:50]}...")
	return {"text": transcription.strip()}

	except Exception as e:
	logger.error(f"[PLUELY STT] Error: {str(e)}")
	return {"error": str(e)}

	def generate_answer(text_input):
	"""Generate fast answer using search results"""
	logger.info(f"[PLUELY AI] Question: {text_input}")
	try:
	if not text_input or not text_input.strip():
	return "No input provided"

	current_date = datetime.now().strftime("%B %d, %Y")

	# Search
	logger.info("[PLUELY AI] Searching...")
	search_results = search_web_google(text_input, max_results=3)
	logger.info(f"[PLUELY AI] Search done ({len(search_results)} chars)")

	# Simple prompt for speed
	prompt = f"""Today is {current_date}. Answer based on these search results:

	{search_results}

	Question: {text_input}
	Answer (80-100 words):"""

	logger.info("[PLUELY AI] Generating...")
	inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=1000)

	with torch.no_grad():
	outputs = model.generate(
	**inputs,
	max_new_tokens=120,
	temperature=0.3,
	do_sample=True,
	top_p=0.9,
	pad_token_id=tokenizer.eos_token_id
	)

	answer = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True).strip()

	logger.info(f"[PLUELY AI] Done ({len(answer)} chars)")
	return answer

	except Exception as e:
	logger.error(f"[PLUELY AI] Error: {str(e)}")
	return f"Error: {str(e)}"

	def process_audio(audio_path, question_text):
	"""Main pipeline"""
	start_time = time.time()
	logger.info("="*50)
	logger.info("[MAIN] New request")

	if audio_path:
	logger.info(f"[MAIN] Audio: {audio_path}")
	try:
	segments, _ = whisper_model.transcribe(audio_path, language="en", beam_size=1)
	question = " ".join([seg.text for seg in segments])
	logger.info(f"[MAIN] Transcribed: {question}")
	except Exception as e:
	logger.error(f"[MAIN] Transcription failed: {str(e)}")
	return f"❌ Error: {str(e)}", 0.0
	else:
	question = question_text
	logger.info(f"[MAIN] Text: {question}")

	if not question or not question.strip():
	return "❌ No input", 0.0

	transcription_time = time.time() - start_time

	# Search
	search_start = time.time()
	search_web_google(question, max_results=3)
	search_time = time.time() - search_start

	# Generate
	llm_start = time.time()
	answer = generate_answer(question)
	llm_time = time.time() - llm_start

	total_time = time.time() - start_time
	time_emoji = "🟢" if total_time < 3.0 else "🟡" if total_time < 5.0 else "🔴"

	logger.info(f"[MAIN] Total: {total_time:.2f}s")
	logger.info("="*50)

	timing = f"\n\n{time_emoji} Time: Trans={transcription_time:.2f}s \| Search={search_time:.2f}s \| LLM={llm_time:.2f}s \| Total={total_time:.2f}s"

	return answer + timing, total_time

	def audio_handler(audio_path):
	return process_audio(audio_path, None)

	def text_handler(text_input):
	return process_audio(None, text_input)

	# Gradio UI
	with gr.Blocks(title="Fast Q&A", theme=gr.themes.Soft()) as demo:
	gr.Markdown("""
	# ⚡ Ultra-Fast Political Q&A
	Search-grounded answers - Qwen 0.5B + Searx
	""")

	with gr.Tab("🎙️ Audio"):
	with gr.Row():
	with gr.Column():
	audio_input = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Audio")
	audio_submit = gr.Button("🚀 Submit", variant="primary", size="lg")
	with gr.Column():
	audio_output = gr.Textbox(label="Answer", lines=8, show_copy_button=True)
	audio_time = gr.Number(label="Time (s)", precision=2)

	audio_submit.click(fn=audio_handler, inputs=[audio_input], outputs=[audio_output, audio_time], api_name="audio_query")

	with gr.Tab("✍️ Text"):
	with gr.Row():
	with gr.Column():
	text_input = gr.Textbox(label="Question", placeholder="Ask anything...", lines=3)
	text_submit = gr.Button("🚀 Submit", variant="primary", size="lg")
	with gr.Column():
	text_output = gr.Textbox(label="Answer", lines=8, show_copy_button=True)
	text_time = gr.Number(label="Time (s)", precision=2)

	text_submit.click(fn=text_handler, inputs=[text_input], outputs=[text_output, text_time], api_name="text_query")

	gr.Examples(
	examples=[
	["Is internet shut down in Bareilly today?"],
	["Who won 2024 US election?"],
	["Current India inflation rate?"]
	],
	inputs=text_input
	)

	with gr.Tab("🔌 API"):
	gr.Markdown("""
	### Pluely Endpoints

	STT: `https://archcoder-basic-app.hf.space/call/transcribe_stt`
	AI: `https://archcoder-basic-app.hf.space/call/answer_ai`

	Response Paths:
	STT: `data[0].text`
	AI: `data[0]`
	""")

	with gr.Row(visible=False):
	stt_in = gr.Textbox()
	stt_out = gr.JSON()
	ai_in = gr.Textbox()
	ai_out = gr.Textbox()

	gr.Button("STT", visible=False).click(fn=transcribe_audio_base64, inputs=[stt_in], outputs=[stt_out], api_name="transcribe_stt")
	gr.Button("AI", visible=False).click(fn=generate_answer, inputs=[ai_in], outputs=[ai_out], api_name="answer_ai")

	gr.Markdown("🟢 < 3s \| 🟡 3-5s \| 🔴 > 5s")

	if __name__ == "__main__":
	demo.queue(max_size=5)
	demo.launch()