Spaces:

liovina
/

nl-sql

Sleeping

App Files Files Community

nl-sql / scripts /run_openrouter_voting.py

liovina

Deploy NL_SQL HEAD to HF Space

4b4ff9e verified 14 days ago

raw

history blame contribute delete

11.7 kB

	"""OpenRouter voting on baseline failures.

	OpenAI-compatible /v1 endpoint at openrouter.ai/api/v1. Mirror of
	run_groq_voting.py but routes through OpenRouter — обходит Groq RU-geoblock и
	открывает 24+ free-tier reasoning/code models (gpt-oss, qwen3-coder,
	deepseek-v4-flash, nvidia/nemotron, glm-4.5-air etc).

	Usage:
	uv run python scripts/run_openrouter_voting.py \\
	--baseline eval/reports/2026-05-18/v16-helallao-dac-reasoning.json \\
	--provider-model openai/gpt-oss-120b:free \\
	--out eval/reports/2026-05-18b/gpt-oss-or-on-v16-residue.json
	uv run python scripts/run_openrouter_voting.py \\
	--baseline eval/reports/2026-05-22/v20-kimi-k2-thinking-merged.json \\
	--provider-model openai/gpt-oss-120b:free \\
	--out eval/reports/2026-05-22/openrouter-qid1399.json --only-qids 1399
	"""

	from __future__ import annotations

	import argparse
	import json
	import os
	import sys
	import time
	from pathlib import Path
	from typing import Any

	from openai import OpenAI

	from nl_sql.agent.graph import PipelineConfig, build_pipeline, run_pipeline
	from nl_sql.config import get_settings
	from nl_sql.db.registry import get_default_registry
	from nl_sql.eval.dataset import load_bird_mini_dev
	from nl_sql.eval.metrics.execution_accuracy import compare_results
	from nl_sql.eval.runner import _compose_question, _execute_gold
	from nl_sql.execution.runner import execute_validated
	from nl_sql.llm.cache import CachingEmbeddingProvider
	from nl_sql.llm.providers.base import GenerateRequest, GenerateResponse
	from nl_sql.llm.providers.mistral import MistralProvider
	from nl_sql.schema_index.indexer import SchemaIndex


	def _read_openrouter_key() -> str:
	env = os.environ.get("OPENROUTER_API_KEY")
	if env:
	return env
	txt = Path("D:/TXT/Free API Keys.txt")
	if txt.exists():
	for line in txt.read_text(encoding="utf-8", errors="ignore").splitlines():
	line = line.strip()
	if line.startswith("sk-or-v1-"):
	return line
	raise RuntimeError("OpenRouter key not found in OPENROUTER_API_KEY or D:/TXT/Free API Keys.txt")


	def main() -> int:
	p = argparse.ArgumentParser(description=__doc__)
	p.add_argument("--baseline", type=Path, required=True)
	p.add_argument(
	"--provider-model", required=True, help="OpenRouter model id, e.g. openai/gpt-oss-120b:free"
	)
	p.add_argument("--bird-root", type=Path, default=Path("data/bird_mini_dev/MINIDEV"))
	p.add_argument("--out", type=Path, required=True)
	p.add_argument("--max-cases", type=int, default=200)
	p.add_argument("--skip-qids", default="")
	p.add_argument(
	"--only-qids",
	default="",
	help="comma-separated baseline failure qids to retry exactly, preserving argument order",
	)
	p.add_argument("--sleep-between", type=float, default=2.0)
	args = p.parse_args()

	baseline = json.loads(args.baseline.read_text(encoding="utf-8"))
	fails = [r for r in baseline["records"] if not r.get("match")]
	try:
	only_qids = [int(x) for x in args.only_qids.split(",") if x.strip()]
	except ValueError:
	print("[error] invalid --only-qids: expected comma-separated integers", file=sys.stderr)
	return 3
	if only_qids:
	fails_by_qid = {int(r["question_id"]): r for r in fails}
	missing_qids = [qid for qid in only_qids if qid not in fails_by_qid]
	if missing_qids:
	print(f"[error] qids not found in baseline failures: {missing_qids}", file=sys.stderr)
	return 3
	fails = [fails_by_qid[qid] for qid in only_qids]
	skip = {int(x) for x in args.skip_qids.split(",") if x.strip()}
	fails = [r for r in fails if r["question_id"] not in skip][: args.max_cases]
	print(
	f"[info] {len(fails)} failures to retry with openrouter+{args.provider_model}",
	file=sys.stderr,
	)
	if not fails:
	return 0

	settings = get_settings()
	examples = {e.question_id: e for e in load_bird_mini_dev(args.bird_root)}
	registry = get_default_registry()
	api_key = _read_openrouter_key()
	raw = OpenAI(api_key=api_key, base_url="https://openrouter.ai/api/v1")

	class _ORAlt:
	name = "openrouter_alt"
	model = args.provider_model

	def generate(self, req: GenerateRequest) -> GenerateResponse:
	t0 = time.perf_counter()
	try:
	completion = raw.chat.completions.create(
	model=self.model,
	messages=[{"role": "user", "content": req.prompt}],
	temperature=req.temperature,
	max_tokens=req.max_tokens,
	extra_headers={
	"HTTP-Referer": "https://github.com/brownjuly2003-code/NL_SQL",
	"X-Title": "NL_SQL BIRD eval",
	},
	)
	except Exception as exc:
	raise RuntimeError(f"openrouter {self.model}: {exc}") from exc
	lat = (time.perf_counter() - t0) * 1000.0
	choice = completion.choices[0] if completion.choices else None
	text = (choice.message.content if choice and choice.message else "") or ""
	return GenerateResponse(
	text=text,
	model=completion.model or self.model,
	input_tokens=(completion.usage.prompt_tokens if completion.usage else 0),
	output_tokens=(completion.usage.completion_tokens if completion.usage else 0),
	latency_ms=lat,
	)

	alt = _ORAlt()
	emb = CachingEmbeddingProvider(
	MistralProvider(api_key=settings.mistral_api_key), cache_dir=settings.llm_cache_dir
	)
	idx = SchemaIndex(persist_dir="chroma_data", embedder=emb)

	cfg = PipelineConfig(
	sql_provider=alt, # type: ignore[arg-type]
	explain_provider=alt, # type: ignore[arg-type]
	schema_index=idx,
	registry=registry,
	fewshot_top_k=3,
	sort_schema_block=True,
	cross_db_fewshot=True,
	verify_retry_on_empty=False,
	enable_grounded_critique=False,
	)
	pipeline = build_pipeline(cfg)

	records: list[dict[str, Any]] = []
	rescued = 0
	regressed = 0
	same = 0
	errored = 0
	out_path = args.out
	out_path.parent.mkdir(parents=True, exist_ok=True)

	for i, br in enumerate(fails, 1):
	qid = br["question_id"]
	ex = examples.get(qid)
	if ex is None:
	continue
	spec = registry.get(ex.registry_db_id)
	engine = spec.make_engine()
	try:
	t0 = time.perf_counter()
	try:
	alt_res = run_pipeline(
	pipeline,
	question=_compose_question(ex),
	db_id=ex.registry_db_id,
	dialect="sqlite",
	)
	except Exception as exc:
	errored += 1
	records.append(
	{
	"question_id": qid,
	"db_id": ex.db_id,
	"difficulty": ex.difficulty,
	"question": ex.question,
	"gold_sql": ex.sql,
	"baseline_pred": br["pred_sql"],
	"alt_pred": "",
	"alt_confidence": None,
	"baseline_match": bool(br.get("match")),
	"alt_match": False,
	"vote_match": False,
	"vote_source": f"openrouter:{args.provider_model}",
	"alt_error": str(exc),
	}
	)
	print(f"[{i:3d}/{len(fails)}] qid={qid} EXC: {str(exc)[:180]}", file=sys.stderr)
	out_path.write_text(
	json.dumps(
	{
	"alt_model": f"openrouter:{args.provider_model}",
	"summary": {
	"voted_better": rescued,
	"voted_worse": regressed,
	"voted_same": same,
	"errored": errored,
	},
	"records": records,
	},
	indent=2,
	),
	encoding="utf-8",
	)
	time.sleep(args.sleep_between)
	continue
	elapsed = (time.perf_counter() - t0) * 1000.0

	alt_sql = alt_res.sql or ""
	alt_rows: list[Any] = []
	try:
	outcome = execute_validated(
	engine,
	alt_sql,
	dialect="sqlite",
	statement_timeout_ms=30_000,
	row_cap=10_000,
	)
	if outcome.result:
	alt_rows = list(outcome.result.rows)
	except Exception:
	pass
	try:
	gold_rows, _ = _execute_gold(
	engine, ex.sql, statement_timeout_ms=30_000, row_cap=10_000
	)
	except Exception:
	gold_rows = []
	alt_cmp = compare_results(gold_rows, alt_rows, gold_sql=ex.sql)
	alt_match = bool(alt_cmp.match)

	if alt_match and not br.get("match"):
	rescued += 1
	tag = "RESCUE"
	elif br.get("match") and not alt_match:
	regressed += 1
	tag = "regression"
	else:
	same += 1
	tag = "same"

	records.append(
	{
	"question_id": qid,
	"db_id": ex.db_id,
	"difficulty": ex.difficulty,
	"question": ex.question,
	"gold_sql": ex.sql,
	"baseline_pred": br["pred_sql"],
	"alt_pred": alt_sql,
	"alt_confidence": getattr(alt_res, "confidence", None),
	"baseline_match": bool(br.get("match")),
	"alt_match": alt_match,
	"vote_match": alt_match,
	"vote_source": f"openrouter:{args.provider_model}",
	"elapsed_ms": elapsed,
	}
	)
	print(
	f"[{i:3d}/{len(fails)}] qid={qid} {ex.difficulty:11s} {tag} ({elapsed / 1000:.1f}s)",
	file=sys.stderr,
	)

	out_path.write_text(
	json.dumps(
	{
	"alt_model": f"openrouter:{args.provider_model}",
	"summary": {
	"voted_better": rescued,
	"voted_worse": regressed,
	"voted_same": same,
	"errored": errored,
	},
	"records": records,
	},
	indent=2,
	),
	encoding="utf-8",
	)
	finally:
	engine.dispose()
	time.sleep(args.sleep_between)

	print("\n=== openrouter voting summary ===", file=sys.stderr)
	print(f" model: {args.provider_model}", file=sys.stderr)
	print(f" cases: {len(records)}", file=sys.stderr)
	print(f" rescued: {rescued}", file=sys.stderr)
	print(f" regressed: {regressed}", file=sys.stderr)
	print(f" same: {same}", file=sys.stderr)
	print(f" errored: {errored}", file=sys.stderr)
	return 0


	if __name__ == "__main__":
	raise SystemExit(main())