Spaces:

liovina
/

nl-sql

Sleeping

File size: 5,750 Bytes

4b4ff9e

"""Disk-backed cache wrappers for LLMProvider / EmbeddingProvider.



Per `docs/02_architecture_v2.md §6.5`: each unique (provider, model,

prompt) goes to the upstream API exactly once. Repeat calls hit a local

`diskcache.Cache` and return in microseconds with zero quota burn.



This buys two things that matter for portfolio-grade ablations:



1.  **Determinism.** Mistral codestral at temperature=0 is *near*

    deterministic but not exactly so — config E showed +4pp over C at

    n=50 with literally identical execution paths and repair fired

    0/50. With cache, the second run reads the same response bytes.

2.  **Free re-runs.** Bumping `schema_top_k` or `fk_hops` and rerunning

    config C only pays the API for the prompts that actually changed.



Cache key for generate:

    sha256(provider.name | provider.model | system | prompt | temperature | max_tokens)



Cache key for embed (per text, not per batch — so reordering inputs hits

the same entries):

    sha256(provider.name | provider.embed_model | text)



Cached values are pydantic-serialised dicts; `latency_ms` on a hit is

reset to 0.0 so eval reports don't accidentally average cache hits with

live API latency.

"""

from __future__ import annotations

import hashlib
import json
from pathlib import Path
from typing import Any

import diskcache

from nl_sql.llm.providers.base import (
    EmbeddingProvider,
    EmbedRequest,
    EmbedResponse,
    GenerateRequest,
    GenerateResponse,
    LLMProvider,
)


def _hash_key(parts: list[Any]) -> str:
    raw = json.dumps(parts, sort_keys=True, ensure_ascii=False, default=str)
    return hashlib.sha256(raw.encode("utf-8")).hexdigest()


def _open_cache(root: Path | str, *, size_limit_gb: int) -> diskcache.Cache:
    Path(root).mkdir(parents=True, exist_ok=True)
    return diskcache.Cache(directory=str(root), size_limit=size_limit_gb * 1024**3)


class CachingLLMProvider:
    """Wrap an `LLMProvider` so repeat `generate()` calls are served from disk.



    The wrapper preserves `name` and `model` so downstream code that reads

    `getattr(provider, "model", "?")` (e.g. eval reports) keeps working.

    """

    def __init__(

        self,

        inner: LLMProvider,

        *,

        cache_dir: Path | str,

        size_limit_gb: int = 4,

    ) -> None:
        self._inner = inner
        self.name = inner.name
        self.model = inner.model
        self._cache = _open_cache(Path(cache_dir) / "gen", size_limit_gb=size_limit_gb)

    def generate(self, req: GenerateRequest) -> GenerateResponse:
        key = _hash_key(
            [
                "gen.v1",
                self._inner.name,
                self._inner.model,
                req.system or "",
                req.prompt,
                req.temperature,
                req.max_tokens,
            ]
        )
        hit = self._cache.get(key)
        if hit is not None:
            data = dict(hit)
            data["latency_ms"] = 0.0  # honest signal: this didn't hit the wire
            return GenerateResponse(**data)

        resp = self._inner.generate(req)
        self._cache.set(key, resp.model_dump())
        return resp

    def close(self) -> None:
        self._cache.close()


class CachingEmbeddingProvider:
    """Wrap an `EmbeddingProvider` so per-text embeddings are cached.



    Batched calls are split into per-text cache lookups; only the missing

    texts are forwarded to the upstream provider in a single batch. This

    means re-indexing the same schema chunks is free, and partial overlaps

    (e.g. one new column added) only pay for the delta.

    """

    def __init__(

        self,

        inner: EmbeddingProvider,

        *,

        cache_dir: Path | str,

        size_limit_gb: int = 4,

    ) -> None:
        self._inner = inner
        self.name = inner.name
        self.embed_model = inner.embed_model
        self._cache = _open_cache(Path(cache_dir) / "embed", size_limit_gb=size_limit_gb)

    def embed(self, req: EmbedRequest) -> EmbedResponse:
        keys = [self._key_for(text) for text in req.texts]
        cached: list[list[float] | None] = [self._cache.get(k) for k in keys]
        missing_idx = [i for i, v in enumerate(cached) if v is None]

        if not missing_idx:
            vectors = [v for v in cached if v is not None]
            return EmbedResponse(vectors=vectors, model=self._inner.embed_model)

        missing_texts = [req.texts[i] for i in missing_idx]
        fresh = self._inner.embed(EmbedRequest(texts=missing_texts))
        if len(fresh.vectors) != len(missing_idx):
            raise RuntimeError(
                "embed batch length mismatch: "
                f"requested {len(missing_idx)}, got {len(fresh.vectors)}"
            )
        for j, vec in zip(missing_idx, fresh.vectors, strict=True):
            self._cache.set(keys[j], list(vec))
            cached[j] = list(vec)

        vectors = [v for v in cached if v is not None]
        return EmbedResponse(vectors=vectors, model=fresh.model)

    def _key_for(self, text: str) -> str:
        return _hash_key(
            [
                "embed.v1",
                self._inner.name,
                self._inner.embed_model,
                text,
            ]
        )

    def close(self) -> None:
        self._cache.close()


def wrap_with_cache(

    provider: LLMProvider,

    *,

    cache_dir: Path | str,

    size_limit_gb: int = 4,

) -> CachingLLMProvider:
    """Convenience wrapper for the common case (LLMProvider only)."""
    return CachingLLMProvider(provider, cache_dir=cache_dir, size_limit_gb=size_limit_gb)