Spaces:

AlexandreScriptsMT
/

gemma-4-cpu-basic-api

Paused

AlexandreScriptsMT commited on May 4

Commit

64daee6

verified ·

1 Parent(s): 6ca36c7

Enable q4 KV cache and 128K context defaults

Files changed (1) hide show

entrypoint.sh CHANGED Viewed

@@ -4,10 +4,12 @@ set -eu
 MODEL_SPEC="${MODEL_SPEC:-unsloth/gemma-4-E2B-it-GGUF:Q4_0}"
 HOST="${HOST:-0.0.0.0}"
 PORT="${PORT:-7860}"
-CTX_SIZE="${CTX_SIZE:-4096}"
 THREADS="${THREADS:-2}"
 PARALLEL="${PARALLEL:-1}"
 REASONING_MODE="${REASONING_MODE:-off}"
 exec /app/llama-server \
   -hf "$MODEL_SPEC" \
@@ -16,4 +18,6 @@ exec /app/llama-server \
   --ctx-size "$CTX_SIZE" \
   --threads "$THREADS" \
   --parallel "$PARALLEL" \
   --reasoning "$REASONING_MODE"

 MODEL_SPEC="${MODEL_SPEC:-unsloth/gemma-4-E2B-it-GGUF:Q4_0}"
 HOST="${HOST:-0.0.0.0}"
 PORT="${PORT:-7860}"
+CTX_SIZE="${CTX_SIZE:-131072}"
 THREADS="${THREADS:-2}"
 PARALLEL="${PARALLEL:-1}"
 REASONING_MODE="${REASONING_MODE:-off}"
+CACHE_TYPE_K="${CACHE_TYPE_K:-q4_0}"
+CACHE_TYPE_V="${CACHE_TYPE_V:-q4_0}"
 exec /app/llama-server \
   -hf "$MODEL_SPEC" \
   --ctx-size "$CTX_SIZE" \
   --threads "$THREADS" \
   --parallel "$PARALLEL" \
+  --cache-type-k "$CACHE_TYPE_K" \
+  --cache-type-v "$CACHE_TYPE_V" \
   --reasoning "$REASONING_MODE"