gemma-4-fp8 - a Hyper-AI Collection

Hyper-AI 's Collections

updated Apr 8

fp8 quant for gemma-4 models, nearly half memory decrease, speedup 30%, vllm serve can run