Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

krishnateja95 updated a model about 12 hours ago

inference-optimization/Meta-Llama-3.1-8B-Instruct-NVFP4-FP8-Dynamic_6.5-bits

krishnateja95 updated a model about 12 hours ago

inference-optimization/Meta-Llama-3.1-8B-Instruct-NVFP4-FP8-Dynamic_6.25-bits

krishnateja95 updated a model about 12 hours ago

inference-optimization/Meta-Llama-3.1-8B-Instruct-NVFP4-FP8-Dynamic_6.0-bits

View all activity

inference-optimization 's models 78

inference-optimization/Ministral-3-14B-Instruct-2512-BF16-FP8-DYNAMIC-BASE

14B • Updated 5 days ago • 152

inference-optimization/Qwen3-30B-A3B-Instruct-2507.w8a8

31B • Updated 6 days ago • 23

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w8a8

31B • Updated 6 days ago • 24

inference-optimization/Qwen3-4B-Thinking-2507.w8a8

4B • Updated 6 days ago • 38

inference-optimization/Qwen3-4B-Instruct-2507.w8a8

4B • Updated 6 days ago • 28

inference-optimization/Ministral-3-14B-Instruct-2512-FP8

14B • Updated 7 days ago • 66

inference-optimization/granite-4.0-h-small-quantized.w8a8

Updated 8 days ago

inference-optimization/granite-4.0-h-small-NVFP4

Updated 8 days ago

inference-optimization/granite-4.0-h-small-quantized.w4a16

Updated 8 days ago

inference-optimization/granite-4.0-h-small-FP8-dynamic

Updated 8 days ago

inference-optimization/granite-4.0-h-small-FP8-block

Updated 8 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

18B • Updated 12 days ago • 184

inference-optimization/GLM-4.6-quantized.w4a16

48B • Updated 13 days ago • 54

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Text Generation • 32B • Updated 17 days ago • 8

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated 17 days ago • 5

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated 17 days ago • 12

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-quantized.w4a16

6B • Updated 20 days ago • 51

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-dynamic

32B • Updated 21 days ago • 183

inference-optimization/Qwen3-Next-80B-A3B-Thinking-quantized.w8a8

Updated Dec 24, 2025

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-block

Updated Dec 22, 2025

inference-optimization/GLM-4.6-quantized.w8a8

353B • Updated Dec 21, 2025 • 19

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w4a16

Text Generation • 5B • Updated Dec 19, 2025 • 3

inference-optimization/Qwen3-4B-Instruct-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 6

inference-optimization/Qwen3-4B-Thinking-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 42

inference-optimization/GLM-4.6-FP8-dynamic

353B • Updated Dec 12, 2025 • 19

inference-optimization/GLM-4.6-NVFP4

199B • Updated Dec 12, 2025 • 418

inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

8B • Updated Dec 11, 2025

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated Dec 10, 2025 • 1

inference-optimization/Qwen3-Next-80B-A3B-Instruct-quantized.w8a8

Updated Dec 9, 2025

inference-optimization/Llama-3.1-8B-Instruct-HIGGS-quantized-paths

Updated Dec 8, 2025