HIGGS - a inference-optimization Collection

Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
- Website
- Community
- Solutions
Log In
Sign Up

inference-optimization 's Collections

HIGGS-per-tensor

HIGGS

updated Apr 14

Mixed Precision Models

meta-llama/Llama-3.1-8B-Instruct

Text Generation • 8B • Updated Sep 25, 2024 • 10.9M • • 5.98k
RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic

Text Generation • 8B • Updated Mar 19 • 49.5k • 9
RedHatAI/Llama-3.1-8B-Instruct-NVFP4

Text Generation • 5B • Updated Nov 21, 2025 • 16.8k • 1
inference-optimization/Llama-3.1-8B-Instruct_5_bits_mode_hybrid

6B • Updated Mar 12 • 1
inference-optimization/Llama-3.1-8B-Instruct_5_bits_mode_noise

6B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_5_bits_mode_heuristic

6B • Updated Mar 12 • 2
inference-optimization/Llama-3.1-8B-Instruct_5.5_bits_mode_hybrid

6B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_5.5_bits_mode_noise

6B • Updated Mar 12 • 3
inference-optimization/Llama-3.1-8B-Instruct_5.5_bits_mode_heuristic

6B • Updated Mar 12 • 3
inference-optimization/Llama-3.1-8B-Instruct_6_bits_mode_hybrid

6B • Updated Mar 12 • 1
inference-optimization/Llama-3.1-8B-Instruct_6_bits_mode_noise

6B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_6_bits_mode_heuristic

6B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_6.5_bits_mode_hybrid

7B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_6.5_bits_mode_noise

7B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_6.5_bits_mode_heuristic

7B • Updated Mar 12 • 2
inference-optimization/Llama-3.1-8B-Instruct_7_bits_mode_hybrid

7B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_7_bits_mode_noise

7B • Updated Mar 12
inference-optimization/Llama-3.1-8B-Instruct_7_bits_mode_heuristic

7B • Updated Mar 12
meta-llama/Llama-3.2-1B-Instruct

Text Generation • 1B • Updated Oct 24, 2024 • 8.36M • • 1.46k
inference-optimization/Llama-3.2-1B-Instruct-FP8-Dynamic

1B • Updated Apr 7 • 4
inference-optimization/Llama-3.2-1B-Instruct-NVFP4

0.8B • Updated Apr 7 • 86
inference-optimization/Llama-3.2-1B-Instruct_5_bits_mode_hybrid

1B • Updated Mar 12
inference-optimization/Llama-3.2-1B-Instruct_5_bits_mode_noise

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_5_bits_mode_heuristic

1B • Updated Mar 12 • 2
inference-optimization/Llama-3.2-1B-Instruct_5.5_bits_mode_hybrid

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_5.5_bits_mode_noise

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_5.5_bits_mode_heuristic

1B • Updated Mar 12 • 3
inference-optimization/Llama-3.2-1B-Instruct_6_bits_mode_hybrid

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_6_bits_mode_noise

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_6_bits_mode_heuristic

1B • Updated Mar 12
inference-optimization/Llama-3.2-1B-Instruct_6.5_bits_mode_hybrid

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_6.5_bits_mode_noise

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_6.5_bits_mode_heuristic

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_7_bits_mode_hybrid

1B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-1B-Instruct_7_bits_mode_noise

1B • Updated Mar 12
inference-optimization/Llama-3.2-1B-Instruct_7_bits_mode_heuristic

1B • Updated Mar 12 • 2
meta-llama/Llama-3.2-3B-Instruct

Text Generation • 3B • Updated Oct 24, 2024 • 1.79M • • 2.18k
inference-optimization/Llama-3.2-3B-Instruct-FP8-Dynamic

3B • Updated Apr 7 • 3
inference-optimization/Llama-3.2-3B-Instruct-NVFP4

2B • Updated Apr 7 • 159
inference-optimization/Llama-3.2-3B-Instruct_5_bits_mode_hybrid

3B • Updated Mar 12 • 3
inference-optimization/Llama-3.2-3B-Instruct_5_bits_mode_noise

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_5_bits_mode_heuristic

3B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-3B-Instruct_5.5_bits_mode_hybrid

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_5.5_bits_mode_noise

3B • Updated Mar 12 • 1
inference-optimization/Llama-3.2-3B-Instruct_5.5_bits_mode_heuristic

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_6_bits_mode_hybrid

3B • Updated Mar 12 • 3
inference-optimization/Llama-3.2-3B-Instruct_6_bits_mode_noise

3B • Updated Mar 12 • 2
inference-optimization/Llama-3.2-3B-Instruct_6_bits_mode_heuristic

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_6.5_bits_mode_hybrid

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_6.5_bits_mode_noise

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_6.5_bits_mode_heuristic

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_7_bits_mode_hybrid

3B • Updated Mar 12 • 4
inference-optimization/Llama-3.2-3B-Instruct_7_bits_mode_noise

3B • Updated Mar 12
inference-optimization/Llama-3.2-3B-Instruct_7_bits_mode_heuristic

3B • Updated Mar 12
Qwen/Qwen3-8B

Text Generation • 8B • Updated Jul 26, 2025 • 12.5M • • 1.12k
RedHatAI/Qwen3-8B-FP8-dynamic

Text Generation • 8B • Updated Apr 28 • 55.8k • 12
RedHatAI/Qwen3-8B-NVFP4

Text Generation • 5B • Updated Nov 21, 2025 • 2.95k • 2
inference-optimization/Qwen3-8B_5_bits_mode_hybrid

6B • Updated Mar 12
inference-optimization/Qwen3-8B_5_bits_mode_noise

6B • Updated Mar 12 • 2
inference-optimization/Qwen3-8B_5_bits_mode_heuristic

6B • Updated Mar 12
inference-optimization/Qwen3-8B_5.5_bits_mode_hybrid

6B • Updated Mar 12 • 1
inference-optimization/Qwen3-8B_5.5_bits_mode_noise

6B • Updated Mar 12
inference-optimization/Qwen3-8B_5.5_bits_mode_heuristic

6B • Updated Mar 12 • 2
inference-optimization/Qwen3-8B_6_bits_mode_hybrid

7B • Updated Mar 12 • 6
inference-optimization/Qwen3-8B_6_bits_mode_noise

7B • Updated Mar 12 • 1
inference-optimization/Qwen3-8B_6_bits_mode_heuristic

7B • Updated Mar 12 • 1
inference-optimization/Qwen3-8B_6.5_bits_mode_hybrid

7B • Updated Mar 12 • 5
inference-optimization/Qwen3-8B_6.5_bits_mode_noise

7B • Updated Mar 12
inference-optimization/Qwen3-8B_6.5_bits_mode_heuristic

7B • Updated Mar 12 • 3
inference-optimization/Qwen3-8B_7_bits_mode_hybrid

7B • Updated Mar 12
inference-optimization/Qwen3-8B_7_bits_mode_noise

7B • Updated Mar 12 • 5
inference-optimization/Qwen3-8B_7_bits_mode_heuristic

7B • Updated Mar 12
Qwen/Qwen3-30B-A3B

Text Generation • 31B • Updated Jul 26, 2025 • 2.13M • 894
RedHatAI/Qwen3-30B-A3B-FP8-dynamic

Text Generation • 31B • Updated May 13, 2025 • 128k • 3
RedHatAI/Qwen3-30B-A3B-NVFP4

Text Generation • 17B • Updated Dec 4, 2025 • 73.8k • 2
inference-optimization/Qwen3-30B-A3B_5.0_bits_mode_hybrid

20B • Updated Mar 31
inference-optimization/Qwen3-30B-A3B_5.0_bits_mode_noise

20B • Updated Mar 31 • 2
inference-optimization/Qwen3-30B-A3B_5.0_bits_mode_heuristic

20B • Updated Apr 1 • 1
inference-optimization/Qwen3-30B-A3B_5.5_bits_mode_hybrid

22B • Updated Apr 1 • 2
inference-optimization/Qwen3-30B-A3B_5.5_bits_mode_noise

22B • Updated Apr 1 • 1
inference-optimization/Qwen3-30B-A3B_5.5_bits_mode_heuristic

22B • Updated Apr 2 • 1
inference-optimization/Qwen3-30B-A3B_6.0_bits_mode_hybrid

23B • Updated Apr 1 • 1
inference-optimization/Qwen3-30B-A3B_6.0_bits_mode_noise

24B • Updated Apr 1 • 3
inference-optimization/Qwen3-30B-A3B_6.0_bits_mode_heuristic

23B • Updated Apr 1 • 2
inference-optimization/Qwen3-30B-A3B_6.5_bits_mode_hybrid

24B • Updated Apr 1 • 1
inference-optimization/Qwen3-30B-A3B_6.5_bits_mode_noise

25B • Updated Apr 2 • 2
inference-optimization/Qwen3-30B-A3B_6.5_bits_mode_heuristic

25B • Updated Apr 2 • 3
inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_hybrid

25B • Updated Apr 2 • 3
inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_noise

27B • Updated Apr 2 • 1
inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_heuristic

27B • Updated Apr 2 • 2
Qwen/Qwen3-30B-A3B-Instruct-2507

Text Generation • 31B • Updated Sep 17, 2025 • 1.04M • • 813
inference-optimization/Qwen3-30B-A3B-Instruct-2507-FP8-Dynamic

31B • Updated Mar 4 • 14
inference-optimization/Qwen3-30B-A3B-Instruct-2507-NVFP4

17B • Updated Mar 4 • 14
inference-optimization/Qwen3-30B-A3B-Instruct-2507_5.0_bits_mode_hybrid

20B • Updated Mar 27 • 5
inference-optimization/Qwen3-30B-A3B-Instruct-2507_5.0_bits_mode_noise

20B • Updated Mar 28 • 4
inference-optimization/Qwen3-30B-A3B-Instruct-2507_5.0_bits_mode_heuristic

20B • Updated Mar 28 • 6
inference-optimization/Qwen3-30B-A3B-Instruct-2507_5.5_bits_mode_hybrid

22B • Updated Mar 28 • 1
inference-optimization/Qwen3-30B-A3B-Instruct-2507_5.5_bits_mode_noise

22B • Updated Mar 28
inference-optimization/Qwen3-30B-A3B-Instruct-2507_5.5_bits_mode_heuristic

22B • Updated Mar 28 • 3
inference-optimization/Qwen3-30B-A3B-Instruct-2507_6.0_bits_mode_hybrid

23B • Updated Mar 28 • 1
inference-optimization/Qwen3-30B-A3B-Instruct-2507_6.0_bits_mode_noise

23B • Updated Mar 28
inference-optimization/Qwen3-30B-A3B-Instruct-2507_6.0_bits_mode_heuristic

23B • Updated Mar 28 • 1
inference-optimization/Qwen3-30B-A3B-Instruct-2507_6.5_bits_mode_hybrid

25B • Updated Mar 28 • 2
inference-optimization/Qwen3-30B-A3B-Instruct-2507_6.5_bits_mode_noise

25B • Updated Mar 28
inference-optimization/Qwen3-30B-A3B-Instruct-2507_6.5_bits_mode_heuristic

25B • Updated Mar 28 • 1
inference-optimization/Qwen3-30B-A3B-Instruct-2507_7.0_bits_mode_hybrid

26B • Updated Mar 28 • 1
inference-optimization/Qwen3-30B-A3B-Instruct-2507_7.0_bits_mode_noise

26B • Updated Mar 28 • 2
inference-optimization/Qwen3-30B-A3B-Instruct-2507_7.0_bits_mode_heuristic

27B • Updated Mar 28 • 1

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs