Spaces:

embedl
/

Edge-Inference-Benchmarks

Running

Jonna Marie Matthiesen Claude Opus 4.6 commited on 3 days ago

Commit

7671b7c

1 Parent(s): bd14011

Add accuracy tables, RTX 3500 Ada latency, and fix 270M variant grouping

- Add accuracy CSVs for Llama-3.2, Gemma-3, and Qwen3 (baseline vs FlashHead)
- Add RTX 3500 Ada TPS-only latency data for all families with README measurements
- Add Gemma-3-270M RTX 3500 Ada data (first latency data for this variant)
- Register rtx_3500_ada device in config with experiment setup
- Fix deriveBaseFamily regex to match M (million) suffixes so Gemma-3-270M
groups under Gemma-3 in the sidebar

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (8) hide show

app.js +1 -1
config.json +11 -4
data/Gemma-3.csv +8 -0
data/Llama-3.2.csv +8 -0
data/Qwen3.csv +4 -0
data/acc-Gemma-3.csv +3 -0
data/acc-Llama-3.2.csv +5 -0
data/acc-Qwen3.csv +3 -0

app.js CHANGED Viewed

@@ -113,7 +113,7 @@ let MODEL_FAMILIES = {};
 // Derive base family from config key by parsing model name patterns.
 // Size suffixes like -2B, -0.8B identify specific size variants.
 function deriveBaseFamily(key) {
-    const match = key.match(/^(.+?)-(\d+(?:\.\d+)?B)$/i);
     if (match) return match[1];
     return key;
 }

 // Derive base family from config key by parsing model name patterns.
 // Size suffixes like -2B, -0.8B identify specific size variants.
 function deriveBaseFamily(key) {
+    const match = key.match(/^(.+?)-(\d+(?:\.\d+)?[BM])$/i);
     if (match) return match[1];
     return key;
 }

config.json CHANGED Viewed

@@ -28,7 +28,8 @@
         "orin_nano": "Jetson Orin Nano Super",
         "orin_nano_super": "Jetson Orin Nano Super",
         "agx_orin": "Jetson AGX Orin",
-        "agx_thor": "Jetson AGX Thor"
       }
     }
   ],
@@ -227,28 +228,34 @@
     },
     "Llama-3.2": {
       "data_file": "data/Llama-3.2.csv",
       "experiment_setup": {
         "agx_thor": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 arm64, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
         "agx_orin": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
-        "orin_nano_super": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs."
       },
       "default_device": "agx_orin"
     },
     "Gemma-3": {
       "data_file": "data/Gemma-3.csv",
       "experiment_setup": {
         "agx_thor": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 arm64, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
         "agx_orin": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
-        "orin_nano_super": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs."
       },
       "default_device": "agx_orin"
     },
     "Qwen3": {
       "data_file": "data/Qwen3.csv",
       "experiment_setup": {
         "agx_thor": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 arm64, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
         "agx_orin": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
-        "orin_nano_super": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs."
       },
       "default_device": "agx_orin"
     }

         "orin_nano": "Jetson Orin Nano Super",
         "orin_nano_super": "Jetson Orin Nano Super",
         "agx_orin": "Jetson AGX Orin",
+        "agx_thor": "Jetson AGX Thor",
+        "rtx_3500_ada": "RTX 3500 Ada"
       }
     }
   ],
     },
     "Llama-3.2": {
       "data_file": "data/Llama-3.2.csv",
+      "accuracy_file": "data/acc-Llama-3.2.csv",
       "experiment_setup": {
         "agx_thor": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 arm64, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
         "agx_orin": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
+        "orin_nano_super": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
+        "rtx_3500_ada": "Measurement setup: vLLM 0.10.2, batch_size=1, 32 input tokens, 128 output tokens generated, 10 warm-up runs, averaged over 100 runs."
       },
       "default_device": "agx_orin"
     },
     "Gemma-3": {
       "data_file": "data/Gemma-3.csv",
+      "accuracy_file": "data/acc-Gemma-3.csv",
       "experiment_setup": {
         "agx_thor": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 arm64, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
         "agx_orin": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
+        "orin_nano_super": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
+        "rtx_3500_ada": "Measurement setup: vLLM 0.10.2, batch_size=1, 32 input tokens, 128 output tokens generated, 10 warm-up runs, averaged over 100 runs."
       },
       "default_device": "agx_orin"
     },
     "Qwen3": {
       "data_file": "data/Qwen3.csv",
+      "accuracy_file": "data/acc-Qwen3.csv",
       "experiment_setup": {
         "agx_thor": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 arm64, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
         "agx_orin": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
+        "orin_nano_super": "Measurement setup: NVIDIA AI IoT vLLM 0.19.0 tegra, 32 input tokens, 256 output tokens generated, 10 warm-up runs, averaged over 25 runs.",
+        "rtx_3500_ada": "Measurement setup: vLLM 0.10.2, batch_size=1, 32 input tokens, 128 output tokens generated, 10 warm-up runs, averaged over 100 runs."
       },
       "default_device": "agx_orin"
     }

data/Gemma-3.csv CHANGED Viewed

@@ -3,3 +3,11 @@ Gemma-3-1B,google/gemma-3-1b-it,text,1,agx_thor,N/A,N/A,N/A,3.2242,79.40,12.59,0
 Gemma-3-1B,embedl/gemma-3-1b-it-FlashHead,text,1,agx_thor,N/A,N/A,N/A,3.0829,83.04,12.04,0.00
 Gemma-3-1B,embedl/gemma-3-1b-it-FlashHead-W4A16,text,1,agx_thor,N/A,N/A,N/A,1.6719,153.12,6.53,0.00
 Gemma-3-1B,embedl/gemma-3-1b-it-W4A16,text,1,agx_thor,N/A,N/A,N/A,1.8132,141.18,7.08,0.00

 Gemma-3-1B,embedl/gemma-3-1b-it-FlashHead,text,1,agx_thor,N/A,N/A,N/A,3.0829,83.04,12.04,0.00
 Gemma-3-1B,embedl/gemma-3-1b-it-FlashHead-W4A16,text,1,agx_thor,N/A,N/A,N/A,1.6719,153.12,6.53,0.00
 Gemma-3-1B,embedl/gemma-3-1b-it-W4A16,text,1,agx_thor,N/A,N/A,N/A,1.8132,141.18,7.08,0.00
+Gemma-3-1B,google/gemma-3-1b-it,text,1,rtx_3500_ada,N/A,N/A,N/A,,148.00,,
+Gemma-3-1B,embedl/gemma-3-1b-it-FlashHead,text,1,rtx_3500_ada,N/A,N/A,N/A,,178.00,,
+Gemma-3-1B,embedl/gemma-3-1b-it-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,243.00,,
+Gemma-3-1B,embedl/gemma-3-1b-it-FlashHead-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,336.00,,
+Gemma-3-270M,google/gemma-3-270m-it,text,1,rtx_3500_ada,N/A,N/A,N/A,,397.00,,
+Gemma-3-270M,embedl/gemma-3-270m-it-FlashHead,text,1,rtx_3500_ada,N/A,N/A,N/A,,526.00,,
+Gemma-3-270M,embedl/gemma-3-270m-it-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,420.00,,
+Gemma-3-270M,embedl/gemma-3-270m-it-FlashHead-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,568.00,,

data/Llama-3.2.csv CHANGED Viewed

@@ -19,3 +19,11 @@ Llama-3.2-1B,meta-llama/Llama-3.2-1B-Instruct,text,1,orin_nano_super,N/A,N/A,N/A
 Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-FlashHead,text,1,orin_nano_super,N/A,N/A,N/A,5.8939,43.43,23.02,0.00
 Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-FlashHead-W4A16,text,1,orin_nano_super,N/A,N/A,N/A,2.2979,111.41,8.98,0.00
 Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-W4A16,text,1,orin_nano_super,N/A,N/A,N/A,3.2571,78.60,12.72,0.00

 Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-FlashHead,text,1,orin_nano_super,N/A,N/A,N/A,5.8939,43.43,23.02,0.00
 Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-FlashHead-W4A16,text,1,orin_nano_super,N/A,N/A,N/A,2.2979,111.41,8.98,0.00
 Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-W4A16,text,1,orin_nano_super,N/A,N/A,N/A,3.2571,78.60,12.72,0.00
+Llama-3.2-1B,meta-llama/Llama-3.2-1B-Instruct,text,1,rtx_3500_ada,N/A,N/A,N/A,,130.00,,
+Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-FlashHead,text,1,rtx_3500_ada,N/A,N/A,N/A,,163.00,,
+Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,278.00,,
+Llama-3.2-1B,embedl/Llama-3.2-1B-Instruct-FlashHead-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,485.00,,
+Llama-3.2-3B,meta-llama/Llama-3.2-3B-Instruct,text,1,rtx_3500_ada,N/A,N/A,N/A,,54.00,,
+Llama-3.2-3B,embedl/Llama-3.2-3B-Instruct-FlashHead,text,1,rtx_3500_ada,N/A,N/A,N/A,,58.00,,
+Llama-3.2-3B,embedl/Llama-3.2-3B-Instruct-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,141.00,,
+Llama-3.2-3B,embedl/Llama-3.2-3B-Instruct-FlashHead-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,177.00,,

data/Qwen3.csv CHANGED Viewed

@@ -11,3 +11,7 @@ Qwen3-1.7B,embedl/Qwen3-1.7B-FlashHead-W4A16,text,1,agx_orin,N/A,N/A,N/A,1.9020,
 Qwen3-1.7B,embedl/Qwen3-1.7B-W4A16,text,1,agx_orin,N/A,N/A,N/A,2.5357,100.96,9.91,0.00
 Qwen3-0.6B,Qwen/Qwen3-0.6B,text,1,agx_orin,N/A,N/A,N/A,2.1783,117.52,8.51,0.00
 Qwen3-0.6B,embedl/Qwen3-0.6B-FlashHead,text,1,agx_orin,N/A,N/A,N/A,1.8865,135.70,7.37,0.00

 Qwen3-1.7B,embedl/Qwen3-1.7B-W4A16,text,1,agx_orin,N/A,N/A,N/A,2.5357,100.96,9.91,0.00
 Qwen3-0.6B,Qwen/Qwen3-0.6B,text,1,agx_orin,N/A,N/A,N/A,2.1783,117.52,8.51,0.00
 Qwen3-0.6B,embedl/Qwen3-0.6B-FlashHead,text,1,agx_orin,N/A,N/A,N/A,1.8865,135.70,7.37,0.00
+Qwen3-1.7B,Qwen/Qwen3-1.7B,text,1,rtx_3500_ada,N/A,N/A,N/A,,100.00,,
+Qwen3-1.7B,embedl/Qwen3-1.7B-FlashHead,text,1,rtx_3500_ada,N/A,N/A,N/A,,114.00,,
+Qwen3-1.7B,embedl/Qwen3-1.7B-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,206.00,,
+Qwen3-1.7B,embedl/Qwen3-1.7B-FlashHead-W4A16,text,1,rtx_3500_ada,N/A,N/A,N/A,,271.00,,

data/acc-Gemma-3.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+Model,MMLU-Pro,IFEval,BBH,TruthfulQA,GSM8K
+google/gemma-3-1b-it,0.15,0.55,0.38,0.31,0.42
+embedl/gemma-3-1b-it-FlashHead,0.15,0.49,0.38,0.31,0.39

data/acc-Llama-3.2.csv ADDED Viewed

	@@ -0,0 +1,5 @@

+Model,MMLU-Pro,HellaSwag,IFEval,BoolQ,BBH,TruthfulQA,GSM8K
+meta-llama/Llama-3.2-1B-Instruct,0.18,0.59,0.45,0.69,0.38,0.36,0.46
+embedl/Llama-3.2-1B-Instruct-FlashHead,0.18,0.59,0.45,0.69,0.38,0.36,0.46
+meta-llama/Llama-3.2-3B-Instruct,0.31,,0.57,,0.57,0.57,0.77
+embedl/Llama-3.2-3B-Instruct-FlashHead,0.31,,0.56,,0.57,0.58,0.77

data/acc-Qwen3.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+Model,MMLU-Pro,IFEval,BBH,TruthfulQA,GSM8K
+Qwen/Qwen3-1.7B,0.38,0.24,0.45,0.47,0.13
+embedl/Qwen3-1.7B-FlashHead,0.38,0.25,0.45,0.47,0.12