Spaces:

nvidia
/

ProfBench

Running

App Files Files Community

zhilinw commited on Apr 5

Commit

3c94a08

verified ·

1 Parent(s): da92707

Upload 2 files

Browse files

Files changed (2) hide show

app.py +1 -1
report_generation.jsonl +2 -0

app.py CHANGED Viewed

@@ -111,7 +111,7 @@ with gr.Blocks(theme=theme) as app:
         with gr.TabItem("Report Generation"):
             with gr.Row():
                 with gr.Column(scale=7):
-                    gr.Markdown("Report Generation Leaderboard: LLMs generate reports with just the prompt, which are then evaluated by gpt-oss-120b (mixed) judge with the lite dataset (160 samples) \nEvaluation and cost estimation last performed on 29 Mar 2026.")
             with gr.Tabs(elem_id="inner-tabs", elem_classes="tabs-small") as tabs:
                 with gr.TabItem("Leaderboard"):

         with gr.TabItem("Report Generation"):
             with gr.Row():
                 with gr.Column(scale=7):
+                    gr.Markdown("Report Generation Leaderboard: LLMs generate reports with just the prompt, which are then evaluated by gpt-oss-120b (mixed) judge with the lite dataset (160 samples) \nEvaluation and cost estimation last performed on 5 Apr 2026.")
             with gr.Tabs(elem_id="inner-tabs", elem_classes="tabs-small") as tabs:
                 with gr.TabItem("Leaderboard"):

report_generation.jsonl CHANGED Viewed

@@ -68,3 +68,5 @@
 {"Model": "xAI/grok-4.20 Beta (Thinking)", "Category": "Closed-source Reasoning", "Overall": 43.8, "Physics": 34.4, "Chemistry": 64.8, "Finance": 19.6, "Consulting": 56.2, "Extraction": 32.9, "Reasoning": 43.0, "Style": 65.6, "Response Characters": 4003, "Input Tokens": 566, "Output Tokens": 9507, "Cost": 9.31}
 {"Model": "MiniMax/MiniMax-M2.7 (Thinking)", "Category": "Open-weight Reasoning", "Overall": 45.2, "Physics": 32.2, "Chemistry": 54.1, "Finance": 32.0, "Consulting": 62.6, "Extraction": 36.7, "Reasoning": 45.2, "Style": 62.1, "Response Characters": 8349, "Input Tokens": 486, "Output Tokens": 20522, "Cost": 3.96}
 {"Model": "MiniMax/MiniMax-M2.7", "Category": "Open-weight Instruct", "Overall": 40.2, "Physics": 28.0, "Chemistry": 49.8, "Finance": 25.7, "Consulting": 57.4, "Extraction": 30.7, "Reasoning": 37.2, "Style": 61.6, "Response Characters": 8124, "Input Tokens": 486, "Output Tokens": 17623, "Cost": 3.41}

 {"Model": "xAI/grok-4.20 Beta (Thinking)", "Category": "Closed-source Reasoning", "Overall": 43.8, "Physics": 34.4, "Chemistry": 64.8, "Finance": 19.6, "Consulting": 56.2, "Extraction": 32.9, "Reasoning": 43.0, "Style": 65.6, "Response Characters": 4003, "Input Tokens": 566, "Output Tokens": 9507, "Cost": 9.31}
 {"Model": "MiniMax/MiniMax-M2.7 (Thinking)", "Category": "Open-weight Reasoning", "Overall": 45.2, "Physics": 32.2, "Chemistry": 54.1, "Finance": 32.0, "Consulting": 62.6, "Extraction": 36.7, "Reasoning": 45.2, "Style": 62.1, "Response Characters": 8349, "Input Tokens": 486, "Output Tokens": 20522, "Cost": 3.96}
 {"Model": "MiniMax/MiniMax-M2.7", "Category": "Open-weight Instruct", "Overall": 40.2, "Physics": 28.0, "Chemistry": 49.8, "Finance": 25.7, "Consulting": 57.4, "Extraction": 30.7, "Reasoning": 37.2, "Style": 61.6, "Response Characters": 8124, "Input Tokens": 486, "Output Tokens": 17623, "Cost": 3.41}
+{"Model": "Google/Gemma-4-31B-It (Thinking)", "Category": "Open-weight Reasoning", "Overall": 44.4, "Physics": 35.6, "Chemistry": 52.2, "Finance": 21.4, "Consulting": 68.2, "Extraction": 33.0, "Reasoning": 44.6, "Style": 65.9, "Response Characters": 4102, "Input Tokens": 494, "Output Tokens": 6741, "Cost": 0.44}
+{"Model": "Google/Gemma-4-31B-It", "Category": "Open-weight Instruct", "Overall": 42.1, "Physics": 33.2, "Chemistry": 46.8, "Finance": 22.0, "Consulting": 66.3, "Extraction": 31.6, "Reasoning": 43.0, "Style": 66.5, "Response Characters": 3903, "Input Tokens": 492, "Output Tokens": 1333, "Cost": 0.1}