benchmarks - a heroali Collection

heroali 's Collections

benchmarks

updated 1 day ago

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Paper • 2604.24300 • Published 15 days ago • 65
Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Paper • 2604.24198 • Published 15 days ago • 21
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Paper • 2605.04956 • Published 6 days ago • 5