Evaluation - a ad-c-kl Collection

ad-c-kl 's Collections

Prompt Engineering

Evaluation

updated 1 day ago

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Paper • 2604.10866 • Published 5 days ago • 58