Spaces:

agentDebugger
/

AgentDebugger-training-v3

Running

shank commited on 29 days ago

Commit

0181886

1 Parent(s): 212d2d9

Fix: Formatted the output

Files changed (2) hide show

.gitignore CHANGED Viewed

@@ -44,3 +44,5 @@ baseline_results.json
 # Temp sandbox files (should clean up but just in case)
 sandbox_*.py
 /tmp/sandbox_*

 # Temp sandbox files (should clean up but just in case)
 sandbox_*.py
 /tmp/sandbox_*
+instructions.md

inference.py CHANGED Viewed

@@ -170,6 +170,9 @@ def run_episode(task_id: str) -> dict:
     reset_resp.raise_for_status()
     obs = reset_resp.json()
     messages = [
         {"role": "system", "content": SYSTEM_PROMPT},
         {"role": "user",   "content": build_initial_message(obs)}
@@ -211,6 +214,9 @@ def run_episode(task_id: str) -> dict:
         info   = result["info"]
         last_result = result
         # Build context for next LLM call
         step_msg = build_step_message(obs, reward, info)
         messages.append({"role": "assistant", "content": raw})
@@ -220,7 +226,7 @@ def run_episode(task_id: str) -> dict:
             break
     final_obs = last_result["observation"]
-    return {
         "task_id":             task_id,
         "grader_score":        last_result["reward"]["grader_score"],
         "cumulative_reward":   last_result["reward"]["cumulative_reward"],
@@ -232,6 +238,11 @@ def run_episode(task_id: str) -> dict:
         "final_action_type":   action.get("action_type", "unknown")
     }
 def main():
     print("AgentDebuggerEnv — Baseline Inference")

     reset_resp.raise_for_status()
     obs = reset_resp.json()
+    # [START] task=NAME
+    print(f"[START] task={task_id}", flush=True)
     messages = [
         {"role": "system", "content": SYSTEM_PROMPT},
         {"role": "user",   "content": build_initial_message(obs)}
         info   = result["info"]
         last_result = result
+        # [STEP] step=N reward=R
+        print(f"[STEP] step={obs['step_number']} reward={reward['step_reward']}", flush=True)
         # Build context for next LLM call
         step_msg = build_step_message(obs, reward, info)
         messages.append({"role": "assistant", "content": raw})
             break
     final_obs = last_result["observation"]
+    result = {
         "task_id":             task_id,
         "grader_score":        last_result["reward"]["grader_score"],
         "cumulative_reward":   last_result["reward"]["cumulative_reward"],
         "final_action_type":   action.get("action_type", "unknown")
     }
+    # [END] task=NAME score=S steps=N
+    print(f"[END] task={task_id} score={result['grader_score']} steps={result['steps_taken']}", flush=True)
+    return result
 def main():
     print("AgentDebuggerEnv — Baseline Inference")