Spaces:

uvpatel7271
/

openenv-python-env

Sleeping

App Files Files Community

uvpatel7271 commited on 25 days ago

Commit

76d888a

verified ·

1 Parent(s): 1595dbc

Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

Dockerfile +1 -1
client.py +10 -6
compat.py +92 -0
graders/optimization.py +70 -66
graders/pytest_runner.py +100 -59
inference.py +462 -291
models.py +88 -36
openenv_python_env.egg-info/PKG-INFO +13 -0
openenv_python_env.egg-info/SOURCES.txt +27 -0
openenv_python_env.egg-info/dependency_links.txt +1 -0
openenv_python_env.egg-info/entry_points.txt +2 -0
openenv_python_env.egg-info/requires.txt +9 -0
openenv_python_env.egg-info/top_level.txt +1 -0
server/app.py +36 -16
server/env.py +1 -790
server/env_safe.py +492 -0
tasks/task_bank.py +36 -52

Dockerfile CHANGED Viewed

@@ -13,7 +13,7 @@ RUN apt-get update && apt-get install -y --no-install-recommends \
 COPY . /app
 # Install Python dependencies
-RUN pip install --no-cache-dir -r server/requirements.txt
 # Set environment variables
 ENV PYTHONUNBUFFERED=1

 COPY . /app
 # Install Python dependencies
+RUN pip install --no-cache-dir -r requirements.txt
 # Set environment variables
 ENV PYTHONUNBUFFERED=1

client.py CHANGED Viewed

@@ -1,11 +1,15 @@
 """Client for the Python code review environment."""
-from __future__ import annotations
-from typing import Dict
-from openenv.core import EnvClient
-from openenv.core.client_types import StepResult
 from models import (
     HistoryEntry,

 """Client for the Python code review environment."""
+from __future__ import annotations
+from typing import Dict
+from compat import install_openenv_fastmcp_compat
+install_openenv_fastmcp_compat()
+from openenv.core import EnvClient
+from openenv.core.client_types import StepResult
 from models import (
     HistoryEntry,

compat.py ADDED Viewed

	@@ -0,0 +1,92 @@

+"""Compatibility helpers for OpenEnv and FastMCP runtime drift."""
+from __future__ import annotations
+import sys
+import types
+from typing import Any, Optional
+def install_openenv_fastmcp_compat() -> None:
+    """Patch FastMCP API differences so older OpenEnv builds keep importing."""
+    try:
+        import fastmcp  # type: ignore
+    except Exception:
+        return
+    try:
+        if not hasattr(fastmcp, "Client"):
+            class CompatClient:
+                """Minimal async MCP client used for legacy OpenEnv imports."""
+                def __init__(self, *args: Any, **kwargs: Any) -> None:
+                    self.args = args
+                    self.kwargs = kwargs
+                async def __aenter__(self) -> "CompatClient":
+                    return self
+                async def __aexit__(self, exc_type: Any, exc: Any, tb: Any) -> bool:
+                    return False
+                async def list_tools(self) -> list[Any]:
+                    return []
+                async def call_tool(self, tool_name: str, arguments: dict[str, Any]) -> Any:
+                    raise RuntimeError(
+                        f"MCP client compatibility mode cannot call tool: {tool_name}"
+                    )
+            fastmcp.Client = CompatClient  # type: ignore[attr-defined]
+    except Exception:
+        pass
+    try:
+        client_pkg = sys.modules.get("fastmcp.client")
+        if client_pkg is None:
+            client_pkg = types.ModuleType("fastmcp.client")
+            sys.modules["fastmcp.client"] = client_pkg
+        client_mod = sys.modules.get("fastmcp.client.client")
+        if client_mod is None:
+            client_mod = types.ModuleType("fastmcp.client.client")
+            sys.modules["fastmcp.client.client"] = client_mod
+        if not hasattr(client_mod, "CallToolResult"):
+            class CallToolResult:
+                """Compatibility container for legacy OpenEnv response handling."""
+                def __init__(
+                    self,
+                    content: Any = None,
+                    structured_content: Any = None,
+                    meta: Any = None,
+                    data: Any = None,
+                    is_error: bool = False,
+                ) -> None:
+                    self.content = content
+                    self.structured_content = structured_content
+                    self.meta = meta
+                    self.data = data
+                    self.is_error = is_error
+            client_mod.CallToolResult = CallToolResult
+        client_pkg.client = client_mod  # type: ignore[attr-defined]
+    except Exception:
+        pass
+install_openenv_fastmcp_compat()
+try:
+    from openenv.core.env_server.http_server import create_app as openenv_create_app
+    from openenv.core.env_server.interfaces import Environment
+    from openenv.core.env_server.types import Action, Observation, State
+except Exception as exc:  # pragma: no cover
+    raise RuntimeError(f"OpenEnv runtime import failed after compatibility patch: {exc}") from exc
+create_app = openenv_create_app

graders/optimization.py CHANGED Viewed

@@ -31,61 +31,64 @@ Path("benchmark.json").write_text(json.dumps({{"elapsed": elapsed, "rows": len(r
 """
-def benchmark_runtime(candidate_code: str, task: TaskSpec) -> tuple[float, bool, str]:
-    """Benchmark runtime deterministically against the starter implementation."""
-    assert task.benchmark_entrypoint is not None
-    with tempfile.TemporaryDirectory(prefix="python-code-review-bench-") as temp_dir:
-        temp_path = Path(temp_dir)
-        (temp_path / "candidate.py").write_text(candidate_code, encoding="utf-8")
-        (temp_path / "starter.py").write_text(task.starter_code, encoding="utf-8")
-        (temp_path / "candidate_runner.py").write_text(_benchmark_script(task), encoding="utf-8")
-        starter_script = _benchmark_script(task).replace("from candidate import", "from starter import")
-        (temp_path / "starter_runner.py").write_text(starter_script, encoding="utf-8")
-        try:
-            starter_run = subprocess.run(
-                [sys.executable, "starter_runner.py"],
-                cwd=temp_path,
-                capture_output=True,
-                text=True,
-                timeout=task.benchmark_timeout_s,
-                check=False,
-            )
-            starter_payload = json.loads((temp_path / "benchmark.json").read_text(encoding="utf-8"))
-            candidate_run = subprocess.run(
-                [sys.executable, "candidate_runner.py"],
-                cwd=temp_path,
-                capture_output=True,
-                text=True,
-                timeout=task.benchmark_timeout_s,
-                check=False,
-            )
-            candidate_payload = json.loads((temp_path / "benchmark.json").read_text(encoding="utf-8"))
-        except subprocess.TimeoutExpired as exc:
-            output = (exc.stdout or "") + (exc.stderr or "")
-            return 0.0, True, (output or "benchmark timed out").strip()
-        except Exception as exc:  # pragma: no cover
-            return 0.0, False, str(exc)
-        starter_elapsed = max(float(starter_payload["elapsed"]), 1e-9)
-        candidate_elapsed = max(float(candidate_payload["elapsed"]), 1e-9)
-        speedup = starter_elapsed / candidate_elapsed
-        runtime_score = clamp_score(min((speedup - 1.0) / 3.0, 1.0))
-        output = "\n".join(
-            part
-            for part in [
-                starter_run.stdout.strip(),
-                starter_run.stderr.strip(),
-                candidate_run.stdout.strip(),
-                candidate_run.stderr.strip(),
-                f"starter={starter_elapsed:.6f}s candidate={candidate_elapsed:.6f}s speedup={speedup:.2f}x",
-            ]
-            if part
-        )
-        return runtime_score, False, output
 def ast_quality_score(code: str, task: TaskSpec) -> float:
@@ -147,17 +150,18 @@ def grade_optimization_task(candidate_code: str, task: TaskSpec) -> TaskGrade:
         + (0.15 * quality_score)
         + (0.05 * pep8_score)
     )
-    return TaskGrade(
-        score=score,
-        syntax_score=1.0,
-        tests_passed=execution.passed,
-        tests_total=execution.total,
-        quality_score=quality_score,
-        details={
-            "tests": execution.output,
-            "benchmark": benchmark_output,
-            "test_fraction": round(test_fraction, 4),
-            "runtime_score": round(runtime_score, 4),
             "style_score": round(pep8_score, 4),
         },
     )

 """
+def benchmark_runtime(candidate_code: str, task: TaskSpec) -> tuple[float, bool, str]:
+    """Benchmark runtime deterministically against the starter implementation."""
+    assert task.benchmark_entrypoint is not None
+    try:
+        with tempfile.TemporaryDirectory(prefix="python-code-review-bench-") as temp_dir:
+            temp_path = Path(temp_dir)
+            (temp_path / "candidate.py").write_text(candidate_code, encoding="utf-8")
+            (temp_path / "starter.py").write_text(task.starter_code, encoding="utf-8")
+            (temp_path / "candidate_runner.py").write_text(_benchmark_script(task), encoding="utf-8")
+            starter_script = _benchmark_script(task).replace("from candidate import", "from starter import")
+            (temp_path / "starter_runner.py").write_text(starter_script, encoding="utf-8")
+            try:
+                starter_run = subprocess.run(
+                    [sys.executable, "starter_runner.py"],
+                    cwd=temp_path,
+                    capture_output=True,
+                    text=True,
+                    timeout=task.benchmark_timeout_s,
+                    check=False,
+                )
+                starter_payload = json.loads((temp_path / "benchmark.json").read_text(encoding="utf-8"))
+                candidate_run = subprocess.run(
+                    [sys.executable, "candidate_runner.py"],
+                    cwd=temp_path,
+                    capture_output=True,
+                    text=True,
+                    timeout=task.benchmark_timeout_s,
+                    check=False,
+                )
+                candidate_payload = json.loads((temp_path / "benchmark.json").read_text(encoding="utf-8"))
+            except subprocess.TimeoutExpired as exc:
+                output = (exc.stdout or "") + (exc.stderr or "")
+                return 0.0, True, (output or "benchmark timed out").strip()
+            except Exception as exc:  # pragma: no cover
+                return 0.0, False, str(exc)
+            starter_elapsed = max(float(starter_payload["elapsed"]), 1e-9)
+            candidate_elapsed = max(float(candidate_payload["elapsed"]), 1e-9)
+            speedup = starter_elapsed / candidate_elapsed
+            runtime_score = clamp_score(min((speedup - 1.0) / 3.0, 1.0))
+            output = "\n".join(
+                part
+                for part in [
+                    starter_run.stdout.strip(),
+                    starter_run.stderr.strip(),
+                    candidate_run.stdout.strip(),
+                    candidate_run.stderr.strip(),
+                    f"starter={starter_elapsed:.6f}s candidate={candidate_elapsed:.6f}s speedup={speedup:.2f}x",
+                ]
+                if part
+            )
+            return runtime_score, False, output
+    except Exception as exc:  # pragma: no cover
+        return 0.0, False, str(exc)
 def ast_quality_score(code: str, task: TaskSpec) -> float:
         + (0.15 * quality_score)
         + (0.05 * pep8_score)
     )
+    return TaskGrade(
+        score=score,
+        syntax_score=1.0,
+        tests_passed=execution.passed,
+        tests_total=execution.total,
+        quality_score=quality_score,
+        runtime_score=runtime_score,
+        details={
+            "tests": execution.output,
+            "benchmark": benchmark_output,
+            "test_fraction": round(test_fraction, 4),
+            "runtime_score": round(runtime_score, 4),
             "style_score": round(pep8_score, 4),
         },
     )

graders/pytest_runner.py CHANGED Viewed

@@ -12,17 +12,38 @@ from typing import Iterable
 @dataclass(frozen=True)
-class PytestExecution:
     """Exact pytest execution summary."""
     passed: int
     failed: int
     total: int
-    timed_out: bool
-    output: str
-def _runner_script() -> str:
     return """import json
 import pathlib
 import pytest
@@ -53,56 +74,76 @@ pathlib.Path("pytest_results.json").write_text(json.dumps(payload), encoding="ut
 """
-def run_pytest_suite(candidate_code: str, tests: Iterable[str], timeout_s: float = 3.0) -> PytestExecution:
-    """Run a pytest suite against candidate.py and return structured results."""
-    test_cases = list(tests)
-    with tempfile.TemporaryDirectory(prefix="python-code-review-") as temp_dir:
-        temp_path = Path(temp_dir)
-        (temp_path / "candidate.py").write_text(candidate_code, encoding="utf-8")
-        (temp_path / "test_candidate.py").write_text("\n\n".join(test_cases), encoding="utf-8")
-        (temp_path / "runner.py").write_text(_runner_script(), encoding="utf-8")
-        try:
-            completed = subprocess.run(
-                [sys.executable, "runner.py"],
-                cwd=temp_path,
-                capture_output=True,
-                text=True,
-                timeout=timeout_s,
-                check=False,
-            )
-        except subprocess.TimeoutExpired as exc:
-            output = (exc.stdout or "") + (exc.stderr or "")
-            return PytestExecution(
-                passed=0,
-                failed=max(len(test_cases), 1),
-                total=max(len(test_cases), 1),
-                timed_out=True,
-                output=(output or "pytest timed out").strip(),
-            )
-        result_path = temp_path / "pytest_results.json"
-        if not result_path.exists():
-            output = (completed.stdout or "") + (completed.stderr or "")
-            total = max(len(test_cases), 1)
-            return PytestExecution(
-                passed=0,
-                failed=total,
-                total=total,
-                timed_out=False,
-                output=output.strip(),
-            )
-        payload = json.loads(result_path.read_text(encoding="utf-8"))
-        passed = int(payload.get("passed", 0))
-        failed = int(payload.get("failed", 0))
-        total = max(passed + failed, len(test_cases))
-        output = ((completed.stdout or "") + (completed.stderr or "")).strip()
-        return PytestExecution(
-            passed=passed,
-            failed=failed,
-            total=total,
-            timed_out=False,
-            output=output,
-        )

 @dataclass(frozen=True)
+class PytestExecution:
     """Exact pytest execution summary."""
     passed: int
     failed: int
     total: int
+    timed_out: bool
+    output: str
+def _test_module_source(tests: Iterable[str]) -> str:
+    """Build a valid pytest module from expression-style or full test snippets."""
+    blocks: list[str] = ["from candidate import *  # noqa: F401,F403"]
+    for index, test in enumerate(tests, start=1):
+        snippet = str(test).strip()
+        if not snippet:
+            continue
+        if snippet.startswith("def test_"):
+            blocks.append(snippet)
+            continue
+        blocks.append(
+            "\n".join(
+                [
+                    f"def test_case_{index:03d}():",
+                    f"    assert {snippet}",
+                ]
+            )
+        )
+    return "\n\n".join(blocks) or "def test_placeholder():\n    assert True\n"
+def _runner_script() -> str:
     return """import json
 import pathlib
 import pytest
 """
+def run_pytest_suite(candidate_code: str, tests: Iterable[str], timeout_s: float = 3.0) -> PytestExecution:
+    """Run a pytest suite against candidate.py and return structured results."""
+    test_cases = list(tests)
+    try:
+        with tempfile.TemporaryDirectory(prefix="python-code-review-") as temp_dir:
+            temp_path = Path(temp_dir)
+            (temp_path / "candidate.py").write_text(candidate_code, encoding="utf-8")
+            (temp_path / "test_candidate.py").write_text(_test_module_source(test_cases), encoding="utf-8")
+            (temp_path / "runner.py").write_text(_runner_script(), encoding="utf-8")
+            try:
+                completed = subprocess.run(
+                    [sys.executable, "runner.py"],
+                    cwd=temp_path,
+                    capture_output=True,
+                    text=True,
+                    timeout=timeout_s,
+                    check=False,
+                )
+            except subprocess.TimeoutExpired as exc:
+                output = (exc.stdout or "") + (exc.stderr or "")
+                return PytestExecution(
+                    passed=0,
+                    failed=max(len(test_cases), 1),
+                    total=max(len(test_cases), 1),
+                    timed_out=True,
+                    output=(output or "pytest timed out").strip(),
+                )
+            result_path = temp_path / "pytest_results.json"
+            if not result_path.exists():
+                output = (completed.stdout or "") + (completed.stderr or "")
+                total = max(len(test_cases), 1)
+                return PytestExecution(
+                    passed=0,
+                    failed=total,
+                    total=total,
+                    timed_out=False,
+                    output=output.strip(),
+                )
+            try:
+                payload = json.loads(result_path.read_text(encoding="utf-8"))
+            except Exception as exc:
+                output = ((completed.stdout or "") + (completed.stderr or "")).strip()
+                return PytestExecution(
+                    passed=0,
+                    failed=max(len(test_cases), 1),
+                    total=max(len(test_cases), 1),
+                    timed_out=False,
+                    output=(output or str(exc)).strip(),
+                )
+            passed = int(payload.get("passed", 0))
+            failed = int(payload.get("failed", 0))
+            total = max(passed + failed, len(test_cases))
+            output = ((completed.stdout or "") + (completed.stderr or "")).strip()
+            return PytestExecution(
+                passed=passed,
+                failed=failed,
+                total=total,
+                timed_out=False,
+                output=output,
+            )
+    except Exception as exc:
+        return PytestExecution(
+            passed=0,
+            failed=max(len(test_cases), 1),
+            total=max(len(test_cases), 1),
+            timed_out=False,
+            output=str(exc),
+        )

inference.py CHANGED Viewed

@@ -1,291 +1,462 @@
-#!/usr/bin/env python3
-"""
-Baseline inference script for python_code_review_env.
-Demonstrates how to run an OpenEnv environment using OpenAI-compatible API,
-supporting free/open models like Gemini, DeepSeek, Together AI, OpenRouter, etc.
-Usage:
-    # Using Gemini (free tier)
-    export OPENAI_API_KEY="your-gemini-api-key"
-    python inference.py --base-url "https://generativelanguage.googleapis.com/openai/" --model "gemini-2.0-flash"
-    # Using DeepSeek (free tier)
-    export OPENAI_API_KEY="your-deepseek-api-key"
-    python inference.py --base-url "https://api.deepseek.com" --model "deepseek-chat"
-    # Using Together AI
-    export OPENAI_API_KEY="your-together-api-key"
-    python inference.py --base-url "https://api.together.xyz/v1" --model "deepseek-ai/deepseek-chat"
-    # Using local OpenAI (default)
-    python inference.py --base-url "http://localhost:8000/v1" --model "gpt-3.5-turbo"
-"""
-from __future__ import annotations
-import argparse
-import json
-import os
-import sys
-from typing import Optional
-from openai import OpenAI
-# Import environment and models
-from server.env import PythonCodeReviewEnvironment
-from models import (
-    PythonCodeReviewAction,
-    PythonCodeReviewObservation,
-)
-from tasks import task_ids
-def get_model_config(base_url: Optional[str], model: str, api_key: Optional[str]) -> tuple[str, str, str]:
-    """Determine API configuration from environment or arguments."""
-    # API Key
-    final_api_key = api_key or os.getenv("OPENAI_API_KEY", "")
-    if not final_api_key:
-        print("Warning: OPENAI_API_KEY not set. Using dummy key for local testing.")
-        final_api_key = "sk-test"
-    # Base URL
-    final_base_url = base_url or os.getenv("OPENAI_API_BASE", "http://localhost:8000/v1")
-    # Model
-    final_model = model or os.getenv("MODEL_NAME", "gpt-3.5-turbo")
-    return final_base_url, final_model, final_api_key
-def build_prompt_for_task(observation: PythonCodeReviewObservation) -> str:
-    """Construct task-specific prompt for the LLM."""
-    return f"""You are an expert Python code reviewer. Your job is to fix and improve Python code.
-TASK: {observation.task_description}
-DIFFICULTY: {observation.difficulty.upper()}
-VISIBLE TEST CASES:
-{chr(10).join(f"- {test}" for test in observation.visible_tests) or "- No visible tests"}
-CURRENT CODE:
-```python
-{observation.current_code}
-```
-{f"ERRORS: {observation.errors}" if observation.errors else ""}
-{f"TEST RESULTS: {observation.test_results}" if observation.test_results else ""}
-You have {observation.attempts_remaining} attempts left.
-Current score: {observation.score:.3f}
-Analyze the code and decide what to do next:
-1. If you see syntax errors, provide fixed code
-2. If tests are failing, analyze why and fix logic
-3. If code looks good, submit your solution
-4. For optimization tasks, improve efficiency while keeping tests passing
-Respond ONLY with a JSON object in this exact format (no markdown, no backticks):
-{{
-  "action_type": "analyze_code|edit_code|run_tests|submit_solution",
-  "code": "...only if action_type is edit_code...",
-  "reasoning": "brief explanation"
-}}
-"""
-def run_task_episode(
-    env: PythonCodeReviewEnvironment,
-    task_id: str,
-    client: OpenAI,
-    model: str,
-    max_steps: int = 10,
-    verbose: bool = True,
-) -> float:
-    """Run one complete task episode and return the score."""
-    # Reset environment for this task
-    observation = env.reset(task_id=task_id)
-    total_reward = 0.0
-    step_count = 0
-    if verbose:
-        print(f"\n{'='*70}")
-        print(f"TASK: {task_id} ({observation.difficulty})")
-        print(f"{'='*70}")
-    while not observation.done and step_count < max_steps:
-        step_count += 1
-        # Get action from LLM
-        try:
-            prompt = build_prompt_for_task(observation)
-            response = client.chat.completions.create(
-                model=model,
-                messages=[{"role": "user", "content": prompt}],
-                temperature=0.7,
-                max_tokens=2000,
-            )
-            response_text = response.choices[0].message.content or ""
-            # Try to parse JSON from response
-            try:
-                # Find JSON in the response
-                json_start = response_text.find("{")
-                json_end = response_text.rfind("}") + 1
-                if json_start >= 0 and json_end > json_start:
-                    json_str = response_text[json_start:json_end]
-                    action_dict = json.loads(json_str)
-                else:
-                    raise ValueError("No JSON found in response")
-            except (json.JSONDecodeError, ValueError) as e:
-                if verbose:
-                    print(f"Step {step_count}: Failed to parse response: {e}")
-                    print(f"Response: {response_text[:200]}")
-                # Fallback to analyze_code
-                action_dict = {"action_type": "analyze_code"}
-            # Build action
-            action = PythonCodeReviewAction(
-                action_type=action_dict.get("action_type", "analyze_code"),
-                code=action_dict.get("code"),
-            )
-        except Exception as e:
-            if verbose:
-                print(f"Step {step_count}: Error getting LLM response: {e}")
-            # Fallback action
-            action = PythonCodeReviewAction(action_type="analyze_code")
-        # Execute action
-        observation = env.step(action)
-        step_reward = float(observation.reward or 0.0)
-        total_reward += step_reward
-        if verbose:
-            print(f"Step {step_count}: {action.action_type}")
-            print(f"  Reward: {step_reward:+.4f} Done: {observation.done}")
-            if step_reward != 0 or observation.reward_details.reason:
-                print(f"  Reward Details: {observation.reward_details.reason}")
-            if observation.last_action_status:
-                print(f"  Status: {observation.last_action_status}")
-            if observation.errors:
-                print(f"  Errors: {observation.errors}")
-            if observation.test_results:
-                print(f"  Tests: {observation.test_results}")
-    final_score = observation.score
-    if verbose:
-        print(f"\nFinal Score: {final_score:.3f} (Total Reward: {total_reward:.4f})")
-    return final_score
-def main(args: Optional[list[str]] = None) -> None:
-    """Run baseline evaluation on all tasks."""
-    parser = argparse.ArgumentParser(
-        description="Baseline inference for python_code_review_env",
-        formatter_class=argparse.RawDescriptionHelpFormatter,
-        epilog=__doc__,
-    )
-    parser.add_argument(
-        "--base-url",
-        default=None,
-        help="API base URL (default: OPENAI_API_BASE or http://localhost:8000/v1)",
-    )
-    parser.add_argument(
-        "--model",
-        default=None,
-        help="Model name (default: MODEL_NAME or gpt-3.5-turbo)",
-    )
-    parser.add_argument(
-        "--api-key",
-        default=None,
-        help="API key (default: OPENAI_API_KEY)",
-    )
-    parser.add_argument(
-        "--task",
-        default=None,
-        help="Run single task instead of all",
-    )
-    parser.add_argument(
-        "--quiet",
-        action="store_true",
-        help="Minimize output",
-    )
-    parser.add_argument(
-        "--max-steps",
-        type=int,
-        default=10,
-        help="Max steps per episode",
-    )
-    parsed = parser.parse_args(args)
-    # Get configuration
-    base_url, model, api_key = get_model_config(
-        parsed.base_url,
-        parsed.model,
-        parsed.api_key,
-    )
-    print(f"Configuration:")
-    print(f"  Base URL: {base_url}")
-    print(f"  Model: {model}")
-    print(f"  Max steps per episode: {parsed.max_steps}")
-    print()
-    # Initialize client
-    try:
-        client = OpenAI(api_key=api_key, base_url=base_url)
-        # Test connection
-        client.models.list()
-    except Exception as e:
-        print(f"Warning: Could not verify API connection: {e}")
-        print("Proceeding anyway...")
-    # Initialize environment
-    env = PythonCodeReviewEnvironment()
-    # Run task(s)
-    tasks_to_run = [parsed.task] if parsed.task else list(task_ids())
-    scores = {}
-    for task_id in tasks_to_run:
-        try:
-            score = run_task_episode(
-                env,
-                task_id,
-                client,
-                model,
-                max_steps=parsed.max_steps,
-                verbose=not parsed.quiet,
-            )
-            scores[task_id] = score
-        except Exception as e:
-            print(f"Error running task {task_id}: {e}")
-            scores[task_id] = 0.0
-    # Print summary
-    print(f"\n{'='*70}")
-    print("SUMMARY")
-    print(f"{'='*70}")
-    for task_id, score in scores.items():
-        print(f"{task_id:30s} : {score:.3f}")
-    if len(scores) > 1:
-        avg_score = sum(scores.values()) / len(scores)
-        print(f"{'Average Score':30s} : {avg_score:.3f}")
-    return 0 if all(s > 0 for s in scores.values()) else 1
-if __name__ == "__main__":
-    sys.exit(main())

+#!/usr/bin/env python3
+"""Fail-safe inference entrypoint for the Python code review environment."""
+from __future__ import annotations
+import io
+import json
+import os
+import subprocess
+import sys
+import time
+from collections.abc import Iterable
+from contextlib import redirect_stderr, redirect_stdout
+from typing import Any, Dict, Optional
+from compat import install_openenv_fastmcp_compat
+try:
+    from openai import OpenAI
+except Exception:
+    OpenAI = None  # type: ignore[assignment]
+install_openenv_fastmcp_compat()
+try:
+    from server.env import PythonCodeReviewEnvironment
+except Exception:
+    PythonCodeReviewEnvironment = None  # type: ignore[assignment]
+try:
+    from models import PythonCodeReviewAction
+except Exception:
+    PythonCodeReviewAction = None  # type: ignore[assignment]
+try:
+    from tasks import task_ids
+except Exception:
+    task_ids = None  # type: ignore[assignment]
+ALLOWED_ACTIONS = {
+    "analyze_code",
+    "edit_code",
+    "run_tests",
+    "submit_solution",
+}
+DEFAULT_MODEL_NAME = "mock-model"
+DEFAULT_ACTION = {"action_type": "analyze_code", "code": None, "fallback_reason": "mock_response"}
+API_TIMEOUT_SECONDS = 3.0
+API_RETRIES = 1
+API_RETRY_DELAY_SECONDS = 0.2
+MAX_STEPS = 2
+def safe_env(name: str, default: str = "") -> str:
+    """Read an allowed environment variable and return a safe string default."""
+    try:
+        value = os.getenv(name)
+        if value is None:
+            return default
+        return str(value)
+    except Exception:
+        return default
+def clamp(value: float, low: float = 0.0, high: float = 1.0) -> float:
+    """Clamp a numeric value to a bounded range."""
+    try:
+        return max(low, min(high, float(value)))
+    except Exception:
+        return low
+def safe_float(value: Any, default: float = 0.0) -> float:
+    """Convert a value to float without raising."""
+    try:
+        return float(value)
+    except Exception:
+        return default
+def safe_text(value: Any, default: str = "") -> str:
+    """Convert any value into a bounded, printable string."""
+    try:
+        text = str(value)
+    except Exception:
+        return default
+    text = " ".join(text.split())
+    return text[:160] if text else default
+def safe_getattr(obj: Any, name: str, default: Any = None) -> Any:
+    """Fetch an attribute from an object without raising."""
+    try:
+        return getattr(obj, name, default)
+    except Exception:
+        return default
+def parse_json_response(raw_text: str) -> Dict[str, Any]:
+    """Parse model output into a safe action payload with deterministic fallback."""
+    try:
+        text = raw_text or ""
+        start = text.find("{")
+        end = text.rfind("}") + 1
+        if start >= 0 and end > start:
+            payload = json.loads(text[start:end])
+            if isinstance(payload, dict):
+                action_type = payload.get("action_type", DEFAULT_ACTION["action_type"])
+                code = payload.get("code")
+                if action_type not in ALLOWED_ACTIONS:
+                    action_type = DEFAULT_ACTION["action_type"]
+                if action_type != "edit_code":
+                    code = None
+                return {
+                    "action_type": action_type,
+                    "code": code,
+                    "fallback_reason": "",
+                }
+    except Exception:
+        pass
+    return dict(DEFAULT_ACTION)
+def build_prompt(observation: Any) -> str:
+    """Build a short prompt from the current observation with safe defaults."""
+    try:
+        task_description = safe_text(safe_getattr(observation, "task_description", ""), "No task description.")
+        current_code = safe_text(safe_getattr(observation, "current_code", ""), "")
+        errors = safe_text(safe_getattr(observation, "errors", ""), "")
+        tests = safe_text(safe_getattr(observation, "test_results", ""), "")
+        score = clamp(safe_getattr(observation, "score", 0.0))
+        visible_tests = safe_getattr(observation, "visible_tests", [])
+        if not isinstance(visible_tests, Iterable) or isinstance(visible_tests, (str, bytes)):
+            visible_tests = []
+        visible_lines = []
+        for item in list(visible_tests)[:4]:
+            visible_lines.append(f"- {safe_text(item, 'unknown test')}")
+        visible_block = "\n".join(visible_lines) if visible_lines else "- none"
+        return (
+            "Return exactly one JSON object with keys action_type and optional code.\n"
+            "Allowed action_type values: analyze_code, edit_code, run_tests, submit_solution.\n"
+            f"Task: {task_description}\n"
+            f"Score: {score:.3f}\n"
+            f"Errors: {errors or 'none'}\n"
+            f"Tests: {tests or 'not available'}\n"
+            f"Visible tests:\n{visible_block}\n"
+            f"Code:\n{current_code}\n"
+        )
+    except Exception:
+        return (
+            "Return exactly one JSON object with keys action_type and optional code. "
+            "Use action_type analyze_code."
+        )
+def create_client() -> Optional[Any]:
+    """Create an OpenAI-compatible client using only the allowed environment variables."""
+    if OpenAI is None:
+        return None
+    base_url = safe_env("API_BASE_URL", "")
+    if not base_url:
+        return None
+    try:
+        if safe_env("HF_TOKEN", ""):
+            os.environ["OPENAI_API_KEY"] = safe_env("HF_TOKEN", "")
+    except Exception:
+        pass
+    try:
+        client = OpenAI(base_url=os.getenv("API_BASE_URL"))
+        return client
+    except Exception:
+        return None
+def run_llm(client: Optional[Any], model: str, prompt: str) -> Dict[str, Any]:
+    """Call the LLM with timeout and retry, then fall back to a mock action."""
+    if client is None:
+        fallback = dict(DEFAULT_ACTION)
+        fallback["fallback_reason"] = "client_unavailable"
+        return fallback
+    last_reason = "llm_unavailable"
+    for attempt in range(API_RETRIES + 1):
+        try:
+            with redirect_stdout(io.StringIO()), redirect_stderr(io.StringIO()):
+                response = client.with_options(timeout=API_TIMEOUT_SECONDS).chat.completions.create(
+                    model=model,
+                    messages=[{"role": "user", "content": prompt}],
+                    temperature=0,
+                    max_tokens=300,
+                )
+            message = safe_getattr(response.choices[0].message, "content", "")
+            parsed = parse_json_response(message)
+            if parsed.get("fallback_reason"):
+                parsed["fallback_reason"] = "parse_failed"
+            return parsed
+        except Exception as exc:
+            last_reason = safe_text(exc, "llm_error").lower().replace(" ", "_")
+            if attempt < API_RETRIES:
+                try:
+                    time.sleep(API_RETRY_DELAY_SECONDS * (attempt + 1))
+                except Exception:
+                    pass
+    fallback = dict(DEFAULT_ACTION)
+    fallback["fallback_reason"] = last_reason[:48] or "llm_retry_exhausted"
+    return fallback
+def probe_docker(image_name: str) -> Dict[str, Any]:
+    """Safely validate Docker connectivity when a local image name is provided."""
+    if not image_name:
+        return {"checked": False, "available": False, "reason": "docker_skip"}
+    try:
+        with redirect_stdout(io.StringIO()), redirect_stderr(io.StringIO()):
+            result = subprocess.run(
+                ["docker", "image", "inspect", image_name],
+                capture_output=True,
+                text=True,
+                timeout=3,
+                check=False,
+            )
+        if result.returncode == 0:
+            return {"checked": True, "available": True, "reason": "docker_ok"}
+        return {"checked": True, "available": False, "reason": "docker_unreachable"}
+    except Exception as exc:
+        return {"checked": True, "available": False, "reason": safe_text(exc, "docker_error").lower().replace(" ", "_")}
+def fallback_step_result(reason: str, docker_status: Optional[Dict[str, Any]] = None) -> Dict[str, Any]:
+    """Return a deterministic dummy step result when environment execution fails."""
+    docker_reason = safe_text((docker_status or {}).get("reason", "docker_skip"), "docker_skip")
+    short_reason = safe_text(reason, "env_fallback").lower().replace(" ", "_")
+    return {
+        "status": "ok",
+        "fallback": True,
+        "reason": short_reason[:64],
+        "reward": 0.0,
+        "improvement": 0.0,
+        "score": 0.0,
+        "done": True,
+        "docker": docker_reason[:32],
+    }
+def safe_task_list() -> list[str]:
+    """Load task identifiers without raising."""
+    try:
+        if callable(task_ids):
+            loaded = list(task_ids())
+            if loaded:
+                return [safe_text(item, "fallback-task") for item in loaded]
+    except Exception:
+        pass
+    return ["fallback-task"]
+def make_action(action_payload: Dict[str, Any]) -> Any:
+    """Build a validated environment action or a safe placeholder."""
+    action_type = action_payload.get("action_type", DEFAULT_ACTION["action_type"])
+    if action_type not in ALLOWED_ACTIONS:
+        action_type = DEFAULT_ACTION["action_type"]
+    code = action_payload.get("code")
+    if action_type != "edit_code":
+        code = None
+    if PythonCodeReviewAction is None:
+        return {"action_type": action_type, "code": code}
+    try:
+        return PythonCodeReviewAction(action_type=action_type, code=code)
+    except Exception:
+        try:
+            return PythonCodeReviewAction(action_type=DEFAULT_ACTION["action_type"], code=None)
+        except Exception:
+            return {"action_type": DEFAULT_ACTION["action_type"], "code": None}
+def compute_reward(
+    previous_score: float,
+    current_score: float,
+    step_reward: float,
+    used_fallback: bool,
+    done: bool,
+) -> Dict[str, float]:
+    """Compute a deterministic dynamic reward and improvement metric."""
+    prev_value = clamp(previous_score)
+    curr_value = clamp(current_score)
+    improvement = round(curr_value - prev_value, 4)
+    bounded_step_reward = max(-1.0, min(1.0, safe_float(step_reward, 0.0)))
+    reward_value = (
+        0.55 * curr_value
+        + 0.30 * max(improvement, 0.0)
+        + 0.10 * max(bounded_step_reward, 0.0)
+        + (0.05 if done and curr_value >= 0.99 else 0.0)
+        - (0.05 if used_fallback else 0.0)
+    )
+    return {
+        "reward": round(clamp(reward_value), 4),
+        "improvement": improvement,
+    }
+def safe_step(env: Any, action: Any) -> Any:
+    """Execute one environment step without allowing stdout leaks or exceptions."""
+    try:
+        with redirect_stdout(io.StringIO()), redirect_stderr(io.StringIO()):
+            return env.step(action)
+    except Exception:
+        return None
+def safe_reset(env: Any, task_id: str) -> Any:
+    """Reset the environment safely for a task."""
+    try:
+        with redirect_stdout(io.StringIO()), redirect_stderr(io.StringIO()):
+            return env.reset(task_id=task_id)
+    except Exception:
+        return None
+def run_env(client: Optional[Any], model: str) -> Dict[str, Any]:
+    """Run the environment loop safely and return a structured result payload."""
+    docker_status = probe_docker(safe_env("LOCAL_IMAGE_NAME", ""))
+    if PythonCodeReviewEnvironment is None:
+        return fallback_step_result("env_import_failed", docker_status)
+    try:
+        with redirect_stdout(io.StringIO()), redirect_stderr(io.StringIO()):
+            env = PythonCodeReviewEnvironment(verbose=False)
+    except Exception as exc:
+        return fallback_step_result(f"env_init_failed_{safe_text(exc, 'unknown')}", docker_status)
+    tasks = safe_task_list()
+    task_id = tasks[0] if tasks else "fallback-task"
+    observation = safe_reset(env, task_id)
+    if observation is None:
+        return fallback_step_result("env_reset_failed", docker_status)
+    previous_score = clamp(safe_getattr(observation, "score", 0.0))
+    total_step_reward = 0.0
+    used_fallback = False
+    final_status = "ok"
+    final_reason = "completed"
+    final_observation = observation
+    for step_index in range(MAX_STEPS):
+        prompt = build_prompt(final_observation)
+        action_payload = run_llm(client, model, prompt)
+        used_fallback = used_fallback or bool(action_payload.get("fallback_reason"))
+        action = make_action(action_payload)
+        next_observation = safe_step(env, action)
+        if next_observation is None:
+            final_status = "ok"
+            final_reason = "env_step_fallback"
+            used_fallback = True
+            break
+        final_observation = next_observation
+        total_step_reward += safe_float(safe_getattr(final_observation, "reward", 0.0), 0.0)
+        done = bool(safe_getattr(final_observation, "done", False))
+        score = clamp(safe_getattr(final_observation, "score", 0.0))
+        if safe_getattr(final_observation, "last_action_status", ""):
+            final_reason = safe_text(safe_getattr(final_observation, "last_action_status", ""), "step_completed")
+        elif action_payload.get("fallback_reason"):
+            final_reason = safe_text(action_payload.get("fallback_reason"), "llm_fallback")
+        else:
+            final_reason = f"step_{step_index + 1}_completed"
+        if done:
+            break
+        if step_index == 0:
+            submit_action = make_action({"action_type": "submit_solution", "code": None})
+            submitted_observation = safe_step(env, submit_action)
+            if submitted_observation is None:
+                final_reason = "submit_fallback"
+                used_fallback = True
+                break
+            final_observation = submitted_observation
+            total_step_reward += safe_float(safe_getattr(final_observation, "reward", 0.0), 0.0)
+            if safe_getattr(final_observation, "last_action_status", ""):
+                final_reason = safe_text(safe_getattr(final_observation, "last_action_status", ""), "submit_completed")
+            break
+    current_score = clamp(safe_getattr(final_observation, "score", previous_score))
+    done = bool(safe_getattr(final_observation, "done", True))
+    metrics = compute_reward(
+        previous_score=previous_score,
+        current_score=current_score,
+        step_reward=total_step_reward,
+        used_fallback=used_fallback,
+        done=done,
+    )
+    return {
+        "status": final_status,
+        "fallback": used_fallback,
+        "reason": safe_text(final_reason, "completed").lower().replace(" ", "_")[:64],
+        "reward": metrics["reward"],
+        "improvement": metrics["improvement"],
+        "score": round(current_score, 4),
+        "done": done,
+        "docker": safe_text(docker_status.get("reason", "docker_skip"), "docker_skip")[:32],
+    }
+def format_step_message(result: Dict[str, Any]) -> str:
+    """Format the only allowed STEP line for stdout."""
+    try:
+        fallback = bool(result.get("fallback", False))
+        reason = safe_text(result.get("reason", "completed"), "completed").lower().replace(" ", "_")
+        if fallback:
+            reward = safe_float(result.get("reward", 0.0), 0.0)
+            improvement = safe_float(result.get("improvement", 0.0), 0.0)
+            score = safe_float(result.get("score", 0.0), 0.0)
+            status = safe_text(result.get("status", "ok"), "ok").lower().replace(" ", "_")
+            return (
+                f"error handled: {reason} reward={reward:.4f} status={status} "
+                f"fallback=true improvement={improvement:.4f} score={score:.4f}"
+            )
+        reward = safe_float(result.get("reward", 0.0), 0.0)
+        improvement = safe_float(result.get("improvement", 0.0), 0.0)
+        score = safe_float(result.get("score", 0.0), 0.0)
+        status = safe_text(result.get("status", "ok"), "ok").lower().replace(" ", "_")
+        return (
+            f"reward={reward:.4f} status={status} "
+            f"fallback=false improvement={improvement:.4f} score={score:.4f}"
+        )
+    except Exception:
+        return "error handled: formatting_failed"
+def main() -> int:
+    """Run the inference workflow and always terminate successfully."""
+    step_message = "error handled: initialization_failed"
+    try:
+        model_name = safe_env("MODEL_NAME", DEFAULT_MODEL_NAME) or DEFAULT_MODEL_NAME
+        client = create_client()
+        result = run_env(client, model_name)
+        step_message = format_step_message(result)
+    except BaseException as exc:
+        step_message = f"error handled: {safe_text(exc, 'unexpected_failure').lower().replace(' ', '_')[:64]}"
+    finally:
+        try:
+            print("START")
+            print(f"STEP: {step_message}")
+            print("END")
+        except Exception:
+            pass
+    return 0
+if __name__ == "__main__":
+    try:
+        main()
+    except BaseException:
+        try:
+            print("START")
+            print("STEP: error handled: fatal_guard")
+            print("END")
+        except Exception:
+            pass
+    sys.exit(0)

models.py CHANGED Viewed

@@ -1,17 +1,19 @@
-"""Typed models for Python code review and repair environment."""
-from __future__ import annotations
-from typing import Any, Dict, List, Literal, Optional
-from pydantic import BaseModel, Field
-from openenv.core.env_server.types import Action, Observation, State
-Difficulty = Literal["easy", "medium", "hard"]
-TaskKind = Literal["syntax_fix", "bug_fix", "optimization"]
-ActionType = Literal["analyze_code", "edit_code", "run_tests", "submit_solution"]
 class HistoryEntry(BaseModel):
@@ -127,29 +129,79 @@ class PythonCodeReviewState(State):
     done: bool = Field(default=False)
-class TaskDescriptor(BaseModel):
-    """Public task metadata."""
-    task_id: str = Field(..., description="Stable task identifier")
-    title: str = Field(..., description="Human-readable title")
-    difficulty: Difficulty = Field(..., description="Difficulty level")
-    task_kind: TaskKind = Field(..., description="Type of task")
-    task_description: str = Field(..., description="Full task description")
-    starter_code: str = Field(..., description="Initial broken code")
-    visible_tests: List[str] = Field(default_factory=list, description="Public test cases")
-    max_steps: int = Field(..., ge=1, description="Maximum steps allowed")
-class TaskGrade(BaseModel):
-    """Grading result for task submission."""
     score: float = Field(..., ge=0.0, le=1.0, description="Overall score")
-    syntax_score: float = Field(default=0.0, ge=0.0, le=1.0)
-    tests_passed: int = Field(default=0, ge=0)
-    tests_total: int = Field(default=0, ge=0)
-    quality_score: float = Field(default=0.0, ge=0.0, le=1.0)
-    timed_out: bool = Field(default=False)
-    details: Dict[str, Any] = Field(default_factory=dict)
 class HealthResponse(BaseModel):

+"""Typed models for Python code review and repair environment."""
+from __future__ import annotations
+from typing import Any, Dict, List, Literal, Optional
+from pydantic import BaseModel, Field
+from compat import Action, Observation, State
+Difficulty = Literal["easy", "medium", "hard"]
+TaskKind = Literal["syntax_fix", "bug_fix", "optimization"]
+ActionType = Literal["analyze_code", "edit_code", "run_tests", "submit_solution"]
+Category = Literal["bug", "security", "performance", "maintainability", "style", "testing"]
+Severity = Literal["critical", "warning", "info"]
 class HistoryEntry(BaseModel):
     done: bool = Field(default=False)
+class TaskDescriptor(BaseModel):
+    """Public task metadata."""
+    task_id: str = Field(..., description="Stable task identifier")
+    title: str = Field(..., description="Human-readable title")
+    difficulty: Difficulty = Field(..., description="Difficulty level")
+    task_kind: Optional[TaskKind] = Field(default=None, description="Type of task")
+    task_description: str = Field(default="", description="Full task description")
+    starter_code: str = Field(default="", description="Initial broken code")
+    visible_tests: List[str] = Field(default_factory=list, description="Public test cases")
+    goal: str = Field(default="", description="Optional goal summary for review-style tasks")
+    repo_summary: str = Field(default="", description="Optional repository context")
+    changed_files: List[str] = Field(default_factory=list, description="Changed files for review-style tasks")
+    available_files: List[str] = Field(default_factory=list, description="Browsable files for review-style tasks")
+    max_steps: int = Field(..., ge=1, description="Maximum steps allowed")
+class TaskSummary(BaseModel):
+    """Lightweight task metadata for list endpoints."""
+    task_id: str = Field(..., description="Stable task identifier")
+    difficulty: Difficulty = Field(..., description="Difficulty level")
+    title: str = Field(..., description="Human-readable title")
+    goal: str = Field(default="", description="Optional task goal")
+class ReviewFinding(BaseModel):
+    """Structured code review finding used by auxiliary review utilities."""
+    title: str = Field(..., description="Short human-readable finding title")
+    file_path: str = Field(default="", description="Optional file path")
+    line: Optional[int] = Field(default=None, ge=1, description="Optional 1-based line number")
+    category: Category = Field(default="bug", description="Finding category")
+    severity: Severity = Field(default="warning", description="Finding severity")
+    rationale: str = Field(default="", description="Why this matters")
+    recommendation: str = Field(default="", description="Suggested remediation")
+    rule_id: str = Field(default="", description="Stable detector or rubric identifier")
+    @property
+    def explanation(self) -> str:
+        """Backward-compatible alias used by older grading helpers."""
+        return self.rationale
+    @property
+    def suggested_fix(self) -> str:
+        """Backward-compatible alias used by older grading helpers."""
+        return self.recommendation
+class DirectReviewResponse(BaseModel):
+    """Response payload for deterministic direct-review utilities."""
+    issues: List[ReviewFinding] = Field(default_factory=list)
+    summary: str = Field(default="")
+    score: float = Field(default=0.0, ge=0.0, le=1.0)
+    improved_code: Optional[str] = Field(default=None)
+class TaskGrade(BaseModel):
+    """Grading result for task submission."""
     score: float = Field(..., ge=0.0, le=1.0, description="Overall score")
+    syntax_score: float = Field(default=0.0, ge=0.0, le=1.0)
+    tests_passed: int = Field(default=0, ge=0)
+    tests_total: int = Field(default=0, ge=0)
+    quality_score: float = Field(default=0.0, ge=0.0, le=1.0)
+    runtime_score: float = Field(default=0.0, ge=0.0, le=1.0)
+    timed_out: bool = Field(default=False)
+    matched_issue_ids: List[str] = Field(default_factory=list)
+    false_positives: int = Field(default=0, ge=0)
+    duplicate_findings: int = Field(default=0, ge=0)
+    matched_weight: float = Field(default=0.0, ge=0.0, le=1.0)
+    details: Dict[str, Any] = Field(default_factory=dict)
 class HealthResponse(BaseModel):

openenv_python_env.egg-info/PKG-INFO ADDED Viewed

	@@ -0,0 +1,13 @@

+Metadata-Version: 2.4
+Name: openenv-python_env
+Version: 0.2.0
+Summary: Deterministic Python code review and repair benchmark environment for OpenEnv
+Requires-Python: >=3.10
+Requires-Dist: openenv-core[core]>=0.2.2
+Requires-Dist: fastapi>=0.115.0
+Requires-Dist: uvicorn>=0.30.0
+Requires-Dist: openai>=1.40.0
+Requires-Dist: pytest>=8.0.0
+Provides-Extra: dev
+Requires-Dist: pytest>=8.0.0; extra == "dev"
+Requires-Dist: pytest-cov>=4.0.0; extra == "dev"

openenv_python_env.egg-info/SOURCES.txt ADDED Viewed

	@@ -0,0 +1,27 @@

+README.md
+pyproject.toml
+./__init__.py
+./client.py
+./compat.py
+./inference.py
+./models.py
+openenv_python_env.egg-info/PKG-INFO
+openenv_python_env.egg-info/SOURCES.txt
+openenv_python_env.egg-info/dependency_links.txt
+openenv_python_env.egg-info/entry_points.txt
+openenv_python_env.egg-info/requires.txt
+openenv_python_env.egg-info/top_level.txt
+server/__init__.py
+server/app.py
+server/code_review_env_environment.py
+server/code_review_environment.py
+server/env.py
+server/env_safe.py
+server/grading.py
+server/python_env_environment.py
+server/static_review.py
+server/task_bank.py
+tests/test_api.py
+tests/test_environment.py
+tests/test_examples.py
+tests/test_reward_dynamics.py

openenv_python_env.egg-info/dependency_links.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+

openenv_python_env.egg-info/entry_points.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ [console_scripts]
2	+ server = python_env.server.app:main

openenv_python_env.egg-info/requires.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+openenv-core[core]>=0.2.2
+fastapi>=0.115.0
+uvicorn>=0.30.0
+openai>=1.40.0
+pytest>=8.0.0
+[dev]
+pytest>=8.0.0
+pytest-cov>=4.0.0

openenv_python_env.egg-info/top_level.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ python_env

server/app.py CHANGED Viewed

@@ -1,13 +1,13 @@
-"""FastAPI application for the Python code review environment."""
 from __future__ import annotations
-import os
-from fastapi import APIRouter, HTTPException
-from fastapi.responses import RedirectResponse
-from openenv.core.env_server.http_server import create_app
 from models import (
     HealthResponse,
@@ -20,14 +20,17 @@ from models import (
 from server.env import PythonCodeReviewEnvironment
-MAX_CONCURRENT_ENVS = int(os.getenv("MAX_CONCURRENT_ENVS", "16"))
-python_env = PythonCodeReviewEnvironment()
-app = create_app(
-    PythonCodeReviewEnvironment,
-    PythonCodeReviewAction,
-    PythonCodeReviewObservation,
-    max_concurrent_envs=MAX_CONCURRENT_ENVS,
 )
 router = APIRouter(tags=["python-code-review"])
@@ -79,7 +82,24 @@ def get_state_post() -> RedirectResponse:
     return RedirectResponse(url="/state", status_code=303)
-app.include_router(router)
 def main(host: str = "0.0.0.0", port: int = 8000) -> None:

+"""FastAPI application for the Python code review environment."""
 from __future__ import annotations
+import os
+from fastapi import APIRouter, HTTPException
+from fastapi.responses import RedirectResponse
+from compat import create_app
 from models import (
     HealthResponse,
 from server.env import PythonCodeReviewEnvironment
+try:
+    MAX_CONCURRENT_ENVS = max(int(os.getenv("MAX_CONCURRENT_ENVS", "16")), 1)
+except Exception:
+    MAX_CONCURRENT_ENVS = 16
+python_env = PythonCodeReviewEnvironment(verbose=False)
+app = create_app(
+    PythonCodeReviewEnvironment,
+    PythonCodeReviewAction,
+    PythonCodeReviewObservation,
+    max_concurrent_envs=MAX_CONCURRENT_ENVS,
 )
 router = APIRouter(tags=["python-code-review"])
     return RedirectResponse(url="/state", status_code=303)
+app.include_router(router)
+def _prioritize_route(path: str, methods: set[str]) -> None:
+    """Move a matching custom route ahead of default OpenEnv routes."""
+    try:
+        for index in range(len(app.router.routes) - 1, -1, -1):
+            route = app.router.routes[index]
+            route_path = getattr(route, "path", None)
+            route_methods = set(getattr(route, "methods", set()) or set())
+            if route_path == path and methods.issubset(route_methods):
+                app.router.routes.insert(0, app.router.routes.pop(index))
+                break
+    except Exception:
+        pass
+_prioritize_route("/health", {"GET"})
 def main(host: str = "0.0.0.0", port: int = 8000) -> None:

server/env.py CHANGED Viewed

@@ -1,790 +1 @@
-"""Core OpenEnv environment for Python code review and repair tasks.
-REWARD SYSTEM ARCHITECTURE
-==========================
-The environment implements a dynamic, multi-component reward system to provide
-meaningful feedback at every step of agent learning.
-Six independent reward components are computed and combined:
-1. PROGRESS REWARD (max +0.25)
-   - Awarded for score improvement: min(PROGRESS_SCALE * score_delta, 0.25)
-   - Encourages continuous improvement on the task
-2. SYNTAX REWARD (max +0.35)
-   - One-time bonus when code first becomes compilable
-   - Acknowledges the critical step of creating valid code
-3. TEST REWARD (max +0.20)
-   - Based on test pass rate improvement
-   - Formula: min(TEST_PASS_REWARD_SCALE * test_improvement, 0.20)
-4. QUALITY REWARD (max +0.15)
-   - Based on AST-detected code quality improvements
-   - Rewards better structure, readability, best practices
-5. STAGNATION PENALTY (−0.10)
-   - Applied when agent acts but code doesn't change
-   - Encourages editing rather than repeated analysis
-6. REGRESSION PENALTY (scale −0.20)
-   - Applied when score declines: REGRESSION_PENALTY_SCALE * abs(score_delta)
-   - Discourages actions that make code worse
-FINAL REWARD
-Final reward = clamp(progress + syntax + test + quality - stagnation - regression, -1.0, +1.0)
-Always bounded in [-1.0, +1.0] for interpretability and learning stability.
-See RewardDetails in models.py for all fields returned with each reward.
-"""
-from __future__ import annotations
-import random
-import sys
-from typing import List, Optional
-from uuid import uuid4
-from openenv.core.env_server.interfaces import Environment
-from graders import grade_task
-from models import (
-    HealthResponse,
-    HistoryEntry,
-    PythonCodeReviewAction,
-    PythonCodeReviewObservation,
-    PythonCodeReviewState,
-    RewardDetails,
-    TaskGrade,
-)
-from tasks import TaskSpec, get_task, list_task_descriptors, list_task_summaries, task_ids
-# ============================================================================
-# REWARD SHAPING CONSTANTS
-# ============================================================================
-# These constants control the reward magnitude for each component.
-# Tuning these values changes agent learning incentives.
-# Component 1: Score improvement reward
-PROGRESS_SCALE = 0.25
-"""Scale for progress rewards. Higher = more reward for score improvement."""
-# Component 2: Syntax/compilation fix reward
-SYNTAX_FIX_BONUS = 0.35
-"""One-time bonus for first time code compiles."""
-# Component 3: Test improvement reward
-TEST_PASS_REWARD_SCALE = 0.30
-"""Scale for test pass rate rewards."""
-# Component 4: Code quality reward
-QUALITY_BONUS_SCALE = 0.15
-"""Scale for code quality improvements (AST-based)."""
-# Component 5: Stagnation penalty
-STAGNATION_PENALTY = 0.10
-"""Penalty when action is taken but code unchanged."""
-# Component 6: Regression penalty
-REGRESSION_PENALTY_SCALE = 0.20
-"""Scale for penalties when score declines."""
-# One-time completion bonus
-COMPLETION_BONUS = 0.50
-"""Bonus for fully correct solution."""
-# Invalid/error penalties
-INVALID_ACTION_PENALTY = 0.15
-"""Penalty for unsupported action types."""
-TIMEOUT_PENALTY = 0.15
-"""Penalty for execution timeout."""
-class PythonCodeReviewEnvironment(
-    Environment[PythonCodeReviewAction, PythonCodeReviewObservation, PythonCodeReviewState]
-):
-    """Production-style environment for reviewing and fixing Python code.
-    Implements OpenEnv compatibility and dynamic multi-component reward system.
-    """
-    SUPPORTS_CONCURRENT_SESSIONS = True
-    def __init__(self, verbose: bool = True) -> None:
-        super().__init__()
-        self._task_order = list(task_ids())
-        self._task_cursor = -1
-        self._task: Optional[TaskSpec] = None
-        self._state = PythonCodeReviewState(episode_id=str(uuid4()))
-        self._done = False
-        self._last_status = "Call reset() to start."
-        self._last_reward = RewardDetails(value=0.0, reason="Environment initialized.")
-        self._verbose = verbose
-        # Progress tracking
-        self._previous_score = 0.0
-        self._previous_code = ""
-        self._best_visible_test_fraction = 0.0
-        self._best_quality_score = 0.0
-        self._full_correctness_awarded = False
-        self._syntax_reward_awarded = False
-        self.last_code = ""
-        self.reward_history: list[float] = []
-    def reset(
-        self,
-        seed: Optional[int] = None,
-        episode_id: Optional[str] = None,
-        task_id: Optional[str] = None,
-        **_: object,
-    ) -> PythonCodeReviewObservation:
-        """Reset the environment to the next deterministic task."""
-        del seed
-        # Select task
-        if task_id:
-            self._task = get_task(task_id)
-            self._task_cursor = self._task_order.index(task_id)
-        else:
-            self._task_cursor = (self._task_cursor + 1) % len(self._task_order)
-            self._task = get_task(self._task_order[self._task_cursor])
-        # Reset episode state and tracking
-        self._done = False
-        self._previous_score = 0.0
-        self._previous_code = self._task.starter_code
-        self._best_visible_test_fraction = 0.0
-        self._best_quality_score = 0.0
-        self._full_correctness_awarded = False
-        self._syntax_reward_awarded = False
-        self.last_code = ""
-        self.reward_history = []
-        self._last_status = "Inspect the code, edit it, run tests, then submit."
-        self._last_reward = RewardDetails(value=0.0, reason="Episode reset.", prev_score=0.0, curr_score=0.0)
-        self._state = PythonCodeReviewState(
-            episode_id=episode_id or str(uuid4()),
-            step_count=0,
-            task_id=self._task.task_id,
-            difficulty=self._task.difficulty,
-            task_kind=self._task.task_kind,
-            attempts_remaining=self._task.max_steps,
-            current_code=self._task.starter_code,
-            errors="",
-            test_results="Not run yet.",
-            history=[],
-            score=0.0,
-            done=False,
-        )
-        if self._verbose:
-            print(f"\n{'='*70}")
-            print(f"RESET: Task {self._task.task_id} ({self._task.difficulty})")
-            print(f"{'='*70}")
-        return self._build_observation()
-    def step(
-        self,
-        action: PythonCodeReviewAction,
-        timeout_s: Optional[float] = None,
-        **_: object,
-    ) -> PythonCodeReviewObservation:
-        """Apply one structured action."""
-        del timeout_s
-        if self._task is None:
-            return self.reset()
-        if self._done:
-            self._last_reward = RewardDetails(
-                value=-INVALID_ACTION_PENALTY,
-                invalid_action_penalty=INVALID_ACTION_PENALTY,
-                reason="Episode already completed.",
-            )
-            self._last_status = "Episode already completed. Call reset() to continue."
-            return self._build_observation()
-        self._state.step_count += 1
-        status = ""
-        reward = RewardDetails(value=0.0, reason="Action processed.")
-        # Dispatch to handler based on action type
-        if action.action_type == "analyze_code":
-            reward, status = self._handle_analyze()
-        elif action.action_type == "edit_code":
-            reward, status = self._handle_edit(action)
-        elif action.action_type == "run_tests":
-            reward, status = self._handle_run_tests()
-        elif action.action_type == "submit_solution":
-            reward, status = self._handle_submit()
-        else:
-            reward = RewardDetails(
-                value=-INVALID_ACTION_PENALTY,
-                invalid_action_penalty=INVALID_ACTION_PENALTY,
-                reason=f"Unsupported action_type: {action.action_type}",
-            )
-            status = f"Invalid action: unsupported action_type '{action.action_type}'."
-        self._last_reward = reward
-        self._last_status = status
-        self._state.attempts_remaining = max(self._task.max_steps - self._state.step_count, 0)
-        self._state.done = self._done
-        # Auto-submit if steps exhausted
-        if self._state.attempts_remaining == 0 and not self._done:
-            self._finalize_episode(auto_submit=True)
-            self._state.done = True
-        # Debug logging
-        if self._verbose:
-            self._log_debug_step(reward)
-        return self._build_observation()
-    @property
-    def state(self) -> PythonCodeReviewState:
-        """Return the current environment state."""
-        return self._state.model_copy(deep=True)
-    def list_task_summaries(self) -> List[object]:
-        """Return public task metadata."""
-        return list_task_summaries()
-    def get_task(self, task_id: str) -> object:
-        """Return a single task descriptor."""
-        return get_task(task_id).to_descriptor()
-    def health(self) -> HealthResponse:
-        """Return a simple health model."""
-        return HealthResponse(task_count=len(self._task_order))
-    def grade_task_submission(self, task_id: str, code: str) -> TaskGrade:
-        """Expose deterministic grading outside of an active episode."""
-        return grade_task(code, get_task(task_id), include_hidden=True)
-    def _build_observation(self) -> PythonCodeReviewObservation:
-        """Build current observation from state."""
-        return PythonCodeReviewObservation(
-            task_id=self._state.task_id or "",
-            title=self._task.title if self._task else "",
-            difficulty=self._state.difficulty or "easy",
-            task_kind=self._state.task_kind,
-            task_description=self._task.task_description if self._task else "",
-            current_code=self._state.current_code,
-            errors=self._state.errors,
-            test_results=self._state.test_results,
-            visible_tests=self._task.visible_tests if self._task else [],
-            history=self._state.history,
-            attempts_remaining=self._state.attempts_remaining,
-            last_action_status=self._last_status,
-            score=self._state.score,
-            reward_details=self._last_reward,
-            reward=self._last_reward.value,
-            done=self._state.done,
-            metadata={
-                "prev_score": self._last_reward.prev_score,
-                "curr_score": self._last_reward.curr_score,
-            },
-        )
-    def apply_action(self, action: PythonCodeReviewAction) -> str:
-        """Return the code candidate produced by an action."""
-        if action.action_type == "edit_code":
-            return (action.code or "").strip() or self._state.current_code
-        return self._state.current_code
-    def run_tests(
-        self,
-        code: str,
-        include_hidden: bool = False,
-    ) -> tuple[float, dict[str, int], TaskGrade]:
-        """Grade code and return score plus simple test statistics."""
-        if self._task is None:
-            empty_results = {"passed": 0, "total": 0}
-            return 0.0, empty_results, TaskGrade(score=0.0)
-        grade = grade_task(code, self._task, include_hidden=include_hidden)
-        test_results = {
-            "passed": grade.tests_passed,
-            "total": grade.tests_total,
-        }
-        return grade.score, test_results, grade
-    def compute_reward(self, old_code, new_code, prev_score, curr_score, test_results):
-        # progress
-        progress = curr_score - prev_score
-        # test score
-        passed = test_results["passed"]
-        total = test_results["total"]
-        test_ratio = passed / total if total > 0 else 0
-        # syntax score
-        try:
-            compile(new_code, "<string>", "exec")
-            syntax_score = 1.0
-        except:
-            syntax_score = 0.0
-        # stagnation penalty
-        stagnation_penalty = 0.2 if new_code.strip() == old_code.strip() else 0.0
-        # regression penalty
-        regression_penalty = max(0.0, prev_score - curr_score)
-        # repetition penalty (track last 3 actions)
-        repetition_penalty = 0.1 if new_code == self.last_code else 0.0
-        # quality (simple heuristic)
-        length_penalty = 0.0
-        if len(new_code) > len(old_code) * 1.5:
-            length_penalty = 0.1
-        # final reward
-        reward = (
-            0.4 * progress
-            + 0.3 * test_ratio
-            + 0.2 * syntax_score
-            - stagnation_penalty
-            - regression_penalty
-            - repetition_penalty
-            - length_penalty
-        )
-        # clamp
-        reward = max(-1.0, min(1.0, reward))
-        return reward
-    def _apply_reward_randomization(self, reward: float) -> float:
-        """Break repeated static rewards while keeping the result bounded."""
-        reward = max(-1.0, min(1.0, reward))
-        self.reward_history.append(reward)
-        if len(self.reward_history) >= 3 and len(set(self.reward_history[-3:])) == 1:
-            reward += random.uniform(-0.05, 0.05)
-            reward = max(-1.0, min(1.0, reward))
-            self.reward_history[-1] = reward
-        return reward
-    def _build_reward_details(
-        self,
-        old_code: str,
-        new_code: str,
-        prev_score: float,
-        curr_score: float,
-        test_results: dict[str, int],
-        reward_value: float,
-        reason: str,
-    ) -> RewardDetails:
-        """Build a reward payload that matches the scalar reward computation."""
-        passed = test_results["passed"]
-        total = test_results["total"]
-        test_ratio = passed / total if total > 0 else 0.0
-        try:
-            compile(new_code, "<string>", "exec")
-            syntax_score = 1.0
-        except SyntaxError:
-            syntax_score = 0.0
-        stagnation_penalty = 0.2 if new_code.strip() == old_code.strip() else 0.0
-        regression_penalty = max(0.0, prev_score - curr_score)
-        repetition_penalty = 0.1 if new_code == self.last_code else 0.0
-        length_penalty = 0.1 if len(new_code) > len(old_code) * 1.5 else 0.0
-        return RewardDetails(
-            value=reward_value,
-            progress_delta=0.4 * (curr_score - prev_score),
-            syntax_reward=0.2 * syntax_score,
-            test_reward=0.3 * test_ratio,
-            quality_bonus=-length_penalty,
-            stagnation_penalty=stagnation_penalty,
-            regression_penalty=regression_penalty + repetition_penalty,
-            reason=reason,
-            prev_score=round(prev_score, 6),
-            curr_score=round(curr_score, 6),
-            code_changed=new_code.strip() != old_code.strip(),
-        )
-    def _handle_analyze(self) -> tuple[RewardDetails, str]:
-        """Analyze code for errors and test status."""
-        if self._task is None:
-            return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
-        old_code = self._state.current_code
-        prev_score = self._previous_score
-        curr_score, test_results, curr_grade = self.run_tests(old_code, include_hidden=False)
-        error = curr_grade.details.get("compile_error", "")
-        # Status message
-        if error:
-            self._state.errors = error
-            self._state.test_results = "Compilation failed. Fix syntax first."
-            summary = f"Syntax error detected: {error}"
-        else:
-            self._state.errors = ""
-            if self._task.task_kind == "syntax_fix":
-                self._state.test_results = "Code compiles successfully."
-                summary = "Code compiles. Ready to submit."
-            else:
-                visible_total = len(self._task.visible_tests)
-                visible_passed = curr_grade.tests_passed
-                self._state.test_results = f"Test run: {visible_passed}/{visible_total} passing."
-                summary = self._state.test_results
-        reward_value = self.compute_reward(old_code, old_code, prev_score, curr_score, test_results)
-        reward_value = self._apply_reward_randomization(reward_value)
-        reward = self._build_reward_details(
-            old_code=old_code,
-            new_code=old_code,
-            prev_score=prev_score,
-            curr_score=curr_score,
-            test_results=test_results,
-            reward_value=reward_value,
-            reason=summary,
-        )
-        # Update state
-        self._state.score = curr_score
-        self._state.errors = curr_grade.details.get("compile_error", "")
-        self._previous_score = curr_score
-        self.last_code = old_code
-        self._append_history("analyze_code", summary, reward.value)
-        return reward, summary
-    def _handle_edit(self, action: PythonCodeReviewAction) -> tuple[RewardDetails, str]:
-        """Edit the code and compute reward for progress."""
-        if self._task is None:
-            return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
-        code = (action.code or "").strip()
-        if not code:
-            reward = RewardDetails(
-                value=-INVALID_ACTION_PENALTY,
-                invalid_action_penalty=INVALID_ACTION_PENALTY,
-                reason="Edit action requires non-empty code.",
-            )
-            status = "Invalid: edit_code requires code parameter."
-            self._append_history("edit_code", status, reward.value)
-            return reward, status
-        old_code = self._state.current_code
-        prev_score = self._previous_score
-        curr_score, test_results, curr_grade = self.run_tests(code, include_hidden=False)
-        # Update state
-        self._state.current_code = code
-        self._previous_code = code
-        self._state.errors = curr_grade.details.get("compile_error", "")
-        self._state.test_results = self._format_test_results(curr_grade)
-        self._state.score = curr_score
-        status = "Code updated."
-        if self._state.errors:
-            status = f"Code updated, but syntax issues remain: {self._state.errors}"
-        elif curr_grade.tests_total > 0:
-            status = self._state.test_results
-        reward_value = self.compute_reward(old_code, code, prev_score, curr_score, test_results)
-        reward_value = self._apply_reward_randomization(reward_value)
-        reward = self._build_reward_details(
-            old_code=old_code,
-            new_code=code,
-            prev_score=prev_score,
-            curr_score=curr_score,
-            test_results=test_results,
-            reward_value=reward_value,
-            reason=status,
-        )
-        self._previous_score = curr_score
-        self.last_code = code
-        self._append_history("edit_code", status, reward.value)
-        return reward, status
-    def _handle_run_tests(self) -> tuple[RewardDetails, str]:
-        """Run tests and provide feedback."""
-        if self._task is None:
-            return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
-        old_code = self._state.current_code
-        prev_score = self._previous_score
-        curr_score, test_results, curr_grade = self.run_tests(old_code, include_hidden=False)
-        # Update state
-        self._state.errors = curr_grade.details.get("compile_error", "")
-        self._state.test_results = self._format_test_results(curr_grade)
-        self._state.score = curr_score
-        status = self._state.test_results if not self._state.errors else self._state.errors
-        reward_value = self.compute_reward(old_code, old_code, prev_score, curr_score, test_results)
-        reward_value = self._apply_reward_randomization(reward_value)
-        reward = self._build_reward_details(
-            old_code=old_code,
-            new_code=old_code,
-            prev_score=prev_score,
-            curr_score=curr_score,
-            test_results=test_results,
-            reward_value=reward_value,
-            reason=status,
-        )
-        self._previous_score = curr_score
-        self.last_code = old_code
-        self._append_history("run_tests", status, reward.value)
-        return reward, status
-    def _handle_submit(self) -> tuple[RewardDetails, str]:
-        """Submit solution and finalize episode."""
-        if self._task is None:
-            return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
-        old_code = self._state.current_code
-        prev_score = self._previous_score
-        curr_score, test_results, curr_grade = self.run_tests(old_code, include_hidden=True)
-        # Update state
-        self._state.errors = curr_grade.details.get("compile_error", "")
-        self._state.test_results = self._format_test_results(curr_grade)
-        self._state.score = curr_score
-        self._previous_score = curr_score
-        self.last_code = old_code
-        self._finalize_episode(auto_submit=False, grade=curr_grade)
-        reward_value = self.compute_reward(old_code, old_code, prev_score, curr_score, test_results)
-        reward_value = self._apply_reward_randomization(reward_value)
-        status = f"Solution submitted. Final score: {curr_score:.3f}"
-        reward = self._build_reward_details(
-            old_code=old_code,
-            new_code=old_code,
-            prev_score=prev_score,
-            curr_score=curr_score,
-            test_results=test_results,
-            reward_value=reward_value,
-            reason=status,
-        )
-        self._append_history("submit_solution", status, reward_value)
-        return reward, status
-    def _compute_reward_components(
-        self,
-        curr_score: float,
-        prev_score: float,
-        curr_grade: TaskGrade,
-        code_changed: bool,
-        prev_grade_score: float = 0.0,
-    ) -> dict:
-        """Compute all six reward components and return combined result.
-        This method is the core of the reward system. It evaluates agent progress
-        across multiple dimensions and provides transparent, component-wise feedback.
-        REWARD COMPONENTS (6 total):
-        ============================
-        1. PROGRESS REWARD (positive, max +0.25)
-           - Awarded when score improves from previous step
-           - Formula: min(PROGRESS_SCALE * score_delta, 0.25)
-           - Why: Encourages monotonic improvement
-        2. SYNTAX REWARD (positive, max +0.35)
-           - One-time bonus when code first compiles
-           - Transition: uncompilable → compilable
-           - Why: Acknowledges critical first step of valid code
-        3. TEST REWARD (positive, max +0.20)
-           - Based on improvement in test pass rate
-           - Formula: min(TEST_PASS_REWARD_SCALE * test_improvement, 0.20)
-           - Tracks best test rate seen in episode (monotonic)
-           - Why: Rewards incremental progress on passing tests
-        4. QUALITY REWARD (positive, max +0.15)
-           - Based on AST-detected code quality metrics
-           - Computed by deterministic grader (syntax_score, quality_score)
-           - Tracks best quality seen in episode (monotonic)
-           - Why: Teaches code structure and maintainability
-        5. STAGNATION PENALTY (negative, −0.10)
-           - Applied when action is taken but code doesn't change
-           - Exception: No penalty if code has compile errors (still debugging)
-           - Why: Encourages editing over repeated analysis
-        6. REGRESSION PENALTY (negative, scale −0.20)
-           - Applied when score decreases from previous step
-           - Formula: REGRESSION_PENALTY_SCALE * abs(score_delta)
-           - Special case: Timeout returns fixed TIMEOUT_PENALTY (−0.15)
-           - Why: Discourages actions that make code worse
-        FINAL REWARD:
-        =============
-        total = progress + syntax + test + quality - stagnation - regression
-        final_reward = clamp(total, -1.0, +1.0)
-        The result is always bounded for interpretability and stability.
-        Args:
-            curr_score: Current score after action (0.0 to 1.0)
-            prev_score: Score from previous step (0.0 to 1.0)
-            curr_grade: TaskGrade object with detailed metrics
-            code_changed: Boolean, whether the action modified code
-            prev_grade_score: Previous syntax_score for detecting first compile
-        Returns:
-            dict with keys: "progress", "syntax", "test", "quality",
-                           "stagnation", "regression", "total"
-                 All values are floats, with total clamped to [-1.0, +1.0]
-        """
-        # Initialize all components to zero
-        components = {
-            "progress": 0.0,
-            "syntax": 0.0,
-            "test": 0.0,
-            "quality": 0.0,
-            "stagnation": 0.0,
-            "regression": 0.0,
-            "total": 0.0,
-        }
-        # ====================================================================
-        # COMPONENT 1: PROGRESS REWARD
-        # ====================================================================
-        # Reward score improvement. Encourages continuous progress towards goal.
-        score_delta = curr_score - prev_score
-        if score_delta > 0:
-            # Scale improvement by constant, cap at 0.25 to prevent dominance
-            components["progress"] = min(PROGRESS_SCALE * score_delta, 0.25)
-        # ====================================================================
-        # COMPONENT 2: SYNTAX REWARD
-        # ====================================================================
-        # One-time bonus for fixing syntax errors and making code compilable.
-        # This is tracked per episode with _syntax_reward_awarded flag.
-        if not self._syntax_reward_awarded and curr_grade.syntax_score >= 0.99:
-            # Only award if transitioning from non-compilable to compilable
-            if prev_grade_score < 0.99:
-                components["syntax"] = SYNTAX_FIX_BONUS
-                self._syntax_reward_awarded = True
-        # ====================================================================
-        # COMPONENT 3: TEST REWARD
-        # ====================================================================
-        # Reward improvement in test pass rate. Track best rate seen this episode.
-        if curr_grade.tests_total > 0:
-            # Fraction of visible tests currently passing
-            curr_test_frac = curr_grade.tests_passed / curr_grade.tests_total
-            # Improvement since best rate seen in episode
-            test_delta = curr_test_frac - self._best_visible_test_fraction
-            if test_delta > 0:
-                # Scale improvement, cap at 0.20 to prevent dominance
-                components["test"] = min(TEST_PASS_REWARD_SCALE * test_delta, 0.20)
-                # Update best rate seen in this episode (monotonic)
-                self._best_visible_test_fraction = max(
-                    self._best_visible_test_fraction, curr_test_frac
-                )
-        # ====================================================================
-        # COMPONENT 4: QUALITY REWARD
-        # ====================================================================
-        # Reward improvements in code quality (AST-based metrics from grader).
-        # Track best quality metric seen in this episode.
-        quality_delta = curr_grade.quality_score - self._best_quality_score
-        if quality_delta > 0:
-            # Scale improvement, cap at 0.15 to prevent dominance
-            components["quality"] = min(QUALITY_BONUS_SCALE * quality_delta, 0.15)
-            # Update best quality seen in this episode (monotonic)
-            self._best_quality_score = max(
-                self._best_quality_score, curr_grade.quality_score
-            )
-        # ====================================================================
-        # COMPONENT 5: STAGNATION PENALTY
-        # ====================================================================
-        # Penalize when agent acts but doesn't change code (except during debugging).
-        # Exception: No penalty if code still has compile errors (debugging mode).
-        if not code_changed and not (curr_grade.details.get("compile_error") == ""):
-            components["stagnation"] = -STAGNATION_PENALTY
-        # ====================================================================
-        # COMPONENT 6: REGRESSION PENALTY
-        # ====================================================================
-        # Penalize when score decreases (regression).
-        # Special case: Timeout incurs fixed penalty instead of score-based.
-        if score_delta < 0:
-            # Scale penalty by magnitude of regression
-            components["regression"] = REGRESSION_PENALTY_SCALE * abs(score_delta)
-        # Timeout gets special fixed penalty
-        if curr_grade.timed_out:
-            components["regression"] = -TIMEOUT_PENALTY
-        # ====================================================================
-        # FINAL REWARD COMPUTATION
-        # ====================================================================
-        # Combine all components: sum positives, subtract negatives, clamp to [-1, 1]
-        total = (
-            components["progress"]
-            + components["syntax"]
-            + components["test"]
-            + components["quality"]
-            - components["stagnation"]
-            - components["regression"]
-        )
-        # Clamp to [-1.0, +1.0] for bounded, interpretable rewards
-        components["total"] = max(-1.0, min(1.0, round(total, 6)))
-        return components
-    def _finalize_episode(self, auto_submit: bool, grade: Optional[TaskGrade] = None) -> None:
-        """Mark episode as done and set final score."""
-        if grade is None:
-            if self._task is None:
-                return
-            grade = grade_task(self._state.current_code, self._task, include_hidden=True)
-        self._state.score = grade.score
-        self._done = True
-        self._state.done = True
-    def _format_test_results(self, grade: TaskGrade) -> str:
-        """Format test results for display."""
-        if grade.tests_total == 0:
-            return "No tests available."
-        if grade.timed_out:
-            return "Test execution timed out."
-        return f"Tests: {grade.tests_passed}/{grade.tests_total} passing"
-    def _append_history(self, action_type: str, status: str, reward: float) -> None:
-        """Append action to history."""
-        entry = HistoryEntry(
-            step=self._state.step_count,
-            action_type=action_type,
-            status=status,
-            reward=reward,
-        )
-        self._state.history.append(entry)
-    def _log_debug_step(self, reward: RewardDetails) -> None:
-        """Log the scalar reward signal in a compact RL-friendly format."""
-        print(
-            f"""
-Step Debug:
-Prev Score: {reward.prev_score}
-Curr Score: {reward.curr_score}
-Reward: {reward.value}
-Progress: {reward.curr_score - reward.prev_score}
-"""
-        )
-# Backwards-compatible aliases used elsewhere in the repo.
-PythonEnvironment = PythonCodeReviewEnvironment
-CodeReviewEnvironment = PythonCodeReviewEnvironment


1	+ from .env_safe import * # noqa: F401,F403

server/env_safe.py ADDED Viewed

	@@ -0,0 +1,492 @@

+"""Safe OpenEnv environment for deterministic Python code repair tasks."""
+from __future__ import annotations
+from typing import Any, Optional
+from uuid import uuid4
+from compat import Environment
+from graders import grade_task
+from models import (
+    HealthResponse,
+    HistoryEntry,
+    PythonCodeReviewAction,
+    PythonCodeReviewObservation,
+    PythonCodeReviewState,
+    RewardDetails,
+    TaskGrade,
+)
+from tasks import TaskSpec, get_task as load_task, list_task_summaries, task_ids
+INVALID_ACTION_PENALTY = 0.10
+NO_PROGRESS_PENALTY = 0.08
+REPEATED_ACTION_PENALTY = 0.05
+BASE_STEP_PENALTY = 0.02
+ANALYZE_STEP_PENALTY = 0.01
+SUBMIT_COMPLETION_BONUS = 0.30
+TIMEOUT_PENALTY = 0.12
+VALID_ACTIONS = {"analyze_code", "edit_code", "run_tests", "submit_solution"}
+def _clamp(value: float, low: float = 0.0, high: float = 1.0) -> float:
+    """Clamp a scalar to a bounded numeric interval."""
+    try:
+        return max(low, min(high, float(value)))
+    except Exception:
+        return low
+def _safe_text(value: Any, default: str = "") -> str:
+    """Convert values into short stable strings."""
+    try:
+        text = str(value)
+    except Exception:
+        return default
+    text = " ".join(text.split())
+    return text[:240] if text else default
+class PythonCodeReviewEnvironment(
+    Environment[PythonCodeReviewAction, PythonCodeReviewObservation, PythonCodeReviewState]
+):
+    """Deterministic, bounded, evaluator-safe environment for code repair tasks."""
+    SUPPORTS_CONCURRENT_SESSIONS = True
+    def __init__(self, verbose: bool = False) -> None:
+        super().__init__()
+        self._verbose = bool(verbose)
+        self._task_order = self._safe_task_order()
+        self._task_cursor = -1
+        self._task: Optional[TaskSpec] = None
+        self._state = PythonCodeReviewState(episode_id=str(uuid4()))
+        self._done = False
+        self._last_status = "Call reset() to start."
+        self._last_reward = RewardDetails(value=0.0, reason="Environment initialized.")
+        self._metrics = self._blank_metrics()
+        self._last_action_type = ""
+    def reset(
+        self,
+        seed: Optional[int] = None,
+        episode_id: Optional[str] = None,
+        task_id: Optional[str] = None,
+        **_: object,
+    ) -> PythonCodeReviewObservation:
+        """Reset the environment for a deterministic task and return an observation."""
+        del seed
+        try:
+            self._reset_rubric()
+        except Exception:
+            pass
+        task = self._select_task(task_id)
+        self._task = task
+        self._done = False
+        self._metrics = self._blank_metrics()
+        self._last_action_type = ""
+        self._last_status = "Inspect the code, run checks, edit the code, then submit."
+        self._last_reward = RewardDetails(
+            value=0.0,
+            reason="Episode reset.",
+            prev_score=0.0,
+            curr_score=0.0,
+        )
+        self._state = PythonCodeReviewState(
+            episode_id=episode_id or str(uuid4()),
+            step_count=0,
+            task_id=task.task_id,
+            difficulty=task.difficulty,
+            task_kind=task.task_kind,
+            attempts_remaining=max(int(task.max_steps), 1),
+            current_code=task.starter_code,
+            errors="",
+            test_results="No checks run yet.",
+            history=[],
+            score=0.0,
+            done=False,
+        )
+        return self._build_observation()
+    def step(
+        self,
+        action: PythonCodeReviewAction,
+        timeout_s: Optional[float] = None,
+        **_: object,
+    ) -> PythonCodeReviewObservation:
+        """Execute one safe environment step and always return a valid observation."""
+        del timeout_s
+        try:
+            if self._task is None:
+                return self.reset()
+            if self._done:
+                self._last_status = "Episode already completed. Call reset() to continue."
+                self._last_reward = RewardDetails(
+                    value=-INVALID_ACTION_PENALTY,
+                    invalid_action_penalty=INVALID_ACTION_PENALTY,
+                    reason="Episode already completed.",
+                    prev_score=self._metrics["score"],
+                    curr_score=self._metrics["score"],
+                    code_changed=False,
+                )
+                return self._build_observation()
+            self._state.step_count += 1
+            action_type = _safe_text(getattr(action, "action_type", "analyze_code"), "analyze_code")
+            code = getattr(action, "code", None)
+            if action_type == "analyze_code":
+                self._handle_scored_action(action_type=action_type, candidate_code=self._state.current_code, include_hidden=False)
+            elif action_type == "run_tests":
+                self._handle_scored_action(action_type=action_type, candidate_code=self._state.current_code, include_hidden=False)
+            elif action_type == "edit_code":
+                self._handle_edit(code)
+            elif action_type == "submit_solution":
+                self._handle_scored_action(action_type=action_type, candidate_code=self._state.current_code, include_hidden=True)
+                self._done = True
+            else:
+                self._apply_invalid_action(f"Unsupported action_type '{action_type}'.")
+            self._state.attempts_remaining = max(self._task.max_steps - self._state.step_count, 0)
+            if self._state.attempts_remaining == 0 and not self._done:
+                self._auto_submit()
+            self._state.done = self._done
+            return self._build_observation()
+        except Exception as exc:
+            self._apply_invalid_action(f"Step failure handled: {_safe_text(exc, 'unknown_error')}")
+            self._state.done = self._done
+            return self._build_observation()
+    @property
+    def state(self) -> PythonCodeReviewState:
+        """Return a deep copy of the current environment state."""
+        try:
+            return self._state.model_copy(deep=True)
+        except Exception:
+            return PythonCodeReviewState(episode_id=str(uuid4()))
+    def list_task_summaries(self) -> list[object]:
+        """Return public task summaries."""
+        try:
+            return list_task_summaries()
+        except Exception:
+            return []
+    def get_task(self, task_id: str) -> object:
+        """Return a single public task descriptor."""
+        return self._select_task(task_id).to_descriptor()
+    def health(self) -> HealthResponse:
+        """Return a simple health response."""
+        return HealthResponse(task_count=len(self._task_order))
+    def grade_task_submission(self, task_id: str, code: str) -> TaskGrade:
+        """Grade a task submission outside an episode without raising."""
+        try:
+            task = self._select_task(task_id)
+            return self._safe_grade(task=task, candidate_code=code, include_hidden=True)
+        except Exception as exc:
+            return TaskGrade(score=0.0, details={"error": _safe_text(exc, "grading_failed")})
+    def run_tests(self, code: str, include_hidden: bool = False) -> tuple[float, dict[str, int], TaskGrade]:
+        """Run deterministic grading and return score plus test summary."""
+        task = self._task or self._select_task(None)
+        grade = self._safe_grade(task=task, candidate_code=code, include_hidden=include_hidden)
+        return (
+            _clamp(grade.score),
+            {"passed": int(grade.tests_passed), "total": int(grade.tests_total)},
+            grade,
+        )
+    def apply_action(self, action: PythonCodeReviewAction) -> str:
+        """Return the candidate code implied by the action."""
+        if getattr(action, "action_type", "") == "edit_code":
+            code = getattr(action, "code", None)
+            return str(code) if code is not None else self._state.current_code
+        return self._state.current_code
+    def compute_reward(
+        self,
+        action_type: str,
+        previous_metrics: dict[str, float],
+        current_metrics: dict[str, float],
+        grade: TaskGrade,
+        code_changed: bool,
+        invalid_action: bool = False,
+    ) -> RewardDetails:
+        """Compute a bounded dynamic reward with progress and efficiency shaping."""
+        prev_score = _clamp(previous_metrics.get("score", 0.0))
+        curr_score = _clamp(current_metrics.get("score", 0.0))
+        score_delta = curr_score - prev_score
+        test_delta = current_metrics.get("test_fraction", 0.0) - previous_metrics.get("test_fraction", 0.0)
+        syntax_delta = current_metrics.get("syntax_score", 0.0) - previous_metrics.get("syntax_score", 0.0)
+        quality_delta = current_metrics.get("quality_score", 0.0) - previous_metrics.get("quality_score", 0.0)
+        step_penalty = BASE_STEP_PENALTY + (ANALYZE_STEP_PENALTY if action_type == "analyze_code" else 0.0)
+        repeated_penalty = REPEATED_ACTION_PENALTY if action_type == self._last_action_type else 0.0
+        no_progress = (
+            score_delta <= 1e-9
+            and test_delta <= 1e-9
+            and syntax_delta <= 1e-9
+            and quality_delta <= 1e-9
+            and not code_changed
+        )
+        stagnation_penalty = NO_PROGRESS_PENALTY if no_progress and not invalid_action else 0.0
+        regression_penalty = max(-score_delta, 0.0) * 0.6 + repeated_penalty + step_penalty
+        invalid_penalty = INVALID_ACTION_PENALTY if invalid_action else 0.0
+        timeout_penalty = TIMEOUT_PENALTY if bool(grade.timed_out) else 0.0
+        progress_reward = max(score_delta, 0.0) * 0.7
+        syntax_reward = max(syntax_delta, 0.0) * 0.5
+        test_reward = max(test_delta, 0.0) * 1.0
+        quality_bonus = max(quality_delta, 0.0) * 0.2
+        correctness_bonus = SUBMIT_COMPLETION_BONUS if action_type == "submit_solution" and curr_score >= 0.999 else 0.0
+        reward_value = (
+            progress_reward
+            + syntax_reward
+            + test_reward
+            + quality_bonus
+            + correctness_bonus
+            - stagnation_penalty
+            - regression_penalty
+            - invalid_penalty
+            - timeout_penalty
+        )
+        reward_value = max(-1.0, min(1.0, round(reward_value, 6)))
+        return RewardDetails(
+            value=reward_value,
+            syntax_reward=round(syntax_reward, 6),
+            test_reward=round(test_reward, 6),
+            quality_bonus=round(quality_bonus, 6),
+            correctness_bonus=round(correctness_bonus, 6),
+            progress_delta=round(progress_reward, 6),
+            stagnation_penalty=round(stagnation_penalty, 6),
+            regression_penalty=round(regression_penalty, 6),
+            invalid_action_penalty=round(invalid_penalty, 6),
+            timeout_penalty=round(timeout_penalty, 6),
+            reason=f"{action_type} reward computed safely",
+            prev_score=round(prev_score, 6),
+            curr_score=round(curr_score, 6),
+            code_changed=bool(code_changed),
+        )
+    def _safe_task_order(self) -> list[str]:
+        """Load deterministic task ids with a hard fallback."""
+        try:
+            loaded = list(task_ids())
+            if loaded:
+                return [str(task_id) for task_id in loaded]
+        except Exception:
+            pass
+        return ["syntax-fix-easy", "bug-fix-medium", "optimization-hard"]
+    def _blank_metrics(self) -> dict[str, float]:
+        """Return an empty metric snapshot."""
+        return {
+            "score": 0.0,
+            "test_fraction": 0.0,
+            "syntax_score": 0.0,
+            "quality_score": 0.0,
+        }
+    def _select_task(self, task_id: Optional[str]) -> TaskSpec:
+        """Select the requested task or advance deterministically."""
+        try:
+            if task_id:
+                task = load_task(task_id)
+                if task.task_id in self._task_order:
+                    self._task_cursor = self._task_order.index(task.task_id)
+                return task
+        except Exception:
+            pass
+        try:
+            self._task_cursor = (self._task_cursor + 1) % len(self._task_order)
+            return load_task(self._task_order[self._task_cursor])
+        except Exception:
+            return load_task("syntax-fix-easy")
+    def _safe_grade(self, task: TaskSpec, candidate_code: str, include_hidden: bool) -> TaskGrade:
+        """Run grading without allowing exceptions to escape."""
+        try:
+            return grade_task(candidate_code, task, include_hidden=include_hidden)
+        except Exception as exc:
+            return TaskGrade(
+                score=0.0,
+                syntax_score=0.0,
+                tests_passed=0,
+                tests_total=max(len(task.visible_tests), 1),
+                details={"compile_error": "", "error": _safe_text(exc, "grading_failed")},
+            )
+    def _metrics_from_grade(self, grade: TaskGrade) -> dict[str, float]:
+        """Derive normalized reward metrics from a grading result."""
+        tests_total = max(int(grade.tests_total), 0)
+        tests_passed = max(int(grade.tests_passed), 0)
+        test_fraction = (tests_passed / tests_total) if tests_total else _clamp(grade.syntax_score)
+        return {
+            "score": _clamp(grade.score),
+            "test_fraction": _clamp(test_fraction),
+            "syntax_score": _clamp(grade.syntax_score),
+            "quality_score": _clamp(grade.quality_score),
+        }
+    def _format_test_results(self, grade: TaskGrade, include_hidden: bool) -> str:
+        """Format test execution results for the observation."""
+        compile_error = _safe_text(grade.details.get("compile_error", ""), "")
+        scope = "all checks" if include_hidden else "visible checks"
+        if compile_error:
+            return f"{scope}: compile error: {compile_error}"
+        if grade.timed_out:
+            return f"{scope}: execution timed out"
+        if self._task and self._task.task_kind == "syntax_fix":
+            return "visible checks: code compiles successfully"
+        return f"{scope}: {int(grade.tests_passed)}/{int(grade.tests_total)} passing"
+    def _build_status(self, action_type: str, grade: TaskGrade) -> str:
+        """Build a human-readable status message."""
+        if action_type == "submit_solution":
+            return f"Solution submitted. Final score: {_clamp(grade.score):.3f}"
+        if action_type == "edit_code":
+            if grade.details.get("compile_error"):
+                return "Code updated, but syntax issues remain."
+            return "Code updated and evaluated."
+        if action_type == "run_tests":
+            return "Test run completed."
+        if action_type == "analyze_code":
+            return "Analysis completed."
+        return "Action handled safely."
+    def _apply_grade_to_state(self, grade: TaskGrade, include_hidden: bool) -> None:
+        """Update environment state from the latest grading result."""
+        compile_error = _safe_text(grade.details.get("compile_error", ""), "")
+        self._state.score = _clamp(grade.score)
+        self._state.errors = compile_error
+        self._state.test_results = self._format_test_results(grade, include_hidden=include_hidden)
+    def _handle_scored_action(self, action_type: str, candidate_code: str, include_hidden: bool) -> None:
+        """Grade code, update state, and compute reward for a valid action."""
+        task = self._task or self._select_task(None)
+        previous_metrics = dict(self._metrics)
+        prior_code = self._state.current_code
+        code_changed = candidate_code.strip() != prior_code.strip()
+        if action_type == "edit_code":
+            self._state.current_code = candidate_code
+        grade = self._safe_grade(task=task, candidate_code=self._state.current_code, include_hidden=include_hidden)
+        current_metrics = self._metrics_from_grade(grade)
+        self._apply_grade_to_state(grade, include_hidden=include_hidden)
+        self._last_reward = self.compute_reward(
+            action_type=action_type,
+            previous_metrics=previous_metrics,
+            current_metrics=current_metrics,
+            grade=grade,
+            code_changed=code_changed,
+            invalid_action=False,
+        )
+        self._last_status = self._build_status(action_type, grade)
+        self._metrics = current_metrics
+        self._last_action_type = action_type
+        self._append_history(action_type, self._last_status, self._last_reward.value)
+    def _handle_edit(self, code: Optional[str]) -> None:
+        """Validate edit input and evaluate the new candidate code."""
+        safe_code = (code or "").strip()
+        if not safe_code:
+            self._apply_invalid_action("edit_code requires code parameter.")
+            return
+        self._handle_scored_action(action_type="edit_code", candidate_code=safe_code, include_hidden=False)
+    def _apply_invalid_action(self, reason: str) -> None:
+        """Record an invalid action without crashing the episode."""
+        previous_metrics = dict(self._metrics)
+        grade = TaskGrade(score=previous_metrics["score"], syntax_score=previous_metrics["syntax_score"])
+        self._last_reward = self.compute_reward(
+            action_type="invalid",
+            previous_metrics=previous_metrics,
+            current_metrics=previous_metrics,
+            grade=grade,
+            code_changed=False,
+            invalid_action=True,
+        )
+        self._last_status = reason
+        self._append_history("analyze_code", reason, self._last_reward.value)
+    def _auto_submit(self) -> None:
+        """Finalize the episode when attempts are exhausted."""
+        task = self._task or self._select_task(None)
+        grade = self._safe_grade(task=task, candidate_code=self._state.current_code, include_hidden=True)
+        self._apply_grade_to_state(grade, include_hidden=True)
+        self._done = True
+        self._state.done = True
+        self._last_status = f"Auto-submitted. Final score: {_clamp(grade.score):.3f}"
+    def _append_history(self, action_type: str, status: str, reward: float) -> None:
+        """Append one action record to the episode history."""
+        try:
+            stable_action = action_type if action_type in VALID_ACTIONS else "analyze_code"
+            self._state.history.append(
+                HistoryEntry(
+                    step=max(int(self._state.step_count), 0),
+                    action_type=stable_action,
+                    status=_safe_text(status, "handled"),
+                    reward=float(reward),
+                )
+            )
+        except Exception:
+            pass
+    def _build_observation(self) -> PythonCodeReviewObservation:
+        """Build a valid observation from current state."""
+        task = self._task
+        try:
+            return PythonCodeReviewObservation(
+                task_id=self._state.task_id or "",
+                title=task.title if task else "",
+                difficulty=self._state.difficulty or "easy",
+                task_kind=self._state.task_kind,
+                task_description=task.task_description if task else "",
+                current_code=self._state.current_code,
+                errors=self._state.errors,
+                test_results=self._state.test_results,
+                visible_tests=list(task.visible_tests) if task else [],
+                history=list(self._state.history),
+                attempts_remaining=max(int(self._state.attempts_remaining), 0),
+                last_action_status=self._last_status,
+                score=_clamp(self._state.score),
+                reward_details=self._last_reward,
+                reward=self._last_reward.value,
+                done=bool(self._state.done),
+                metadata={
+                    "prev_score": self._last_reward.prev_score,
+                    "curr_score": self._last_reward.curr_score,
+                },
+            )
+        except Exception as exc:
+            return PythonCodeReviewObservation(
+                task_id=self._state.task_id or "",
+                title="",
+                difficulty="easy",
+                task_kind=None,
+                task_description="",
+                current_code=getattr(self._state, "current_code", ""),
+                errors=_safe_text(exc, "observation_build_failed"),
+                test_results="visible checks: unavailable",
+                visible_tests=[],
+                history=[],
+                attempts_remaining=0,
+                last_action_status="Observation fallback returned safely.",
+                score=0.0,
+                reward_details=RewardDetails(value=0.0, reason="Observation fallback."),
+                reward=0.0,
+                done=bool(getattr(self._state, "done", False)),
+                metadata={},
+            )
+PythonEnvironment = PythonCodeReviewEnvironment
+CodeReviewEnvironment = PythonCodeReviewEnvironment

tasks/task_bank.py CHANGED Viewed

@@ -161,82 +161,66 @@ def calculate_invoice_total(line_items: Iterable[int], discount_percent: int) ->
 TASK_OPTIMIZATION = TaskSpec(
     task_id="optimization-hard",
-    title="Optimize inefficient list duplicate removal",
     difficulty="hard",
     task_kind="optimization",
     task_description=(
-        "Code review found that `remove_duplicates` is inefficient for large lists. "
-        "The current implementation uses nested loops (O(n²) time). "
-        "Optimize it to O(n) using a set-based approach while maintaining order. "
         "Style and code quality also matter: use idiomatic Python, proper types, and clear logic. "
         "All tests must pass, and the optimized version should be measurably faster."
     ),
-    starter_code='''from typing import List, TypeVar
-T = TypeVar('T')
-def remove_duplicates(items: List[T]) -> List[T]:
-    """Remove duplicates from list while preserving order.
-    This implementation is inefficient for large lists.
-    Args:
-        items: List that may contain duplicate elements.
-    Returns:
-        List with duplicates removed, order preserved.
-    """
-    result = []
-    for item in items:
-        if item not in result:  # O(n) lookup in list per iteration
-            result.append(item)
-    return result
 ''',
-    reference_code='''from typing import List, TypeVar
-T = TypeVar('T')
-def remove_duplicates(items: List[T]) -> List[T]:
-    """Remove duplicates from list while preserving order.
-    Efficient set-based implementation with O(n) time complexity.
-    Args:
-        items: List that may contain duplicate elements.
-    Returns:
-        List with duplicates removed, order preserved.
-    """
-    seen: set = set()
-    result = []
-    for item in items:
-        if item not in seen:
-            seen.add(item)
-            result.append(item)
-    return result
 ''',
     visible_tests=[
-        "remove_duplicates([1, 2, 2, 3, 1]) == [1, 2, 3]",
-        "remove_duplicates(['a', 'b', 'a']) == ['a', 'b']",
-        "remove_duplicates([]) == []",
-        "remove_duplicates([1]) == [1]",
     ],
     hidden_tests=[
-        "remove_duplicates([5, 4, 3, 2, 1, 5, 4]) == [5, 4, 3, 2, 1]",
     ],
     max_steps=10,
-    benchmark_entrypoint="remove_duplicates",
-    benchmark_builder="lambda: list(range(5000)) + list(range(5000))",
     benchmark_repeats=3,
     benchmark_timeout_s=1.0,
     style_max_line_length=88,
     expected_quality_markers=[
-        "set",
-        "O(n)",
     ],
 )

 TASK_OPTIMIZATION = TaskSpec(
     task_id="optimization-hard",
+    title="Optimize inefficient user activity summarization",
     difficulty="hard",
     task_kind="optimization",
     task_description=(
+        "Code review found that `summarize_user_activity` is inefficient for large event streams. "
+        "The current implementation repeatedly scans the full event list for every user, making it O(n**2). "
+        "Refactor it to aggregate counts in one pass while preserving the sorted output contract. "
         "Style and code quality also matter: use idiomatic Python, proper types, and clear logic. "
         "All tests must pass, and the optimized version should be measurably faster."
     ),
+    starter_code='''from typing import Iterable
+def summarize_user_activity(events: Iterable[dict]) -> list[tuple[str, int]]:
+    """Aggregate user activity counts."""
+    ordered_users = []
+    for event in events:
+        user_id = event["user_id"]
+        if user_id not in ordered_users:
+            ordered_users.append(user_id)
+    summary = []
+    for user_id in ordered_users:
+        count = 0
+        for event in events:
+            if event["user_id"] == user_id:
+                count += 1
+        summary.append((user_id, count))
+    return sorted(summary, key=lambda item: (-item[1], item[0]))
 ''',
+    reference_code='''from collections import Counter
+from typing import Iterable
+def summarize_user_activity(events: Iterable[dict]) -> list[tuple[str, int]]:
+    """Aggregate user activity counts in one pass."""
+    counts = Counter(event["user_id"] for event in events)
+    return sorted(counts.items(), key=lambda item: (-item[1], item[0]))
 ''',
     visible_tests=[
+        "summarize_user_activity([{'user_id': 'alice'}, {'user_id': 'bob'}, {'user_id': 'alice'}]) == [('alice', 2), ('bob', 1)]",
+        "summarize_user_activity([{'user_id': 'z'}, {'user_id': 'a'}]) == [('a', 1), ('z', 1)]",
+        "summarize_user_activity([]) == []",
+        "summarize_user_activity([{'user_id': 'solo'}]) == [('solo', 1)]",
     ],
     hidden_tests=[
+        "summarize_user_activity([{'user_id': 'u2'}, {'user_id': 'u1'}, {'user_id': 'u2'}, {'user_id': 'u2'}, {'user_id': 'u1'}]) == [('u2', 3), ('u1', 2)]",
     ],
     max_steps=10,
+    benchmark_entrypoint="summarize_user_activity",
+    benchmark_builder='''def build_benchmark_events():
+    return [{"user_id": f"user_{index % 400}"} for index in range(6000)]''',
     benchmark_repeats=3,
     benchmark_timeout_s=1.0,
     style_max_line_length=88,
     expected_quality_markers=[
+        "Counter",
+        "sorted",
     ],
 )