File size: 13,475 Bytes

8629ccf

# util.py
from loguru import logger
import os
import json

from datetime import datetime
from typing import List, Dict, Any, Optional
from pathlib import Path
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import JsonOutputParser
from langchain.output_parsers import OutputFixingParser
from pydantic import BaseModel
import asyncio
import re

# Global concurrency limit
CONCURRENCY_LIMIT = asyncio.Semaphore(int(os.getenv("MAX_CONCURRENCY", "8")))

# LLM 调用的超时与重试配置（可通过环境变量覆盖）
LLM_TIMEOUT = int(os.getenv("LLM_TIMEOUT", "180"))  # 单次 LLM 调用超时秒数（默认 3 分钟）
LLM_MAX_RETRIES = int(os.getenv("LLM_MAX_RETRIES", "1"))  # 最多重试次数（默认 1 次）
LLM_RETRY_BACKOFF = float(os.getenv("LLM_RETRY_BACKOFF", "2.0"))  # 重试等待时间（秒）

# Common code file extensions
CODE_EXTENSIONS = {
    # Python
    ".py", ".ipynb",
    # C/C++
    ".c", ".cpp", ".cc", ".cxx", ".h", ".hpp", ".hh",
    # Fortran
    ".f", ".f90", ".f95", ".for",
    # Julia
    ".jl",
    # R
    ".r", ".R",
    # Java
    ".java",
    # MATLAB/Octave
    ".m",
    # Shell脚本
    ".sh", ".bash",
    ".rs",  # Rust
    ".go",  # Go
    # Markdown
    ".md", ".markdown",
}


def init_logger(log_file: str, level: str = "INFO"):
    """Initialize logger with color output"""
    os.makedirs(os.path.dirname(log_file), exist_ok=True)
    logger.remove()
    # Console output with color
    logger.add(
        sink=lambda msg: print(msg, end=""),
        level=level,
        colorize=True,
        format="<green>{time:YYYY-MM-DD HH:mm:ss}</green> | <level>{level: <8}</level> | <cyan>{name}</cyan>:<cyan>{function}</cyan>:<cyan>{line}</cyan> - <level>{message}</level>",
    )
    # File output
    logger.add(
        Path(log_file),
        level=level,
        rotation="1 day",
        encoding="utf-8",
        format="{time:YYYY-MM-DD HH:mm:ss} [{level}] ({name}:{function}:{line}) {message}",
    )
    return logger


def log_api(log_file: str, data: Dict):
    """Log API call to file"""
    with open(log_file, "a", encoding="utf-8") as f:
        record = {"time": datetime.utcnow().isoformat() + "Z", "data": data}
        f.write(json.dumps(record, ensure_ascii=False) + "\n")


def extract_final_answer_from_reasoning(text: str, pydantic_object: Optional[type[BaseModel]] = None) -> Dict:
    """
    Extract final answer from reasoning model output.
    For reasoning models like Qwen3, the response format is:
    <think>reasoning content</think>final result
    
    Args:
        text: Raw response text from reasoning model
        pydantic_object: Expected Pydantic model for structured output
    
    Returns:
        Dict with extracted relevant and reason fields
    """
    # Extract reasoning content from <think>...</think> tags
    reasoning_pattern = r'<think>(.*?)</think>'
    reasoning_match = re.search(reasoning_pattern, text, re.DOTALL | re.IGNORECASE)
    reasoning_content = reasoning_match.group(1).strip() if reasoning_match else ""
    
    # Extract final result (content after </think> tag)
    final_result = ""
    if reasoning_match:
        # Get everything after the closing tag
        final_result = text[reasoning_match.end():].strip()
    else:
        # If no tags found, use the whole text as final result
        final_result = text.strip()
    
    # Now extract JSON or YES/NO from the final result
    # First, try to extract JSON from the final result
    json_block_pattern = r'```(?:json)?\s*(\{.*?\})\s*```'
    json_block_matches = re.findall(json_block_pattern, final_result, re.DOTALL | re.IGNORECASE)
    for match in json_block_matches:
        try:
            parsed = json.loads(match)
            if isinstance(parsed, dict) and "relevant" in parsed:
                return {
                    "relevant": str(parsed.get("relevant", "")).upper(),
                    "reason": reasoning_content or parsed.get("reason", "")[:1000]
                }
        except json.JSONDecodeError:
            continue
    
    # Try to find JSON objects in the final result (handle nested braces)
    brace_count = 0
    start_pos = -1
    for i, char in enumerate(final_result):
        if char == '{':
            if brace_count == 0:
                start_pos = i
            brace_count += 1
        elif char == '}':
            brace_count -= 1
            if brace_count == 0 and start_pos >= 0:
                # Found a complete JSON object
                json_str = final_result[start_pos:i+1]
                try:
                    parsed = json.loads(json_str)
                    if isinstance(parsed, dict) and "relevant" in parsed:
                        return {
                            "relevant": str(parsed.get("relevant", "")).upper(),
                            "reason": reasoning_content or parsed.get("reason", "")[:1000]
                        }
                except json.JSONDecodeError:
                    pass
                start_pos = -1
    
    # If no JSON found, try to extract YES/NO from final result
    relevant_patterns = [
        r'"relevant"\s*:\s*["\']?(YES|NO)["\']?',
        r'"relevant"\s*:\s*(YES|NO)',
        r'relevant\s*[:=]\s*["\']?(YES|NO)["\']?',
        r'answer\s*[:=]\s*["\']?(YES|NO)["\']?',
        r'final\s+answer\s*[:=]\s*["\']?(YES|NO)["\']?',
        r'\b(YES|NO)\b',  # Last resort: find YES or NO in final result
    ]
    
    relevant = None
    for pattern in relevant_patterns:
        match = re.search(pattern, final_result, re.IGNORECASE)
        if match:
            relevant = match.group(1).upper()
            break
    
    # Use reasoning content as reason, or final result if no reasoning found
    reason = reasoning_content if reasoning_content else final_result[:1000]
    
    return {
        "relevant": relevant or "NO",  # Default to NO if not found
        "reason": reason[:1000] if len(reason) > 1000 else reason  # Limit reason length
    }


async def call_llm(
    messages: List[Dict[str, str]],
    model: str,
    base_url: str,
    api_key: str,
    pydantic_object: Optional[type[BaseModel]] = None,
    log_file: str = "workdir/calls_llm.jsonl",
    **kwargs,
) -> Optional[Dict]:
    """异步LLM调用，使用langchain结构化输出"""
    # region agent log
    debug_log_path = Path(__file__).parent.parent.parent / ".cursor" / "debug.log"
    try:
        with open(debug_log_path, "a", encoding="utf-8") as f:
            log_entry = {
                "sessionId": "debug-session",
                "runId": "api-key-llm-call",
                "hypothesisId": "B",
                "location": "util.py:180",
                "message": "API key passed to LLM",
                "data": {
                    "base_url": base_url,
                    "model": model,
                    "api_key_length": len(api_key) if api_key else 0,
                    "api_key_prefix": api_key[:20] + "..." if api_key and len(api_key) > 20 else api_key,
                    "api_key_suffix": "..." + api_key[-10:] if api_key and len(api_key) > 10 else api_key,
                    "api_key_is_none": api_key == "none",
                },
                "timestamp": int(__import__("time").time() * 1000)
            }
            f.write(json.dumps(log_entry) + "\n")
    except Exception:
        pass
    # endregion
    
    llm = ChatOpenAI(model=model, base_url=base_url, api_key=api_key, **kwargs)

    # 创建parser
    parser = JsonOutputParser(pydantic_object=pydantic_object) if pydantic_object else JsonOutputParser()
    fixing_parser = OutputFixingParser.from_llm(parser=parser, llm=llm)

    # 打印输入日志
    user_msgs = [msg for msg in messages if msg["role"] == "user"]
    if user_msgs:
        logger.info("=" * 80)
        logger.info(f"📤 INPUT | 模型: {model}")
        for msg in user_msgs:
            logger.info(f"\n{msg['content']}")
        logger.info("=" * 80)

    # 使用 timeout 和重试机制
    timeout = kwargs.pop("timeout", LLM_TIMEOUT)
    response = None
    last_exc: Optional[BaseException] = None
    
    for attempt in range(1, LLM_MAX_RETRIES + 2):  # +2 因为 range(1, n+2) 会执行 n+1 次（初始尝试 + n 次重试）
        try:
            async with CONCURRENCY_LIMIT:
                # 使用 asyncio.wait_for 添加超时保护
                response = await asyncio.wait_for(
                    llm.ainvoke(messages),
                    timeout=timeout
                )
            output = response.content
            break  # 成功则跳出重试循环
        except asyncio.TimeoutError:
            last_exc = asyncio.TimeoutError(f"LLM 调用超时（{timeout}秒）")
            logger.warning(f"⏱️ LLM 调用超时（第 {attempt}/{LLM_MAX_RETRIES + 1} 次）: {base_url} | 模型: {model}")
            if attempt <= LLM_MAX_RETRIES:
                wait_time = LLM_RETRY_BACKOFF * attempt
                logger.info(f"🔄 等待 {wait_time} 秒后重试（剩余 {LLM_MAX_RETRIES - attempt + 1} 次）...")
                await asyncio.sleep(wait_time)  # 指数退避
            else:
                logger.error(f"❌ LLM 调用最终超时（已尝试 {attempt} 次），放弃: {base_url} | 模型: {model}")
                # 不再抛出异常，而是返回 None，让调用者处理
                return None
        except Exception as e:
            last_exc = e
            logger.warning(f"⚠️ LLM 调用失败（第 {attempt}/{LLM_MAX_RETRIES + 1} 次）: {base_url} | 模型: {model} | 错误: {e}")
            if attempt <= LLM_MAX_RETRIES:
                wait_time = LLM_RETRY_BACKOFF * attempt
                logger.info(f"🔄 等待 {wait_time} 秒后重试（剩余 {LLM_MAX_RETRIES - attempt + 1} 次）...")
                await asyncio.sleep(wait_time)  # 指数退避
            else:
                logger.error(f"❌ LLM 调用最终失败（已尝试 {attempt} 次），放弃: {base_url} | 模型: {model} | 错误: {e}")
                # 不再抛出异常，而是返回 None
                return None
    
    # 如果到这里 response 还是 None，说明所有重试都失败了
    if response is None:
        logger.error("❌ LLM 调用失败：所有重试都失败")
        return None
    
    try:

        # 打印输出日志
        logger.info("=" * 80)
        total_tokens = getattr(response, "usage_metadata", {}).get("total_tokens", "N/A")
        input_tokens = getattr(response, "usage_metadata", {}).get("input_tokens", "N/A")
        output_tokens = getattr(response, "usage_metadata", {}).get("output_tokens", "N/A")

        logger.info(
            f"📥 OUTPUT | total_tokens: {total_tokens} | input_tokens: {input_tokens} | output_tokens: {output_tokens}"
        )
        logger.info(f"\n{output}")
        logger.info("=" * 80)

        # Check if this is a reasoning model
        is_reasoning_model = "qwen" in model.lower() or "reasoning" in model.lower()
        
        # JSON解析(先直接解析,失败则自动修复)
        parsed = None
        try:
            parsed = parser.invoke(response)
            # Validate parsed result for reasoning models
            if is_reasoning_model and isinstance(parsed, dict):
                # Check if parsed result has valid relevant field (for RelevanceResult type)
                relevant = parsed.get("relevant", "")
                if relevant and isinstance(relevant, str):
                    relevant_upper = relevant.upper()
                    if relevant_upper not in ["YES", "NO"]:
                        # Invalid format, need post-processing
                        logger.warning(f"推理模型响应格式无效，进行后处理: {relevant}")
                        parsed = extract_final_answer_from_reasoning(output, pydantic_object)
                    else:
                        # Update to ensure uppercase
                        parsed["relevant"] = relevant_upper
        except Exception as e:
            logger.warning(f"直接解析失败,尝试修复: {e}")
            try:
                parsed = fixing_parser.invoke(response)
                # Validate again after fixing
                if is_reasoning_model and isinstance(parsed, dict):
                    relevant = parsed.get("relevant", "")
                    if relevant and isinstance(relevant, str) and relevant.upper() not in ["YES", "NO"]:
                        logger.warning(f"修复后格式仍无效，使用后处理: {relevant}")
                        parsed = extract_final_answer_from_reasoning(output, pydantic_object)
            except Exception as e2:
                logger.warning(f"修复解析也失败: {e2}")
                # For reasoning models, try post-processing
                if is_reasoning_model:
                    logger.info("使用后处理函数提取推理模型的最终答案")
                    parsed = extract_final_answer_from_reasoning(output, pydantic_object)
                else:
                    raise e2

        # 记录完整日志
        log_api(
            log_file,
            {
                "input": messages,
                "output": response.dict() if hasattr(response, "dict") else str(response),
                "parsed": parsed,
            },
        )

        return parsed  # 直接返回解析后的字典

    except Exception as e:
        logger.error(f"❌ LLM调用失败: {e}")
        raise