#!/bin/bash
ROOT_DIR=/workspace/hanrui/junquan/SpecForge
export PYTHONPATH=$ROOT_DIR:$PYTHONPATH
export PATH=/workspace/hanrui/specforge/bin:$PATH
export TORCHINDUCTOR_CACHE_DIR=$ROOT_DIR/cache/compiled_kernels
export SPECFORGE_DATA_NUM_PROC=16
export PYTHONUNBUFFERED=1
export TRANSFORMERS_OFFLINE=1

NUM_GPUS=${1:-8}

/workspace/hanrui/specforge/bin/python3 -m torch.distributed.run \
    --standalone \
    --nproc_per_node $NUM_GPUS \
    $ROOT_DIR/scripts/eval_dflash_lora.py \
    --model-path /workspace/models/Qwen3-8B \
    --ckpt-dir $ROOT_DIR/outputs/qwen3-8b-dflash-lora/epoch_2_step_218500 \
    --data-path /workspace/hanrui/datasets/Nemotron-CodeAlpaca-qwen3-8b-800K \
    --lora-config $ROOT_DIR/configs/qwen3-8b-dflash-lora.json \
    --block-size 16 \
    --max-length 2048 \
    --batch-size 1 \
    --attention-backend flex_attention \
    --lm-head-chunk-size 256 \
    --chat-template qwen \
    --log-interval 50 \
    --cache-dir $ROOT_DIR/cache \
    --dist-timeout 120