File size: 680 Bytes
7134ce7 |
1 2 3 4 5 6 7 8 9 10 11 12 13 |
bash scripts/env.sh
CKPT=$1
OUTPUT=$2
# nproc_per_node:单个实例(机器)上运行的进程数,使用 GPU 时通常为每台机器上的 GPU 数量。
# nnodes:对应环境变量 MLP_WORKER_NUM 的值。
# node_rank:对应环境变量 MLP_ROLE_INDEX 的值。
# master_addr:对应环境变量 MLP_WORKER_0_HOST 的值。
# master_port:对应环境变量 MLP_WORKER_0_PORT 的值。
torchrun --nproc_per_node $MLP_WORKER_GPU \
--master_addr $MLP_WORKER_0_HOST \
--node_rank $MLP_ROLE_INDEX \
--master_port $MLP_WORKER_0_PORT --nnodes $MLP_WORKER_NUM \
evaluation/inference.py --checkpoint $CKPT --output_name $OUTPUT |