# import datetime
# import logging
# import json
# import random
# import time

# import numpy as np
# import os
# import pickle
# import sys
# import torch
# import torch.distributed as dist
# import torch.nn.functional as F
# import yaml

# from torch.utils.data import DataLoader
# from tqdm import tqdm
# from transformers import HfArgumentParser, AutoConfig
# from datasets import Dataset, concatenate_datasets
# from datasets.distributed import split_dataset_by_node

# from src.arguments import ModelArguments, DataArguments, TrainingArguments
# from src.data.collator.eval_collator import MultimodalEvalDataCollator
# from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
# from src.eval_utils.metrics import RankingMetrics
# from src.model.model import MMEBModel
# from src.model.processor import get_backbone_name, load_processor, COLPALI
# from src.utils import batch_to_device, print_rank, print_master
# import multiprocessing
# from multiprocessing import Pool, cpu_count
# logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
# logger = logging.getLogger(__name__)

# ###############################################
# # 计时开始
# def start_timer(name, timing_dict):
#     timing_dict[name] = time.time()

# # 计时结束
# def end_timer(name, timing_dict):
#     end_time = time.time()
#     if name in timing_dict:
#         timing_dict[name] = end_time - timing_dict[name]

# # # 放在 main 函数之前，或者单独放在 utils.py 中
# # def register_hooks(model, timing_dict):
# #     # --- vision_encoder hook ---
# #     def vision_forward_hook(module, input, output):
# #         print_master(f"[vision_encoder] output shape: {output.shape}")
# #         print_master(f"[vision_encoder] num_image_tokens: {output.shape[1]}")
# #         start_timer("vision_encoder", timing_dict)

# #     def vision_forward_post_hook(module, input, output):
# #         end_timer("vision_encoder", timing_dict)

# #     model.encoder.visual.register_forward_hook(vision_forward_hook)
# #     model.encoder.visual.register_forward_hook(vision_forward_post_hook)

# #     # --- merger hook ---
# #     def merger_forward_hook(module, input, output):
# #         print_master(f"[merger] before merger - input shape: {input[0].shape}")
# #         print_master(f"[merger] before merger - num_tokens: {input[0].shape[1]}")
# #         start_timer("merger", timing_dict)

# #     def merger_forward_post_hook(module, input, output):
# #         print_master(f"[merger] after merger - output shape: {output.shape}")
# #         print_master(f"[merger] after merger - num_tokens: {output.shape[1]}")
# #         end_timer("merger", timing_dict)

# #     if hasattr(model.encoder.visual, 'merger'):
# #         model.encoder.visual.merger.register_forward_hook(merger_forward_hook)
# #         model.encoder.visual.merger.register_forward_hook(merger_forward_post_hook)

# #     # --- decoder hook ---
# #     def decoder_forward_hook(module, input, output):
# #         # 这里更新为接收 input 和 output 参数
# #         if isinstance(input, tuple) and len(input) > 0:
# #             print_master(f"[llm_decoder] input shape: {input[0].shape}")
# #             print_master(f"[llm_decoder] total_tokens (image+text): {input[0].shape[1]}")
# #         start_timer("llm_decoder", timing_dict)

# #     def decoder_forward_post_hook(module, input, output):
# #         end_timer("llm_decoder", timing_dict)

# #     model.encoder.model.register_forward_hook(decoder_forward_hook)
# #     model.encoder.model.register_forward_hook(decoder_forward_post_hook)

# #     # --- lm_head hook ---
# #     def lm_head_forward_hook(module, input, output):
# #         start_timer("lm_head", timing_dict)

# #     def lm_head_forward_post_hook(module, input, output):
# #         end_timer("lm_head", timing_dict)

# #     model.encoder.lm_head.register_forward_hook(lm_head_forward_hook)
# #     model.encoder.lm_head.register_forward_hook(lm_head_forward_post_hook)
# def register_timing_hooks(model, timing_dict):
#     def make_hooks(name):
#         def pre_hook(module, input):
#             timing_dict[f"{name}_start"] = time.time()

#         def forward_hook(module, input, output):
#             elapsed = time.time() - timing_dict[f"{name}_start"]
#             timing_dict[name] = elapsed  # 记录时间
#             print_master(f"[{name}] took {elapsed * 1000:.2f} ms")

#         return pre_hook, forward_hook

#     # vision encoder
#     pre, post = make_hooks("vision_encoder")
#     model.encoder.visual.register_forward_pre_hook(pre)
#     model.encoder.visual.register_forward_hook(post)

#     # merger
#     if hasattr(model.encoder.visual, 'merger'):
#         pre, post = make_hooks("merger")
#         model.encoder.visual.merger.register_forward_pre_hook(pre)
#         model.encoder.visual.merger.register_forward_hook(post)

#     # decoder
#     pre, post = make_hooks("llm_decoder")
#     model.encoder.model.register_forward_pre_hook(pre)
#     model.encoder.model.register_forward_hook(post)

#     # lm_head
#     pre, post = make_hooks("lm_head")
#     model.encoder.lm_head.register_forward_pre_hook(pre)
#     model.encoder.lm_head.register_forward_hook(post)


# #####################################################

# def pad_dataset_to_divisible(dataset, world_size):
#     num_samples = len(dataset)
#     if num_samples % world_size == 0:
#         return dataset, num_samples

#     num_to_add = world_size - (num_samples % world_size)
#     padded_size = num_samples + num_to_add

#     padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
#     padded_dataset = concatenate_datasets([dataset, padding_data])
#     return padded_dataset, padded_size


# def encode_embeddings(
#     model: MMEBModel,
#     loader: DataLoader,
#     training_args: TrainingArguments,
#     model_args: ModelArguments,
#     full_dataset: Dataset,
#     encode_side: str,
#     description: str = "Encoding",
#     timing_dict: dict | None = None
# ) -> tuple[np.ndarray, list]:
#     """
#     Encodes embeddings for a given dataset using the model, handling both standard and
#     late-interaction models in a DDP-safe manner.
#     """
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1

#     # Check if the model is a late-interaction type
#     is_late_interaction = (model_args.model_backbone == COLPALI)

#     local_embeds = []
#     local_gt_infos = []
#     local_max_len = 0

#     model.eval()
#     with torch.no_grad():
#         for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
#             inputs = batch_to_device(inputs, training_args.device)
#             with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
#                 # Determine if encoding query or target based on available keys
#                 if encode_side == "qry":
#                     output = model(qry=inputs)
#                     reps = output["qry_reps"].detach()
#                     local_gt_infos.extend(dataset_info)  # to retain all information per query
#                 else:
#                     output = model(tgt=inputs)
#                     reps = output["tgt_reps"].detach()
#                     local_gt_infos.extend([info["cand_name"] for info in dataset_info])  # to retain ground-truth labels

#             if is_late_interaction and reps.dim() == 3:
#                 local_max_len = max(local_max_len, reps.shape[1])  

#             local_embeds.append(reps)

#     if not local_embeds:
#         # Handle cases where a rank gets no data
#         return np.array([]), []

#     # === DDP Synchronization and Padding for Late-Interaction Models ===
#     if is_late_interaction:
#         if dist.is_initialized():
#             # 1. Find the global maximum sequence length across all ranks
#             local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
#             dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
#             global_max_len = local_max_len_tensor.item()
#         else:
#             global_max_len = local_max_len

#         # 2. Pad all local embeddings to the global max length
#         padded_embeds = []
#         for reps_batch in local_embeds:
#             if reps_batch.dim() == 3:
#                 B, L, H = reps_batch.shape
#                 padding_size = global_max_len - L
#                 padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
#                 padded_embeds.append(padded_batch)
#             else: # Should not happen if model is consistently late-interaction
#                 padded_embeds.append(reps_batch)

#         embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
#     else: # Standard dense models
#         embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()


#     # === Gather embeddings and keys from all ranks ===
#     if dist.is_initialized() and full_dataset.num_rows >= world_size:
#         print_master(f"Gathering {encode_side} embeddings across all ranks...")

#         # Use the more efficient all_gather_into_tensor for tensors
#         output_shape = list(embeds_tensor.shape)
#         output_shape[0] = full_dataset.num_rows
#         embeds_tensor = embeds_tensor.to(training_args.device)
#         gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
#         dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
#         final_embeddings = gathered_embeds_tensor.cpu().float().numpy()
#         # Gather metadata, for which all_gather_object is appropriate
#         gathered_gt_infos = [None for _ in range(world_size)]
#         dist.all_gather_object(gathered_gt_infos, local_gt_infos)
#         all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]
#     else:
#         all_gt_infos = local_gt_infos
#         final_embeddings = embeds_tensor.cpu().float().numpy()

#     print_master(f"Timing results for {description}:")
#     for k, v in timing_dict.items():
#         if not k.startswith('_'):
#             print_master(f"  {k}: {v:.4f} sec")
#     return final_embeddings, all_gt_infos


# def main():
#     if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
#         dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1
#     # DEBUG PRINTS for Distributed Setup
#     print_master("Distributed init debug info:")
#     print_master(f"RANK: {os.environ.get('RANK')}")
#     print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
#     print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
#     print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
#     print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
#     if dist.is_initialized():
#         print_rank(f"dist.get_rank(): {dist.get_rank()}")
#         print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

#     for arg in sys.argv:
#         if arg.startswith("--local-rank="):
#             rank = arg.split("=")[1]
#             sys.argv.remove(arg)
#             sys.argv.append('--local_rank')
#             sys.argv.append(rank)
#     parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
#     model_args, data_args, training_args = parser.parse_args_into_dataclasses()
#     model_args: ModelArguments
#     data_args: DataArguments
#     training_args: TrainingArguments
#     os.makedirs(data_args.encode_output_path, exist_ok=True)

#     # --- Model Loading ---
#     hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
#     if not getattr(model_args, "model_backbone", None):
#         model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
#         setattr(model_args, 'model_backbone', model_backbone)
#         setattr(training_args, 'model_backbone', model_backbone)
#     print_master(f'Model Backbone: {model_args.model_backbone}')
#     # --- DDP-Safe Model Loading ---
#     # Step 1: Only the master process (rank 0) downloads the model.
#     if local_rank == 0:
#         processor = load_processor(model_args, data_args)
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
#         print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
#     # Step 2: All processes wait here. The non-master processes will pause
#     # until the master process (rank 0) finishes downloading and exits this barrier.
#     if torch.distributed.is_initialized():
#         torch.distributed.barrier()
#     # Step 3: Now that the model is cached, the non-master processes load it from the local cache.
#     if local_rank != 0:
#         print_rank(f"Loading the model from cache...")
#         processor = load_processor(model_args, data_args)
#         time.sleep(random.randint(2 * local_rank, 3 * local_rank))
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)


#     model.eval()
#     model = model.to(training_args.device, dtype=torch.bfloat16)
#     with open(data_args.dataset_config, 'r') as yaml_file:
#         dataset_configs = yaml.safe_load(yaml_file)

#     #############################################################################
#     import time
#     timing_dict = {}
#     register_hooks(model, timing_dict)  # 注册 hooks，开始计时
#     ##############################################################################

#     # --- Main Evaluation Loop ---
#     for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
#         # 0. load dataset
#         if dist.is_initialized():
#             dist.barrier()
#         print_master(f"--- Evaluating {dataset_name} ---")

#         query_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry")
#         cand_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt")
#         dataset_info_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_info.jsonl")

#         do_query = not os.path.exists(query_embed_path) or not os.path.exists(dataset_info_path)
#         do_cand = not os.path.exists(cand_embed_path)

#         if do_query or do_cand:
#             if data_args.data_basedir is not None:
#                 # Construct full paths for data files if --data_basedir is provided
#                 for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
#                     if data_args.data_basedir and task_config.get(key):
#                         task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

#             full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
#             full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
#             eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset
#             # Pad datasets to be divisible by world_size before splitting
#             if dist.is_initialized():
#                 padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
#                 padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
#                 eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
#                 eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
#             else:
#                 padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

#         # --- 1. Compute Query Embeddings ---
#         if do_query:
#             print_master("Encoding queries...")
#             eval_qry_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
#             eval_qry_loader = DataLoader(eval_qry_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_qry_collator, num_workers=training_args.dataloader_num_workers)
#             query_embeds, gt_infos = encode_embeddings(model, eval_qry_loader, training_args, model_args, padded_qry_dataset, encode_side="qry", description=f"Queries for {dataset_name}", timing_dict=timing_dict)
            
            
#             query_embeds = query_embeds[:len(full_eval_qry_dataset)]  # world_size>1, trim the padded data points
#             gt_infos = gt_infos[:len(full_eval_qry_dataset)]
#             if local_rank == 0:
#                 with open(query_embed_path, 'wb') as f:
#                     pickle.dump(query_embeds, f)
#                 with open(dataset_info_path, 'w') as f:
#                     for info in gt_infos:
#                         f.write(json.dumps(info) + '\n')
#                 print_master(f"Saved query embeddings to {query_embed_path}")
#             if dist.is_initialized():
#                 dist.barrier()


#         # --- 2. Compute Candidate Embeddings ---
#         if do_cand:
#             print_master("Encoding candidates...")
#             eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
#             eval_cand_loader = DataLoader(eval_cand_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_cand_collator, num_workers=training_args.dataloader_num_workers)

#             cand_embeds, all_cand_ids = encode_embeddings(model, eval_cand_loader, training_args, model_args, padded_cand_dataset, encode_side="cand", description=f"Candidates for {dataset_name}", timing_dict=timing_dict)
#             cand_embeds = cand_embeds[:len(full_eval_cand_dataset)]  # world_size>1, trim the padded data points
#             all_cand_ids = all_cand_ids[:len(full_eval_cand_dataset)]

#             if local_rank == 0:
#                 cand_embed_dict = {cand_id: embed for cand_id, embed in zip(all_cand_ids, cand_embeds)}
#                 with open(cand_embed_path, 'wb') as f: pickle.dump(cand_embed_dict, f)
#                 print_master(f"Saved candidate embeddings to {cand_embed_path}")

#         if dist.is_initialized():
#             dist.barrier()

#         # --- 3. Compute Scores (on master rank only) ---
#         if local_rank == 0:
#             score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#             if os.path.exists(score_path):
#                 try:
#                     with open(score_path, "r") as f:
#                         score_dict = json.load(f)
#                     print_master(f"Score of {dataset_name} (loaded from previous run): {score_path}")
#                     formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#                     print_master(formatted)
#                     continue
#                 except Exception as e:
#                     print_master(f"Failed to load score for {dataset_name}, skipping {dataset_name}")
#             with open(query_embed_path, 'rb') as f: qry_embeds = pickle.load(f)
#             with open(cand_embed_path, 'rb') as f: cand_embed_dict = pickle.load(f)
#             gt_infos = [json.loads(l) for l in open(dataset_info_path)]
#             pred_dicts = []

#             rank_against_all_candidates = task_config.get("eval_type", "global") == "global"
#             if rank_against_all_candidates:
#                 cand_keys = list(cand_embed_dict.keys())
#                 cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])
#                 # Handle late-interaction scoring
#                 if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#                     qry_embed = torch.from_numpy(qry_embeds)
#                     cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                     scores = processor.score(qry_embed, cand_embeds, batch_size=64)  # use ColPali score function
#                     ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()
#                 else: # Dense
#                     cosine_scores = np.dot(qry_embeds, cand_embeds.T)
#                     ranked_candids = np.argsort(-cosine_scores, axis=1)
#                 for qid, (ranked_candid, gt_info) in tqdm(enumerate(zip(ranked_candids, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None
#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)
#                     pred_dicts.append({
#                         "prediction": [cand_keys[i] for i in ranked_candid],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })
#             else:
#                 for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     cand_embeds = np.stack([cand_embed_dict[key] for key in gt_info["cand_names"]])
#                     if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#                         qry_embed = torch.from_numpy(np.array(qry_embed)).unsqueeze(0)
#                         cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                         scores = processor.score(qry_embed, cand_embeds, batch_size=1024)  # use ColPali score function
#                         ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()[0]
#                     else:
#                         cosine_score = np.dot(qry_embed, cand_embeds.T)
#                         ranked_candids = np.argsort(-cosine_score)
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None

#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)
#                     pred_dicts.append({
#                         "prediction": [gt_info["cand_names"][i] for i in ranked_candids],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })

#             score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#             pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred.jsonl")

#             metrics_to_report = task_config["metrics"] if task_config.get("metrics", None) is not None else ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
#             metrics = RankingMetrics(metrics_to_report)
#             score_dict = metrics.evaluate(pred_dicts)
#             formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#             score_dict["num_pred"] = len(pred_dicts)
#             score_dict["num_data"] = len(gt_infos)
#             print_master(f"Score of {dataset_name}:")
#             print_master(formatted)
#             print_master(f"Outputting final score to: {score_path}")
#             with open(score_path, "w") as f:
#                 json.dump(score_dict, f, indent=4)
#             with open(pred_path, "w") as f:
#                 for pred in pred_dicts:
#                     f.write(json.dumps(pred) + '\n')


# if __name__ == "__main__":
#     main()


###################################################################################################
#直接打印输出对应模块时间和token数量
# import datetime
# import logging
# import json
# import random
# import time

# import numpy as np
# import os
# import pickle
# import sys
# import torch
# import torch.distributed as dist
# import torch.nn.functional as F
# import yaml
# import transformers

# from torch.utils.data import DataLoader
# from tqdm import tqdm
# from transformers import HfArgumentParser, AutoConfig, AutoTokenizer#, Qwen2VLForConditionalGeneration
# from datasets import Dataset, concatenate_datasets
# from datasets.distributed import split_dataset_by_node
# from src.model.vlm_backbone.qwen2_vl.modeling_qwen2_vl import Qwen2VLForConditionalGeneration as _Qwen2VLForConditionalGeneration_src


# from src.arguments import ModelArguments, DataArguments, TrainingArguments
# from src.data.collator.eval_collator import MultimodalEvalDataCollator
# from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
# from src.eval_utils.metrics import RankingMetrics
# from src.model.model import MMEBModel
# from src.model.processor import get_backbone_name, load_processor, COLPALI
# from src.utils import batch_to_device, print_rank, print_master
# import multiprocessing
# from multiprocessing import Pool, cpu_count
# logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
# logger = logging.getLogger(__name__)


# # --- Global Dictionaries for Hooks (will be cleared before each encode_embeddings call) ---
# timing_info = {}
# token_info = {
#     "vision_tokens": 0,
#     "text_input_tokens": 0,  # Refers to the original text token count
#     "text_output_tokens": 0, # Not directly applicable here as we are encoding, not generating. Will be 0.
#     "total_llm_input_tokens": 0, # Refers to the total tokens LLM receives (visual + formatted text)
# }

# # --- Hook Functions Definition ---
# def timing_pre_hook(module, input):
#     module_id = id(module)
#     if module_id not in timing_info:
#         timing_info[module_id] = []
#     timing_info[module_id].append((time.time(), 'pre', module.__class__.__name__))

# def timing_post_hook(module, input, output):
#     module_id = id(module)
#     if module_id not in timing_info:
#         print(f"Warning: No pre-hook data for module {module.__class__.__name__} ({module_id})")
#         return

#     timing_info[module_id].append((time.time(), 'post', module.__class__.__name__))

#     # Collect vision token count (only from Vision Transformer module's post hook)
#     module_name = module.__class__.__name__
#     if "vision" in module_name.lower() and "transformer" in module_name.lower():
#         if isinstance(output, torch.Tensor):
#             token_info["vision_tokens"] = output.shape[0]
#         elif hasattr(output, 'last_hidden_state'):
#             token_info["vision_tokens"] = output.last_hidden_state.shape[1]

# # --- Hook Functions Definition ---
# # (timing_pre_hook and timing_post_hook remain as previously corrected with debug prints)

# def register_model_hooks(model):
#     registered_modules = []
    
#     core_model = model
#     print_master(f"DEBUG: Initial model type in register_model_hooks: {type(model)}")
    
#     if hasattr(model, 'encoder') and model.encoder is not None:
#         print_master(f"DEBUG: model has 'encoder' attribute. Type of model.encoder: {type(model.encoder)}")
        
#         # 使用从 'src' 路径导入的 Qwen2VLForConditionalGeneration 进行检查
#         if isinstance(model.encoder, _Qwen2VLForConditionalGeneration_src):
#             print_master("Detected MMEBModel structure, registering hooks on model.encoder's sub-modules.")
#             core_model = model.encoder
#         else:
#             print_master(f"WARNING: model.encoder is not an instance of _Qwen2VLForConditionalGeneration_src. Its type is {type(model.encoder)}. Hooks will be registered on top-level model if applicable.")
#     else:
#         print_master("WARNING: Model structure does not have an 'encoder' attribute. Registering hooks directly on top-level modules.")

#     # Vision module
#     if hasattr(core_model, 'visual') and core_model.visual is not None:
#         vision_module = core_model.visual
#         vision_module.register_forward_pre_hook(timing_pre_hook)
#         vision_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(vision_module)
#         print_master(f"Registered hooks for vision module: {vision_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'visual' attribute found on core_model ({type(core_model)}).")


#     # Merger module (if inside visual) - it's part of the vision component
#     if hasattr(core_model, 'visual') and hasattr(core_model.visual, 'merger') and core_model.visual.merger is not None:
#         merger_module = core_model.visual.merger
#         merger_module.register_forward_pre_hook(timing_pre_hook)
#         merger_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(merger_module)
#         print_master(f"Registered hooks for merger module: {merger_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'merger' attribute found on core_model.visual ({type(getattr(core_model, 'visual', 'N/A'))}).")

#     # Language model body
#     if hasattr(core_model, 'model') and core_model.model is not None:
#         llm_main_module = core_model.model
#         llm_main_module.register_forward_pre_hook(timing_pre_hook)
#         llm_main_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(llm_main_module)
#         print_master(f"Registered hooks for LLM main module: {llm_main_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'model' attribute found on core_model ({type(core_model)}).")


#     # LM Head
#     if hasattr(core_model, 'lm_head') and core_model.lm_head is not None:
#         lm_head_module = core_model.lm_head
#         lm_head_module.register_forward_pre_hook(timing_pre_hook)
#         lm_head_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(lm_head_module)
#         print_master(f"Registered hooks for LM head module: {lm_head_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'lm_head' attribute found on core_model ({type(core_model)}).")


#     if not registered_modules:
#         print_master("Warning: No major modules found for hook registration. Check model architecture.")
#     return registered_modules


# def pad_dataset_to_divisible(dataset, world_size):
#     num_samples = len(dataset)
#     if num_samples % world_size == 0:
#         return dataset, num_samples

#     num_to_add = world_size - (num_samples % world_size)
#     padded_size = num_samples + num_to_add

#     padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
#     padded_dataset = concatenate_datasets([dataset, padding_data])
#     return padded_dataset, padded_size


# def encode_embeddings(
#     model: MMEBModel,
#     loader: DataLoader,
#     training_args: TrainingArguments,
#     model_args: ModelArguments,
#     full_dataset: Dataset,
#     encode_side: str,
#     description: str = "Encoding"
# ) -> tuple[np.ndarray, list]:
#     """
#     Encodes embeddings for a given dataset using the model, handling both standard and
#     late-interaction models in a DDP-safe manner.
#     """
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1

#     # Check if the model is a late-interaction type
#     is_late_interaction = (model_args.model_backbone == COLPALI)

#     local_embeds = []
#     local_gt_infos = []
#     local_max_len = 0

#     model.eval()

#     # Register hooks for the model once per encode_embeddings call
#     # This assumes `model` is the MMEBModel instance that wraps the actual HuggingFace model
#     # You might need to adjust this if MMEBModel internally manages multiple sub-models
#     registered_hooks = register_model_hooks(model) # <--- FIX: Assign the return value here

#     # Initialize a tokenizer for text token counting (needs to be from the same model path)
#     temp_tokenizer = AutoTokenizer.from_pretrained(model_args.model_name)

#     with torch.no_grad():
#         for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
#             # --- Reset statistics for each inference pass ---
#             timing_info.clear()
#             token_info["vision_tokens"] = 0
#             token_info["text_input_tokens"] = 0
#             token_info["text_output_tokens"] = 0 # Encoding doesn't generate text output tokens
#             token_info["total_llm_input_tokens"] = 0

#             inputs = batch_to_device(inputs, training_args.device)
#             with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
#                 # Determine if encoding query or target based on available keys
#                 # This is where the forward pass happens, triggering hooks
#                 start_inference_time = time.time()
#                 if encode_side == "qry":
#                     output = model(qry=inputs)
#                     reps = output["qry_reps"].detach()
#                     local_gt_infos.extend(dataset_info)  # to retain all information per query
#                 else:
#                     output = model(tgt=inputs)
#                     reps = output["tgt_reps"].detach()
#                     local_gt_infos.extend([info["cand_name"] for info in dataset_info])  # to retain ground-truth labels
#                 end_inference_time = time.time()

#             # --- Update total LLM input tokens after the model call ---
#             # This requires knowing which part of `inputs` corresponds to the LLM's full input.
#             # Assuming `inputs.input_ids` directly goes into the LLM part of Qwen2-VL.
#             if 'input_ids' in inputs and inputs['input_ids'] is not None:
#                 token_info["total_llm_input_tokens"] = inputs['input_ids'].shape[1]
#                 # Approximation for text_input_tokens (if not explicitly available from collator)
#                 # This assumes visual tokens are a prefix and the rest are text/special tokens.
#                 token_info["text_input_tokens"] = token_info["total_llm_input_tokens"] - token_info["vision_tokens"]
#                 # Ensure it's not negative
#                 token_info["text_input_tokens"] = max(0, token_info["text_input_tokens"])


#             # --- Print Inference Timing and Token Statistics per Batch ---
#             print_rank(f"\n--- Inference Statistics for {encode_side} batch (Rank {local_rank}) ---")
#             print_rank(f"Batch Inference took: {end_inference_time - start_inference_time:.4f} seconds")

#             # Calculate and print module timings
#             print_rank("--- Module Inference Timing Statistics ---")
#             for module_obj in registered_hooks:
#                 module_id = id(module_obj)
#                 module_name = module_obj.__class__.__name__
#                 times = timing_info.get(module_id, [])
#                 durations = []

#                 pre_times = {} # Store start times for each pre-hook
#                 for t, event_type, _ in times:
#                     if event_type == 'pre':
#                         pre_times[module_id] = t
#                     elif event_type == 'post' and module_id in pre_times:
#                         duration = t - pre_times.pop(module_id)
#                         durations.append(duration)

#                 if durations:
#                     print_rank(f"**{module_name}**: Total: {sum(durations):.6f}s, Count: {len(durations)}, Avg: {sum(durations)/len(durations):.6f}s")
#                 else:
#                     print_rank(f"**{module_name}**: No complete timing data found for this batch.")

#             print_rank("--- Token Count Statistics ---")
#             print_rank(f"**视觉 token 数量**: {token_info['vision_tokens']}")
#             print_rank(f"**语言输入 token 数量 (仅原始文本)**: {token_info['text_input_tokens']}")
#             print_rank(f"**LLM总输入 token 数量 (包含视觉 + 格式化文本)**: {token_info['total_llm_input_tokens']}")
#             print_rank(f"**语言输出 token 数量**: {token_info['text_output_tokens']}") # Will be 0 for encoding


#             if is_late_interaction and reps.dim() == 3:
#                 local_max_len = max(local_max_len, reps.shape[1])  

#             local_embeds.append(reps)

#     if not local_embeds:
#         # Handle cases where a rank gets no data
#         return np.array([]), []

#     # === DDP Synchronization and Padding for Late-Interaction Models ===
#     if is_late_interaction:
#         if dist.is_initialized():
#             # 1. Find the global maximum sequence length across all ranks
#             local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
#             dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
#             global_max_len = local_max_len_tensor.item()
#         else:
#             global_max_len = local_max_len

#         # 2. Pad all local embeddings to the global max length
#         padded_embeds = []
#         for reps_batch in local_embeds:
#             if reps_batch.dim() == 3:
#                 B, L, H = reps_batch.shape
#                 padding_size = global_max_len - L
#                 padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
#                 padded_embeds.append(padded_batch)
#             else: # Should not happen if model is consistently late-interaction
#                 padded_embeds.append(reps_batch)

#         embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
#     else: # Standard dense models
#         embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()


#     # === Gather embeddings and keys from all ranks ===
#     if dist.is_initialized() and full_dataset.num_rows >= world_size:
#         print_master(f"Gathering {encode_side} embeddings across all ranks...")

#         # Use the more efficient all_gather_into_tensor for tensors
#         output_shape = list(embeds_tensor.shape)
#         output_shape[0] = full_dataset.num_rows
#         embeds_tensor = embeds_tensor.to(training_args.device)
#         gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
#         dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
#         final_embeddings = gathered_embeds_tensor.cpu().float().numpy()
#         # Gather metadata, for which all_gather_object is appropriate
#         gathered_gt_infos = [None for _ in range(world_size)]
#         dist.all_gather_object(gathered_gt_infos, local_gt_infos)
#         all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]
#     else:
#         all_gt_infos = local_gt_infos
#         final_embeddings = embeds_tensor.cpu().float().numpy()

#     return final_embeddings, all_gt_infos


# def main():
#     if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
#         dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1
#     # DEBUG PRINTS for Distributed Setup
#     print_master("Distributed init debug info:")
#     print_master(f"RANK: {os.environ.get('RANK')}")
#     print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
#     print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
#     print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
#     print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
#     if dist.is_initialized():
#         print_rank(f"dist.get_rank(): {dist.get_rank()}")
#         print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

#     for arg in sys.argv:
#         if arg.startswith("--local-rank="):
#             rank = arg.split("=")[1]
#             sys.argv.remove(arg)
#             sys.argv.append('--local_rank')
#             sys.argv.append(rank)
#     parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
#     model_args, data_args, training_args = parser.parse_args_into_dataclasses()
#     model_args: ModelArguments
#     data_args: DataArguments
#     training_args: TrainingArguments
#     os.makedirs(data_args.encode_output_path, exist_ok=True)

#     # --- Model Loading ---
#     hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
#     if not getattr(model_args, "model_backbone", None):
#         model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
#         setattr(model_args, 'model_backbone', model_backbone)
#         setattr(training_args, 'model_backbone', model_backbone)
#     print_master(f'Model Backbone: {model_args.model_backbone}')
#     # --- DDP-Safe Model Loading ---
#     # Step 1: Only the master process (rank 0) downloads the model.
#     if local_rank == 0:
#         processor = load_processor(model_args, data_args)
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
#         print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
#     # Step 2: All processes wait here. The non-master processes will pause
#     # until the master process (rank 0) finishes downloading and exits this barrier.
#     if torch.distributed.is_initialized():
#         torch.distributed.barrier()
#     # Step 3: Now that the model is cached, the non-master processes load it from the local cache.
#     if local_rank != 0:
#         print_rank(f"Loading the model from cache...")
#         processor = load_processor(model_args, data_args)
#         time.sleep(random.randint(2 * local_rank, 3 * local_rank))
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
#     model.eval()
#     model = model.to(training_args.device, dtype=torch.bfloat16)
#     with open(data_args.dataset_config, 'r') as yaml_file:
#         dataset_configs = yaml.safe_load(yaml_file)


#     # --- Main Evaluation Loop ---
#     for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
#         # 0. load dataset
#         if dist.is_initialized():
#             dist.barrier()
#         print_master(f"--- Evaluating {dataset_name} ---")

#         query_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry")
#         cand_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt")
#         dataset_info_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_info.jsonl")

#         do_query = not os.path.exists(query_embed_path) or not os.path.exists(dataset_info_path)
#         do_cand = not os.path.exists(cand_embed_path)

#         if do_query or do_cand:
#             if data_args.data_basedir is not None:
#                 # Construct full paths for data files if --data_basedir is provided
#                 for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
#                     if data_args.data_basedir and task_config.get(key):
#                         task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

#             full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
#             full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
#             eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset
#             # Pad datasets to be divisible by world_size before splitting
#             if dist.is_initialized():
#                 padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
#                 padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
#                 eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
#                 eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
#             else:
#                 padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

#         # --- 1. Compute Query Embeddings ---
#         if do_query:
#             print_master("Encoding queries...")
#             eval_qry_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
#             eval_qry_loader = DataLoader(eval_qry_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_qry_collator, num_workers=training_args.dataloader_num_workers)
#             query_embeds, gt_infos = encode_embeddings(model, eval_qry_loader, training_args, model_args, padded_qry_dataset, encode_side="qry", description=f"Queries for {dataset_name}")
#             query_embeds = query_embeds[:len(full_eval_qry_dataset)]  # world_size>1, trim the padded data points
#             gt_infos = gt_infos[:len(full_eval_qry_dataset)]
#             if local_rank == 0:
#                 with open(query_embed_path, 'wb') as f:
#                     pickle.dump(query_embeds, f)
#                 with open(dataset_info_path, 'w') as f:
#                     for info in gt_infos:
#                         f.write(json.dumps(info) + '\n')
#                 print_master(f"Saved query embeddings to {query_embed_path}")
#             if dist.is_initialized():
#                 dist.barrier()


#         # --- 2. Compute Candidate Embeddings ---
#         if do_cand:
#             print_master("Encoding candidates...")
#             eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
#             eval_cand_loader = DataLoader(eval_cand_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_cand_collator, num_workers=training_args.dataloader_num_workers)

#             cand_embeds, all_cand_ids = encode_embeddings(model, eval_cand_loader, training_args, model_args, padded_cand_dataset, encode_side="cand", description=f"Candidates for {dataset_name}")
#             cand_embeds = cand_embeds[:len(full_eval_cand_dataset)]  # world_size>1, trim the padded data points
#             all_cand_ids = all_cand_ids[:len(full_eval_cand_dataset)]

#             if local_rank == 0:
#                 cand_embed_dict = {cand_id: embed for cand_id, embed in zip(all_cand_ids, cand_embeds)}
#                 with open(cand_embed_path, 'wb') as f: pickle.dump(cand_embed_dict, f)
#                 print_master(f"Saved candidate embeddings to {cand_embed_path}")

#         if dist.is_initialized():
#             dist.barrier()

#         # --- 3. Compute Scores (on master rank only) ---
#         if local_rank == 0:
#             score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#             if os.path.exists(score_path):
#                 try:
#                     with open(score_path, "r") as f:
#                         score_dict = json.load(f)
#                     print_master(f"Score of {dataset_name} (loaded from previous run): {score_path}")
#                     formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#                     print_master(formatted)
#                     continue
#                 except Exception as e:
#                     print_master(f"Failed to load score for {dataset_name}, skipping {dataset_name}")
#             with open(query_embed_path, 'rb') as f: qry_embeds = pickle.load(f)
#             with open(cand_embed_path, 'rb') as f: cand_embed_dict = pickle.load(f)
#             gt_infos = [json.loads(l) for l in open(dataset_info_path)]
#             pred_dicts = []

#             rank_against_all_candidates = task_config.get("eval_type", "global") == "global"
#             if rank_against_all_candidates:
#                 cand_keys = list(cand_embed_dict.keys())
#                 cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])
#                 # Handle late-interaction scoring
#                 if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#                     qry_embed = torch.from_numpy(qry_embeds)
#                     cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                     scores = processor.score(qry_embed, cand_embeds, batch_size=64)  # use ColPali score function
#                     ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()
#                 else: # Dense
#                     cosine_scores = np.dot(qry_embeds, cand_embeds.T)
#                     ranked_candids = np.argsort(-cosine_scores, axis=1)
#                 for qid, (ranked_candid, gt_info) in tqdm(enumerate(zip(ranked_candids, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None
#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)
#                     pred_dicts.append({
#                         "prediction": [cand_keys[i] for i in ranked_candid],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })
#             else:
#                 for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     cand_embeds = np.stack([cand_embed_dict[key] for key in gt_info["cand_names"]])
#                     if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#                         qry_embed = torch.from_numpy(np.array(qry_embed)).unsqueeze(0)
#                         cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                         scores = processor.score(qry_embed, cand_embeds, batch_size=1024)  # use ColPali score function
#                         ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()[0]
#                     else:
#                         cosine_score = np.dot(qry_embed, cand_embeds.T)
#                         ranked_candids = np.argsort(-cosine_score)
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None

#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)
#                     pred_dicts.append({
#                         "prediction": [gt_info["cand_names"][i] for i in ranked_candids],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })

#             score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#             pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred.jsonl")

#             metrics_to_report = task_config["metrics"] if task_config.get("metrics", None) is not None else ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
#             metrics = RankingMetrics(metrics_to_report)
#             score_dict = metrics.evaluate(pred_dicts)
#             formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#             score_dict["num_pred"] = len(pred_dicts)
#             score_dict["num_data"] = len(gt_infos)
#             print_master(f"Score of {dataset_name}:")
#             print_master(formatted)
#             print_master(f"Outputting final score to: {score_path}")
#             with open(score_path, "w") as f:
#                 json.dump(score_dict, f, indent=4)
#             with open(pred_path, "w") as f:
#                 for pred in pred_dicts:
#                     f.write(json.dumps(pred) + '\n')


# if __name__ == "__main__":
#     main()
##################################################################################################

###################################################################################################
#将每个任务的平均值和总值输出保存到文件中
# import datetime
# import logging
# import json
# import random
# import time
# import numpy as np
# import os
# import pickle
# import sys
# import torch
# import torch.distributed as dist
# import torch.nn.functional as F
# import yaml
# import transformers

# from torch.utils.data import DataLoader
# from tqdm import tqdm
# from transformers import HfArgumentParser, AutoConfig, AutoTokenizer
# from datasets import Dataset, concatenate_datasets
# from datasets.distributed import split_dataset_by_node
# from src.model.vlm_backbone.qwen2_vl.modeling_qwen2_vl import Qwen2VLForConditionalGeneration as _Qwen2VLForConditionalGeneration_src

# from src.arguments import ModelArguments, DataArguments, TrainingArguments
# from src.data.collator.eval_collator import MultimodalEvalDataCollator
# from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
# from src.eval_utils.metrics import RankingMetrics
# from src.model.model import MMEBModel
# from src.model.processor import get_backbone_name, load_processor, COLPALI
# from src.utils import batch_to_device, print_rank, print_master

# logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
# logger = logging.getLogger(__name__)

# # --- Global Dictionaries for Hooks (will be cleared before each encode_embeddings call) ---
# timing_info = {}
# token_info = {
#     "vision_tokens": 0,
#     "text_input_tokens": 0,  # Refers to the original text token count
#     "text_output_tokens": 0, # Not directly applicable here as we are encoding, not generating. Will be 0.
#     "total_llm_input_tokens": 0, # Refers to the total tokens LLM receives (visual + formatted text)
# }

# # --- Hook Functions Definition ---
# def timing_pre_hook(module, input):
#     module_id = id(module)
#     if module_id not in timing_info:
#         timing_info[module_id] = []
#     timing_info[module_id].append((time.time(), 'pre', module.__class__.__name__))

# def timing_post_hook(module, input, output):
#     module_id = id(module)
#     if module_id not in timing_info:
#         # print(f"Warning: No pre-hook data for module {module.__class__.__name__} ({module_id})")
#         return

#     timing_info[module_id].append((time.time(), 'post', module.__class__.__name__))

#     # Collect vision token count (only from Vision Transformer module's post hook)
#     module_name = module.__class__.__name__
#     if "vision" in module_name.lower() and "transformer" in module_name.lower():
#         if isinstance(output, torch.Tensor):
#             token_info["vision_tokens"] = output.shape[0] # For visual features, usually (batch_size, num_tokens, hidden_dim)
#         elif hasattr(output, 'last_hidden_state'):
#             token_info["vision_tokens"] = output.last_hidden_state.shape[1]


# def register_model_hooks(model):
#     registered_modules = []
    
#     core_model = model
#     # print_master(f"DEBUG: Initial model type in register_model_hooks: {type(model)}")
    
#     if hasattr(model, 'encoder') and model.encoder is not None:
#         # print_master(f"DEBUG: model has 'encoder' attribute. Type of model.encoder: {type(model.encoder)}")
        
#         # 使用从 'src' 路径导入的 Qwen2VLForConditionalGeneration 进行检查
#         if isinstance(model.encoder, _Qwen2VLForConditionalGeneration_src):
#             # print_master("Detected MMEBModel structure, registering hooks on model.encoder's sub-modules.")
#             core_model = model.encoder
#         else:
#             print_master(f"WARNING: model.encoder is not an instance of _Qwen2VLForConditionalGeneration_src. Its type is {type(model.encoder)}. Hooks will be registered on top-level model if applicable.")
#     else:
#         print_master("WARNING: Model structure does not have an 'encoder' attribute. Registering hooks directly on top-level modules.")

#     # Vision module
#     if hasattr(core_model, 'visual') and core_model.visual is not None:
#         vision_module = core_model.visual
#         vision_module.register_forward_pre_hook(timing_pre_hook)
#         vision_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(vision_module)
#         print_master(f"Registered hooks for vision module: {vision_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'visual' attribute found on core_model ({type(core_model)}).")


#     # Merger module (if inside visual) - it's part of the vision component
#     if hasattr(core_model, 'visual') and hasattr(core_model.visual, 'merger') and core_model.visual.merger is not None:
#         merger_module = core_model.visual.merger
#         merger_module.register_forward_pre_hook(timing_pre_hook)
#         merger_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(merger_module)
#         print_master(f"Registered hooks for merger module: {merger_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'merger' attribute found on core_model.visual ({type(getattr(core_model, 'visual', 'N/A'))}).")

#     # Language model body
#     if hasattr(core_model, 'model') and core_model.model is not None:
#         llm_main_module = core_model.model
#         llm_main_module.register_forward_pre_hook(timing_pre_hook)
#         llm_main_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(llm_main_module)
#         print_master(f"Registered hooks for LLM main module: {llm_main_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'model' attribute found on core_model ({type(core_model)}).")


#     # LM Head
#     if hasattr(core_model, 'lm_head') and core_model.lm_head is not None:
#         lm_head_module = core_model.lm_head
#         lm_head_module.register_forward_pre_hook(timing_pre_hook)
#         lm_head_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(lm_head_module)
#         print_master(f"Registered hooks for LM head module: {lm_head_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'lm_head' attribute found on core_model ({type(core_model)}).")


#     if not registered_modules:
#         print_master("Warning: No major modules found for hook registration. Check model architecture.")
#     return registered_modules


# def pad_dataset_to_divisible(dataset, world_size):
#     num_samples = len(dataset)
#     if num_samples % world_size == 0:
#         return dataset, num_samples

#     num_to_add = world_size - (num_samples % world_size)
#     padded_size = num_samples + num_to_add

#     padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
#     padded_dataset = concatenate_datasets([dataset, padding_data])
#     return padded_dataset, padded_size


# def encode_embeddings(
#     model: MMEBModel,
#     loader: DataLoader,
#     training_args: TrainingArguments,
#     model_args: ModelArguments,
#     full_dataset: Dataset,
#     encode_side: str,
#     description: str = "Encoding"
# ) -> tuple[np.ndarray, list, list]: # Added list to return type for batch_stats
#     """
#     Encodes embeddings for a given dataset using the model, handling both standard and
#     late-interaction models in a DDP-safe manner.
#     """
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1

#     # Check if the model is a late-interaction type
#     is_late_interaction = (model_args.model_backbone == COLPALI)

#     local_embeds = []
#     local_gt_infos = []
#     local_max_len = 0
    
#     # --- New: List to store statistics for each batch ---
#     batch_stats_list = []

#     model.eval()

#     # Register hooks for the model once per encode_embeddings call
#     registered_hooks = register_model_hooks(model)

#     with torch.no_grad():
#         for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
#             # --- Reset statistics for each inference pass ---
#             timing_info.clear()
#             token_info["vision_tokens"] = 0
#             token_info["text_input_tokens"] = 0
#             token_info["text_output_tokens"] = 0
#             token_info["total_llm_input_tokens"] = 0

#             inputs = batch_to_device(inputs, training_args.device)
#             current_batch_size = inputs['input_ids'].shape[0] if 'input_ids' in inputs else 1 # Determine actual batch size

#             with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
#                 start_inference_time = time.time()
#                 if encode_side == "qry":
#                     output = model(qry=inputs)
#                     reps = output["qry_reps"].detach()
#                     local_gt_infos.extend(dataset_info)
#                 else:
#                     output = model(tgt=inputs)
#                     reps = output["tgt_reps"].detach()
#                     local_gt_infos.extend([info["cand_name"] for info in dataset_info])
#                 end_inference_time = time.time()

#             # --- Update total LLM input tokens after the model call ---
#             if 'input_ids' in inputs and inputs['input_ids'] is not None:
#                 # `inputs['input_ids'].shape[1]` gives the sequence length,
#                 # which is the number of tokens per item in the batch.
#                 # To get total tokens for the batch, multiply by batch size.
#                 token_info["total_llm_input_tokens"] = inputs['input_ids'].shape[1] 
#                 # Approximation for text_input_tokens
#                 token_info["text_input_tokens"] = token_info["total_llm_input_tokens"] - token_info["vision_tokens"]
#                 token_info["text_input_tokens"] = max(0, token_info["text_input_tokens"]) # Ensure not negative

#             # --- Collect and Store Batch Statistics ---
#             batch_inference_time = end_inference_time - start_inference_time
            
#             current_batch_stats = {
#                 "batch_size": current_batch_size,
#                 "total_inference_time_seconds": batch_inference_time,
#                 "module_inference_times": {},
#                 "token_counts": {
#                     "visual_tokens": token_info["vision_tokens"],
#                     "language_input_tokens_raw": token_info["text_input_tokens"],
#                     "llm_total_input_tokens": token_info["total_llm_input_tokens"],
#                     "language_output_tokens": token_info["text_output_tokens"],
#                 }
#             }

#             # Calculate and store module timings for the current batch
#             for module_obj in registered_hooks:
#                 module_id = id(module_obj)
#                 module_name = module_obj.__class__.__name__
#                 times = timing_info.get(module_id, [])
#                 durations = []
#                 pre_times = {} 
#                 for t, event_type, _ in times:
#                     if event_type == 'pre':
#                         pre_times[module_id] = t
#                     elif event_type == 'post' and module_id in pre_times:
#                         duration = t - pre_times.pop(module_id)
#                         durations.append(duration)
                
#                 if durations:
#                     current_batch_stats["module_inference_times"][module_name] = {
#                         "total": sum(durations),
#                         "count": len(durations),
#                         "avg": sum(durations) / len(durations)
#                     }
#                 else:
#                     current_batch_stats["module_inference_times"][module_name] = {
#                         "total": 0.0,
#                         "count": 0,
#                         "avg": 0.0
#                     }
            
#             batch_stats_list.append(current_batch_stats) # Append the stats for this batch

#             # --- Print Inference Timing and Token Statistics per Batch (Optional, for debugging) ---
#             print_rank(f"\n--- Inference Statistics for {encode_side} batch (Rank {local_rank}) ---")
#             print_rank(f"Batch Inference took: {batch_inference_time:.4f} seconds")
#             print_rank("--- Module Inference Timing Statistics ---")
#             for module_name, stats in current_batch_stats["module_inference_times"].items():
#                 print_rank(f"**{module_name}**: Total: {stats['total']:.6f}s, Count: {stats['count']}, Avg: {stats['avg']:.6f}s")
#             print_rank("--- Token Count Statistics ---")
#             print_rank(f"**视觉 token 数量**: {current_batch_stats['token_counts']['visual_tokens']}")
#             print_rank(f"**语言输入 token 数量 (仅原始文本)**: {current_batch_stats['token_counts']['language_input_tokens_raw']}")
#             print_rank(f"**LLM总输入 token 数量 (包含视觉 + 格式化文本)**: {current_batch_stats['token_counts']['llm_total_input_tokens']}")
#             print_rank(f"**语言输出 token 数量**: {current_batch_stats['token_counts']['language_output_tokens']}")


#             if is_late_interaction and reps.dim() == 3:
#                 local_max_len = max(local_max_len, reps.shape[1])

#             local_embeds.append(reps)

#     if not local_embeds:
#         # Handle cases where a rank gets no data
#         return np.array([]), [], [] # Return empty list for batch_stats_list as well

#     # === DDP Synchronization and Padding for Late-Interaction Models ===
#     if is_late_interaction:
#         if dist.is_initialized():
#             # 1. Find the global maximum sequence length across all ranks
#             local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
#             dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
#             global_max_len = local_max_len_tensor.item()
#         else:
#             global_max_len = local_max_len

#         # 2. Pad all local embeddings to the global max length
#         padded_embeds = []
#         for reps_batch in local_embeds:
#             if reps_batch.dim() == 3:
#                 B, L, H = reps_batch.shape
#                 padding_size = global_max_len - L
#                 padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
#                 padded_embeds.append(padded_batch)
#             else: # Should not happen if model is consistently late-interaction
#                 padded_embeds.append(reps_batch)

#         embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
#     else: # Standard dense models
#         embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()


#     # === Gather embeddings and keys from all ranks ===
#     if dist.is_initialized() and full_dataset.num_rows >= world_size:
#         print_master(f"Gathering {encode_side} embeddings across all ranks...")

#         # Use the more efficient all_gather_into_tensor for tensors
#         output_shape = list(embeds_tensor.shape)
#         output_shape[0] = full_dataset.num_rows
#         embeds_tensor = embeds_tensor.to(training_args.device)
#         gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
#         dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
#         final_embeddings = gathered_embeds_tensor.cpu().float().numpy()
#         # Gather metadata, for which all_gather_object is appropriate
#         gathered_gt_infos = [None for _ in range(world_size)]
#         dist.all_gather_object(gathered_gt_infos, local_gt_infos)
#         all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]

#         # --- New: Gather batch_stats_list from all ranks ---
#         gathered_batch_stats = [None for _ in range(world_size)]
#         dist.all_gather_object(gathered_batch_stats, batch_stats_list)
#         all_batch_stats = [stats for rank_stats in gathered_batch_stats for stats in rank_stats]

#     else:
#         all_gt_infos = local_gt_infos
#         final_embeddings = embeds_tensor.cpu().float().numpy()
#         all_batch_stats = batch_stats_list # If not DDP, just use local list

#     return final_embeddings, all_gt_infos, all_batch_stats


# def main():
#     if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
#         dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1
#     # DEBUG PRINTS for Distributed Setup
#     print_master("Distributed init debug info:")
#     print_master(f"RANK: {os.environ.get('RANK')}")
#     print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
#     print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
#     print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
#     print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
#     if dist.is_initialized():
#         print_rank(f"dist.get_rank(): {dist.get_rank()}")
#         print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

#     for arg in sys.argv:
#         if arg.startswith("--local-rank="):
#             rank = arg.split("=")[1]
#             sys.argv.remove(arg)
#             sys.argv.append('--local_rank')
#             sys.argv.append(rank)
#     parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
#     model_args, data_args, training_args = parser.parse_args_into_dataclasses()
#     model_args: ModelArguments
#     data_args: DataArguments
#     training_args: TrainingArguments
#     os.makedirs(data_args.encode_output_path, exist_ok=True)

#     # --- Model Loading ---
#     hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
#     if not getattr(model_args, "model_backbone", None):
#         model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
#         setattr(model_args, 'model_backbone', model_backbone)
#         setattr(training_args, 'model_backbone', model_backbone)
#     print_master(f'Model Backbone: {model_args.model_backbone}')
#     # --- DDP-Safe Model Loading ---
#     # Step 1: Only the master process (rank 0) downloads the model.
#     if local_rank == 0:
#         processor = load_processor(model_args, data_args)
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
#         print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
#     # Step 2: All processes wait here. The non-master processes will pause
#     # until the master process (rank 0) finishes downloading and exits this barrier.
#     if torch.distributed.is_initialized():
#         torch.distributed.barrier()
#     # Step 3: Now that the model is cached, the non-master processes load it from the local cache.
#     if local_rank != 0:
#         print_rank(f"Loading the model from cache...")
#         processor = load_processor(model_args, data_args)
#         time.sleep(random.randint(2 * local_rank, 3 * local_rank))
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
#     model.eval()
#     model = model.to(training_args.device, dtype=torch.bfloat16)
#     with open(data_args.dataset_config, 'r') as yaml_file:
#         dataset_configs = yaml.safe_load(yaml_file)


#     # --- Main Evaluation Loop ---
#     for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
#         # Initialize task-level statistics accumulators
#         task_total_stats = {
#             "total_inference_time_seconds": 0.0,
#             "module_inference_times": {
#                 "Qwen2VisionTransformerPretrainedModel": {"total": 0.0, "count": 0},
#                 "PatchMerger": {"total": 0.0, "count": 0},
#                 "Qwen2VLModel": {"total": 0.0, "count": 0},
#                 "Linear": {"total": 0.0, "count": 0},
#             },
#             "token_counts": {
#                 "visual_tokens": 0,
#                 "language_input_tokens_raw": 0,
#                 "llm_total_input_tokens": 0,
#                 "language_output_tokens": 0,
#             },
#             "data_point_count": 0 # Number of image-text pairs processed
#         }

#         if dist.is_initialized():
#             dist.barrier()
#         print_master(f"\n--- Evaluating {dataset_name} ---")

#         query_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry")
#         cand_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt")
#         dataset_info_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_info.jsonl")
        
#         # New: Define path for inference statistics output
#         inference_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_inference_stats.json")

#         do_query = not os.path.exists(query_embed_path) or not os.path.exists(dataset_info_path)
#         do_cand = not os.path.exists(cand_embed_path)

#         if do_query or do_cand:
#             if data_args.data_basedir is not None:
#                 # Construct full paths for data files if --data_basedir is provided
#                 for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
#                     if data_args.data_basedir and task_config.get(key):
#                         task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

#             full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
#             full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
#             eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset
#             # Pad datasets to be divisible by world_size before splitting
#             if dist.is_initialized():
#                 padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
#                 padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
#                 eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
#                 eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
#             else:
#                 padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

#         # --- 1. Compute Query Embeddings ---
#         if do_query:
#             print_master("Encoding queries...")
#             eval_qry_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
#             eval_qry_loader = DataLoader(eval_qry_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_qry_collator, num_workers=training_args.dataloader_num_workers)
            
#             # Modified: capture batch_stats_list
#             query_embeds, gt_infos, qry_batch_stats = encode_embeddings(model, eval_qry_loader, training_args, model_args, padded_qry_dataset, encode_side="qry", description=f"Queries for {dataset_name}")
            
#             # Accumulate query statistics
#             for batch_stat in qry_batch_stats:
#                 batch_size = batch_stat["batch_size"]
#                 task_total_stats["total_inference_time_seconds"] += batch_stat["total_inference_time_seconds"]
#                 for module_name, module_stats in batch_stat["module_inference_times"].items():
#                     if module_name in task_total_stats["module_inference_times"]:
#                         task_total_stats["module_inference_times"][module_name]["total"] += module_stats["total"]
#                         task_total_stats["module_inference_times"][module_name]["count"] += module_stats["count"] # count here is per-module-call, not per-item
                
#                 # Token counts are per-item for 'visual_tokens', 'llm_total_input_tokens'.
#                 # For 'text_input_tokens', it's calculated based on sequence length, so it's also total tokens in the batch.
#                 # We need to average it later by total data_point_count.
#                 # However, your current hook logic collects the token count for a *single* item if batch_size=1,
#                 # or for the full batch if it processes sequentially.
#                 # Let's assume the `token_info` collected by hooks reflects the *current batch*.
#                 # To get per-item average later, we sum up totals and divide by total data points.
#                 task_total_stats["token_counts"]["visual_tokens"] += batch_stat["token_counts"]["visual_tokens"] * batch_size # Corrected assumption: visual_tokens are per-item, multiplied by batch_size to get total for batch
#                 task_total_stats["token_counts"]["language_input_tokens_raw"] += batch_stat["token_counts"]["language_input_tokens_raw"] * batch_size # Corrected
#                 task_total_stats["token_counts"]["llm_total_input_tokens"] += batch_stat["token_counts"]["llm_total_input_tokens"] * batch_size # Corrected
#                 task_total_stats["token_counts"]["language_output_tokens"] += batch_stat["token_counts"]["language_output_tokens"] * batch_size # Corrected
                
#                 task_total_stats["data_point_count"] += batch_size # Accumulate the number of processed items

#             query_embeds = query_embeds[:len(full_eval_qry_dataset)]
#             gt_infos = gt_infos[:len(full_eval_qry_dataset)]
#             if local_rank == 0:
#                 with open(query_embed_path, 'wb') as f:
#                     pickle.dump(query_embeds, f)
#                 with open(dataset_info_path, 'w') as f:
#                     for info in gt_infos:
#                         f.write(json.dumps(info) + '\n')
#                 print_master(f"Saved query embeddings to {query_embed_path}")
#             if dist.is_initialized():
#                 dist.barrier()


#         # --- 2. Compute Candidate Embeddings ---
#         if do_cand:
#             print_master("Encoding candidates...")
#             eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
#             eval_cand_loader = DataLoader(eval_cand_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_cand_collator, num_workers=training_args.dataloader_num_workers)

#             # Modified: capture batch_stats_list
#             cand_embeds, all_cand_ids, cand_batch_stats = encode_embeddings(model, eval_cand_loader, training_args, model_args, padded_cand_dataset, encode_side="cand", description=f"Candidates for {dataset_name}")
            
#             # Accumulate candidate statistics (similar logic as query)
#             for batch_stat in cand_batch_stats:
#                 batch_size = batch_stat["batch_size"]
#                 task_total_stats["total_inference_time_seconds"] += batch_stat["total_inference_time_seconds"]
#                 for module_name, module_stats in batch_stat["module_inference_times"].items():
#                     if module_name in task_total_stats["module_inference_times"]:
#                         task_total_stats["module_inference_times"][module_name]["total"] += module_stats["total"]
#                         task_total_stats["module_inference_times"][module_name]["count"] += module_stats["count"]
                
#                 task_total_stats["token_counts"]["visual_tokens"] += batch_stat["token_counts"]["visual_tokens"] * batch_size
#                 task_total_stats["token_counts"]["language_input_tokens_raw"] += batch_stat["token_counts"]["language_input_tokens_raw"] * batch_size
#                 task_total_stats["token_counts"]["llm_total_input_tokens"] += batch_stat["token_counts"]["llm_total_input_tokens"] * batch_size
#                 task_total_stats["token_counts"]["language_output_tokens"] += batch_stat["token_counts"]["language_output_tokens"] * batch_size
                
#                 task_total_stats["data_point_count"] += batch_size # Accumulate the number of processed items

#             cand_embeds = cand_embeds[:len(full_eval_cand_dataset)]
#             all_cand_ids = all_cand_ids[:len(full_eval_cand_dataset)]

#             if local_rank == 0:
#                 cand_embed_dict = {cand_id: embed for cand_id, embed in zip(all_cand_ids, cand_embeds)}
#                 with open(cand_embed_path, 'wb') as f: pickle.dump(cand_embed_dict, f)
#                 print_master(f"Saved candidate embeddings to {cand_embed_path}")

#         if dist.is_initialized():
#             dist.barrier()

#         # --- New: Calculate and Save Task-level Inference Statistics (on master rank only) ---
#         if local_rank == 0:
#             if task_total_stats["data_point_count"] > 0:
#                 final_task_stats = {
#                     "task_name": dataset_name,
#                     "data_point_count": task_total_stats["data_point_count"],
#                     "inference_times": {
#                         "total_inference_time_seconds": task_total_stats["total_inference_time_seconds"],
#                         "avg_inference_time_per_item_seconds": task_total_stats["total_inference_time_seconds"] / task_total_stats["data_point_count"],
#                         "module_average_times_per_call": {}, # Average per call to the module
#                         "module_total_times_seconds": {}, # Total time spent in the module
#                         "module_calls_count": {}, # Number of times the module was called
#                     },
#                     "token_counts": {
#                         "total_visual_tokens": task_total_stats["token_counts"]["visual_tokens"],
#                         "avg_visual_tokens_per_item": task_total_stats["token_counts"]["visual_tokens"] / task_total_stats["data_point_count"],
#                         "total_language_input_tokens_raw": task_total_stats["token_counts"]["language_input_tokens_raw"],
#                         "avg_language_input_tokens_raw_per_item": task_total_stats["token_counts"]["language_input_tokens_raw"] / task_total_stats["data_point_count"],
#                         "total_llm_total_input_tokens": task_total_stats["token_counts"]["llm_total_input_tokens"],
#                         "avg_llm_total_input_tokens_per_item": task_total_stats["token_counts"]["llm_total_input_tokens"] / task_total_stats["data_point_count"],
#                         "total_language_output_tokens": task_total_stats["token_counts"]["language_output_tokens"],
#                         "avg_language_output_tokens_per_item": task_total_stats["token_counts"]["language_output_tokens"] / task_total_stats["data_point_count"],
#                     }
#                 }

#                 for module_name, stats in task_total_stats["module_inference_times"].items():
#                     final_task_stats["inference_times"]["module_total_times_seconds"][module_name] = stats["total"]
#                     final_task_stats["inference_times"]["module_calls_count"][module_name] = stats["count"]
#                     if stats["count"] > 0:
#                         final_task_stats["inference_times"]["module_average_times_per_call"][module_name] = stats["total"] / stats["count"]
#                     else:
#                         final_task_stats["inference_times"]["module_average_times_per_call"][module_name] = 0.0

#                 with open(inference_stats_path, 'w', encoding='utf-8') as f:
#                     json.dump(final_task_stats, f, ensure_ascii=False, indent=4)
#                 print_master(f"Inference statistics for {dataset_name} saved to: {inference_stats_path}")
#             else:
#                 print_master(f"No data processed for {dataset_name}, skipping inference statistics output.")
            
#             # --- 3. Compute Scores (on master rank only) ---
#             score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#             if os.path.exists(score_path):
#                 try:
#                     with open(score_path, "r") as f:
#                         score_dict = json.load(f)
#                     print_master(f"Score of {dataset_name} (loaded from previous run): {score_path}")
#                     formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#                     print_master(formatted)
#                     # No `continue` here, as we want to ensure other files are processed/generated
#                 except Exception as e:
#                     print_master(f"Failed to load score for {dataset_name}, proceeding to recompute. Error: {e}")
            
#             # Proceed with score computation if not loaded or failed to load
#             with open(query_embed_path, 'rb') as f: qry_embeds = pickle.load(f)
#             with open(cand_embed_path, 'rb') as f: cand_embed_dict = pickle.load(f)
#             gt_infos = [json.loads(l) for l in open(dataset_info_path)]
#             pred_dicts = []

#             rank_against_all_candidates = task_config.get("eval_type", "global") == "global"
#             if rank_against_all_candidates:
#                 cand_keys = list(cand_embed_dict.keys())
#                 cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])
#                 # Handle late-interaction scoring
#                 if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#                     qry_embed = torch.from_numpy(qry_embeds)
#                     cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                     scores = processor.score(qry_embed, cand_embeds, batch_size=64)  # use ColPali score function
#                     ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()
#                 else: # Dense
#                     cosine_scores = np.dot(qry_embeds, cand_embeds.T)
#                     ranked_candids = np.argsort(-cosine_scores, axis=1)
#                 for qid, (ranked_candid, gt_info) in tqdm(enumerate(zip(ranked_candids, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None
#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)
#                     pred_dicts.append({
#                         "prediction": [cand_keys[i] for i in ranked_candid],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })
#             else:
#                 for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     cand_embeds = np.stack([cand_embed_dict[key] for key in gt_info["cand_names"]])
#                     if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#                         qry_embed = torch.from_numpy(np.array(qry_embed)).unsqueeze(0)
#                         cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                         scores = processor.score(qry_embed, cand_embeds, batch_size=1024)  # use ColPali score function
#                         ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()[0]
#                     else:
#                         cosine_score = np.dot(qry_embed, cand_embeds.T)
#                         ranked_candids = np.argsort(-cosine_score)
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None

#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)
#                     pred_dicts.append({
#                         "prediction": [gt_info["cand_names"][i] for i in ranked_candids],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })

#             score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#             pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred.jsonl")

#             metrics_to_report = task_config["metrics"] if task_config.get("metrics", None) is not None else ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
#             metrics = RankingMetrics(metrics_to_report)
#             score_dict = metrics.evaluate(pred_dicts)
#             formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#             score_dict["num_pred"] = len(pred_dicts)
#             score_dict["num_data"] = len(gt_infos)
#             print_master(f"Score of {dataset_name}:")
#             print_master(formatted)
#             print_master(f"Outputting final score to: {score_path}")
#             with open(score_path, "w") as f:
#                 json.dump(score_dict, f, indent=4)
#             with open(pred_path, "w") as f:
#                 for pred in pred_dicts:
#                     f.write(json.dumps(pred) + '\n')


# if __name__ == "__main__":
#     main()
##########################################################################################


# ########################################################################################
# #分query和cand进行统计
# import datetime
# import logging
# import json
# import random
# import time
# import numpy as np
# import os
# import pickle
# import sys
# import torch
# import torch.distributed as dist
# import torch.nn.functional as F
# import yaml
# import transformers

# from torch.utils.data import DataLoader
# from tqdm import tqdm
# from transformers import HfArgumentParser, AutoConfig, AutoTokenizer
# from datasets import Dataset, concatenate_datasets
# from datasets.distributed import split_dataset_by_node
# from src.model.vlm_backbone.qwen2_vl.modeling_qwen2_vl import Qwen2VLForConditionalGeneration as _Qwen2VLForConditionalGeneration_src

# from src.arguments import ModelArguments, DataArguments, TrainingArguments
# from src.data.collator.eval_collator import MultimodalEvalDataCollator
# from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
# from src.eval_utils.metrics import RankingMetrics
# from src.model.model import MMEBModel
# from src.model.processor import get_backbone_name, load_processor, COLPALI
# from src.utils import batch_to_device, print_rank, print_master

# logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
# logger = logging.getLogger(__name__)

# # --- Global Dictionaries for Hooks (will be cleared before each encode_embeddings call) ---
# timing_info = {}
# token_info = {
#     "vision_tokens": 0,
#     "text_input_tokens": 0,  # Refers to the original text token count
#     "text_output_tokens": 0, # Not directly applicable here as we are encoding, not generating. Will be 0.
#     "total_llm_input_tokens": 0, # Refers to the total tokens LLM receives (visual + formatted text)
# }

# # --- Hook Functions Definition ---
# def timing_pre_hook(module, input):
#     module_id = id(module)
#     if module_id not in timing_info:
#         timing_info[module_id] = []
#     timing_info[module_id].append((time.time(), 'pre', module.__class__.__name__))

# def timing_post_hook(module, input, output):
#     module_id = id(module)
#     if module_id not in timing_info:
#         # print(f"Warning: No pre-hook data for module {module.__class__.__name__} ({module_id})")
#         return

#     timing_info[module_id].append((time.time(), 'post', module.__class__.__name__))

#     # Collect vision token count (only from Vision Transformer module's post hook)
#     module_name = module.__class__.__name__
#     if "vision" in module_name.lower() and "transformer" in module_name.lower():
#         if isinstance(output, torch.Tensor):
#             token_info["vision_tokens"] = output.shape[0] # For visual features, usually (batch_size, num_tokens, hidden_dim)
#         elif hasattr(output, 'last_hidden_state'):
#             token_info["vision_tokens"] = output.last_hidden_state.shape[1]


# def register_model_hooks(model):
#     registered_modules = []
    
#     core_model = model
#     # print_master(f"DEBUG: Initial model type in register_model_hooks: {type(model)}")
    
#     if hasattr(model, 'encoder') and model.encoder is not None:
#         # print_master(f"DEBUG: model has 'encoder' attribute. Type of model.encoder: {type(model.encoder)}")
        
#         # 使用从 'src' 路径导入的 Qwen2VLForConditionalGeneration 进行检查
#         if isinstance(model.encoder, _Qwen2VLForConditionalGeneration_src):
#             # print_master("Detected MMEBModel structure, registering hooks on model.encoder's sub-modules.")
#             core_model = model.encoder
#         else:
#             print_master(f"WARNING: model.encoder is not an instance of _Qwen2VLForConditionalGeneration_src. Its type is {type(model.encoder)}. Hooks will be registered on top-level model if applicable.")
#     else:
#         print_master("WARNING: Model structure does not have an 'encoder' attribute. Registering hooks directly on top-level modules.")

#     # Vision module
#     if hasattr(core_model, 'visual') and core_model.visual is not None:
#         vision_module = core_model.visual
#         vision_module.register_forward_pre_hook(timing_pre_hook)
#         vision_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(vision_module)
#         print_master(f"Registered hooks for vision module: {vision_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'visual' attribute found on core_model ({type(core_model)}).")


#     # Merger module (if inside visual) - it's part of the vision component
#     if hasattr(core_model, 'visual') and hasattr(core_model.visual, 'merger') and core_model.visual.merger is not None:
#         merger_module = core_model.visual.merger
#         merger_module.register_forward_pre_hook(timing_pre_hook)
#         merger_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(merger_module)
#         print_master(f"Registered hooks for merger module: {merger_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'merger' attribute found on core_model.visual ({type(getattr(core_model, 'visual', 'N/A'))}).")

#     # Language model body
#     if hasattr(core_model, 'model') and core_model.model is not None:
#         llm_main_module = core_model.model
#         llm_main_module.register_forward_pre_hook(timing_pre_hook)
#         llm_main_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(llm_main_module)
#         print_master(f"Registered hooks for LLM main module: {llm_main_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'model' attribute found on core_model ({type(core_model)}).")


#     # LM Head
#     if hasattr(core_model, 'lm_head') and core_model.lm_head is not None:
#         lm_head_module = core_model.lm_head
#         lm_head_module.register_forward_pre_hook(timing_pre_hook)
#         lm_head_module.register_forward_hook(timing_post_hook)
#         registered_modules.append(lm_head_module)
#         print_master(f"Registered hooks for LM head module: {lm_head_module.__class__.__name__}")
#     else:
#         print_master(f"WARNING: No 'lm_head' attribute found on core_model ({type(core_model)}).")


#     if not registered_modules:
#         print_master("Warning: No major modules found for hook registration. Check model architecture.")
#     return registered_modules


# def pad_dataset_to_divisible(dataset, world_size):
#     num_samples = len(dataset)
#     if num_samples % world_size == 0:
#         return dataset, num_samples

#     num_to_add = world_size - (num_samples % world_size)
#     padded_size = num_samples + num_to_add

#     padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
#     padded_dataset = concatenate_datasets([dataset, padding_data])
#     return padded_dataset, padded_size


# def encode_embeddings(
#     model: MMEBModel,
#     loader: DataLoader,
#     training_args: TrainingArguments,
#     model_args: ModelArguments,
#     full_dataset: Dataset,
#     encode_side: str,
#     description: str = "Encoding"
# ) -> tuple[np.ndarray, list, list]: # Added list to return type for batch_stats
#     """
#     Encodes embeddings for a given dataset using the model, handling both standard and
#     late-interaction models in a DDP-safe manner.
#     """
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1

#     # Check if the model is a late-interaction type
#     is_late_interaction = (model_args.model_backbone == COLPALI)

#     local_embeds = []
#     local_gt_infos = []
#     local_max_len = 0
    
#     # --- New: List to store statistics for each batch ---
#     batch_stats_list = []

#     model.eval()

#     # Register hooks for the model once per encode_embeddings call
#     registered_hooks = register_model_hooks(model)

#     with torch.no_grad():
#         for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
#             # --- Reset statistics for each inference pass ---
#             timing_info.clear()
#             token_info["vision_tokens"] = 0
#             token_info["text_input_tokens"] = 0
#             token_info["text_output_tokens"] = 0
#             token_info["total_llm_input_tokens"] = 0

#             inputs = batch_to_device(inputs, training_args.device)
#             current_batch_size = inputs['input_ids'].shape[0] if 'input_ids' in inputs else 1 # Determine actual batch size

#             with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
#                 start_inference_time = time.time()
#                 if encode_side == "qry":
#                     output = model(qry=inputs)
#                     reps = output["qry_reps"].detach()
#                     local_gt_infos.extend(dataset_info)
#                 else:
#                     output = model(tgt=inputs)
#                     reps = output["tgt_reps"].detach()
#                     local_gt_infos.extend([info["cand_name"] for info in dataset_info])
#                 end_inference_time = time.time()

#             # --- Update total LLM input tokens after the model call ---
#             if 'input_ids' in inputs and inputs['input_ids'] is not None:
#                 # `inputs['input_ids'].shape[1]` gives the sequence length,
#                 # which is the number of tokens per item in the batch.
#                 # To get total tokens for the batch, multiply by batch size.
#                 token_info["total_llm_input_tokens"] = inputs['input_ids'].shape[1] 
#                 # Approximation for text_input_tokens
#                 token_info["text_input_tokens"] = token_info["total_llm_input_tokens"] - token_info["vision_tokens"]
#                 token_info["text_input_tokens"] = max(0, token_info["text_input_tokens"]) # Ensure not negative

#             # --- Collect and Store Batch Statistics ---
#             batch_inference_time = end_inference_time - start_inference_time
            
#             current_batch_stats = {
#                 "batch_size": current_batch_size,
#                 "total_inference_time_seconds": batch_inference_time,
#                 "module_inference_times": {},
#                 "token_counts": {
#                     "visual_tokens": token_info["vision_tokens"],
#                     "language_input_tokens_raw": token_info["text_input_tokens"],
#                     "llm_total_input_tokens": token_info["total_llm_input_tokens"],
#                     "language_output_tokens": token_info["text_output_tokens"],
#                 }
#             }

#             # Calculate and store module timings for the current batch
#             for module_obj in registered_hooks:
#                 module_id = id(module_obj)
#                 module_name = module_obj.__class__.__name__
#                 times = timing_info.get(module_id, [])
#                 durations = []
#                 pre_times = {} 
#                 for t, event_type, _ in times:
#                     if event_type == 'pre':
#                         pre_times[module_id] = t
#                     elif event_type == 'post' and module_id in pre_times:
#                         duration = t - pre_times.pop(module_id)
#                         durations.append(duration)
                
#                 if durations:
#                     current_batch_stats["module_inference_times"][module_name] = {
#                         "total": sum(durations),
#                         "count": len(durations),
#                         "avg": sum(durations) / len(durations)
#                     }
#                 else:
#                     current_batch_stats["module_inference_times"][module_name] = {
#                         "total": 0.0,
#                         "count": 0,
#                         "avg": 0.0
#                     }
            
#             batch_stats_list.append(current_batch_stats) # Append the stats for this batch

#             # --- Print Inference Timing and Token Statistics per Batch (Optional, for debugging) ---
#             print_rank(f"\n--- Inference Statistics for {encode_side} batch (Rank {local_rank}) ---")
#             print_rank(f"Batch Inference took: {batch_inference_time:.4f} seconds")
#             print_rank("--- Module Inference Timing Statistics ---")
#             for module_name, stats in current_batch_stats["module_inference_times"].items():
#                 print_rank(f"**{module_name}**: Total: {stats['total']:.6f}s, Count: {stats['count']}, Avg: {stats['avg']:.6f}s")
#             print_rank("--- Token Count Statistics ---")
#             print_rank(f"**视觉 token 数量**: {current_batch_stats['token_counts']['visual_tokens']}")
#             print_rank(f"**语言输入 token 数量 (仅原始文本)**: {current_batch_stats['token_counts']['language_input_tokens_raw']}")
#             print_rank(f"**LLM总输入 token 数量 (包含视觉 + 格式化文本)**: {current_batch_stats['token_counts']['llm_total_input_tokens']}")
#             print_rank(f"**语言输出 token 数量**: {current_batch_stats['token_counts']['language_output_tokens']}")


#             if is_late_interaction and reps.dim() == 3:
#                 local_max_len = max(local_max_len, reps.shape[1])

#             local_embeds.append(reps)

#     if not local_embeds:
#         # Handle cases where a rank gets no data
#         return np.array([]), [], [] # Return empty list for batch_stats_list as well

#     # === DDP Synchronization and Padding for Late-Interaction Models ===
#     if is_late_interaction:
#         if dist.is_initialized():
#             # 1. Find the global maximum sequence length across all ranks
#             local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
#             dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
#             global_max_len = local_max_len_tensor.item()
#         else:
#             global_max_len = local_max_len

#         # 2. Pad all local embeddings to the global max length
#         padded_embeds = []
#         for reps_batch in local_embeds:
#             if reps_batch.dim() == 3:
#                 B, L, H = reps_batch.shape
#                 padding_size = global_max_len - L
#                 padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
#                 padded_embeds.append(padded_batch)
#             else: # Should not happen if model is consistently late-interaction
#                 padded_embeds.append(reps_batch)

#         embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
#     else: # Standard dense models
#         embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()


#     # === Gather embeddings and keys from all ranks ===
#     if dist.is_initialized() and full_dataset.num_rows >= world_size:
#         print_master(f"Gathering {encode_side} embeddings across all ranks...")

#         # Use the more efficient all_gather_into_tensor for tensors
#         output_shape = list(embeds_tensor.shape)
#         output_shape[0] = full_dataset.num_rows
#         embeds_tensor = embeds_tensor.to(training_args.device)
#         gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
#         dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
#         final_embeddings = gathered_embeds_tensor.cpu().float().numpy()
#         # Gather metadata, for which all_gather_object is appropriate
#         gathered_gt_infos = [None for _ in range(world_size)]
#         dist.all_gather_object(gathered_gt_infos, local_gt_infos)
#         all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]

#         # --- New: Gather batch_stats_list from all ranks ---
#         gathered_batch_stats = [None for _ in range(world_size)]
#         dist.all_gather_object(gathered_batch_stats, batch_stats_list)
#         all_batch_stats = [stats for rank_stats in gathered_batch_stats for stats in rank_stats]

#     else:
#         all_gt_infos = local_gt_infos
#         final_embeddings = embeds_tensor.cpu().float().numpy()
#         all_batch_stats = batch_stats_list # If not DDP, just use local list

#     return final_embeddings, all_gt_infos, all_batch_stats


# def main():
#     if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
#         dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
#     local_rank = dist.get_rank() if dist.is_initialized() else 0
#     world_size = dist.get_world_size() if dist.is_initialized() else 1
#     # DEBUG PRINTS for Distributed Setup
#     print_master("Distributed init debug info:")
#     print_master(f"RANK: {os.environ.get('RANK')}")
#     print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
#     print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
#     print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
#     print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
#     if dist.is_initialized():
#         print_rank(f"dist.get_rank(): {dist.get_rank()}")
#         print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

#     for arg in sys.argv:
#         if arg.startswith("--local-rank="):
#             rank = arg.split("=")[1]
#             sys.argv.remove(arg)
#             sys.argv.append('--local_rank')
#             sys.argv.append(rank)
#     parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
#     model_args, data_args, training_args = parser.parse_args_into_dataclasses()
#     model_args: ModelArguments
#     data_args: DataArguments
#     training_args: TrainingArguments
#     os.makedirs(data_args.encode_output_path, exist_ok=True)

#     # --- Model Loading ---
#     hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
#     if not getattr(model_args, "model_backbone", None):
#         model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
#         setattr(model_args, 'model_backbone', model_backbone)
#         setattr(training_args, 'model_backbone', model_backbone)
#     print_master(f'Model Backbone: {model_args.model_backbone}')
#     # --- DDP-Safe Model Loading ---
#     # Step 1: Only the master process (rank 0) downloads the model.
#     if local_rank == 0:
#         processor = load_processor(model_args, data_args)
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
#         print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
#     # Step 2: All processes wait here. The non-master processes will pause
#     # until the master process (rank 0) finishes downloading and exits this barrier.
#     if torch.distributed.is_initialized():
#         torch.distributed.barrier()
#     # Step 3: Now that the model is cached, the non-master processes load it from the local cache.
#     if local_rank != 0:
#         print_rank(f"Loading the model from cache...")
#         processor = load_processor(model_args, data_args)
#         time.sleep(random.randint(2 * local_rank, 3 * local_rank))
#         model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
#     model.eval()
#     model = model.to(training_args.device, dtype=torch.bfloat16)
#     with open(data_args.dataset_config, 'r') as yaml_file:
#         dataset_configs = yaml.safe_load(yaml_file)


#     # --- Main Evaluation Loop ---
#     for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
#         # Initialize task-level statistics accumulators for QUERY
#         query_total_stats = {
#             "total_inference_time_seconds": 0.0,
#             "module_inference_times": {
#                 "Qwen2VisionTransformerPretrainedModel": {"total": 0.0, "count": 0},
#                 "PatchMerger": {"total": 0.0, "count": 0},
#                 "Qwen2VLModel": {"total": 0.0, "count": 0},
#                 "Linear": {"total": 0.0, "count": 0},
#             },
#             "token_counts": {
#                 "visual_tokens": 0,
#                 "language_input_tokens_raw": 0,
#                 "llm_total_input_tokens": 0,
#                 "language_output_tokens": 0,
#             },
#             "data_point_count": 0 # Number of image-text pairs processed
#         }

#         # Initialize task-level statistics accumulators for CANDIDATE
#         cand_total_stats = {
#             "total_inference_time_seconds": 0.0,
#             "module_inference_times": {
#                 "Qwen2VisionTransformerPretrainedModel": {"total": 0.0, "count": 0},
#                 "PatchMerger": {"total": 0.0, "count": 0},
#                 "Qwen2VLModel": {"total": 0.0, "count": 0},
#                 "Linear": {"total": 0.0, "count": 0},
#             },
#             "token_counts": {
#                 "visual_tokens": 0,
#                 "language_input_tokens_raw": 0,
#                 "llm_total_input_tokens": 0,
#                 "language_output_tokens": 0,
#             },
#             "data_point_count": 0 # Number of image-text pairs processed
#         }

#         if dist.is_initialized():
#             dist.barrier()
#         print_master(f"\n--- Evaluating {dataset_name} ---")

#         query_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry")
#         cand_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt")
#         dataset_info_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_info.jsonl")
        
#         # New: Define distinct paths for query and candidate inference statistics output
#         query_inference_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_inference_stats.json")
#         cand_inference_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_cand_inference_stats.json")


#         do_query = not os.path.exists(query_embed_path) or not os.path.exists(dataset_info_path)
#         do_cand = not os.path.exists(cand_embed_path)

#         if do_query or do_cand:
#             if data_args.data_basedir is not None:
#                 # Construct full paths for data files if --data_basedir is provided
#                 for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
#                     if data_args.data_basedir and task_config.get(key):
#                         task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

#             full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
#             full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
#             eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset
#             # Pad datasets to be divisible by world_size before splitting
#             if dist.is_initialized():
#                 padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
#                 padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
#                 eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
#                 eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
#             else:
#                 padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

#         # --- 1. Compute Query Embeddings ---
#         if do_query:
#             print_master("Encoding queries...")
#             eval_qry_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
#             eval_qry_loader = DataLoader(eval_qry_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_qry_collator, num_workers=training_args.dataloader_num_workers)
            
#             # Modified: capture batch_stats_list
#             query_embeds, gt_infos, qry_batch_stats = encode_embeddings(model, eval_qry_loader, training_args, model_args, padded_qry_dataset, encode_side="qry", description=f"Queries for {dataset_name}")
            
#             # Accumulate query statistics
#             for batch_stat in qry_batch_stats:
#                 batch_size = batch_stat["batch_size"]
#                 query_total_stats["total_inference_time_seconds"] += batch_stat["total_inference_time_seconds"]
#                 for module_name, module_stats in batch_stat["module_inference_times"].items():
#                     if module_name in query_total_stats["module_inference_times"]:
#                         query_total_stats["module_inference_times"][module_name]["total"] += module_stats["total"]
#                         query_total_stats["module_inference_times"][module_name]["count"] += module_stats["count"]
                
#                 query_total_stats["token_counts"]["visual_tokens"] += batch_stat["token_counts"]["visual_tokens"] * batch_size
#                 query_total_stats["token_counts"]["language_input_tokens_raw"] += batch_stat["token_counts"]["language_input_tokens_raw"] * batch_size
#                 query_total_stats["token_counts"]["llm_total_input_tokens"] += batch_stat["token_counts"]["llm_total_input_tokens"] * batch_size
#                 query_total_stats["token_counts"]["language_output_tokens"] += batch_stat["token_counts"]["language_output_tokens"] * batch_size
                
#                 query_total_stats["data_point_count"] += batch_size # Accumulate the number of processed items

#             query_embeds = query_embeds[:len(full_eval_qry_dataset)]
#             gt_infos = gt_infos[:len(full_eval_qry_dataset)]
#             if local_rank == 0:
#                 with open(query_embed_path, 'wb') as f:
#                     pickle.dump(query_embeds, f)
#                 with open(dataset_info_path, 'w') as f:
#                     for info in gt_infos:
#                         f.write(json.dumps(info) + '\n')
#                 print_master(f"Saved query embeddings to {query_embed_path}")
                
#                 # Save query-specific inference statistics
#                 if query_total_stats["data_point_count"] > 0:
#                     final_query_stats = {
#                         "task_name": dataset_name,
#                         "encode_side": "query",
#                         "data_point_count": query_total_stats["data_point_count"],
#                         "inference_times": {
#                             "total_inference_time_seconds": query_total_stats["total_inference_time_seconds"],
#                             "avg_inference_time_per_item_seconds": query_total_stats["total_inference_time_seconds"] / query_total_stats["data_point_count"],
#                             "module_average_times_per_call": {},
#                             "module_total_times_seconds": {},
#                             "module_calls_count": {},
#                         },
#                         "token_counts": {
#                             "total_visual_tokens": query_total_stats["token_counts"]["visual_tokens"],
#                             "avg_visual_tokens_per_item": query_total_stats["token_counts"]["visual_tokens"] / query_total_stats["data_point_count"],
#                             "total_language_input_tokens_raw": query_total_stats["token_counts"]["language_input_tokens_raw"],
#                             "avg_language_input_tokens_raw_per_item": query_total_stats["token_counts"]["language_input_tokens_raw"] / query_total_stats["data_point_count"],
#                             "total_llm_total_input_tokens": query_total_stats["token_counts"]["llm_total_input_tokens"],
#                             "avg_llm_total_input_tokens_per_item": query_total_stats["token_counts"]["llm_total_input_tokens"] / query_total_stats["data_point_count"],
#                             "total_language_output_tokens": query_total_stats["token_counts"]["language_output_tokens"],
#                             "avg_language_output_tokens_per_item": query_total_stats["token_counts"]["language_output_tokens"] / query_total_stats["data_point_count"],
#                         }
#                     }
#                     for module_name, stats in query_total_stats["module_inference_times"].items():
#                         final_query_stats["inference_times"]["module_total_times_seconds"][module_name] = stats["total"]
#                         final_query_stats["inference_times"]["module_calls_count"][module_name] = stats["count"]
#                         if stats["count"] > 0:
#                             final_query_stats["inference_times"]["module_average_times_per_call"][module_name] = stats["total"] / stats["count"]
#                         else:
#                             final_query_stats["inference_times"]["module_average_times_per_call"][module_name] = 0.0

#                     with open(query_inference_stats_path, 'w', encoding='utf-8') as f:
#                         json.dump(final_query_stats, f, ensure_ascii=False, indent=4)
#                     print_master(f"Query inference statistics for {dataset_name} saved to: {query_inference_stats_path}")
#                 else:
#                     print_master(f"No query data processed for {dataset_name}, skipping query inference statistics output.")

#             if dist.is_initialized():
#                 dist.barrier()


#         # --- 2. Compute Candidate Embeddings ---
#         if do_cand:
#             print_master("Encoding candidates...")
#             eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
#             eval_cand_loader = DataLoader(eval_cand_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_cand_collator, num_workers=training_args.dataloader_num_workers)

#             # Modified: capture batch_stats_list
#             cand_embeds, all_cand_ids, cand_batch_stats = encode_embeddings(model, eval_cand_loader, training_args, model_args, padded_cand_dataset, encode_side="cand", description=f"Candidates for {dataset_name}")
            
#             # Accumulate candidate statistics (similar logic as query)
#             for batch_stat in cand_batch_stats:
#                 batch_size = batch_stat["batch_size"]
#                 cand_total_stats["total_inference_time_seconds"] += batch_stat["total_inference_time_seconds"]
#                 for module_name, module_stats in batch_stat["module_inference_times"].items():
#                     if module_name in cand_total_stats["module_inference_times"]:
#                         cand_total_stats["module_inference_times"][module_name]["total"] += module_stats["total"]
#                         cand_total_stats["module_inference_times"][module_name]["count"] += module_stats["count"]
                
#                 cand_total_stats["token_counts"]["visual_tokens"] += batch_stat["token_counts"]["visual_tokens"] * batch_size
#                 cand_total_stats["token_counts"]["language_input_tokens_raw"] += batch_stat["token_counts"]["language_input_tokens_raw"] * batch_size
#                 cand_total_stats["token_counts"]["llm_total_input_tokens"] += batch_stat["token_counts"]["llm_total_input_tokens"] * batch_size
#                 cand_total_stats["token_counts"]["language_output_tokens"] += batch_stat["token_counts"]["language_output_tokens"] * batch_size
                
#                 cand_total_stats["data_point_count"] += batch_size # Accumulate the number of processed items

#             cand_embeds = cand_embeds[:len(full_eval_cand_dataset)]
#             all_cand_ids = all_cand_ids[:len(full_eval_cand_dataset)]

#             if local_rank == 0:
#                 cand_embed_dict = {cand_id: embed for cand_id, embed in zip(all_cand_ids, cand_embeds)}
#                 with open(cand_embed_path, 'wb') as f: pickle.dump(cand_embed_dict, f)
#                 print_master(f"Saved candidate embeddings to {cand_embed_path}")

#                 # Save candidate-specific inference statistics
#                 if cand_total_stats["data_point_count"] > 0:
#                     final_cand_stats = {
#                         "task_name": dataset_name,
#                         "encode_side": "candidate",
#                         "data_point_count": cand_total_stats["data_point_count"],
#                         "inference_times": {
#                             "total_inference_time_seconds": cand_total_stats["total_inference_time_seconds"],
#                             "avg_inference_time_per_item_seconds": cand_total_stats["total_inference_time_seconds"] / cand_total_stats["data_point_count"],
#                             "module_average_times_per_call": {},
#                             "module_total_times_seconds": {},
#                             "module_calls_count": {},
#                         },
#                         "token_counts": {
#                             "total_visual_tokens": cand_total_stats["token_counts"]["visual_tokens"],
#                             "avg_visual_tokens_per_item": cand_total_stats["token_counts"]["visual_tokens"] / cand_total_stats["data_point_count"],
#                             "total_language_input_tokens_raw": cand_total_stats["token_counts"]["language_input_tokens_raw"],
#                             "avg_language_input_tokens_raw_per_item": cand_total_stats["token_counts"]["language_input_tokens_raw"] / cand_total_stats["data_point_count"],
#                             "total_llm_total_input_tokens": cand_total_stats["token_counts"]["llm_total_input_tokens"],
#                             "avg_llm_total_input_tokens_per_item": cand_total_stats["token_counts"]["llm_total_input_tokens"] / cand_total_stats["data_point_count"],
#                             "total_language_output_tokens": cand_total_stats["token_counts"]["language_output_tokens"],
#                             "avg_language_output_tokens_per_item": cand_total_stats["token_counts"]["language_output_tokens"] / cand_total_stats["data_point_count"],
#                         }
#                     }
#                     for module_name, stats in cand_total_stats["module_inference_times"].items():
#                         final_cand_stats["inference_times"]["module_total_times_seconds"][module_name] = stats["total"]
#                         final_cand_stats["inference_times"]["module_calls_count"][module_name] = stats["count"]
#                         if stats["count"] > 0:
#                             final_cand_stats["inference_times"]["module_average_times_per_call"][module_name] = stats["total"] / stats["count"]
#                         else:
#                             final_cand_stats["inference_times"]["module_average_times_per_call"][module_name] = 0.0

#                     with open(cand_inference_stats_path, 'w', encoding='utf-8') as f:
#                         json.dump(final_cand_stats, f, ensure_ascii=False, indent=4)
#                     print_master(f"Candidate inference statistics for {dataset_name} saved to: {cand_inference_stats_path}")
#                 else:
#                     print_master(f"No candidate data processed for {dataset_name}, skipping candidate inference statistics output.")

#         if dist.is_initialized():
#             dist.barrier()

#         # --- 3. Compute Scores (on master rank only) ---
#         score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#         ####################################################################################
#         pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred.jsonl")
#         score_detail_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score_details.jsonl")  # 新文件，存相似度分数
#         def append_score_detail(score_detail_list, qid, ranked_indices, score_vector, cand_ids, labels):
#             """追加一个 query 的候选分数详情"""
#             score_detail_list.append({
#                 "qid": int(qid),
#                 "cand_scores": [
#                     {"cand_id": str(cand_ids[i]), "score": float(score_vector[i])}
#                     for i in ranked_indices
#                 ],
#                 "label": labels
#             })
#         ####################################################################################
#         if local_rank == 0:
#             if os.path.exists(score_path):
#                 try:
#                     with open(score_path, "r") as f:
#                         score_dict = json.load(f)
#                     print_master(f"Score of {dataset_name} (loaded from previous run): {score_path}")
#                     formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#                     print_master(formatted)
#                     # No `continue` here, as we want to ensure other files are processed/generated
#                 except Exception as e:
#                     print_master(f"Failed to load score for {dataset_name}, proceeding to recompute. Error: {e}")
#             # Proceed with score computation if not loaded or failed to load
#             with open(query_embed_path, 'rb') as f: qry_embeds = pickle.load(f)
#             with open(cand_embed_path, 'rb') as f: cand_embed_dict = pickle.load(f)
#             gt_infos = [json.loads(l) for l in open(dataset_info_path)]
#             pred_dicts = []
#             score_detail_dicts = []###################################

#             rank_against_all_candidates = task_config.get("eval_type", "global") == "global"
#             # if rank_against_all_candidates:
#             #     cand_keys = list(cand_embed_dict.keys())
#             #     cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])
#             #     # Handle late-interaction scoring
#             #     if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#             #         qry_embed = torch.from_numpy(qry_embeds)
#             #         cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#             #         scores = processor.score(qry_embed, cand_embeds, batch_size=64)  # use ColPali score function
#             #         ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()
#             #         scores = scores.cpu().numpy()
#             #     else: # Dense
#             #         cosine_scores = np.dot(qry_embeds, cand_embeds.T)
#             #         ranked_candids = np.argsort(-cosine_scores, axis=1)
#             #####################################################
#             if rank_against_all_candidates:
#                 cand_keys = list(cand_embed_dict.keys())
#                 cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])

#                 if qry_embeds.ndim == 3:  # Late-interaction
#                     qry_embed_t = torch.from_numpy(qry_embeds)
#                     cand_embeds_t = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                     sim_matrix = processor.score(qry_embed_t, cand_embeds_t, batch_size=64).cpu().numpy()  # [N_q, N_c]
#                 else:  # Dense
#                     sim_matrix = np.dot(qry_embeds, cand_embeds.T)  # [N_q, N_c]

#                 ranked_all = np.argsort(-sim_matrix, axis=1)
#             #########################################################
#                 for qid, (ranked_candid, gt_info) in tqdm(enumerate(zip(ranked_candids, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None
#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)
#                     pred_dicts.append({
#                         "prediction": [cand_keys[i] for i in ranked_candid],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })
#                     ################################# 新增：详细相似度字典
#                     append_score_detail(score_detail_dicts, qid, ranked_indices, sim_matrix[qid], cand_keys, rel_docids)
#                     ########################################
#             # else:
#             #     for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#             #         cand_embeds = np.stack([cand_embed_dict[key] for key in gt_info["cand_names"]])
#             #         if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
#             #             qry_embed = torch.from_numpy(np.array(qry_embed)).unsqueeze(0)
#             #             cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#             #             scores = processor.score(qry_embed, cand_embeds, batch_size=1024)  # use ColPali score function
#             #             ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()[0]
#             #         else:
#             #             cosine_score = np.dot(qry_embed, cand_embeds.T)
#             #             ranked_candids = np.argsort(-cosine_score)
#             #         rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#             #         rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None

#             #         assert rel_scores is None or len(rel_docids) == len(rel_scores)
#             #         pred_dicts.append({
#             #             "prediction": [gt_info["cand_names"][i] for i in ranked_candids],
#             #             "label": rel_docids,
#             #             "rel_scores": rel_scores,
#             #         })
#             #######################################################################
#             else:  # 非全局
#                 for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
#                     cand_ids_local = gt_info["cand_names"]
#                     cand_embeds = np.stack([cand_embed_dict[key] for key in cand_ids_local])

#                     if qry_embeds.ndim == 3:  # Late-interaction
#                         qry_embed_t = torch.from_numpy(np.array(qry_embed)).unsqueeze(0)  # [1, Lq, H]
#                         cand_embeds_t = [torch.from_numpy(np.array(t)) for t in cand_embeds]
#                         sim_vec = processor.score(qry_embed_t, cand_embeds_t, batch_size=1024).cpu().numpy()[0]  # [N_c]
#                     else:  # Dense
#                         sim_vec = np.dot(qry_embed, cand_embeds.T)  # [N_c]

#                     ranked_indices = np.argsort(-sim_vec)
#                     rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
#                     rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None
#                     assert rel_scores is None or len(rel_docids) == len(rel_scores)

#                     pred_dicts.append({
#                         "prediction": [cand_ids_local[i] for i in ranked_indices],
#                         "label": rel_docids,
#                         "rel_scores": rel_scores,
#                     })

#                     # 新增：分数详情
#                     append_score_detail(score_detail_dicts, qid, ranked_indices, sim_vec, cand_ids_local, rel_docids)

#             ########################################## 保存预测和分数
#             with open(score_detail_path, "w") as f:  # 新增
#                 for detail in score_detail_dicts:
#                     f.write(json.dumps(detail) + '\n')
#             print_master(f"Detailed score file saved to: {score_detail_path}")

#             metrics_to_report = task_config["metrics"] if task_config.get("metrics", None) is not None else ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
#             metrics = RankingMetrics(metrics_to_report)
#             score_dict = metrics.evaluate(pred_dicts)
#             formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#             score_dict["num_pred"] = len(pred_dicts)
#             score_dict["num_data"] = len(gt_infos)
#             print_master(f"Score of {dataset_name}:")
#             print_master(formatted)
#             print_master(f"Outputting final score to: {score_path}")
#             with open(score_path, "w") as f:
#                 json.dump(score_dict, f, indent=4)
#             with open(pred_path, "w") as f:
#                 for pred in pred_dicts:
#                     f.write(json.dumps(pred) + '\n')
#             ####################################################################
#             score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
#             pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred.jsonl")

#             metrics_to_report = task_config["metrics"] if task_config.get("metrics", None) is not None else ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
#             metrics = RankingMetrics(metrics_to_report)
#             score_dict = metrics.evaluate(pred_dicts)
#             formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
#             score_dict["num_pred"] = len(pred_dicts)
#             score_dict["num_data"] = len(gt_infos)
#             print_master(f"Score of {dataset_name}:")
#             print_master(formatted)
#             print_master(f"Outputting final score to: {score_path}")
#             with open(score_path, "w") as f:
#                 json.dump(score_dict, f, indent=4)
#             with open(pred_path, "w") as f:
#                 for pred in pred_dicts:
#                     f.write(json.dumps(pred) + '\n')            


# if __name__ == '__main__':
#     main()
######################################################################################################

#######################################################################################################
#为了可视化把mask值也输出
########################################################################################
#分query和cand进行统计
import datetime
import logging
import json
import random
import time
import numpy as np
import os
import pickle
import sys
import torch
import torch.distributed as dist
import torch.nn.functional as F
import yaml
import transformers

from torch.utils.data import DataLoader
from tqdm import tqdm
from transformers import HfArgumentParser, AutoConfig, AutoTokenizer
from datasets import Dataset, concatenate_datasets
from datasets.distributed import split_dataset_by_node

from src.arguments import ModelArguments, DataArguments, TrainingArguments
from src.data.collator.eval_collator import MultimodalEvalDataCollator
from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
from src.eval_utils.metrics import RankingMetrics
from src.model.model import MMEBModel
from src.model.processor import get_backbone_name, load_processor, COLPALI
from src.utils import batch_to_device, print_rank, print_master

logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
logger = logging.getLogger(__name__)

# --- Global Dictionaries for Hooks (will be cleared before each encode_embeddings call) ---
timing_info = {}
token_info = {
    "vision_tokens": 0,
    "text_input_tokens": 0,  # Refers to the original text token count
    "text_output_tokens": 0, # Not directly applicable here as we are encoding, not generating. Will be 0.
    "total_llm_input_tokens": 0, # Refers to the total tokens LLM receives (visual + formatted text)
}

# --- Hook Functions Definition ---
def timing_pre_hook(module, input):
    module_id = id(module)
    if module_id not in timing_info:
        timing_info[module_id] = []
    timing_info[module_id].append((time.time(), 'pre', module.__class__.__name__))

def timing_post_hook(module, input, output):
    module_id = id(module)
    if module_id not in timing_info:
        # print(f"Warning: No pre-hook data for module {module.__class__.__name__} ({module_id})")
        return

    timing_info[module_id].append((time.time(), 'post', module.__class__.__name__))

    # Collect vision token count (only from Vision Transformer module's post hook)
    module_name = module.__class__.__name__
    if "vision" in module_name.lower() and "transformer" in module_name.lower():
        if isinstance(output, torch.Tensor):
            token_info["vision_tokens"] = output.shape[0] # For visual features, usually (batch_size, num_tokens, hidden_dim)
        elif hasattr(output, 'last_hidden_state'):
            token_info["vision_tokens"] = output.last_hidden_state.shape[1]


def register_model_hooks(model):
    registered_modules = []
    
    core_model = model
    # print_master(f"DEBUG: Initial model type in register_model_hooks: {type(model)}")
    
    if hasattr(model, 'encoder') and model.encoder is not None:
        print_master(f"DEBUG: model has 'encoder' attribute. Type of model.encoder: {type(model.encoder)}")
    else:
        print_master("WARNING: Model structure does not have an 'encoder' attribute. Registering hooks directly on top-level modules.")

    # Vision module
    if hasattr(core_model, 'visual') and core_model.visual is not None:
        vision_module = core_model.visual
        vision_module.register_forward_pre_hook(timing_pre_hook)
        vision_module.register_forward_hook(timing_post_hook)
        registered_modules.append(vision_module)
        print_master(f"Registered hooks for vision module: {vision_module.__class__.__name__}")
    else:
        print_master(f"WARNING: No 'visual' attribute found on core_model ({type(core_model)}).")


    # Merger module (if inside visual) - it's part of the vision component
    if hasattr(core_model, 'visual') and hasattr(core_model.visual, 'merger') and core_model.visual.merger is not None:
        merger_module = core_model.visual.merger
        merger_module.register_forward_pre_hook(timing_pre_hook)
        merger_module.register_forward_hook(timing_post_hook)
        registered_modules.append(merger_module)
        print_master(f"Registered hooks for merger module: {merger_module.__class__.__name__}")
    else:
        print_master(f"WARNING: No 'merger' attribute found on core_model.visual ({type(getattr(core_model, 'visual', 'N/A'))}).")

    # Language model body
    if hasattr(core_model, 'model') and core_model.model is not None:
        llm_main_module = core_model.model
        llm_main_module.register_forward_pre_hook(timing_pre_hook)
        llm_main_module.register_forward_hook(timing_post_hook)
        registered_modules.append(llm_main_module)
        print_master(f"Registered hooks for LLM main module: {llm_main_module.__class__.__name__}")
    else:
        print_master(f"WARNING: No 'model' attribute found on core_model ({type(core_model)}).")


    # LM Head
    if hasattr(core_model, 'lm_head') and core_model.lm_head is not None:
        lm_head_module = core_model.lm_head
        lm_head_module.register_forward_pre_hook(timing_pre_hook)
        lm_head_module.register_forward_hook(timing_post_hook)
        registered_modules.append(lm_head_module)
        print_master(f"Registered hooks for LM head module: {lm_head_module.__class__.__name__}")
    else:
        print_master(f"WARNING: No 'lm_head' attribute found on core_model ({type(core_model)}).")


    if not registered_modules:
        print_master("Warning: No major modules found for hook registration. Check model architecture.")
    return registered_modules


def pad_dataset_to_divisible(dataset, world_size):
    num_samples = len(dataset)
    if num_samples % world_size == 0:
        return dataset, num_samples

    num_to_add = world_size - (num_samples % world_size)
    padded_size = num_samples + num_to_add

    padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
    padded_dataset = concatenate_datasets([dataset, padding_data])
    return padded_dataset, padded_size

def encode_embeddings(
    model: MMEBModel,
    loader: DataLoader,
    training_args: TrainingArguments,
    model_args: ModelArguments,
    full_dataset: Dataset,
    encode_side: str,
    description: str = "Encoding"
) -> tuple[np.ndarray, list, list, list]:  # CHANGED: + list for img_token_masks
    """
    Encodes embeddings for a given dataset using the model, handling both standard and
    late-interaction models in a DDP-safe manner.
    Returns:
        - embeddings: np.ndarray
        - infos_or_ids: list
        - batch_stats_list: list
        - img_token_masks: list[None | list[bool]]  # NEW
    """
    local_rank = dist.get_rank() if dist.is_initialized() else 0
    world_size = dist.get_world_size() if dist.is_initialized() else 1

    # Check if the model is a late-interaction type
    is_late_interaction = (model_args.model_backbone == COLPALI)

    local_embeds = []
    local_gt_infos = []
    local_max_len = 0
    
    # --- New: List to store statistics for each batch ---
    batch_stats_list = []

    # --- NEW: Collect image token masks locally ---
    local_img_token_masks = []  # 每个样本一个元素：None 或 [bool, ...]

    model.eval()

    # Register hooks for the model once per encode_embeddings call
    registered_hooks = register_model_hooks(model)

    # --- NEW: helpers to取mask并序列化 ---
    def _search_key(obj, key: str):
        # 递归搜索 dict/list/tuple，找到指定 key
        if isinstance(obj, dict):
            if key in obj:
                return obj[key]
            for v in obj.values():
                r = _search_key(v, key)
                if r is not None:
                    return r
        elif isinstance(obj, (list, tuple)):
            for v in obj:
                r = _search_key(v, key)
                if r is not None:
                    return r
        return None

    def _to_serializable_mask_list(mask_list, batch_size: int):
        # 将模型返回的 mask（list/tensor/ndarray/None）转成 [None | list[bool]] * B
        if mask_list is None:
            return [None] * batch_size

        out = []
        if isinstance(mask_list, (list, tuple)):
            for m in mask_list:
                if m is None:
                    out.append(None)
                elif torch.is_tensor(m):
                    out.append(m.detach().cpu().tolist())
                elif isinstance(m, np.ndarray):
                    out.append(m.tolist())
                else:
                    # already python list/bool
                    out.append(m)
        elif torch.is_tensor(mask_list):
            # 若是 2D 张量（B, L），直接 tolist() -> list[list[bool/int]]
            out = mask_list.detach().cpu().tolist()
        elif isinstance(mask_list, np.ndarray):
            out = mask_list.tolist()
        else:
            # 未知类型，保守返回 None 占位
            out = [None] * batch_size

        # 长度对齐 batch_size
        if isinstance(out, list):
            if len(out) < batch_size:
                out = out + [None] * (batch_size - len(out))
            elif len(out) > batch_size:
                out = out[:batch_size]
        return out

    with torch.no_grad():
        for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
            # --- Reset statistics for each inference pass ---
            timing_info.clear()
            token_info["vision_tokens"] = 0
            token_info["text_input_tokens"] = 0
            token_info["text_output_tokens"] = 0
            token_info["total_llm_input_tokens"] = 0

            inputs = batch_to_device(inputs, training_args.device)
            current_batch_size = inputs['input_ids'].shape[0] if 'input_ids' in inputs and inputs['input_ids'] is not None else 1

            with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
                start_inference_time = time.time()
                if encode_side == "qry":
                    output = model(qry=inputs)
                    # torch.set_printoptions(threshold=10000)
                    # print('output:', output)
                    # exit()
                    reps = output["qry_reps"].detach()
                    local_gt_infos.extend(dataset_info)
                else:
                    output = model(tgt=inputs)
                    reps = output["tgt_reps"].detach()
                    local_gt_infos.extend([info["cand_name"] for info in dataset_info])
                end_inference_time = time.time()

            # --- NEW: 提取并保存本 batch 的 image_token_bool_masks ---
            # 期望 MMEBModel 的 output 中直接或间接包含 'image_token_bool_masks'
            img_masks_raw = None
            if isinstance(output, dict):
                img_masks_raw = _search_key(output, "image_token_bool_masks")
            # 可选：若你在 MMEBModel 上挂了属性，也可以尝试读取
            if img_masks_raw is None and hasattr(model, "image_token_bool_masks"):
                img_masks_raw = getattr(model, "image_token_bool_masks")

            img_masks_serializable = _to_serializable_mask_list(img_masks_raw, current_batch_size)
            local_img_token_masks.extend(img_masks_serializable)

            # --- Update total LLM input tokens after the model call ---
            if 'input_ids' in inputs and inputs['input_ids'] is not None:
                token_info["total_llm_input_tokens"] = inputs['input_ids'].shape[1]
                token_info["text_input_tokens"] = token_info["total_llm_input_tokens"] - token_info["vision_tokens"]
                token_info["text_input_tokens"] = max(0, token_info["text_input_tokens"])

            # --- Collect and Store Batch Statistics ---
            batch_inference_time = end_inference_time - start_inference_time
            
            current_batch_stats = {
                "batch_size": current_batch_size,
                "total_inference_time_seconds": batch_inference_time,
                "module_inference_times": {},
                "token_counts": {
                    "visual_tokens": token_info["vision_tokens"],
                    "language_input_tokens_raw": token_info["text_input_tokens"],
                    "llm_total_input_tokens": token_info["total_llm_input_tokens"],
                    "language_output_tokens": token_info["text_output_tokens"],
                }
            }

            # Calculate and store module timings for the current batch
            for module_obj in registered_hooks:
                module_id = id(module_obj)
                module_name = module_obj.__class__.__name__
                times = timing_info.get(module_id, [])
                durations = []
                pre_times = {} 
                for t, event_type, _ in times:
                    if event_type == 'pre':
                        pre_times[module_id] = t
                    elif event_type == 'post' and module_id in pre_times:
                        duration = t - pre_times.pop(module_id)
                        durations.append(duration)
                
                if durations:
                    current_batch_stats["module_inference_times"][module_name] = {
                        "total": sum(durations),
                        "count": len(durations),
                        "avg": sum(durations) / len(durations)
                    }
                else:
                    current_batch_stats["module_inference_times"][module_name] = {
                        "total": 0.0,
                        "count": 0,
                        "avg": 0.0
                    }
            
            batch_stats_list.append(current_batch_stats)

            # --- Debug prints (optional) ---
            print_rank(f"\n--- Inference Statistics for {encode_side} batch (Rank {local_rank}) ---")
            print_rank(f"Batch Inference took: {batch_inference_time:.4f} seconds")
            print_rank("--- Module Inference Timing Statistics ---")
            for module_name, stats in current_batch_stats["module_inference_times"].items():
                print_rank(f"**{module_name}**: Total: {stats['total']:.6f}s, Count: {stats['count']}, Avg: {stats['avg']:.6f}s")
            print_rank("--- Token Count Statistics ---")
            print_rank(f"**视觉 token 数量**: {current_batch_stats['token_counts']['visual_tokens']}")
            print_rank(f"**语言输入 token 数量 (仅原始文本)**: {current_batch_stats['token_counts']['language_input_tokens_raw']}")
            print_rank(f"**LLM总输入 token 数量 (包含视觉 + 格式化文本)**: {current_batch_stats['token_counts']['llm_total_input_tokens']}")
            print_rank(f"**语言输出 token 数量**: {current_batch_stats['token_counts']['language_output_tokens']}")

            if is_late_interaction and reps.dim() == 3:
                local_max_len = max(local_max_len, reps.shape[1])

            local_embeds.append(reps)

    if not local_embeds:
        # Handle cases where a rank gets no data
        return np.array([]), [], [], []  # CHANGED: 4个返回值

    # === DDP Synchronization and Padding for Late-Interaction Models ===
    if is_late_interaction:
        if dist.is_initialized():
            # 1: global max length
            local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
            dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
            global_max_len = local_max_len_tensor.item()
        else:
            global_max_len = local_max_len

        # 2: pad to global max length
        padded_embeds = []
        for reps_batch in local_embeds:
            if reps_batch.dim() == 3:
                B, L, H = reps_batch.shape
                padding_size = global_max_len - L
                padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
                padded_embeds.append(padded_batch)
            else:
                padded_embeds.append(reps_batch)

        embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
    else:
        embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()

    # === Gather embeddings and keys from all ranks ===
    if dist.is_initialized() and full_dataset.num_rows >= world_size:
        print_master(f"Gathering {encode_side} embeddings across all ranks...")

        # tensor gather
        output_shape = list(embeds_tensor.shape)
        output_shape[0] = full_dataset.num_rows
        embeds_tensor = embeds_tensor.to(training_args.device)
        gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
        dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
        final_embeddings = gathered_embeds_tensor.cpu().float().numpy()

        # object gather for infos and stats
        gathered_gt_infos = [None for _ in range(world_size)]
        dist.all_gather_object(gathered_gt_infos, local_gt_infos)
        all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]

        gathered_batch_stats = [None for _ in range(world_size)]
        dist.all_gather_object(gathered_batch_stats, batch_stats_list)
        all_batch_stats = [stats for rank_stats in gathered_batch_stats for stats in rank_stats]

        # --- NEW: gather masks ---
        gathered_masks = [None for _ in range(world_size)]
        dist.all_gather_object(gathered_masks, local_img_token_masks)
        all_img_token_masks = [m for rank_list in gathered_masks for m in rank_list]
    else:
        all_gt_infos = local_gt_infos
        final_embeddings = embeds_tensor.cpu().float().numpy()
        all_batch_stats = batch_stats_list
        all_img_token_masks = local_img_token_masks  # NEW

    return final_embeddings, all_gt_infos, all_batch_stats, all_img_token_masks  # CHANGED


def main():
    if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
        dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
    local_rank = dist.get_rank() if dist.is_initialized() else 0
    world_size = dist.get_world_size() if dist.is_initialized() else 1
    # DEBUG PRINTS for Distributed Setup
    print_master("Distributed init debug info:")
    print_master(f"RANK: {os.environ.get('RANK')}")
    print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
    print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
    print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
    print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
    if dist.is_initialized():
        print_rank(f"dist.get_rank(): {dist.get_rank()}")
        print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

    for arg in sys.argv:
        if arg.startswith("--local-rank="):
            rank = arg.split("=")[1]
            sys.argv.remove(arg)
            sys.argv.append('--local_rank')
            sys.argv.append(rank)
    parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
    model_args, data_args, training_args = parser.parse_args_into_dataclasses()
    model_args: ModelArguments
    data_args: DataArguments
    training_args: TrainingArguments
    os.makedirs(data_args.encode_output_path, exist_ok=True)

    # --- Model Loading ---
    hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
    if not getattr(model_args, "model_backbone", None):
        model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
        setattr(model_args, 'model_backbone', model_backbone)
        setattr(training_args, 'model_backbone', model_backbone)
    print_master(f'Model Backbone: {model_args.model_backbone}')
    # --- DDP-Safe Model Loading ---
    # Step 1: Only the master process (rank 0) downloads the model.
    if local_rank == 0:
        processor = load_processor(model_args, data_args)
        model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
        print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
    # Step 2: All processes wait here. The non-master processes will pause
    # until the master process (rank 0) finishes downloading and exits this barrier.
    if torch.distributed.is_initialized():
        torch.distributed.barrier()
    # Step 3: Now that the model is cached, the non-master processes load it from the local cache.
    if local_rank != 0:
        print_rank(f"Loading the model from cache...")
        processor = load_processor(model_args, data_args)
        time.sleep(random.randint(2 * local_rank, 3 * local_rank))
        model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
    model.eval()
    model = model.to(training_args.device, dtype=torch.bfloat16)
    with open(data_args.dataset_config, 'r') as yaml_file:
        dataset_configs = yaml.safe_load(yaml_file)


    # --- Main Evaluation Loop ---
    for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
        # Initialize task-level statistics accumulators for QUERY
        query_total_stats = {
            "total_inference_time_seconds": 0.0,
            "module_inference_times": {
                "Qwen2VisionTransformerPretrainedModel": {"total": 0.0, "count": 0},
                "PatchMerger": {"total": 0.0, "count": 0},
                "Qwen2VLModel": {"total": 0.0, "count": 0},
                "Linear": {"total": 0.0, "count": 0},
            },
            "token_counts": {
                "visual_tokens": 0,
                "language_input_tokens_raw": 0,
                "llm_total_input_tokens": 0,
                "language_output_tokens": 0,
            },
            "data_point_count": 0 # Number of image-text pairs processed
        }

        # Initialize task-level statistics accumulators for CANDIDATE
        cand_total_stats = {
            "total_inference_time_seconds": 0.0,
            "module_inference_times": {
                "Qwen2VisionTransformerPretrainedModel": {"total": 0.0, "count": 0},
                "PatchMerger": {"total": 0.0, "count": 0},
                "Qwen2VLModel": {"total": 0.0, "count": 0},
                "Linear": {"total": 0.0, "count": 0},
            },
            "token_counts": {
                "visual_tokens": 0,
                "language_input_tokens_raw": 0,
                "llm_total_input_tokens": 0,
                "language_output_tokens": 0,
            },
            "data_point_count": 0 # Number of image-text pairs processed
        }

        if dist.is_initialized():
            dist.barrier()
        print_master(f"\n--- Evaluating {dataset_name} ---")

        query_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry")
        cand_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt")
        dataset_info_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_info.jsonl")
        
        # New: Define distinct paths for query and candidate inference statistics output
        query_inference_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_inference_stats.json")
        cand_inference_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_cand_inference_stats.json")


        do_query = not os.path.exists(query_embed_path) or not os.path.exists(dataset_info_path)
        do_cand = not os.path.exists(cand_embed_path)

        if do_query or do_cand:
            if data_args.data_basedir is not None:
                # Construct full paths for data files if --data_basedir is provided
                for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
                    if data_args.data_basedir and task_config.get(key):
                        task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

            full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
            full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
            eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset
            # Pad datasets to be divisible by world_size before splitting
            if dist.is_initialized():
                padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
                padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
                eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
                eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
            else:
                padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

        # --- 1. Compute Query Embeddings ---
        if do_query:
            print_master("Encoding queries...")
            eval_qry_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
            eval_qry_loader = DataLoader(eval_qry_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_qry_collator, num_workers=training_args.dataloader_num_workers)
            
            # Modified: capture batch_stats_list
            query_embeds, gt_infos, qry_batch_stats, qry_img_masks = encode_embeddings(model, eval_qry_loader, training_args, model_args, padded_qry_dataset, encode_side="qry", description=f"Queries for {dataset_name}")
            
            # Accumulate query statistics
            for batch_stat in qry_batch_stats:
                batch_size = batch_stat["batch_size"]
                query_total_stats["total_inference_time_seconds"] += batch_stat["total_inference_time_seconds"]
                for module_name, module_stats in batch_stat["module_inference_times"].items():
                    if module_name in query_total_stats["module_inference_times"]:
                        query_total_stats["module_inference_times"][module_name]["total"] += module_stats["total"]
                        query_total_stats["module_inference_times"][module_name]["count"] += module_stats["count"]
                
                query_total_stats["token_counts"]["visual_tokens"] += batch_stat["token_counts"]["visual_tokens"] * batch_size
                query_total_stats["token_counts"]["language_input_tokens_raw"] += batch_stat["token_counts"]["language_input_tokens_raw"] * batch_size
                query_total_stats["token_counts"]["llm_total_input_tokens"] += batch_stat["token_counts"]["llm_total_input_tokens"] * batch_size
                query_total_stats["token_counts"]["language_output_tokens"] += batch_stat["token_counts"]["language_output_tokens"] * batch_size
                
                query_total_stats["data_point_count"] += batch_size # Accumulate the number of processed items

            query_embeds = query_embeds[:len(full_eval_qry_dataset)]
            gt_infos = gt_infos[:len(full_eval_qry_dataset)]
            if local_rank == 0:
                with open(query_embed_path, 'wb') as f:
                    pickle.dump(query_embeds, f)
                with open(dataset_info_path, 'w') as f:
                    for info in gt_infos:
                        f.write(json.dumps(info) + '\n')
                print_master(f"Saved query embeddings to {query_embed_path}")

                qry_img_masks_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_img_token_masks.jsonl")
                with open(qry_img_masks_path, 'w', encoding='utf-8') as f:
                    for i, m in enumerate(qry_img_masks[:len(full_eval_qry_dataset)]):
                        f.write(json.dumps({"index": i, "mask": m}, ensure_ascii=False) + "\n")
                print_master(f"Saved query image token masks to {qry_img_masks_path}")
                
                # Save query-specific inference statistics
                if query_total_stats["data_point_count"] > 0:
                    final_query_stats = {
                        "task_name": dataset_name,
                        "encode_side": "query",
                        "data_point_count": query_total_stats["data_point_count"],
                        "inference_times": {
                            "total_inference_time_seconds": query_total_stats["total_inference_time_seconds"],
                            "avg_inference_time_per_item_seconds": query_total_stats["total_inference_time_seconds"] / query_total_stats["data_point_count"],
                            "module_average_times_per_call": {},
                            "module_total_times_seconds": {},
                            "module_calls_count": {},
                        },
                        "token_counts": {
                            "total_visual_tokens": query_total_stats["token_counts"]["visual_tokens"],
                            "avg_visual_tokens_per_item": query_total_stats["token_counts"]["visual_tokens"] / query_total_stats["data_point_count"],
                            "total_language_input_tokens_raw": query_total_stats["token_counts"]["language_input_tokens_raw"],
                            "avg_language_input_tokens_raw_per_item": query_total_stats["token_counts"]["language_input_tokens_raw"] / query_total_stats["data_point_count"],
                            "total_llm_total_input_tokens": query_total_stats["token_counts"]["llm_total_input_tokens"],
                            "avg_llm_total_input_tokens_per_item": query_total_stats["token_counts"]["llm_total_input_tokens"] / query_total_stats["data_point_count"],
                            "total_language_output_tokens": query_total_stats["token_counts"]["language_output_tokens"],
                            "avg_language_output_tokens_per_item": query_total_stats["token_counts"]["language_output_tokens"] / query_total_stats["data_point_count"],
                        }
                    }
                    for module_name, stats in query_total_stats["module_inference_times"].items():
                        final_query_stats["inference_times"]["module_total_times_seconds"][module_name] = stats["total"]
                        final_query_stats["inference_times"]["module_calls_count"][module_name] = stats["count"]
                        if stats["count"] > 0:
                            final_query_stats["inference_times"]["module_average_times_per_call"][module_name] = stats["total"] / stats["count"]
                        else:
                            final_query_stats["inference_times"]["module_average_times_per_call"][module_name] = 0.0

                    with open(query_inference_stats_path, 'w', encoding='utf-8') as f:
                        json.dump(final_query_stats, f, ensure_ascii=False, indent=4)
                    print_master(f"Query inference statistics for {dataset_name} saved to: {query_inference_stats_path}")
                else:
                    print_master(f"No query data processed for {dataset_name}, skipping query inference statistics output.")

            if dist.is_initialized():
                dist.barrier()


        # --- 2. Compute Candidate Embeddings ---
        if do_cand:
            print_master("Encoding candidates...")
            eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
            eval_cand_loader = DataLoader(eval_cand_dataset, batch_size=training_args.per_device_eval_batch_size, collate_fn=eval_cand_collator, num_workers=training_args.dataloader_num_workers)

            # Modified: capture batch_stats_list
            cand_embeds, all_cand_ids, cand_batch_stats, cand_img_masks = encode_embeddings(model, eval_cand_loader, training_args, model_args, padded_cand_dataset, encode_side="cand", description=f"Candidates for {dataset_name}")
            
            # Accumulate candidate statistics (similar logic as query)
            for batch_stat in cand_batch_stats:
                batch_size = batch_stat["batch_size"]
                cand_total_stats["total_inference_time_seconds"] += batch_stat["total_inference_time_seconds"]
                for module_name, module_stats in batch_stat["module_inference_times"].items():
                    if module_name in cand_total_stats["module_inference_times"]:
                        cand_total_stats["module_inference_times"][module_name]["total"] += module_stats["total"]
                        cand_total_stats["module_inference_times"][module_name]["count"] += module_stats["count"]
                
                cand_total_stats["token_counts"]["visual_tokens"] += batch_stat["token_counts"]["visual_tokens"] * batch_size
                cand_total_stats["token_counts"]["language_input_tokens_raw"] += batch_stat["token_counts"]["language_input_tokens_raw"] * batch_size
                cand_total_stats["token_counts"]["llm_total_input_tokens"] += batch_stat["token_counts"]["llm_total_input_tokens"] * batch_size
                cand_total_stats["token_counts"]["language_output_tokens"] += batch_stat["token_counts"]["language_output_tokens"] * batch_size
                
                cand_total_stats["data_point_count"] += batch_size # Accumulate the number of processed items

            cand_embeds = cand_embeds[:len(full_eval_cand_dataset)]
            all_cand_ids = all_cand_ids[:len(full_eval_cand_dataset)]

            if local_rank == 0:
                cand_embed_dict = {cand_id: embed for cand_id, embed in zip(all_cand_ids, cand_embeds)}
                with open(cand_embed_path, 'wb') as f: pickle.dump(cand_embed_dict, f)
                print_master(f"Saved candidate embeddings to {cand_embed_path}")

                cand_img_masks_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_cand_img_token_masks.jsonl")
                with open(cand_img_masks_path, 'w', encoding='utf-8') as f:
                    for cid, m in zip(all_cand_ids[:len(full_eval_cand_dataset)], cand_img_masks[:len(full_eval_cand_dataset)]):
                        f.write(json.dumps({"cand_id": str(cid), "mask": m}, ensure_ascii=False) + "\n")
                print_master(f"Saved candidate image token masks to {cand_img_masks_path}")

                # Save candidate-specific inference statistics
                if cand_total_stats["data_point_count"] > 0:
                    final_cand_stats = {
                        "task_name": dataset_name,
                        "encode_side": "candidate",
                        "data_point_count": cand_total_stats["data_point_count"],
                        "inference_times": {
                            "total_inference_time_seconds": cand_total_stats["total_inference_time_seconds"],
                            "avg_inference_time_per_item_seconds": cand_total_stats["total_inference_time_seconds"] / cand_total_stats["data_point_count"],
                            "module_average_times_per_call": {},
                            "module_total_times_seconds": {},
                            "module_calls_count": {},
                        },
                        "token_counts": {
                            "total_visual_tokens": cand_total_stats["token_counts"]["visual_tokens"],
                            "avg_visual_tokens_per_item": cand_total_stats["token_counts"]["visual_tokens"] / cand_total_stats["data_point_count"],
                            "total_language_input_tokens_raw": cand_total_stats["token_counts"]["language_input_tokens_raw"],
                            "avg_language_input_tokens_raw_per_item": cand_total_stats["token_counts"]["language_input_tokens_raw"] / cand_total_stats["data_point_count"],
                            "total_llm_total_input_tokens": cand_total_stats["token_counts"]["llm_total_input_tokens"],
                            "avg_llm_total_input_tokens_per_item": cand_total_stats["token_counts"]["llm_total_input_tokens"] / cand_total_stats["data_point_count"],
                            "total_language_output_tokens": cand_total_stats["token_counts"]["language_output_tokens"],
                            "avg_language_output_tokens_per_item": cand_total_stats["token_counts"]["language_output_tokens"] / cand_total_stats["data_point_count"],
                        }
                    }
                    for module_name, stats in cand_total_stats["module_inference_times"].items():
                        final_cand_stats["inference_times"]["module_total_times_seconds"][module_name] = stats["total"]
                        final_cand_stats["inference_times"]["module_calls_count"][module_name] = stats["count"]
                        if stats["count"] > 0:
                            final_cand_stats["inference_times"]["module_average_times_per_call"][module_name] = stats["total"] / stats["count"]
                        else:
                            final_cand_stats["inference_times"]["module_average_times_per_call"][module_name] = 0.0

                    with open(cand_inference_stats_path, 'w', encoding='utf-8') as f:
                        json.dump(final_cand_stats, f, ensure_ascii=False, indent=4)
                    print_master(f"Candidate inference statistics for {dataset_name} saved to: {cand_inference_stats_path}")
                else:
                    print_master(f"No candidate data processed for {dataset_name}, skipping candidate inference statistics output.")

        if dist.is_initialized():
            dist.barrier()

        # --- 3. Compute Scores (on master rank only) ---
        score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
        ####################################################################################
        pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred.jsonl")
        score_detail_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score_details.jsonl")  # 新文件，存相似度分数
        def append_score_detail(score_detail_list, qid, ranked_indices, score_vector, cand_ids, labels):
            """追加一个 query 的候选分数详情"""
            score_detail_list.append({
                "qid": int(qid),
                "cand_scores": [
                    {"cand_id": str(cand_ids[i]), "score": float(score_vector[i])}
                    for i in ranked_indices
                ],
                "label": labels
            })
        ####################################################################################
        if local_rank == 0:
            if os.path.exists(score_path):
                try:
                    with open(score_path, "r") as f:
                        score_dict = json.load(f)
                    print_master(f"Score of {dataset_name} (loaded from previous run): {score_path}")
                    formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
                    print_master(formatted)
                    # No `continue` here, as we want to ensure other files are processed/generated
                except Exception as e:
                    print_master(f"Failed to load score for {dataset_name}, proceeding to recompute. Error: {e}")
            # Proceed with score computation if not loaded or failed to load
            with open(query_embed_path, 'rb') as f: qry_embeds = pickle.load(f)
            with open(cand_embed_path, 'rb') as f: cand_embed_dict = pickle.load(f)
            gt_infos = [json.loads(l) for l in open(dataset_info_path)]
            pred_dicts = []
            score_detail_dicts = []###################################

            rank_against_all_candidates = task_config.get("eval_type", "global") == "global"
            # if rank_against_all_candidates:
            #     cand_keys = list(cand_embed_dict.keys())
            #     cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])
            #     # Handle late-interaction scoring
            #     if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
            #         qry_embed = torch.from_numpy(qry_embeds)
            #         cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
            #         scores = processor.score(qry_embed, cand_embeds, batch_size=64)  # use ColPali score function
            #         ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()
            #         scores = scores.cpu().numpy()
            #     else: # Dense
            #         cosine_scores = np.dot(qry_embeds, cand_embeds.T)
            #         ranked_candids = np.argsort(-cosine_scores, axis=1)
            #####################################################
            if rank_against_all_candidates:
                cand_keys = list(cand_embed_dict.keys())
                cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])

                if qry_embeds.ndim == 3:  # Late-interaction
                    qry_embed_t = torch.from_numpy(qry_embeds)
                    cand_embeds_t = [torch.from_numpy(np.array(t)) for t in cand_embeds]
                    sim_matrix = processor.score(qry_embed_t, cand_embeds_t, batch_size=64).cpu().numpy()  # [N_q, N_c]
                else:  # Dense
                    sim_matrix = np.dot(qry_embeds, cand_embeds.T)  # [N_q, N_c]

                ranked_candids = np.argsort(-sim_matrix, axis=1)
            #########################################################
                for qid, (ranked_candid, gt_info) in tqdm(enumerate(zip(ranked_candids, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
                    rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
                    rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None
                    assert rel_scores is None or len(rel_docids) == len(rel_scores)
                    pred_dicts.append({
                        "prediction": [cand_keys[i] for i in ranked_candid],
                        "label": rel_docids,
                        "rel_scores": rel_scores,
                    })
                    ################################# 新增：详细相似度字典
                    append_score_detail(score_detail_dicts, qid, ranked_candid, sim_matrix[qid], cand_keys, rel_docids)
                    ########################################
            # else:
            #     for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
            #         cand_embeds = np.stack([cand_embed_dict[key] for key in gt_info["cand_names"]])
            #         if qry_embeds.ndim == 3: # Query: [N_q, L_q, H] | Candidate: [N_c, L_c, H]
            #             qry_embed = torch.from_numpy(np.array(qry_embed)).unsqueeze(0)
            #             cand_embeds = [torch.from_numpy(np.array(t)) for t in cand_embeds]
            #             scores = processor.score(qry_embed, cand_embeds, batch_size=1024)  # use ColPali score function
            #             ranked_candids = torch.argsort(-scores, dim=1).cpu().numpy().tolist()[0]
            #         else:
            #             cosine_score = np.dot(qry_embed, cand_embeds.T)
            #             ranked_candids = np.argsort(-cosine_score)
            #         rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
            #         rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None

            #         assert rel_scores is None or len(rel_docids) == len(rel_scores)
            #         pred_dicts.append({
            #             "prediction": [gt_info["cand_names"][i] for i in ranked_candids],
            #             "label": rel_docids,
            #             "rel_scores": rel_scores,
            #         })
            #######################################################################
            else:  # 非全局
                for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), desc=f"Calculating scores for {dataset_name}"):
                    cand_ids_local = gt_info["cand_names"]
                    cand_embeds = np.stack([cand_embed_dict[key] for key in cand_ids_local])

                    if qry_embeds.ndim == 3:  # Late-interaction
                        qry_embed_t = torch.from_numpy(np.array(qry_embed)).unsqueeze(0)  # [1, Lq, H]
                        cand_embeds_t = [torch.from_numpy(np.array(t)) for t in cand_embeds]
                        sim_vec = processor.score(qry_embed_t, cand_embeds_t, batch_size=1024).cpu().numpy()[0]  # [N_c]
                    else:  # Dense
                        sim_vec = np.dot(qry_embed, cand_embeds.T)  # [N_c]

                    ranked_indices = np.argsort(-sim_vec)
                    rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
                    rel_scores = gt_info["rel_scores"] if "rel_scores" in gt_info else None
                    assert rel_scores is None or len(rel_docids) == len(rel_scores)

                    pred_dicts.append({
                        "prediction": [cand_ids_local[i] for i in ranked_indices],
                        "label": rel_docids,
                        "rel_scores": rel_scores,
                    })

                    # 新增：分数详情
                    append_score_detail(score_detail_dicts, qid, ranked_indices, sim_vec, cand_ids_local, rel_docids)

            ########################################## 保存预测和分数
            with open(score_detail_path, "w") as f:  # 新增
                for detail in score_detail_dicts:
                    f.write(json.dumps(detail) + '\n')
            print_master(f"Detailed score file saved to: {score_detail_path}")

            metrics_to_report = task_config["metrics"] if task_config.get("metrics", None) is not None else ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
            metrics = RankingMetrics(metrics_to_report)
            score_dict = metrics.evaluate(pred_dicts)
            formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
            score_dict["num_pred"] = len(pred_dicts)
            score_dict["num_data"] = len(gt_infos)
            print_master(f"Score of {dataset_name}:")
            print_master(formatted)
            print_master(f"Outputting final score to: {score_path}")
            with open(score_path, "w") as f:
                json.dump(score_dict, f, indent=4)
            with open(pred_path, "w") as f:
                for pred in pred_dicts:
                    f.write(json.dumps(pred) + '\n')
            ####################################################################
            score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score.json")
            pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred.jsonl")

            metrics_to_report = task_config["metrics"] if task_config.get("metrics", None) is not None else ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
            metrics = RankingMetrics(metrics_to_report)
            score_dict = metrics.evaluate(pred_dicts)
            formatted = {k: f"{v:.4f}" for k, v in score_dict.items()}
            score_dict["num_pred"] = len(pred_dicts)
            score_dict["num_data"] = len(gt_infos)
            print_master(f"Score of {dataset_name}:")
            print_master(formatted)
            print_master(f"Outputting final score to: {score_path}")
            with open(score_path, "w") as f:
                json.dump(score_dict, f, indent=4)
            with open(pred_path, "w") as f:
                for pred in pred_dicts:
                    f.write(json.dumps(pred) + '\n')            


if __name__ == '__main__':
    main()