default output to AIPF csv path (in-place overwrite, no cp needed)
Browse files- add_estimated_position.py +12 -9
add_estimated_position.py
CHANGED
|
@@ -2,19 +2,21 @@
|
|
| 2 |
"""把 embedding top-K match 估出来的整数 position 写回 golden_set.csv。
|
| 3 |
|
| 4 |
默认列名固定为 estimated_position(下游 AIPF warm-start 代码读这个名)。
|
| 5 |
-
|
|
|
|
| 6 |
|
| 7 |
-
用
|
| 8 |
-
|
| 9 |
-
python3 add_estimated_position.py --k 100
|
| 10 |
|
| 11 |
-
|
|
|
|
| 12 |
python3 add_estimated_position.py --k 5
|
| 13 |
-
|
| 14 |
-
# top-1(最近邻 rank)
|
| 15 |
python3 add_estimated_position.py --k 1
|
| 16 |
|
| 17 |
-
|
|
|
|
|
|
|
|
|
|
| 18 |
python3 add_estimated_position.py --k 5 --new-col estimated_position_top5
|
| 19 |
"""
|
| 20 |
import argparse
|
|
@@ -28,7 +30,8 @@ import pandas as pd
|
|
| 28 |
DEFAULTS = dict(
|
| 29 |
csv = "/mnt/bn/tns-algo-ue-my/biaowu/aipf_dm_metric/example/yss_ruler_eval/data/aipf_golden_set.csv",
|
| 30 |
jsonl = "golden_top100.jsonl",
|
| 31 |
-
|
|
|
|
| 32 |
id_col = "task_id",
|
| 33 |
)
|
| 34 |
|
|
|
|
| 2 |
"""把 embedding top-K match 估出来的整数 position 写回 golden_set.csv。
|
| 3 |
|
| 4 |
默认列名固定为 estimated_position(下游 AIPF warm-start 代码读这个名)。
|
| 5 |
+
默认输入/输出都指向 AIPF 流水线实际读取的那个 csv,**直接原地覆盖**,
|
| 6 |
+
省掉 `cp` 到 example/yss_ruler_eval/data/ 这一步。
|
| 7 |
|
| 8 |
+
每次跑都覆盖 estimated_position 列;用 --k 切换不同邻居数即可,
|
| 9 |
+
其它列保持不变。
|
|
|
|
| 10 |
|
| 11 |
+
用法:
|
| 12 |
+
python3 add_estimated_position.py --k 100 # 默认 K
|
| 13 |
python3 add_estimated_position.py --k 5
|
|
|
|
|
|
|
| 14 |
python3 add_estimated_position.py --k 1
|
| 15 |
|
| 16 |
+
⚠️ 第一次跑前建议备份原 csv:
|
| 17 |
+
cp /mnt/.../aipf_golden_set.csv /mnt/.../aipf_golden_set.csv.bak
|
| 18 |
+
|
| 19 |
+
可选:想同时存多列对比(不覆盖默认列),手动指定列名:
|
| 20 |
python3 add_estimated_position.py --k 5 --new-col estimated_position_top5
|
| 21 |
"""
|
| 22 |
import argparse
|
|
|
|
| 30 |
DEFAULTS = dict(
|
| 31 |
csv = "/mnt/bn/tns-algo-ue-my/biaowu/aipf_dm_metric/example/yss_ruler_eval/data/aipf_golden_set.csv",
|
| 32 |
jsonl = "golden_top100.jsonl",
|
| 33 |
+
# 输出直接覆盖 AIPF 流水线实际读取的那个 csv,省掉 cp 那一步
|
| 34 |
+
output = "/mnt/bn/tns-algo-ue-my/biaowu/aipf_dm_metric/example/yss_ruler_eval/data/aipf_golden_set.csv",
|
| 35 |
id_col = "task_id",
|
| 36 |
)
|
| 37 |
|