ChatterjeeLab
/

DPACMAN

Model card Files Files and versions

svincoff commited on Aug 24, 2025

Commit

6a0f8aa

·

1 Parent(s): c237769

small changes

Files changed (2) hide show

dpacman/data_modules/pair.py +5 -5
dpacman/scripts/run_train.sh +1 -0

dpacman/data_modules/pair.py CHANGED Viewed

@@ -13,12 +13,12 @@ from torch.nn.utils.rnn import pad_sequence
 from typing import List, Iterable, Sequence
 import sys
 import rootutils
 from dpacman.utils import pylogger
 root = rootutils.setup_root(__file__, indicator=".project-root", pythonpath=True)
 logger = pylogger.RankedLogger(__name__, rank_zero_only=True)
 class PreBatchedSampler(Sampler[List[int]]):
     """
     Yields precomputed batches of indices, e.g. [[3,7,9], [0,1,2], ...].
@@ -508,7 +508,7 @@ def main():
     parser.add_argument(
         "--dna_shelf_path",
         type=str,
-        default="../data_files/processed/embeddings/fimo_hits_only/baby_peaks_segmentnt_pernuc_with_onehot.shelf",
     )
     parser.add_argument("--batch_size", type=int, default=4)
     parser.add_argument("--num_workers", type=int, default=4)
@@ -537,12 +537,12 @@ def main():
     )
     # ---- Train ----
-    dm.setup(stage="train")
     train_dl = dm.train_dataloader()
-    _peek_batches(train_dl, n_batches=args.n_batches, tag="train")
     # ---- Val ----
-    dm.setup(stage="val")
     val_dl = dm.val_dataloader()
     _peek_batches(val_dl, n_batches=1, tag="val")  # usually enough to sanity-check

 from typing import List, Iterable, Sequence
 import sys
 import rootutils
+import logging
 from dpacman.utils import pylogger
 root = rootutils.setup_root(__file__, indicator=".project-root", pythonpath=True)
 logger = pylogger.RankedLogger(__name__, rank_zero_only=True)
 class PreBatchedSampler(Sampler[List[int]]):
     """
     Yields precomputed batches of indices, e.g. [[3,7,9], [0,1,2], ...].
     parser.add_argument(
         "--dna_shelf_path",
         type=str,
+        default="../data_files/processed/embeddings/fimo_hits_only/peaks_caduceus.shelf",
     )
     parser.add_argument("--batch_size", type=int, default=4)
     parser.add_argument("--num_workers", type=int, default=4)
     )
     # ---- Train ----
+    dm.setup(stage="fit")
     train_dl = dm.train_dataloader()
+    _peek_batches(train_dl, n_batches=args.n_batches, tag="fit")
     # ---- Val ----
+    dm.setup(stage="validate")
     val_dl = dm.val_dataloader()
     _peek_batches(val_dl, n_batches=1, tag="val")  # usually enough to sanity-check

dpacman/scripts/run_train.sh CHANGED Viewed

@@ -22,6 +22,7 @@ nohup python -u -m scripts.train \
   data_module.tr_shelf_path="data_files/processed/embeddings/fimo_hits_only/trs_esm.shelf" \
   data_module.dna_shelf_path="data_files/processed/embeddings/fimo_hits_only/peaks_caduceus.shelf" \
   model.glm_input_dim=256 \
   model.compressed_dim=1029 \
   > "${run_dir}/run.log" 2>&1 &

   data_module.tr_shelf_path="data_files/processed/embeddings/fimo_hits_only/trs_esm.shelf" \
   data_module.dna_shelf_path="data_files/processed/embeddings/fimo_hits_only/peaks_caduceus.shelf" \
   model.glm_input_dim=256 \
+  model.lr=1e-5 \
   model.compressed_dim=1029 \
   > "${run_dir}/run.log" 2>&1 &