Codeseys
/

composer-replication-framework

Reinforcement Learning

Model card Files Files and versions

composer-replication-framework / composer_replication /trainer

64 kB

Ctrl+K

Ctrl+K

4 contributors

History: 6 commits

Codeseys's picture

feat(trainer): ADR-008 Dr.GRPO config + SDPO strict-alignment guard

bde5c5e 15 days ago

tests
feat(trainer): ADR-008 Dr.GRPO config + SDPO strict-alignment guard 15 days ago
__init__.py

367 Bytes
Wave 10 — packaging: composer_replication is now pip-installable 18 days ago
composer_trainer.py

13.6 kB
feat(trainer): ADR-008 Dr.GRPO config + SDPO strict-alignment guard 15 days ago
data_collator.py

34 kB
Wave 21b: skip zero-signal SDPO on empty-recovery error turns + real-trace validation 15 days ago