Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/model.safetensors +3 -0
checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/optimizer.pt +3 -0
checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/rng_state.pth +3 -0
checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/scaler.pt +3 -0
checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/scheduler.pt +3 -0
checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/trainer_state.json +608 -0
checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/training_args.bin +3 -0

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94aee3109ec017ff4fa956c66618a861668dabc8c4cac4cc1f9443872b26837a
+size 45167832

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a53e14e82cbb90183b17a6db69be50f86112169fd99bf58584941f9bafa66d14
+size 42312267

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea11996454b5587fcf33ae0ab5cf14b2031bf5f53f8c2ed5a48e87de31e29c84
+size 14645

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f52db02d1ef343c718b20949e8402af29ccf7d4ae00897235ad12dfc91f027cb
+size 1383

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71760c942926f7fa3025971e1a39a433eb072d72b2a0429a47879487d0239308
+size 1465

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,608 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 1024,
+  "global_step": 8100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06320987654320988,
+      "grad_norm": 1.8168452978134155,
+      "learning_rate": 0.000248046875,
+      "loss": 3.4849891662597656,
+      "step": 128
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "grad_norm": 3.4383368492126465,
+      "learning_rate": 0.000498046875,
+      "loss": 1.282984972000122,
+      "step": 256
+    },
+    {
+      "epoch": 0.18962962962962962,
+      "grad_norm": 1.2715426683425903,
+      "learning_rate": 0.000748046875,
+      "loss": 1.0911226272583008,
+      "step": 384
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "grad_norm": 1.0402259826660156,
+      "learning_rate": 0.000998046875,
+      "loss": 1.0667308568954468,
+      "step": 512
+    },
+    {
+      "epoch": 0.3160493827160494,
+      "grad_norm": 0.7335332036018372,
+      "learning_rate": 0.0009993089770195807,
+      "loss": 1.0423768758773804,
+      "step": 640
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "grad_norm": 1.2647337913513184,
+      "learning_rate": 0.0009972160460972733,
+      "loss": 1.0243909358978271,
+      "step": 768
+    },
+    {
+      "epoch": 0.44246913580246916,
+      "grad_norm": 1.6875989437103271,
+      "learning_rate": 0.0009937270408736224,
+      "loss": 1.015304446220398,
+      "step": 896
+    },
+    {
+      "epoch": 0.505679012345679,
+      "grad_norm": 0.8772087097167969,
+      "learning_rate": 0.0009888517577149526,
+      "loss": 1.0097696781158447,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.6681160955894284,
+      "eval_loss": 1.0068177740748336,
+      "eval_mse_loss": 1.0068177740748336,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.6681160955894284,
+      "eval_loss": 1.0068177740748336,
+      "eval_mse_loss": 1.0068177740748336,
+      "eval_runtime": 17.5866,
+      "eval_samples_per_second": 148.863,
+      "eval_steps_per_second": 2.331,
+      "step": 1024
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 0.9257954359054565,
+      "learning_rate": 0.0009826038853539248,
+      "loss": 1.0054709911346436,
+      "step": 1152
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "grad_norm": 1.2401124238967896,
+      "learning_rate": 0.0009750009664545572,
+      "loss": 1.0001628398895264,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6953086419753086,
+      "grad_norm": 0.9945711493492126,
+      "learning_rate": 0.0009660643483562486,
+      "loss": 0.9950642585754395,
+      "step": 1408
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "grad_norm": 0.4016058146953583,
+      "learning_rate": 0.0009558191231351013,
+      "loss": 0.9919660091400146,
+      "step": 1536
+    },
+    {
+      "epoch": 0.8217283950617283,
+      "grad_norm": 0.4495377540588379,
+      "learning_rate": 0.0009442940571508399,
+      "loss": 0.9906907081604004,
+      "step": 1664
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "grad_norm": 1.0224924087524414,
+      "learning_rate": 0.0009315215102771411,
+      "loss": 0.990159809589386,
+      "step": 1792
+    },
+    {
+      "epoch": 0.9481481481481482,
+      "grad_norm": 0.7064864039421082,
+      "learning_rate": 0.0009175373450421618,
+      "loss": 0.9885232448577881,
+      "step": 1920
+    },
+    {
+      "epoch": 1.011358024691358,
+      "grad_norm": 0.6735867857933044,
+      "learning_rate": 0.0009023808259343743,
+      "loss": 0.9828425645828247,
+      "step": 2048
+    },
+    {
+      "epoch": 1.011358024691358,
+      "eval_bleu": 0.0020327926577703463,
+      "eval_cos_loss": 0.6557952049301892,
+      "eval_loss": 0.9808391550692116,
+      "eval_mse_loss": 0.9808391550692116,
+      "step": 2048
+    },
+    {
+      "epoch": 1.011358024691358,
+      "eval_bleu": 0.0020327926577703463,
+      "eval_cos_loss": 0.6557952049301892,
+      "eval_loss": 0.9808391550692116,
+      "eval_mse_loss": 0.9808391550692116,
+      "eval_runtime": 17.3438,
+      "eval_samples_per_second": 150.948,
+      "eval_steps_per_second": 2.364,
+      "step": 2048
+    },
+    {
+      "epoch": 1.074567901234568,
+      "grad_norm": 0.8397714495658875,
+      "learning_rate": 0.0008860945091564399,
+      "loss": 0.9799662232398987,
+      "step": 2176
+    },
+    {
+      "epoch": 1.1377777777777778,
+      "grad_norm": 0.48910048604011536,
+      "learning_rate": 0.0008687241231366662,
+      "loss": 0.9816181063652039,
+      "step": 2304
+    },
+    {
+      "epoch": 1.2009876543209876,
+      "grad_norm": 0.5660194158554077,
+      "learning_rate": 0.0008503184401335448,
+      "loss": 0.9848842620849609,
+      "step": 2432
+    },
+    {
+      "epoch": 1.2641975308641975,
+      "grad_norm": 0.4576466977596283,
+      "learning_rate": 0.0008309291392938795,
+      "loss": 0.982272744178772,
+      "step": 2560
+    },
+    {
+      "epoch": 1.3274074074074074,
+      "grad_norm": 1.350696086883545,
+      "learning_rate": 0.0008106106615490032,
+      "loss": 0.9800283908843994,
+      "step": 2688
+    },
+    {
+      "epoch": 1.3906172839506172,
+      "grad_norm": 0.606335461139679,
+      "learning_rate": 0.0007894200567565075,
+      "loss": 0.9786688685417175,
+      "step": 2816
+    },
+    {
+      "epoch": 1.453827160493827,
+      "grad_norm": 0.8053555488586426,
+      "learning_rate": 0.0007674168235166747,
+      "loss": 0.9759098887443542,
+      "step": 2944
+    },
+    {
+      "epoch": 1.5170370370370372,
+      "grad_norm": 0.4296761751174927,
+      "learning_rate": 0.000744662742113375,
+      "loss": 0.9750839471817017,
+      "step": 3072
+    },
+    {
+      "epoch": 1.5170370370370372,
+      "eval_bleu": 0.001550567530729039,
+      "eval_cos_loss": 0.653304009902768,
+      "eval_loss": 0.9743910940682016,
+      "eval_mse_loss": 0.9743910940682016,
+      "step": 3072
+    },
+    {
+      "epoch": 1.5170370370370372,
+      "eval_bleu": 0.001550567530729039,
+      "eval_cos_loss": 0.653304009902768,
+      "eval_loss": 0.9743910940682016,
+      "eval_mse_loss": 0.9743910940682016,
+      "eval_runtime": 17.0839,
+      "eval_samples_per_second": 153.244,
+      "eval_steps_per_second": 2.4,
+      "step": 3072
+    },
+    {
+      "epoch": 1.5802469135802468,
+      "grad_norm": 0.5009872317314148,
+      "learning_rate": 0.0007212217010484917,
+      "loss": 0.9776103496551514,
+      "step": 3200
+    },
+    {
+      "epoch": 1.643456790123457,
+      "grad_norm": 0.4625374674797058,
+      "learning_rate": 0.0006971595176569332,
+      "loss": 0.9762816429138184,
+      "step": 3328
+    },
+    {
+      "epoch": 1.7066666666666666,
+      "grad_norm": 0.5958267450332642,
+      "learning_rate": 0.0006725437533058971,
+      "loss": 0.9745242595672607,
+      "step": 3456
+    },
+    {
+      "epoch": 1.7698765432098766,
+      "grad_norm": 0.9703472852706909,
+      "learning_rate": 0.0006474435236972767,
+      "loss": 0.9753237366676331,
+      "step": 3584
+    },
+    {
+      "epoch": 1.8330864197530863,
+      "grad_norm": 0.346620112657547,
+      "learning_rate": 0.0006219293048058301,
+      "loss": 0.9756260514259338,
+      "step": 3712
+    },
+    {
+      "epoch": 1.8962962962962964,
+      "grad_norm": 0.5703808665275574,
+      "learning_rate": 0.0005960727349980042,
+      "loss": 0.970862865447998,
+      "step": 3840
+    },
+    {
+      "epoch": 1.959506172839506,
+      "grad_norm": 0.42382702231407166,
+      "learning_rate": 0.0005699464138870106,
+      "loss": 0.9738116264343262,
+      "step": 3968
+    },
+    {
+      "epoch": 2.022716049382716,
+      "grad_norm": 0.42642295360565186,
+      "learning_rate": 0.0005436236984889356,
+      "loss": 0.9707122445106506,
+      "step": 4096
+    },
+    {
+      "epoch": 2.022716049382716,
+      "eval_bleu": 0.003457283045849753,
+      "eval_cos_loss": 0.6549375914945835,
+      "eval_loss": 0.9716728445960254,
+      "eval_mse_loss": 0.9716728445960254,
+      "step": 4096
+    },
+    {
+      "epoch": 2.022716049382716,
+      "eval_bleu": 0.003457283045849753,
+      "eval_cos_loss": 0.6549375914945835,
+      "eval_loss": 0.9716728445960254,
+      "eval_mse_loss": 0.9716728445960254,
+      "eval_runtime": 17.5486,
+      "eval_samples_per_second": 149.186,
+      "eval_steps_per_second": 2.336,
+      "step": 4096
+    },
+    {
+      "epoch": 2.0859259259259257,
+      "grad_norm": 0.36422199010849,
+      "learning_rate": 0.0005171784972522235,
+      "loss": 0.9708704352378845,
+      "step": 4224
+    },
+    {
+      "epoch": 2.149135802469136,
+      "grad_norm": 0.6977311372756958,
+      "learning_rate": 0.0004906850625388614,
+      "loss": 0.9703112244606018,
+      "step": 4352
+    },
+    {
+      "epoch": 2.212345679012346,
+      "grad_norm": 0.37942081689834595,
+      "learning_rate": 0.0004642177821399269,
+      "loss": 0.9709182977676392,
+      "step": 4480
+    },
+    {
+      "epoch": 2.2755555555555556,
+      "grad_norm": 0.3576072156429291,
+      "learning_rate": 0.00043785097041088293,
+      "loss": 0.9707843065261841,
+      "step": 4608
+    },
+    {
+      "epoch": 2.338765432098765,
+      "grad_norm": 0.3725082278251648,
+      "learning_rate": 0.00041165865961306135,
+      "loss": 0.966793954372406,
+      "step": 4736
+    },
+    {
+      "epoch": 2.4019753086419753,
+      "grad_norm": 0.2623865008354187,
+      "learning_rate": 0.000385714392047208,
+      "loss": 0.9677779078483582,
+      "step": 4864
+    },
+    {
+      "epoch": 2.4651851851851854,
+      "grad_norm": 0.4568561911582947,
+      "learning_rate": 0.00036009101356272814,
+      "loss": 0.9753569960594177,
+      "step": 4992
+    },
+    {
+      "epoch": 2.528395061728395,
+      "grad_norm": 0.49066415429115295,
+      "learning_rate": 0.00033486046902241664,
+      "loss": 0.9661346673965454,
+      "step": 5120
+    },
+    {
+      "epoch": 2.528395061728395,
+      "eval_bleu": 0.003345180086375018,
+      "eval_cos_loss": 0.6469777037457722,
+      "eval_loss": 0.9654292958538707,
+      "eval_mse_loss": 0.9654292958538707,
+      "step": 5120
+    },
+    {
+      "epoch": 2.528395061728395,
+      "eval_bleu": 0.003345180086375018,
+      "eval_cos_loss": 0.6469777037457722,
+      "eval_loss": 0.9654292958538707,
+      "eval_mse_loss": 0.9654292958538707,
+      "eval_runtime": 16.8316,
+      "eval_samples_per_second": 155.541,
+      "eval_steps_per_second": 2.436,
+      "step": 5120
+    },
+    {
+      "epoch": 2.591604938271605,
+      "grad_norm": 0.6127116680145264,
+      "learning_rate": 0.00031009360029696107,
+      "loss": 0.9650511145591736,
+      "step": 5248
+    },
+    {
+      "epoch": 2.6548148148148147,
+      "grad_norm": 0.37896695733070374,
+      "learning_rate": 0.00028585994735640823,
+      "loss": 0.9659166932106018,
+      "step": 5376
+    },
+    {
+      "epoch": 2.718024691358025,
+      "grad_norm": 0.4591119885444641,
+      "learning_rate": 0.0002622275530170825,
+      "loss": 0.9637454152107239,
+      "step": 5504
+    },
+    {
+      "epoch": 2.7812345679012345,
+      "grad_norm": 0.5013575553894043,
+      "learning_rate": 0.0002392627718921852,
+      "loss": 0.9639162421226501,
+      "step": 5632
+    },
+    {
+      "epoch": 2.8444444444444446,
+      "grad_norm": 0.3516771197319031,
+      "learning_rate": 0.00021703008408250187,
+      "loss": 0.9626727104187012,
+      "step": 5760
+    },
+    {
+      "epoch": 2.907654320987654,
+      "grad_norm": 0.3407333791255951,
+      "learning_rate": 0.00019559191413033017,
+      "loss": 0.9621551036834717,
+      "step": 5888
+    },
+    {
+      "epoch": 2.9708641975308643,
+      "grad_norm": 0.26509255170822144,
+      "learning_rate": 0.00017500845574497032,
+      "loss": 0.9614520072937012,
+      "step": 6016
+    },
+    {
+      "epoch": 3.034074074074074,
+      "grad_norm": 0.33290010690689087,
+      "learning_rate": 0.00015533750279190617,
+      "loss": 0.9614716172218323,
+      "step": 6144
+    },
+    {
+      "epoch": 3.034074074074074,
+      "eval_bleu": 0.004510767224176567,
+      "eval_cos_loss": 0.6460333800897365,
+      "eval_loss": 0.9615877198009957,
+      "eval_mse_loss": 0.9615877198009957,
+      "step": 6144
+    },
+    {
+      "epoch": 3.034074074074074,
+      "eval_bleu": 0.004510767224176567,
+      "eval_cos_loss": 0.6460333800897365,
+      "eval_loss": 0.9615877198009957,
+      "eval_mse_loss": 0.9615877198009957,
+      "eval_runtime": 16.8514,
+      "eval_samples_per_second": 155.358,
+      "eval_steps_per_second": 2.433,
+      "step": 6144
+    },
+    {
+      "epoch": 3.097283950617284,
+      "grad_norm": 0.33247849345207214,
+      "learning_rate": 0.000136634287020226,
+      "loss": 0.9614198207855225,
+      "step": 6272
+    },
+    {
+      "epoch": 3.1604938271604937,
+      "grad_norm": 0.2738645374774933,
+      "learning_rate": 0.00011895132298390743,
+      "loss": 0.9605588316917419,
+      "step": 6400
+    },
+    {
+      "epoch": 3.2237037037037037,
+      "grad_norm": 0.2882324755191803,
+      "learning_rate": 0.00010233826059239426,
+      "loss": 0.9604360461235046,
+      "step": 6528
+    },
+    {
+      "epoch": 3.286913580246914,
+      "grad_norm": 0.302536278963089,
+      "learning_rate": 8.68417457044704e-05,
+      "loss": 0.9597956538200378,
+      "step": 6656
+    },
+    {
+      "epoch": 3.3501234567901235,
+      "grad_norm": 0.5232012867927551,
+      "learning_rate": 7.250528915685422e-05,
+      "loss": 0.9590287804603577,
+      "step": 6784
+    },
+    {
+      "epoch": 3.413333333333333,
+      "grad_norm": 0.21842055022716522,
+      "learning_rate": 5.93691445952505e-05,
+      "loss": 0.9591075778007507,
+      "step": 6912
+    },
+    {
+      "epoch": 3.476543209876543,
+      "grad_norm": 0.6795418858528137,
+      "learning_rate": 4.7470195450886376e-05,
+      "loss": 0.9593430161476135,
+      "step": 7040
+    },
+    {
+      "epoch": 3.5397530864197533,
+      "grad_norm": 0.18848949670791626,
+      "learning_rate": 3.684185137987378e-05,
+      "loss": 0.958720862865448,
+      "step": 7168
+    },
+    {
+      "epoch": 3.5397530864197533,
+      "eval_bleu": 0.004545481313600588,
+      "eval_cos_loss": 0.6461245112302827,
+      "eval_loss": 0.9590820045005984,
+      "eval_mse_loss": 0.9590820045005984,
+      "step": 7168
+    },
+    {
+      "epoch": 3.5397530864197533,
+      "eval_bleu": 0.004545481313600588,
+      "eval_cos_loss": 0.6461245112302827,
+      "eval_loss": 0.9590820045005984,
+      "eval_mse_loss": 0.9590820045005984,
+      "eval_runtime": 17.8655,
+      "eval_samples_per_second": 146.539,
+      "eval_steps_per_second": 2.295,
+      "step": 7168
+    },
+    {
+      "epoch": 3.602962962962963,
+      "grad_norm": 0.18368160724639893,
+      "learning_rate": 2.751395445617594e-05,
+      "loss": 0.9586146473884583,
+      "step": 7296
+    },
+    {
+      "epoch": 3.6661728395061726,
+      "grad_norm": 0.1991145759820938,
+      "learning_rate": 1.9512695381567302e-05,
+      "loss": 0.9582223892211914,
+      "step": 7424
+    },
+    {
+      "epoch": 3.7293827160493827,
+      "grad_norm": 0.3184373080730438,
+      "learning_rate": 1.2860539947850303e-05,
+      "loss": 0.9586706757545471,
+      "step": 7552
+    },
+    {
+      "epoch": 3.7925925925925927,
+      "grad_norm": 0.21128305792808533,
+      "learning_rate": 7.5761659578078565e-06,
+      "loss": 0.9583309888839722,
+      "step": 7680
+    },
+    {
+      "epoch": 3.8558024691358024,
+      "grad_norm": 0.17950057983398438,
+      "learning_rate": 3.674410782003812e-06,
+      "loss": 0.9576842784881592,
+      "step": 7808
+    },
+    {
+      "epoch": 3.9190123456790125,
+      "grad_norm": 0.1886749416589737,
+      "learning_rate": 1.1662296986795217e-06,
+      "loss": 0.9585922360420227,
+      "step": 7936
+    },
+    {
+      "epoch": 3.982222222222222,
+      "grad_norm": 0.18049107491970062,
+      "learning_rate": 5.866513372004834e-08,
+      "loss": 0.9581732749938965,
+      "step": 8064
+    }
+  ],
+  "logging_steps": 128,
+  "max_steps": 8100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v3.2.1-discrete-conditional/checkpoint-8100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c53f3e10d2a055b85b1814f3e029cdcd51dd4f5e4025edaf0233172e301d1199
+size 5137