Training in progress, step 8000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:445a128b149954e68d1af5a00630de0dc09e06cb78963d856ab9efe3a52157d9
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:872e13706948c7a141e635bc023a52fbe531ae28f59acde5c4f237db2a94c6b1
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66488112339a052865703e73eb9d72b3f5f142ea84ea68d0b968dcf9eb080bb8
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:c368469d799ee657aa6f345b72b1b063d1207badee5ef2708584fc5b29dd1fa0
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88ec7f0fcbb8e83ac60a847dffeda029d1a65c084556d4707d85ad106bc04ba0
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f8c5daae46e22d0555f52515cb826d70a09c178d27140188b1fd68ded8645a9
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.5111827523675196,
   "eval_steps": 500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6758,6 +6758,456 @@
       "mean_token_accuracy": 0.8061196208000183,
       "num_tokens": 8312344.0,
       "step": 7500
     }
   ],
   "logging_steps": 10,
@@ -6777,7 +7227,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.006244257019904e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.611928269192021,
   "eval_steps": 500,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8061196208000183,
       "num_tokens": 8312344.0,
       "step": 7500
+    },
+    {
+      "epoch": 1.5131976627040098,
+      "grad_norm": 12.5625,
+      "learning_rate": 9.91335885553093e-06,
+      "loss": 0.7742,
+      "mean_token_accuracy": 0.8027086615562439,
+      "num_tokens": 8323025.0,
+      "step": 7510
+    },
+    {
+      "epoch": 1.5152125730404997,
+      "grad_norm": 12.5,
+      "learning_rate": 9.89992611995433e-06,
+      "loss": 0.7713,
+      "mean_token_accuracy": 0.8100184202194214,
+      "num_tokens": 8333331.0,
+      "step": 7520
+    },
+    {
+      "epoch": 1.5172274833769896,
+      "grad_norm": 12.8125,
+      "learning_rate": 9.886493384377729e-06,
+      "loss": 0.8154,
+      "mean_token_accuracy": 0.7895949363708497,
+      "num_tokens": 8344471.0,
+      "step": 7530
+    },
+    {
+      "epoch": 1.5192423937134798,
+      "grad_norm": 12.3125,
+      "learning_rate": 9.87306064880113e-06,
+      "loss": 0.8998,
+      "mean_token_accuracy": 0.7804327428340911,
+      "num_tokens": 8356442.0,
+      "step": 7540
+    },
+    {
+      "epoch": 1.5212573040499697,
+      "grad_norm": 11.9375,
+      "learning_rate": 9.859627913224528e-06,
+      "loss": 0.8346,
+      "mean_token_accuracy": 0.7952861070632935,
+      "num_tokens": 8367610.0,
+      "step": 7550
+    },
+    {
+      "epoch": 1.5232722143864597,
+      "grad_norm": 11.6875,
+      "learning_rate": 9.846195177647929e-06,
+      "loss": 0.8045,
+      "mean_token_accuracy": 0.8029259443283081,
+      "num_tokens": 8378828.0,
+      "step": 7560
+    },
+    {
+      "epoch": 1.5252871247229498,
+      "grad_norm": 12.5625,
+      "learning_rate": 9.832762442071328e-06,
+      "loss": 0.7931,
+      "mean_token_accuracy": 0.8047609508037568,
+      "num_tokens": 8389283.0,
+      "step": 7570
+    },
+    {
+      "epoch": 1.52730203505944,
+      "grad_norm": 11.375,
+      "learning_rate": 9.819329706494728e-06,
+      "loss": 0.8274,
+      "mean_token_accuracy": 0.7971135258674622,
+      "num_tokens": 8401265.0,
+      "step": 7580
+    },
+    {
+      "epoch": 1.5293169453959299,
+      "grad_norm": 13.3125,
+      "learning_rate": 9.805896970918129e-06,
+      "loss": 0.7739,
+      "mean_token_accuracy": 0.803637433052063,
+      "num_tokens": 8411843.0,
+      "step": 7590
+    },
+    {
+      "epoch": 1.5313318557324198,
+      "grad_norm": 10.375,
+      "learning_rate": 9.792464235341528e-06,
+      "loss": 0.882,
+      "mean_token_accuracy": 0.7834074079990387,
+      "num_tokens": 8421967.0,
+      "step": 7600
+    },
+    {
+      "epoch": 1.53334676606891,
+      "grad_norm": 11.9375,
+      "learning_rate": 9.779031499764928e-06,
+      "loss": 0.8852,
+      "mean_token_accuracy": 0.7851302027702332,
+      "num_tokens": 8435114.0,
+      "step": 7610
+    },
+    {
+      "epoch": 1.5353616764054,
+      "grad_norm": 9.5625,
+      "learning_rate": 9.765598764188327e-06,
+      "loss": 0.7346,
+      "mean_token_accuracy": 0.8161056697368622,
+      "num_tokens": 8446359.0,
+      "step": 7620
+    },
+    {
+      "epoch": 1.53737658674189,
+      "grad_norm": 12.25,
+      "learning_rate": 9.752166028611728e-06,
+      "loss": 0.828,
+      "mean_token_accuracy": 0.7961056709289551,
+      "num_tokens": 8456390.0,
+      "step": 7630
+    },
+    {
+      "epoch": 1.53939149707838,
+      "grad_norm": 9.625,
+      "learning_rate": 9.738733293035128e-06,
+      "loss": 0.7805,
+      "mean_token_accuracy": 0.8055654644966126,
+      "num_tokens": 8467737.0,
+      "step": 7640
+    },
+    {
+      "epoch": 1.5414064074148701,
+      "grad_norm": 11.5625,
+      "learning_rate": 9.725300557458527e-06,
+      "loss": 0.784,
+      "mean_token_accuracy": 0.8105962395668029,
+      "num_tokens": 8478450.0,
+      "step": 7650
+    },
+    {
+      "epoch": 1.54342131775136,
+      "grad_norm": 10.625,
+      "learning_rate": 9.711867821881928e-06,
+      "loss": 0.8922,
+      "mean_token_accuracy": 0.7858581006526947,
+      "num_tokens": 8489331.0,
+      "step": 7660
+    },
+    {
+      "epoch": 1.54543622808785,
+      "grad_norm": 11.625,
+      "learning_rate": 9.698435086305326e-06,
+      "loss": 0.7907,
+      "mean_token_accuracy": 0.8015705049037933,
+      "num_tokens": 8499569.0,
+      "step": 7670
+    },
+    {
+      "epoch": 1.5474511384243401,
+      "grad_norm": 13.9375,
+      "learning_rate": 9.685002350728727e-06,
+      "loss": 0.9439,
+      "mean_token_accuracy": 0.7698397815227509,
+      "num_tokens": 8510367.0,
+      "step": 7680
+    },
+    {
+      "epoch": 1.5494660487608303,
+      "grad_norm": 11.5,
+      "learning_rate": 9.671569615152127e-06,
+      "loss": 0.7814,
+      "mean_token_accuracy": 0.8014598250389099,
+      "num_tokens": 8521247.0,
+      "step": 7690
+    },
+    {
+      "epoch": 1.5514809590973202,
+      "grad_norm": 11.25,
+      "learning_rate": 9.658136879575526e-06,
+      "loss": 0.7568,
+      "mean_token_accuracy": 0.8163803517818451,
+      "num_tokens": 8532047.0,
+      "step": 7700
+    },
+    {
+      "epoch": 1.5534958694338101,
+      "grad_norm": 11.6875,
+      "learning_rate": 9.644704143998927e-06,
+      "loss": 0.7684,
+      "mean_token_accuracy": 0.8017966628074646,
+      "num_tokens": 8543022.0,
+      "step": 7710
+    },
+    {
+      "epoch": 1.5555107797703003,
+      "grad_norm": 11.1875,
+      "learning_rate": 9.631271408422326e-06,
+      "loss": 0.7742,
+      "mean_token_accuracy": 0.8069942653179168,
+      "num_tokens": 8554086.0,
+      "step": 7720
+    },
+    {
+      "epoch": 1.5575256901067902,
+      "grad_norm": 10.9375,
+      "learning_rate": 9.617838672845726e-06,
+      "loss": 0.8395,
+      "mean_token_accuracy": 0.7957546770572662,
+      "num_tokens": 8565626.0,
+      "step": 7730
+    },
+    {
+      "epoch": 1.5595406004432801,
+      "grad_norm": 13.0625,
+      "learning_rate": 9.604405937269125e-06,
+      "loss": 0.7229,
+      "mean_token_accuracy": 0.8145296096801757,
+      "num_tokens": 8576046.0,
+      "step": 7740
+    },
+    {
+      "epoch": 1.5615555107797703,
+      "grad_norm": 10.3125,
+      "learning_rate": 9.590973201692525e-06,
+      "loss": 0.8449,
+      "mean_token_accuracy": 0.793234920501709,
+      "num_tokens": 8586936.0,
+      "step": 7750
+    },
+    {
+      "epoch": 1.5635704211162604,
+      "grad_norm": 14.125,
+      "learning_rate": 9.577540466115926e-06,
+      "loss": 0.8077,
+      "mean_token_accuracy": 0.7942093849182129,
+      "num_tokens": 8599134.0,
+      "step": 7760
+    },
+    {
+      "epoch": 1.5655853314527504,
+      "grad_norm": 12.5,
+      "learning_rate": 9.564107730539325e-06,
+      "loss": 0.7583,
+      "mean_token_accuracy": 0.8089915156364441,
+      "num_tokens": 8609584.0,
+      "step": 7770
+    },
+    {
+      "epoch": 1.5676002417892403,
+      "grad_norm": 11.1875,
+      "learning_rate": 9.550674994962725e-06,
+      "loss": 0.7924,
+      "mean_token_accuracy": 0.804536098241806,
+      "num_tokens": 8621578.0,
+      "step": 7780
+    },
+    {
+      "epoch": 1.5696151521257304,
+      "grad_norm": 13.5625,
+      "learning_rate": 9.537242259386124e-06,
+      "loss": 0.7905,
+      "mean_token_accuracy": 0.798646092414856,
+      "num_tokens": 8632953.0,
+      "step": 7790
+    },
+    {
+      "epoch": 1.5716300624622206,
+      "grad_norm": 11.125,
+      "learning_rate": 9.523809523809525e-06,
+      "loss": 0.7543,
+      "mean_token_accuracy": 0.8105603516101837,
+      "num_tokens": 8643817.0,
+      "step": 7800
+    },
+    {
+      "epoch": 1.5736449727987103,
+      "grad_norm": 10.75,
+      "learning_rate": 9.510376788232925e-06,
+      "loss": 0.8613,
+      "mean_token_accuracy": 0.7865113198757172,
+      "num_tokens": 8654921.0,
+      "step": 7810
+    },
+    {
+      "epoch": 1.5756598831352004,
+      "grad_norm": 13.375,
+      "learning_rate": 9.496944052656324e-06,
+      "loss": 0.7682,
+      "mean_token_accuracy": 0.8063505351543426,
+      "num_tokens": 8664722.0,
+      "step": 7820
+    },
+    {
+      "epoch": 1.5776747934716906,
+      "grad_norm": 13.125,
+      "learning_rate": 9.483511317079725e-06,
+      "loss": 0.8011,
+      "mean_token_accuracy": 0.8007908463478088,
+      "num_tokens": 8675437.0,
+      "step": 7830
+    },
+    {
+      "epoch": 1.5796897038081805,
+      "grad_norm": 15.3125,
+      "learning_rate": 9.470078581503123e-06,
+      "loss": 0.769,
+      "mean_token_accuracy": 0.8038370370864868,
+      "num_tokens": 8685254.0,
+      "step": 7840
+    },
+    {
+      "epoch": 1.5817046141446705,
+      "grad_norm": 12.875,
+      "learning_rate": 9.456645845926524e-06,
+      "loss": 0.8023,
+      "mean_token_accuracy": 0.8047023892402649,
+      "num_tokens": 8695435.0,
+      "step": 7850
+    },
+    {
+      "epoch": 1.5837195244811606,
+      "grad_norm": 12.3125,
+      "learning_rate": 9.443213110349923e-06,
+      "loss": 0.7938,
+      "mean_token_accuracy": 0.7964716255664825,
+      "num_tokens": 8706838.0,
+      "step": 7860
+    },
+    {
+      "epoch": 1.5857344348176508,
+      "grad_norm": 10.875,
+      "learning_rate": 9.429780374773323e-06,
+      "loss": 0.8388,
+      "mean_token_accuracy": 0.7962932288646698,
+      "num_tokens": 8718011.0,
+      "step": 7870
+    },
+    {
+      "epoch": 1.5877493451541407,
+      "grad_norm": 9.75,
+      "learning_rate": 9.416347639196724e-06,
+      "loss": 0.8319,
+      "mean_token_accuracy": 0.788075852394104,
+      "num_tokens": 8729277.0,
+      "step": 7880
+    },
+    {
+      "epoch": 1.5897642554906306,
+      "grad_norm": 10.75,
+      "learning_rate": 9.402914903620123e-06,
+      "loss": 0.751,
+      "mean_token_accuracy": 0.8099392414093017,
+      "num_tokens": 8739674.0,
+      "step": 7890
+    },
+    {
+      "epoch": 1.5917791658271208,
+      "grad_norm": 9.9375,
+      "learning_rate": 9.389482168043523e-06,
+      "loss": 0.7676,
+      "mean_token_accuracy": 0.8102536201477051,
+      "num_tokens": 8750307.0,
+      "step": 7900
+    },
+    {
+      "epoch": 1.5937940761636107,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.376049432466922e-06,
+      "loss": 0.7677,
+      "mean_token_accuracy": 0.8090816259384155,
+      "num_tokens": 8760932.0,
+      "step": 7910
+    },
+    {
+      "epoch": 1.5958089865001006,
+      "grad_norm": 11.8125,
+      "learning_rate": 9.362616696890323e-06,
+      "loss": 0.9654,
+      "mean_token_accuracy": 0.7688835144042969,
+      "num_tokens": 8772244.0,
+      "step": 7920
+    },
+    {
+      "epoch": 1.5978238968365908,
+      "grad_norm": 10.4375,
+      "learning_rate": 9.349183961313723e-06,
+      "loss": 0.7429,
+      "mean_token_accuracy": 0.8144657909870148,
+      "num_tokens": 8783351.0,
+      "step": 7930
+    },
+    {
+      "epoch": 1.599838807173081,
+      "grad_norm": 11.5625,
+      "learning_rate": 9.335751225737122e-06,
+      "loss": 0.82,
+      "mean_token_accuracy": 0.7950020253658294,
+      "num_tokens": 8793990.0,
+      "step": 7940
+    },
+    {
+      "epoch": 1.6018537175095708,
+      "grad_norm": 13.0625,
+      "learning_rate": 9.322318490160523e-06,
+      "loss": 0.7849,
+      "mean_token_accuracy": 0.8066163957118988,
+      "num_tokens": 8804970.0,
+      "step": 7950
+    },
+    {
+      "epoch": 1.6038686278460608,
+      "grad_norm": 11.75,
+      "learning_rate": 9.308885754583921e-06,
+      "loss": 0.8965,
+      "mean_token_accuracy": 0.7794711530208588,
+      "num_tokens": 8816123.0,
+      "step": 7960
+    },
+    {
+      "epoch": 1.605883538182551,
+      "grad_norm": 11.9375,
+      "learning_rate": 9.295453019007322e-06,
+      "loss": 0.7398,
+      "mean_token_accuracy": 0.8103044688701629,
+      "num_tokens": 8826861.0,
+      "step": 7970
+    },
+    {
+      "epoch": 1.607898448519041,
+      "grad_norm": 11.5625,
+      "learning_rate": 9.282020283430722e-06,
+      "loss": 0.7859,
+      "mean_token_accuracy": 0.8065201163291931,
+      "num_tokens": 8837870.0,
+      "step": 7980
+    },
+    {
+      "epoch": 1.6099133588555308,
+      "grad_norm": 10.875,
+      "learning_rate": 9.268587547854121e-06,
+      "loss": 0.7387,
+      "mean_token_accuracy": 0.8145683348178864,
+      "num_tokens": 8848365.0,
+      "step": 7990
+    },
+    {
+      "epoch": 1.611928269192021,
+      "grad_norm": 10.9375,
+      "learning_rate": 9.255154812277522e-06,
+      "loss": 0.9003,
+      "mean_token_accuracy": 0.7778131783008575,
+      "num_tokens": 8860114.0,
+      "step": 8000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0725865607073792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null