Training in progress, step 5500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6e1468ef363199a8ce8dceeee806e0cd1265dabba9569f802d5e0ffdf55cf29
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcb80f83cde4a31bb60c1fd7260ffe3f7e16f618b67202dd29fd631a03093894
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:979fd7f70ce82e647328d9ca181635fd358343ae3c4356518a994deb8d2c7554
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:deac3ee60db6adb45d1da1976f4f679efdf8206065175afc58ada5c695ccf6a5
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8c6451e983e45b2059a969443ca799e62ce60a9d34862e6b02e6b5034f66233
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4f36f1c6d7eb84c738a082911123d4e08f6356fc8093bb45612eb211d0cfe74
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.007455168245013,
   "eval_steps": 500,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4508,6 +4508,456 @@
       "mean_token_accuracy": 0.800259780883789,
       "num_tokens": 5541015.0,
       "step": 5000
     }
   ],
   "logging_steps": 10,
@@ -4527,7 +4977,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6697551334397952.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1082006850695145,
   "eval_steps": 500,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.800259780883789,
       "num_tokens": 5541015.0,
       "step": 5000
+    },
+    {
+      "epoch": 1.0094700785815032,
+      "grad_norm": 9.875,
+      "learning_rate": 1.3271542749680975e-05,
+      "loss": 0.9383,
+      "mean_token_accuracy": 0.7706878125667572,
+      "num_tokens": 5553090.0,
+      "step": 5010
+    },
+    {
+      "epoch": 1.011484988917993,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.3258110014104373e-05,
+      "loss": 0.8471,
+      "mean_token_accuracy": 0.7942995607852936,
+      "num_tokens": 5564220.0,
+      "step": 5020
+    },
+    {
+      "epoch": 1.0134998992544832,
+      "grad_norm": 10.375,
+      "learning_rate": 1.3244677278527773e-05,
+      "loss": 0.8018,
+      "mean_token_accuracy": 0.7939584195613861,
+      "num_tokens": 5574966.0,
+      "step": 5030
+    },
+    {
+      "epoch": 1.0155148095909732,
+      "grad_norm": 12.625,
+      "learning_rate": 1.3231244542951174e-05,
+      "loss": 0.9348,
+      "mean_token_accuracy": 0.7773958921432496,
+      "num_tokens": 5586140.0,
+      "step": 5040
+    },
+    {
+      "epoch": 1.0175297199274633,
+      "grad_norm": 9.625,
+      "learning_rate": 1.3217811807374572e-05,
+      "loss": 0.8882,
+      "mean_token_accuracy": 0.7792610108852387,
+      "num_tokens": 5597440.0,
+      "step": 5050
+    },
+    {
+      "epoch": 1.0195446302639533,
+      "grad_norm": 11.75,
+      "learning_rate": 1.3204379071797973e-05,
+      "loss": 0.7882,
+      "mean_token_accuracy": 0.8046412229537964,
+      "num_tokens": 5609321.0,
+      "step": 5060
+    },
+    {
+      "epoch": 1.0215595406004432,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.3190946336221373e-05,
+      "loss": 0.8062,
+      "mean_token_accuracy": 0.7952991247177124,
+      "num_tokens": 5619194.0,
+      "step": 5070
+    },
+    {
+      "epoch": 1.0235744509369333,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.3177513600644774e-05,
+      "loss": 0.921,
+      "mean_token_accuracy": 0.7800089240074157,
+      "num_tokens": 5631065.0,
+      "step": 5080
+    },
+    {
+      "epoch": 1.0255893612734233,
+      "grad_norm": 10.875,
+      "learning_rate": 1.3164080865068171e-05,
+      "loss": 0.799,
+      "mean_token_accuracy": 0.8071331679821014,
+      "num_tokens": 5642580.0,
+      "step": 5090
+    },
+    {
+      "epoch": 1.0276042716099134,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.3150648129491572e-05,
+      "loss": 0.7776,
+      "mean_token_accuracy": 0.8046740829944611,
+      "num_tokens": 5651910.0,
+      "step": 5100
+    },
+    {
+      "epoch": 1.0296191819464033,
+      "grad_norm": 14.0,
+      "learning_rate": 1.3137215393914972e-05,
+      "loss": 0.8056,
+      "mean_token_accuracy": 0.8012421131134033,
+      "num_tokens": 5663726.0,
+      "step": 5110
+    },
+    {
+      "epoch": 1.0316340922828935,
+      "grad_norm": 11.5,
+      "learning_rate": 1.3123782658338371e-05,
+      "loss": 0.7681,
+      "mean_token_accuracy": 0.8097535610198975,
+      "num_tokens": 5675558.0,
+      "step": 5120
+    },
+    {
+      "epoch": 1.0336490026193834,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.3110349922761772e-05,
+      "loss": 0.8813,
+      "mean_token_accuracy": 0.7838487148284912,
+      "num_tokens": 5687969.0,
+      "step": 5130
+    },
+    {
+      "epoch": 1.0356639129558736,
+      "grad_norm": 9.3125,
+      "learning_rate": 1.3096917187185172e-05,
+      "loss": 0.9072,
+      "mean_token_accuracy": 0.7834949135780335,
+      "num_tokens": 5700354.0,
+      "step": 5140
+    },
+    {
+      "epoch": 1.0376788232923635,
+      "grad_norm": 14.6875,
+      "learning_rate": 1.3083484451608571e-05,
+      "loss": 0.903,
+      "mean_token_accuracy": 0.7816505491733551,
+      "num_tokens": 5711090.0,
+      "step": 5150
+    },
+    {
+      "epoch": 1.0396937336288534,
+      "grad_norm": 8.9375,
+      "learning_rate": 1.3070051716031971e-05,
+      "loss": 0.7961,
+      "mean_token_accuracy": 0.8029458582401275,
+      "num_tokens": 5721667.0,
+      "step": 5160
+    },
+    {
+      "epoch": 1.0417086439653436,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.305661898045537e-05,
+      "loss": 0.8394,
+      "mean_token_accuracy": 0.7979920387268067,
+      "num_tokens": 5733015.0,
+      "step": 5170
+    },
+    {
+      "epoch": 1.0437235543018335,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.304318624487877e-05,
+      "loss": 0.8749,
+      "mean_token_accuracy": 0.7899072051048279,
+      "num_tokens": 5743473.0,
+      "step": 5180
+    },
+    {
+      "epoch": 1.0457384646383237,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.302975350930217e-05,
+      "loss": 0.8553,
+      "mean_token_accuracy": 0.7900504052639008,
+      "num_tokens": 5754579.0,
+      "step": 5190
+    },
+    {
+      "epoch": 1.0477533749748136,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.301632077372557e-05,
+      "loss": 0.8735,
+      "mean_token_accuracy": 0.7891764640808105,
+      "num_tokens": 5765340.0,
+      "step": 5200
+    },
+    {
+      "epoch": 1.0497682853113037,
+      "grad_norm": 9.0,
+      "learning_rate": 1.300288803814897e-05,
+      "loss": 0.7709,
+      "mean_token_accuracy": 0.8050879895687103,
+      "num_tokens": 5775710.0,
+      "step": 5210
+    },
+    {
+      "epoch": 1.0517831956477937,
+      "grad_norm": 18.25,
+      "learning_rate": 1.298945530257237e-05,
+      "loss": 0.7335,
+      "mean_token_accuracy": 0.8071872234344483,
+      "num_tokens": 5785996.0,
+      "step": 5220
+    },
+    {
+      "epoch": 1.0537981059842838,
+      "grad_norm": 13.375,
+      "learning_rate": 1.297602256699577e-05,
+      "loss": 0.877,
+      "mean_token_accuracy": 0.7817419946193696,
+      "num_tokens": 5796629.0,
+      "step": 5230
+    },
+    {
+      "epoch": 1.0558130163207737,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.296258983141917e-05,
+      "loss": 0.7858,
+      "mean_token_accuracy": 0.8022194325923919,
+      "num_tokens": 5806790.0,
+      "step": 5240
+    },
+    {
+      "epoch": 1.0578279266572637,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.2949157095842568e-05,
+      "loss": 0.8409,
+      "mean_token_accuracy": 0.7854238629341126,
+      "num_tokens": 5818974.0,
+      "step": 5250
+    },
+    {
+      "epoch": 1.0598428369937538,
+      "grad_norm": 13.0,
+      "learning_rate": 1.2935724360265968e-05,
+      "loss": 0.7023,
+      "mean_token_accuracy": 0.8206122577190399,
+      "num_tokens": 5828962.0,
+      "step": 5260
+    },
+    {
+      "epoch": 1.0618577473302437,
+      "grad_norm": 12.75,
+      "learning_rate": 1.2922291624689369e-05,
+      "loss": 0.8116,
+      "mean_token_accuracy": 0.7957081377506257,
+      "num_tokens": 5840475.0,
+      "step": 5270
+    },
+    {
+      "epoch": 1.063872657666734,
+      "grad_norm": 12.375,
+      "learning_rate": 1.290885888911277e-05,
+      "loss": 0.876,
+      "mean_token_accuracy": 0.7848715245723724,
+      "num_tokens": 5851626.0,
+      "step": 5280
+    },
+    {
+      "epoch": 1.0658875680032238,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.2895426153536168e-05,
+      "loss": 0.8648,
+      "mean_token_accuracy": 0.7879779160022735,
+      "num_tokens": 5861745.0,
+      "step": 5290
+    },
+    {
+      "epoch": 1.067902478339714,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.2881993417959569e-05,
+      "loss": 0.7807,
+      "mean_token_accuracy": 0.8065967261791229,
+      "num_tokens": 5871744.0,
+      "step": 5300
+    },
+    {
+      "epoch": 1.069917388676204,
+      "grad_norm": 11.875,
+      "learning_rate": 1.286856068238297e-05,
+      "loss": 0.8184,
+      "mean_token_accuracy": 0.7950898349285126,
+      "num_tokens": 5882570.0,
+      "step": 5310
+    },
+    {
+      "epoch": 1.071932299012694,
+      "grad_norm": 12.125,
+      "learning_rate": 1.2855127946806366e-05,
+      "loss": 0.7624,
+      "mean_token_accuracy": 0.8084113836288452,
+      "num_tokens": 5893477.0,
+      "step": 5320
+    },
+    {
+      "epoch": 1.073947209349184,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.2841695211229767e-05,
+      "loss": 0.8525,
+      "mean_token_accuracy": 0.8004627406597138,
+      "num_tokens": 5906228.0,
+      "step": 5330
+    },
+    {
+      "epoch": 1.075962119685674,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.2828262475653167e-05,
+      "loss": 0.7381,
+      "mean_token_accuracy": 0.815189528465271,
+      "num_tokens": 5917163.0,
+      "step": 5340
+    },
+    {
+      "epoch": 1.077977030022164,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.2814829740076568e-05,
+      "loss": 0.8192,
+      "mean_token_accuracy": 0.7983390390872955,
+      "num_tokens": 5927959.0,
+      "step": 5350
+    },
+    {
+      "epoch": 1.079991940358654,
+      "grad_norm": 11.125,
+      "learning_rate": 1.2801397004499967e-05,
+      "loss": 0.8847,
+      "mean_token_accuracy": 0.7825915396213532,
+      "num_tokens": 5938684.0,
+      "step": 5360
+    },
+    {
+      "epoch": 1.0820068506951441,
+      "grad_norm": 11.625,
+      "learning_rate": 1.2787964268923367e-05,
+      "loss": 0.8451,
+      "mean_token_accuracy": 0.7878111064434051,
+      "num_tokens": 5948765.0,
+      "step": 5370
+    },
+    {
+      "epoch": 1.084021761031634,
+      "grad_norm": 13.0,
+      "learning_rate": 1.2774531533346768e-05,
+      "loss": 0.7971,
+      "mean_token_accuracy": 0.8030431568622589,
+      "num_tokens": 5960108.0,
+      "step": 5380
+    },
+    {
+      "epoch": 1.0860366713681242,
+      "grad_norm": 10.625,
+      "learning_rate": 1.2761098797770167e-05,
+      "loss": 0.8786,
+      "mean_token_accuracy": 0.7854897439479828,
+      "num_tokens": 5972007.0,
+      "step": 5390
+    },
+    {
+      "epoch": 1.0880515817046141,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.2747666062193567e-05,
+      "loss": 0.8395,
+      "mean_token_accuracy": 0.7956344962120057,
+      "num_tokens": 5983211.0,
+      "step": 5400
+    },
+    {
+      "epoch": 1.090066492041104,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.2734233326616968e-05,
+      "loss": 0.9274,
+      "mean_token_accuracy": 0.7794575989246368,
+      "num_tokens": 5995219.0,
+      "step": 5410
+    },
+    {
+      "epoch": 1.0920814023775942,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.2720800591040365e-05,
+      "loss": 0.8251,
+      "mean_token_accuracy": 0.802078241109848,
+      "num_tokens": 6006324.0,
+      "step": 5420
+    },
+    {
+      "epoch": 1.0940963127140841,
+      "grad_norm": 14.0625,
+      "learning_rate": 1.2707367855463765e-05,
+      "loss": 0.8402,
+      "mean_token_accuracy": 0.7896000027656556,
+      "num_tokens": 6017542.0,
+      "step": 5430
+    },
+    {
+      "epoch": 1.0961112230505743,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.2693935119887166e-05,
+      "loss": 0.8307,
+      "mean_token_accuracy": 0.7981148719787597,
+      "num_tokens": 6027523.0,
+      "step": 5440
+    },
+    {
+      "epoch": 1.0981261333870642,
+      "grad_norm": 9.6875,
+      "learning_rate": 1.2680502384310566e-05,
+      "loss": 0.866,
+      "mean_token_accuracy": 0.7834112644195557,
+      "num_tokens": 6038697.0,
+      "step": 5450
+    },
+    {
+      "epoch": 1.1001410437235544,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.2667069648733965e-05,
+      "loss": 0.793,
+      "mean_token_accuracy": 0.7983521819114685,
+      "num_tokens": 6049813.0,
+      "step": 5460
+    },
+    {
+      "epoch": 1.1021559540600443,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.2653636913157366e-05,
+      "loss": 0.7633,
+      "mean_token_accuracy": 0.811886590719223,
+      "num_tokens": 6060176.0,
+      "step": 5470
+    },
+    {
+      "epoch": 1.1041708643965344,
+      "grad_norm": 12.875,
+      "learning_rate": 1.2640204177580766e-05,
+      "loss": 0.8755,
+      "mean_token_accuracy": 0.7823013424873352,
+      "num_tokens": 6069957.0,
+      "step": 5480
+    },
+    {
+      "epoch": 1.1061857747330244,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.2626771442004164e-05,
+      "loss": 0.8468,
+      "mean_token_accuracy": 0.7942144453525544,
+      "num_tokens": 6080224.0,
+      "step": 5490
+    },
+    {
+      "epoch": 1.1082006850695145,
+      "grad_norm": 10.5,
+      "learning_rate": 1.2613338706427564e-05,
+      "loss": 0.8926,
+      "mean_token_accuracy": 0.7852272689342499,
+      "num_tokens": 6091516.0,
+      "step": 5500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7364465716629504.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null