Training in progress, step 5000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +504 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b732646b1016d0368b94920529e0e03c133894ca8756d67e145a97d90d254777
 size 9446744

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e72d16b2e050107874bda34c32842693cb03183fe37e99259fd5f4499db55d7
 size 9446744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1728e885cf58302b2e8ae68b6c9f146637db471aa0ed43e5c883bad6235443e
 size 4879947

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c9789ca8345d90dcacc80a1a783b43cb333b05712d5ff9f32742adcdad67703
 size 4879947

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16de339ad05cf2ba88ca8586907951353749d574c9326b3098589fb0f62ac32e
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6c65cbc045dd0d2fc61664c618dc95af09df46ef33dca72fb52e607162f7cd0
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cefe33faabb000e8f719c6f02e0099d6289469d78aca45133006441981cd323
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b52aae8bdee498050d557f981556359d1fd46a65c7057f7ff5253cd2856e123
 size 14917

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b62db0ba9861d9ab63380744e79a287faa461a1bf55700140a411fe1e976f1cd
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:82ad8990572ad11a824b7db276c8af49c179ca7e7724b4e6906cd0ae480a80a8
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b41aa0c086667ab13fd1c3da2f8b431d894c7368cafdbcdd2e5351f4800eddf8
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ed92728e8486ac6f40cff2848582530afa1f43adb61e60cafa8617d08778617
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.732430689877498,
   "eval_steps": 500,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4508,6 +4508,506 @@
       "mean_token_accuracy": 0.6680058591067791,
       "num_tokens": 26735542.0,
       "step": 4500
     }
   ],
   "logging_steps": 10,
@@ -4522,12 +5022,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.19451190411264e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.591446378680422,
   "eval_steps": 500,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.6680058591067791,
       "num_tokens": 26735542.0,
       "step": 4500
+    },
+    {
+      "entropy": 1.7587152615189552,
+      "epoch": 7.749623898560069,
+      "grad_norm": 0.8131846189498901,
+      "learning_rate": 1.9640000000000002e-05,
+      "loss": 1.798016357421875,
+      "mean_token_accuracy": 0.6655693002045154,
+      "num_tokens": 26796245.0,
+      "step": 4510
+    },
+    {
+      "entropy": 1.7238084524869919,
+      "epoch": 7.766817107242639,
+      "grad_norm": 0.8774024248123169,
+      "learning_rate": 1.924e-05,
+      "loss": 1.7398443222045898,
+      "mean_token_accuracy": 0.6723451249301433,
+      "num_tokens": 26852843.0,
+      "step": 4520
+    },
+    {
+      "entropy": 1.8012757793068885,
+      "epoch": 7.78401031592521,
+      "grad_norm": 0.881601095199585,
+      "learning_rate": 1.8840000000000003e-05,
+      "loss": 1.851584243774414,
+      "mean_token_accuracy": 0.6612551022320986,
+      "num_tokens": 26912327.0,
+      "step": 4530
+    },
+    {
+      "entropy": 1.7035338878631592,
+      "epoch": 7.8012035246077795,
+      "grad_norm": 0.8460244536399841,
+      "learning_rate": 1.8440000000000003e-05,
+      "loss": 1.7524948120117188,
+      "mean_token_accuracy": 0.6760960537940264,
+      "num_tokens": 26971076.0,
+      "step": 4540
+    },
+    {
+      "entropy": 1.6795054778456688,
+      "epoch": 7.81839673329035,
+      "grad_norm": 0.7720061540603638,
+      "learning_rate": 1.804e-05,
+      "loss": 1.70491943359375,
+      "mean_token_accuracy": 0.6768644891679287,
+      "num_tokens": 27031120.0,
+      "step": 4550
+    },
+    {
+      "entropy": 1.775759120285511,
+      "epoch": 7.835589941972921,
+      "grad_norm": 0.8407703638076782,
+      "learning_rate": 1.764e-05,
+      "loss": 1.8208852767944337,
+      "mean_token_accuracy": 0.6638765886425972,
+      "num_tokens": 27089926.0,
+      "step": 4560
+    },
+    {
+      "entropy": 1.7749223679304122,
+      "epoch": 7.852783150655491,
+      "grad_norm": 0.8033788204193115,
+      "learning_rate": 1.724e-05,
+      "loss": 1.8128280639648438,
+      "mean_token_accuracy": 0.6697524327784776,
+      "num_tokens": 27155776.0,
+      "step": 4570
+    },
+    {
+      "entropy": 1.7019891321659089,
+      "epoch": 7.869976359338062,
+      "grad_norm": 0.8756063580513,
+      "learning_rate": 1.684e-05,
+      "loss": 1.752833366394043,
+      "mean_token_accuracy": 0.6720911644399166,
+      "num_tokens": 27213676.0,
+      "step": 4580
+    },
+    {
+      "entropy": 1.7089907452464104,
+      "epoch": 7.8871695680206315,
+      "grad_norm": 0.8547044396400452,
+      "learning_rate": 1.644e-05,
+      "loss": 1.7329090118408204,
+      "mean_token_accuracy": 0.6730512753129005,
+      "num_tokens": 27273812.0,
+      "step": 4590
+    },
+    {
+      "entropy": 1.8000069722533225,
+      "epoch": 7.904362776703202,
+      "grad_norm": 0.8191949725151062,
+      "learning_rate": 1.604e-05,
+      "loss": 1.8508378982543945,
+      "mean_token_accuracy": 0.6602330446243286,
+      "num_tokens": 27334482.0,
+      "step": 4600
+    },
+    {
+      "entropy": 1.6531485810875892,
+      "epoch": 7.921555985385773,
+      "grad_norm": 0.7952063679695129,
+      "learning_rate": 1.5640000000000003e-05,
+      "loss": 1.6732818603515625,
+      "mean_token_accuracy": 0.6840143203735352,
+      "num_tokens": 27390777.0,
+      "step": 4610
+    },
+    {
+      "entropy": 1.7451679170131684,
+      "epoch": 7.938749194068343,
+      "grad_norm": 0.7736355066299438,
+      "learning_rate": 1.5240000000000001e-05,
+      "loss": 1.836105728149414,
+      "mean_token_accuracy": 0.6631482250988483,
+      "num_tokens": 27452458.0,
+      "step": 4620
+    },
+    {
+      "entropy": 1.6219932287931442,
+      "epoch": 7.955942402750914,
+      "grad_norm": 0.7429597973823547,
+      "learning_rate": 1.4840000000000002e-05,
+      "loss": 1.6252763748168946,
+      "mean_token_accuracy": 0.6922797068953515,
+      "num_tokens": 27510793.0,
+      "step": 4630
+    },
+    {
+      "entropy": 1.7097622737288476,
+      "epoch": 7.9731356114334835,
+      "grad_norm": 0.7546749114990234,
+      "learning_rate": 1.444e-05,
+      "loss": 1.7529830932617188,
+      "mean_token_accuracy": 0.6756818048655987,
+      "num_tokens": 27570434.0,
+      "step": 4640
+    },
+    {
+      "entropy": 1.7681476891040802,
+      "epoch": 7.990328820116054,
+      "grad_norm": 0.8919919729232788,
+      "learning_rate": 1.4040000000000001e-05,
+      "loss": 1.8469413757324218,
+      "mean_token_accuracy": 0.6651480123400688,
+      "num_tokens": 27632017.0,
+      "step": 4650
+    },
+    {
+      "entropy": 1.7464849283168842,
+      "epoch": 8.006877283473028,
+      "grad_norm": 0.8629288077354431,
+      "learning_rate": 1.364e-05,
+      "loss": 1.7770162582397462,
+      "mean_token_accuracy": 0.6717489861048661,
+      "num_tokens": 27687721.0,
+      "step": 4660
+    },
+    {
+      "entropy": 1.733792708069086,
+      "epoch": 8.024070492155598,
+      "grad_norm": 0.8012450337409973,
+      "learning_rate": 1.324e-05,
+      "loss": 1.7535259246826171,
+      "mean_token_accuracy": 0.6781957261264324,
+      "num_tokens": 27748609.0,
+      "step": 4670
+    },
+    {
+      "entropy": 1.673891542851925,
+      "epoch": 8.041263700838169,
+      "grad_norm": 0.8763530850410461,
+      "learning_rate": 1.2839999999999999e-05,
+      "loss": 1.7353546142578125,
+      "mean_token_accuracy": 0.6773874297738075,
+      "num_tokens": 27805200.0,
+      "step": 4680
+    },
+    {
+      "entropy": 1.6245143353939056,
+      "epoch": 8.05845690952074,
+      "grad_norm": 0.7880796194076538,
+      "learning_rate": 1.244e-05,
+      "loss": 1.6489152908325195,
+      "mean_token_accuracy": 0.6891307681798935,
+      "num_tokens": 27866189.0,
+      "step": 4690
+    },
+    {
+      "entropy": 1.7772031486034394,
+      "epoch": 8.07565011820331,
+      "grad_norm": 0.894481360912323,
+      "learning_rate": 1.204e-05,
+      "loss": 1.8237220764160156,
+      "mean_token_accuracy": 0.6645158022642136,
+      "num_tokens": 27929040.0,
+      "step": 4700
+    },
+    {
+      "entropy": 1.6911936491727828,
+      "epoch": 8.09284332688588,
+      "grad_norm": 0.8212205171585083,
+      "learning_rate": 1.164e-05,
+      "loss": 1.718613624572754,
+      "mean_token_accuracy": 0.6778515942394734,
+      "num_tokens": 27989259.0,
+      "step": 4710
+    },
+    {
+      "entropy": 1.7341958984732628,
+      "epoch": 8.110036535568451,
+      "grad_norm": 0.8757619261741638,
+      "learning_rate": 1.124e-05,
+      "loss": 1.83496150970459,
+      "mean_token_accuracy": 0.67105031311512,
+      "num_tokens": 28051037.0,
+      "step": 4720
+    },
+    {
+      "entropy": 1.6540620133280755,
+      "epoch": 8.127229744251022,
+      "grad_norm": 0.6871177554130554,
+      "learning_rate": 1.084e-05,
+      "loss": 1.6868721008300782,
+      "mean_token_accuracy": 0.6824644193053245,
+      "num_tokens": 28117218.0,
+      "step": 4730
+    },
+    {
+      "entropy": 1.7760244339704514,
+      "epoch": 8.144422952933592,
+      "grad_norm": 0.8672593832015991,
+      "learning_rate": 1.0440000000000002e-05,
+      "loss": 1.8467548370361329,
+      "mean_token_accuracy": 0.6605620160698891,
+      "num_tokens": 28176643.0,
+      "step": 4740
+    },
+    {
+      "entropy": 1.6998422421514987,
+      "epoch": 8.16161616161616,
+      "grad_norm": 0.9853087663650513,
+      "learning_rate": 1.004e-05,
+      "loss": 1.7283611297607422,
+      "mean_token_accuracy": 0.6775359824299813,
+      "num_tokens": 28234550.0,
+      "step": 4750
+    },
+    {
+      "entropy": 1.7665151111781596,
+      "epoch": 8.178809370298731,
+      "grad_norm": 0.8272210955619812,
+      "learning_rate": 9.640000000000001e-06,
+      "loss": 1.8442218780517579,
+      "mean_token_accuracy": 0.6675057601183653,
+      "num_tokens": 28292004.0,
+      "step": 4760
+    },
+    {
+      "entropy": 1.7351939789950848,
+      "epoch": 8.196002578981302,
+      "grad_norm": 0.8758223652839661,
+      "learning_rate": 9.24e-06,
+      "loss": 1.7823253631591798,
+      "mean_token_accuracy": 0.6717655852437019,
+      "num_tokens": 28351089.0,
+      "step": 4770
+    },
+    {
+      "entropy": 1.7320286817848682,
+      "epoch": 8.213195787663873,
+      "grad_norm": 0.8538162708282471,
+      "learning_rate": 8.840000000000002e-06,
+      "loss": 1.758108139038086,
+      "mean_token_accuracy": 0.6750058546662331,
+      "num_tokens": 28411108.0,
+      "step": 4780
+    },
+    {
+      "entropy": 1.7250167533755303,
+      "epoch": 8.230388996346443,
+      "grad_norm": 0.8055081963539124,
+      "learning_rate": 8.44e-06,
+      "loss": 1.7342365264892579,
+      "mean_token_accuracy": 0.6727670766413212,
+      "num_tokens": 28469910.0,
+      "step": 4790
+    },
+    {
+      "entropy": 1.6715928614139557,
+      "epoch": 8.247582205029014,
+      "grad_norm": 0.8282851576805115,
+      "learning_rate": 8.040000000000001e-06,
+      "loss": 1.7284685134887696,
+      "mean_token_accuracy": 0.6803247310221195,
+      "num_tokens": 28528732.0,
+      "step": 4800
+    },
+    {
+      "entropy": 1.7717369854450227,
+      "epoch": 8.264775413711584,
+      "grad_norm": 0.7199074029922485,
+      "learning_rate": 7.64e-06,
+      "loss": 1.8089387893676758,
+      "mean_token_accuracy": 0.6684400778263807,
+      "num_tokens": 28591231.0,
+      "step": 4810
+    },
+    {
+      "entropy": 1.6829568967223167,
+      "epoch": 8.281968622394155,
+      "grad_norm": 0.8212400674819946,
+      "learning_rate": 7.240000000000001e-06,
+      "loss": 1.6901424407958985,
+      "mean_token_accuracy": 0.6812582932412624,
+      "num_tokens": 28651538.0,
+      "step": 4820
+    },
+    {
+      "entropy": 1.7792557999491692,
+      "epoch": 8.299161831076725,
+      "grad_norm": 0.8251553773880005,
+      "learning_rate": 6.840000000000001e-06,
+      "loss": 1.8440101623535157,
+      "mean_token_accuracy": 0.6635224357247352,
+      "num_tokens": 28713818.0,
+      "step": 4830
+    },
+    {
+      "entropy": 1.6888219453394413,
+      "epoch": 8.316355039759294,
+      "grad_norm": 0.799067497253418,
+      "learning_rate": 6.44e-06,
+      "loss": 1.7452951431274415,
+      "mean_token_accuracy": 0.6766478583216667,
+      "num_tokens": 28771713.0,
+      "step": 4840
+    },
+    {
+      "entropy": 1.6663143932819366,
+      "epoch": 8.333548248441865,
+      "grad_norm": 0.7468796968460083,
+      "learning_rate": 6.040000000000001e-06,
+      "loss": 1.6975286483764649,
+      "mean_token_accuracy": 0.6818139903247357,
+      "num_tokens": 28833584.0,
+      "step": 4850
+    },
+    {
+      "entropy": 1.736840507388115,
+      "epoch": 8.350741457124435,
+      "grad_norm": 0.9168211817741394,
+      "learning_rate": 5.64e-06,
+      "loss": 1.8019765853881835,
+      "mean_token_accuracy": 0.6729365028440952,
+      "num_tokens": 28891158.0,
+      "step": 4860
+    },
+    {
+      "entropy": 1.7159839145839215,
+      "epoch": 8.367934665807006,
+      "grad_norm": 0.8348814249038696,
+      "learning_rate": 5.240000000000001e-06,
+      "loss": 1.7910118103027344,
+      "mean_token_accuracy": 0.67631860896945,
+      "num_tokens": 28948026.0,
+      "step": 4870
+    },
+    {
+      "entropy": 1.7169093780219555,
+      "epoch": 8.385127874489577,
+      "grad_norm": 0.8493881821632385,
+      "learning_rate": 4.84e-06,
+      "loss": 1.7167430877685548,
+      "mean_token_accuracy": 0.6753393478691578,
+      "num_tokens": 29005197.0,
+      "step": 4880
+    },
+    {
+      "entropy": 1.6801239594817161,
+      "epoch": 8.402321083172147,
+      "grad_norm": 0.8069011569023132,
+      "learning_rate": 4.440000000000001e-06,
+      "loss": 1.6674100875854492,
+      "mean_token_accuracy": 0.681441531330347,
+      "num_tokens": 29062454.0,
+      "step": 4890
+    },
+    {
+      "entropy": 1.7267012923955918,
+      "epoch": 8.419514291854718,
+      "grad_norm": 0.8063756823539734,
+      "learning_rate": 4.04e-06,
+      "loss": 1.7544673919677733,
+      "mean_token_accuracy": 0.6745367147028446,
+      "num_tokens": 29121055.0,
+      "step": 4900
+    },
+    {
+      "entropy": 1.6062462359666825,
+      "epoch": 8.436707500537288,
+      "grad_norm": 0.8285024762153625,
+      "learning_rate": 3.6400000000000003e-06,
+      "loss": 1.6273128509521484,
+      "mean_token_accuracy": 0.690464211255312,
+      "num_tokens": 29176963.0,
+      "step": 4910
+    },
+    {
+      "entropy": 1.7958560451865195,
+      "epoch": 8.453900709219859,
+      "grad_norm": 0.8202657103538513,
+      "learning_rate": 3.24e-06,
+      "loss": 1.8311897277832032,
+      "mean_token_accuracy": 0.661663169786334,
+      "num_tokens": 29235880.0,
+      "step": 4920
+    },
+    {
+      "entropy": 1.665907260030508,
+      "epoch": 8.47109391790243,
+      "grad_norm": 0.8672494292259216,
+      "learning_rate": 2.8400000000000003e-06,
+      "loss": 1.6878423690795898,
+      "mean_token_accuracy": 0.6819184564054013,
+      "num_tokens": 29295823.0,
+      "step": 4930
+    },
+    {
+      "entropy": 1.7426866918802262,
+      "epoch": 8.488287126584998,
+      "grad_norm": 0.8398126363754272,
+      "learning_rate": 2.4400000000000004e-06,
+      "loss": 1.810443115234375,
+      "mean_token_accuracy": 0.6639036998152733,
+      "num_tokens": 29355386.0,
+      "step": 4940
+    },
+    {
+      "entropy": 1.6938614405691623,
+      "epoch": 8.505480335267569,
+      "grad_norm": 0.7652584314346313,
+      "learning_rate": 2.0400000000000004e-06,
+      "loss": 1.7690727233886718,
+      "mean_token_accuracy": 0.6737098075449467,
+      "num_tokens": 29414966.0,
+      "step": 4950
+    },
+    {
+      "entropy": 1.7538506165146828,
+      "epoch": 8.52267354395014,
+      "grad_norm": 0.8389163017272949,
+      "learning_rate": 1.6400000000000002e-06,
+      "loss": 1.8067062377929688,
+      "mean_token_accuracy": 0.6728679880499839,
+      "num_tokens": 29472960.0,
+      "step": 4960
+    },
+    {
+      "entropy": 1.7591105610132218,
+      "epoch": 8.53986675263271,
+      "grad_norm": 0.8280366063117981,
+      "learning_rate": 1.24e-06,
+      "loss": 1.7855098724365235,
+      "mean_token_accuracy": 0.6670263484120369,
+      "num_tokens": 29531300.0,
+      "step": 4970
+    },
+    {
+      "entropy": 1.6825189530849456,
+      "epoch": 8.55705996131528,
+      "grad_norm": 0.8177328109741211,
+      "learning_rate": 8.4e-07,
+      "loss": 1.731926727294922,
+      "mean_token_accuracy": 0.6818420931696891,
+      "num_tokens": 29591290.0,
+      "step": 4980
+    },
+    {
+      "entropy": 1.7112577512860299,
+      "epoch": 8.574253169997851,
+      "grad_norm": 0.8413036465644836,
+      "learning_rate": 4.4e-07,
+      "loss": 1.7446353912353516,
+      "mean_token_accuracy": 0.6750271447002888,
+      "num_tokens": 29646086.0,
+      "step": 4990
+    },
+    {
+      "entropy": 1.7419164210557938,
+      "epoch": 8.591446378680422,
+      "grad_norm": 0.9462088346481323,
+      "learning_rate": 4e-08,
+      "loss": 1.7870445251464844,
+      "mean_token_accuracy": 0.666933435574174,
+      "num_tokens": 29704815.0,
+      "step": 5000
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.438188209453138e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null