Training in progress, step 7000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8da83f3c30b9473fef2b931e6b47e4814c76e805b02501c93641aed6bc786ead
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e99f98def5707de3be1588197fe5096482fac3f483b22d6d05ac701448ef1f6
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8c7391e5803dc14420bae3b5326bbd52abb5236b17e67147b31348d199ebeef
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:c36c51441c6a4e72e59a3d4e0e9b5b84bfb5e8d67b647194ab6c6bfde7983c0e
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0717c8780efa444a6d80d462b725b32f107f9a3c24550aaaa04a7d27cefba76b
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:326c38bef4f14b97646caa84204f32859351159ff635853df88679a10264e29a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.309691718718517,
   "eval_steps": 500,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5858,6 +5858,456 @@
       "mean_token_accuracy": 0.7886571526527405,
       "num_tokens": 7207013.0,
       "step": 6500
     }
   ],
   "logging_steps": 10,
@@ -5877,7 +6327,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8718380552103936.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4104372355430184,
   "eval_steps": 500,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7886571526527405,
       "num_tokens": 7207013.0,
       "step": 6500
+    },
+    {
+      "epoch": 1.311706629055007,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.1256632413190946e-05,
+      "loss": 0.7398,
+      "mean_token_accuracy": 0.8139720261096954,
+      "num_tokens": 7217616.0,
+      "step": 6510
+    },
+    {
+      "epoch": 1.313721539391497,
+      "grad_norm": 12.875,
+      "learning_rate": 1.1243199677614347e-05,
+      "loss": 0.8148,
+      "mean_token_accuracy": 0.7918058097362518,
+      "num_tokens": 7228902.0,
+      "step": 6520
+    },
+    {
+      "epoch": 1.315736449727987,
+      "grad_norm": 12.5,
+      "learning_rate": 1.1229766942037747e-05,
+      "loss": 0.849,
+      "mean_token_accuracy": 0.7959416568279266,
+      "num_tokens": 7239105.0,
+      "step": 6530
+    },
+    {
+      "epoch": 1.3177513600644772,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.1216334206461146e-05,
+      "loss": 0.7653,
+      "mean_token_accuracy": 0.8075124859809876,
+      "num_tokens": 7248600.0,
+      "step": 6540
+    },
+    {
+      "epoch": 1.3197662704009672,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.1202901470884547e-05,
+      "loss": 0.8824,
+      "mean_token_accuracy": 0.7894264698028565,
+      "num_tokens": 7260572.0,
+      "step": 6550
+    },
+    {
+      "epoch": 1.321781180737457,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.1189468735307947e-05,
+      "loss": 0.8524,
+      "mean_token_accuracy": 0.7949903309345245,
+      "num_tokens": 7270963.0,
+      "step": 6560
+    },
+    {
+      "epoch": 1.3237960910739472,
+      "grad_norm": 13.0,
+      "learning_rate": 1.1176035999731348e-05,
+      "loss": 0.7687,
+      "mean_token_accuracy": 0.8052358329296112,
+      "num_tokens": 7282254.0,
+      "step": 6570
+    },
+    {
+      "epoch": 1.3258110014104372,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.1162603264154745e-05,
+      "loss": 0.771,
+      "mean_token_accuracy": 0.8071496605873107,
+      "num_tokens": 7293472.0,
+      "step": 6580
+    },
+    {
+      "epoch": 1.3278259117469273,
+      "grad_norm": 16.0,
+      "learning_rate": 1.1149170528578145e-05,
+      "loss": 0.7544,
+      "mean_token_accuracy": 0.8064080238342285,
+      "num_tokens": 7302549.0,
+      "step": 6590
+    },
+    {
+      "epoch": 1.3298408220834173,
+      "grad_norm": 11.625,
+      "learning_rate": 1.1135737793001546e-05,
+      "loss": 0.7427,
+      "mean_token_accuracy": 0.8121874392032623,
+      "num_tokens": 7313898.0,
+      "step": 6600
+    },
+    {
+      "epoch": 1.3318557324199074,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.1122305057424945e-05,
+      "loss": 0.8996,
+      "mean_token_accuracy": 0.7810469567775726,
+      "num_tokens": 7324658.0,
+      "step": 6610
+    },
+    {
+      "epoch": 1.3338706427563973,
+      "grad_norm": 11.625,
+      "learning_rate": 1.1108872321848345e-05,
+      "loss": 0.7865,
+      "mean_token_accuracy": 0.806594967842102,
+      "num_tokens": 7335673.0,
+      "step": 6620
+    },
+    {
+      "epoch": 1.3358855530928873,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.1095439586271746e-05,
+      "loss": 0.9176,
+      "mean_token_accuracy": 0.7800018846988678,
+      "num_tokens": 7347253.0,
+      "step": 6630
+    },
+    {
+      "epoch": 1.3379004634293774,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.1082006850695145e-05,
+      "loss": 0.8083,
+      "mean_token_accuracy": 0.8040257275104523,
+      "num_tokens": 7358476.0,
+      "step": 6640
+    },
+    {
+      "epoch": 1.3399153737658676,
+      "grad_norm": 14.0625,
+      "learning_rate": 1.1068574115118545e-05,
+      "loss": 0.9627,
+      "mean_token_accuracy": 0.7791651308536529,
+      "num_tokens": 7369343.0,
+      "step": 6650
+    },
+    {
+      "epoch": 1.3419302841023575,
+      "grad_norm": 14.375,
+      "learning_rate": 1.1055141379541944e-05,
+      "loss": 0.869,
+      "mean_token_accuracy": 0.791654235124588,
+      "num_tokens": 7380142.0,
+      "step": 6660
+    },
+    {
+      "epoch": 1.3439451944388474,
+      "grad_norm": 16.75,
+      "learning_rate": 1.1041708643965345e-05,
+      "loss": 0.8959,
+      "mean_token_accuracy": 0.7814781248569489,
+      "num_tokens": 7391681.0,
+      "step": 6670
+    },
+    {
+      "epoch": 1.3459601047753376,
+      "grad_norm": 25.75,
+      "learning_rate": 1.1028275908388743e-05,
+      "loss": 0.7937,
+      "mean_token_accuracy": 0.8048185467720032,
+      "num_tokens": 7402373.0,
+      "step": 6680
+    },
+    {
+      "epoch": 1.3479750151118275,
+      "grad_norm": 11.25,
+      "learning_rate": 1.1014843172812144e-05,
+      "loss": 0.8797,
+      "mean_token_accuracy": 0.7896045446395874,
+      "num_tokens": 7412646.0,
+      "step": 6690
+    },
+    {
+      "epoch": 1.3499899254483174,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.1001410437235544e-05,
+      "loss": 0.7739,
+      "mean_token_accuracy": 0.8085869729518891,
+      "num_tokens": 7423087.0,
+      "step": 6700
+    },
+    {
+      "epoch": 1.3520048357848076,
+      "grad_norm": 42.5,
+      "learning_rate": 1.0987977701658943e-05,
+      "loss": 0.8267,
+      "mean_token_accuracy": 0.7931196630001068,
+      "num_tokens": 7433496.0,
+      "step": 6710
+    },
+    {
+      "epoch": 1.3540197461212977,
+      "grad_norm": 11.625,
+      "learning_rate": 1.0974544966082344e-05,
+      "loss": 0.7688,
+      "mean_token_accuracy": 0.8101352214813232,
+      "num_tokens": 7444890.0,
+      "step": 6720
+    },
+    {
+      "epoch": 1.3560346564577876,
+      "grad_norm": 9.9375,
+      "learning_rate": 1.0961112230505744e-05,
+      "loss": 0.8294,
+      "mean_token_accuracy": 0.7928038239479065,
+      "num_tokens": 7456497.0,
+      "step": 6730
+    },
+    {
+      "epoch": 1.3580495667942776,
+      "grad_norm": 13.0,
+      "learning_rate": 1.0947679494929145e-05,
+      "loss": 0.8978,
+      "mean_token_accuracy": 0.7794729173183441,
+      "num_tokens": 7466678.0,
+      "step": 6740
+    },
+    {
+      "epoch": 1.3600644771307677,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.0934246759352542e-05,
+      "loss": 0.8052,
+      "mean_token_accuracy": 0.8050779700279236,
+      "num_tokens": 7477058.0,
+      "step": 6750
+    },
+    {
+      "epoch": 1.3620793874672577,
+      "grad_norm": 11.75,
+      "learning_rate": 1.0920814023775943e-05,
+      "loss": 0.8537,
+      "mean_token_accuracy": 0.7877449512481689,
+      "num_tokens": 7487077.0,
+      "step": 6760
+    },
+    {
+      "epoch": 1.3640942978037478,
+      "grad_norm": 14.0,
+      "learning_rate": 1.0907381288199343e-05,
+      "loss": 0.8519,
+      "mean_token_accuracy": 0.7857004582881928,
+      "num_tokens": 7497355.0,
+      "step": 6770
+    },
+    {
+      "epoch": 1.3661092081402377,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.0893948552622742e-05,
+      "loss": 0.796,
+      "mean_token_accuracy": 0.7996562838554382,
+      "num_tokens": 7508344.0,
+      "step": 6780
+    },
+    {
+      "epoch": 1.3681241184767279,
+      "grad_norm": 11.75,
+      "learning_rate": 1.0880515817046142e-05,
+      "loss": 0.8427,
+      "mean_token_accuracy": 0.7912454545497895,
+      "num_tokens": 7519520.0,
+      "step": 6790
+    },
+    {
+      "epoch": 1.3701390288132178,
+      "grad_norm": 9.25,
+      "learning_rate": 1.0867083081469543e-05,
+      "loss": 0.8216,
+      "mean_token_accuracy": 0.7908532798290253,
+      "num_tokens": 7531198.0,
+      "step": 6800
+    },
+    {
+      "epoch": 1.3721539391497077,
+      "grad_norm": 10.625,
+      "learning_rate": 1.085365034589294e-05,
+      "loss": 0.8054,
+      "mean_token_accuracy": 0.8009598433971405,
+      "num_tokens": 7542242.0,
+      "step": 6810
+    },
+    {
+      "epoch": 1.3741688494861979,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.084021761031634e-05,
+      "loss": 0.8353,
+      "mean_token_accuracy": 0.7952351868152618,
+      "num_tokens": 7553773.0,
+      "step": 6820
+    },
+    {
+      "epoch": 1.3761837598226878,
+      "grad_norm": 14.4375,
+      "learning_rate": 1.0826784874739741e-05,
+      "loss": 0.7143,
+      "mean_token_accuracy": 0.8181480646133423,
+      "num_tokens": 7563382.0,
+      "step": 6830
+    },
+    {
+      "epoch": 1.378198670159178,
+      "grad_norm": 10.3125,
+      "learning_rate": 1.0813352139163142e-05,
+      "loss": 0.8876,
+      "mean_token_accuracy": 0.7816132783889771,
+      "num_tokens": 7575581.0,
+      "step": 6840
+    },
+    {
+      "epoch": 1.380213580495668,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.079991940358654e-05,
+      "loss": 0.8494,
+      "mean_token_accuracy": 0.7854238271713256,
+      "num_tokens": 7587514.0,
+      "step": 6850
+    },
+    {
+      "epoch": 1.382228490832158,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.0786486668009941e-05,
+      "loss": 0.8978,
+      "mean_token_accuracy": 0.7826396405696869,
+      "num_tokens": 7599849.0,
+      "step": 6860
+    },
+    {
+      "epoch": 1.384243401168648,
+      "grad_norm": 10.25,
+      "learning_rate": 1.0773053932433342e-05,
+      "loss": 0.7709,
+      "mean_token_accuracy": 0.8018522441387177,
+      "num_tokens": 7611329.0,
+      "step": 6870
+    },
+    {
+      "epoch": 1.386258311505138,
+      "grad_norm": 12.625,
+      "learning_rate": 1.075962119685674e-05,
+      "loss": 0.8472,
+      "mean_token_accuracy": 0.7918815612792969,
+      "num_tokens": 7621873.0,
+      "step": 6880
+    },
+    {
+      "epoch": 1.388273221841628,
+      "grad_norm": 14.75,
+      "learning_rate": 1.0746188461280141e-05,
+      "loss": 0.9434,
+      "mean_token_accuracy": 0.7729089677333831,
+      "num_tokens": 7633787.0,
+      "step": 6890
+    },
+    {
+      "epoch": 1.3902881321781182,
+      "grad_norm": 11.9375,
+      "learning_rate": 1.0732755725703542e-05,
+      "loss": 0.8285,
+      "mean_token_accuracy": 0.7966946125030517,
+      "num_tokens": 7643889.0,
+      "step": 6900
+    },
+    {
+      "epoch": 1.3923030425146081,
+      "grad_norm": 11.9375,
+      "learning_rate": 1.0719322990126942e-05,
+      "loss": 0.8414,
+      "mean_token_accuracy": 0.7909166395664216,
+      "num_tokens": 7655243.0,
+      "step": 6910
+    },
+    {
+      "epoch": 1.394317952851098,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.070589025455034e-05,
+      "loss": 0.7375,
+      "mean_token_accuracy": 0.8181369364261627,
+      "num_tokens": 7666042.0,
+      "step": 6920
+    },
+    {
+      "epoch": 1.3963328631875882,
+      "grad_norm": 8.4375,
+      "learning_rate": 1.069245751897374e-05,
+      "loss": 0.8464,
+      "mean_token_accuracy": 0.797934228181839,
+      "num_tokens": 7676887.0,
+      "step": 6930
+    },
+    {
+      "epoch": 1.3983477735240781,
+      "grad_norm": 12.625,
+      "learning_rate": 1.067902478339714e-05,
+      "loss": 0.8094,
+      "mean_token_accuracy": 0.7948006153106689,
+      "num_tokens": 7688051.0,
+      "step": 6940
+    },
+    {
+      "epoch": 1.4003626838605683,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.0665592047820539e-05,
+      "loss": 0.8955,
+      "mean_token_accuracy": 0.782581114768982,
+      "num_tokens": 7699480.0,
+      "step": 6950
+    },
+    {
+      "epoch": 1.4023775941970582,
+      "grad_norm": 12.375,
+      "learning_rate": 1.065215931224394e-05,
+      "loss": 0.8763,
+      "mean_token_accuracy": 0.7808327317237854,
+      "num_tokens": 7710853.0,
+      "step": 6960
+    },
+    {
+      "epoch": 1.4043925045335484,
+      "grad_norm": 12.875,
+      "learning_rate": 1.063872657666734e-05,
+      "loss": 0.8204,
+      "mean_token_accuracy": 0.8006475508213043,
+      "num_tokens": 7722290.0,
+      "step": 6970
+    },
+    {
+      "epoch": 1.4064074148700383,
+      "grad_norm": 10.625,
+      "learning_rate": 1.0625293841090737e-05,
+      "loss": 0.839,
+      "mean_token_accuracy": 0.7950416922569274,
+      "num_tokens": 7733653.0,
+      "step": 6980
+    },
+    {
+      "epoch": 1.4084223252065282,
+      "grad_norm": 12.75,
+      "learning_rate": 1.0611861105514138e-05,
+      "loss": 0.8964,
+      "mean_token_accuracy": 0.7838905036449433,
+      "num_tokens": 7744184.0,
+      "step": 6990
+    },
+    {
+      "epoch": 1.4104372355430184,
+      "grad_norm": 12.0,
+      "learning_rate": 1.0598428369937538e-05,
+      "loss": 0.7874,
+      "mean_token_accuracy": 0.7988959193229676,
+      "num_tokens": 7754571.0,
+      "step": 7000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9382261075611648.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null