Training in progress, step 8500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:872e13706948c7a141e635bc023a52fbe531ae28f59acde5c4f237db2a94c6b1
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:16ca55f673b3ad7e95262a9d0296f5d8f2b7edb92a87d108841a282630107b61
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c368469d799ee657aa6f345b72b1b063d1207badee5ef2708584fc5b29dd1fa0
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d62e7293944847d060dba9b65b5eb64216e79d1a688e81c3a95ed8977d7ce35
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f8c5daae46e22d0555f52515cb826d70a09c178d27140188b1fd68ded8645a9
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3aeebf16be5d93156c95c5c47fce9ca30893837ac7097fcc26a2ec8d4dc9f51
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.611928269192021,
   "eval_steps": 500,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7208,6 +7208,456 @@
       "mean_token_accuracy": 0.7778131783008575,
       "num_tokens": 8860114.0,
       "step": 8000
     }
   ],
   "logging_steps": 10,
@@ -7227,7 +7677,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0725865607073792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7126737860165222,
   "eval_steps": 500,
+  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7778131783008575,
       "num_tokens": 8860114.0,
       "step": 8000
+    },
+    {
+      "epoch": 1.613943179528511,
+      "grad_norm": 12.875,
+      "learning_rate": 9.24172207670092e-06,
+      "loss": 0.9062,
+      "mean_token_accuracy": 0.7869289875030517,
+      "num_tokens": 8870296.0,
+      "step": 8010
+    },
+    {
+      "epoch": 1.615958089865001,
+      "grad_norm": 11.0625,
+      "learning_rate": 9.22828934112432e-06,
+      "loss": 0.7193,
+      "mean_token_accuracy": 0.8147738158702851,
+      "num_tokens": 8880957.0,
+      "step": 8020
+    },
+    {
+      "epoch": 1.617973000201491,
+      "grad_norm": 11.625,
+      "learning_rate": 9.21485660554772e-06,
+      "loss": 0.9484,
+      "mean_token_accuracy": 0.7725982308387757,
+      "num_tokens": 8892907.0,
+      "step": 8030
+    },
+    {
+      "epoch": 1.619987910537981,
+      "grad_norm": 11.0625,
+      "learning_rate": 9.20142386997112e-06,
+      "loss": 0.7605,
+      "mean_token_accuracy": 0.8034783184528351,
+      "num_tokens": 8904461.0,
+      "step": 8040
+    },
+    {
+      "epoch": 1.6220028208744712,
+      "grad_norm": 11.8125,
+      "learning_rate": 9.187991134394521e-06,
+      "loss": 0.8351,
+      "mean_token_accuracy": 0.7964996695518494,
+      "num_tokens": 8915489.0,
+      "step": 8050
+    },
+    {
+      "epoch": 1.6240177312109612,
+      "grad_norm": 10.625,
+      "learning_rate": 9.17455839881792e-06,
+      "loss": 0.8234,
+      "mean_token_accuracy": 0.7960014402866363,
+      "num_tokens": 8927916.0,
+      "step": 8060
+    },
+    {
+      "epoch": 1.626032641547451,
+      "grad_norm": 11.0,
+      "learning_rate": 9.16112566324132e-06,
+      "loss": 0.8144,
+      "mean_token_accuracy": 0.7940633356571197,
+      "num_tokens": 8938931.0,
+      "step": 8070
+    },
+    {
+      "epoch": 1.6280475518839412,
+      "grad_norm": 10.4375,
+      "learning_rate": 9.14769292766472e-06,
+      "loss": 0.7865,
+      "mean_token_accuracy": 0.806914460659027,
+      "num_tokens": 8949201.0,
+      "step": 8080
+    },
+    {
+      "epoch": 1.6300624622204312,
+      "grad_norm": 14.4375,
+      "learning_rate": 9.13426019208812e-06,
+      "loss": 0.8536,
+      "mean_token_accuracy": 0.787992262840271,
+      "num_tokens": 8960524.0,
+      "step": 8090
+    },
+    {
+      "epoch": 1.632077372556921,
+      "grad_norm": 9.75,
+      "learning_rate": 9.12082745651152e-06,
+      "loss": 0.8154,
+      "mean_token_accuracy": 0.7935736238956451,
+      "num_tokens": 8972192.0,
+      "step": 8100
+    },
+    {
+      "epoch": 1.6340922828934112,
+      "grad_norm": 13.375,
+      "learning_rate": 9.107394720934919e-06,
+      "loss": 0.782,
+      "mean_token_accuracy": 0.802595990896225,
+      "num_tokens": 8983325.0,
+      "step": 8110
+    },
+    {
+      "epoch": 1.6361071932299014,
+      "grad_norm": 14.875,
+      "learning_rate": 9.09396198535832e-06,
+      "loss": 0.8885,
+      "mean_token_accuracy": 0.779900997877121,
+      "num_tokens": 8994056.0,
+      "step": 8120
+    },
+    {
+      "epoch": 1.6381221035663913,
+      "grad_norm": 12.375,
+      "learning_rate": 9.080529249781718e-06,
+      "loss": 0.7469,
+      "mean_token_accuracy": 0.8087693631649018,
+      "num_tokens": 9004649.0,
+      "step": 8130
+    },
+    {
+      "epoch": 1.6401370139028812,
+      "grad_norm": 12.375,
+      "learning_rate": 9.067096514205117e-06,
+      "loss": 0.9413,
+      "mean_token_accuracy": 0.7759244620800019,
+      "num_tokens": 9017546.0,
+      "step": 8140
+    },
+    {
+      "epoch": 1.6421519242393714,
+      "grad_norm": 11.4375,
+      "learning_rate": 9.053663778628518e-06,
+      "loss": 0.8086,
+      "mean_token_accuracy": 0.7987602353096008,
+      "num_tokens": 9028816.0,
+      "step": 8150
+    },
+    {
+      "epoch": 1.6441668345758613,
+      "grad_norm": 13.0,
+      "learning_rate": 9.040231043051918e-06,
+      "loss": 0.8092,
+      "mean_token_accuracy": 0.8002450168132782,
+      "num_tokens": 9040241.0,
+      "step": 8160
+    },
+    {
+      "epoch": 1.6461817449123513,
+      "grad_norm": 11.875,
+      "learning_rate": 9.026798307475319e-06,
+      "loss": 0.8056,
+      "mean_token_accuracy": 0.7970556557178498,
+      "num_tokens": 9050944.0,
+      "step": 8170
+    },
+    {
+      "epoch": 1.6481966552488414,
+      "grad_norm": 11.25,
+      "learning_rate": 9.013365571898718e-06,
+      "loss": 0.885,
+      "mean_token_accuracy": 0.7855951130390167,
+      "num_tokens": 9062338.0,
+      "step": 8180
+    },
+    {
+      "epoch": 1.6502115655853316,
+      "grad_norm": 12.0625,
+      "learning_rate": 8.999932836322117e-06,
+      "loss": 0.8499,
+      "mean_token_accuracy": 0.7869492530822754,
+      "num_tokens": 9073217.0,
+      "step": 8190
+    },
+    {
+      "epoch": 1.6522264759218215,
+      "grad_norm": 10.625,
+      "learning_rate": 8.986500100745517e-06,
+      "loss": 0.725,
+      "mean_token_accuracy": 0.816201251745224,
+      "num_tokens": 9084540.0,
+      "step": 8200
+    },
+    {
+      "epoch": 1.6542413862583114,
+      "grad_norm": 14.625,
+      "learning_rate": 8.973067365168918e-06,
+      "loss": 0.8659,
+      "mean_token_accuracy": 0.7861015915870666,
+      "num_tokens": 9095828.0,
+      "step": 8210
+    },
+    {
+      "epoch": 1.6562562965948016,
+      "grad_norm": 11.375,
+      "learning_rate": 8.959634629592318e-06,
+      "loss": 0.8543,
+      "mean_token_accuracy": 0.7877636075019836,
+      "num_tokens": 9105269.0,
+      "step": 8220
+    },
+    {
+      "epoch": 1.6582712069312917,
+      "grad_norm": 11.8125,
+      "learning_rate": 8.946201894015717e-06,
+      "loss": 0.7655,
+      "mean_token_accuracy": 0.8078620612621308,
+      "num_tokens": 9115722.0,
+      "step": 8230
+    },
+    {
+      "epoch": 1.6602861172677816,
+      "grad_norm": 12.1875,
+      "learning_rate": 8.932769158439118e-06,
+      "loss": 0.8754,
+      "mean_token_accuracy": 0.7780845940113068,
+      "num_tokens": 9126931.0,
+      "step": 8240
+    },
+    {
+      "epoch": 1.6623010276042716,
+      "grad_norm": 14.0625,
+      "learning_rate": 8.919336422862516e-06,
+      "loss": 0.8186,
+      "mean_token_accuracy": 0.7980137884616851,
+      "num_tokens": 9137118.0,
+      "step": 8250
+    },
+    {
+      "epoch": 1.6643159379407617,
+      "grad_norm": 11.3125,
+      "learning_rate": 8.905903687285917e-06,
+      "loss": 0.8233,
+      "mean_token_accuracy": 0.7963060855865478,
+      "num_tokens": 9148350.0,
+      "step": 8260
+    },
+    {
+      "epoch": 1.6663308482772516,
+      "grad_norm": 12.25,
+      "learning_rate": 8.892470951709317e-06,
+      "loss": 0.8238,
+      "mean_token_accuracy": 0.8000846326351165,
+      "num_tokens": 9159385.0,
+      "step": 8270
+    },
+    {
+      "epoch": 1.6683457586137416,
+      "grad_norm": 11.0,
+      "learning_rate": 8.879038216132716e-06,
+      "loss": 0.8972,
+      "mean_token_accuracy": 0.7827898025512695,
+      "num_tokens": 9170903.0,
+      "step": 8280
+    },
+    {
+      "epoch": 1.6703606689502317,
+      "grad_norm": 11.625,
+      "learning_rate": 8.865605480556117e-06,
+      "loss": 0.7794,
+      "mean_token_accuracy": 0.8025726079940796,
+      "num_tokens": 9181737.0,
+      "step": 8290
+    },
+    {
+      "epoch": 1.6723755792867219,
+      "grad_norm": 10.75,
+      "learning_rate": 8.852172744979516e-06,
+      "loss": 0.7777,
+      "mean_token_accuracy": 0.8053012132644654,
+      "num_tokens": 9193448.0,
+      "step": 8300
+    },
+    {
+      "epoch": 1.6743904896232118,
+      "grad_norm": 11.4375,
+      "learning_rate": 8.838740009402914e-06,
+      "loss": 0.7605,
+      "mean_token_accuracy": 0.8079525053501129,
+      "num_tokens": 9204071.0,
+      "step": 8310
+    },
+    {
+      "epoch": 1.6764053999597017,
+      "grad_norm": 11.5,
+      "learning_rate": 8.825307273826315e-06,
+      "loss": 0.9171,
+      "mean_token_accuracy": 0.7748861670494079,
+      "num_tokens": 9214504.0,
+      "step": 8320
+    },
+    {
+      "epoch": 1.6784203102961919,
+      "grad_norm": 9.8125,
+      "learning_rate": 8.811874538249716e-06,
+      "loss": 0.8916,
+      "mean_token_accuracy": 0.7793697714805603,
+      "num_tokens": 9226284.0,
+      "step": 8330
+    },
+    {
+      "epoch": 1.6804352206326818,
+      "grad_norm": 11.1875,
+      "learning_rate": 8.798441802673116e-06,
+      "loss": 0.7674,
+      "mean_token_accuracy": 0.8027099728584289,
+      "num_tokens": 9236745.0,
+      "step": 8340
+    },
+    {
+      "epoch": 1.6824501309691717,
+      "grad_norm": 12.6875,
+      "learning_rate": 8.785009067096515e-06,
+      "loss": 0.7154,
+      "mean_token_accuracy": 0.811217075586319,
+      "num_tokens": 9246893.0,
+      "step": 8350
+    },
+    {
+      "epoch": 1.6844650413056619,
+      "grad_norm": 10.8125,
+      "learning_rate": 8.771576331519914e-06,
+      "loss": 0.7992,
+      "mean_token_accuracy": 0.8010998785495758,
+      "num_tokens": 9257127.0,
+      "step": 8360
+    },
+    {
+      "epoch": 1.686479951642152,
+      "grad_norm": 11.75,
+      "learning_rate": 8.758143595943314e-06,
+      "loss": 0.7553,
+      "mean_token_accuracy": 0.8025872766971588,
+      "num_tokens": 9267345.0,
+      "step": 8370
+    },
+    {
+      "epoch": 1.688494861978642,
+      "grad_norm": 10.5625,
+      "learning_rate": 8.744710860366715e-06,
+      "loss": 0.7177,
+      "mean_token_accuracy": 0.807683116197586,
+      "num_tokens": 9278348.0,
+      "step": 8380
+    },
+    {
+      "epoch": 1.6905097723151319,
+      "grad_norm": 10.6875,
+      "learning_rate": 8.731278124790115e-06,
+      "loss": 0.824,
+      "mean_token_accuracy": 0.7992592275142669,
+      "num_tokens": 9289759.0,
+      "step": 8390
+    },
+    {
+      "epoch": 1.692524682651622,
+      "grad_norm": 10.0,
+      "learning_rate": 8.717845389213514e-06,
+      "loss": 0.7137,
+      "mean_token_accuracy": 0.8179818749427795,
+      "num_tokens": 9301077.0,
+      "step": 8400
+    },
+    {
+      "epoch": 1.6945395929881122,
+      "grad_norm": 9.625,
+      "learning_rate": 8.704412653636913e-06,
+      "loss": 0.7854,
+      "mean_token_accuracy": 0.8026704370975495,
+      "num_tokens": 9311874.0,
+      "step": 8410
+    },
+    {
+      "epoch": 1.696554503324602,
+      "grad_norm": 10.5,
+      "learning_rate": 8.690979918060313e-06,
+      "loss": 0.7699,
+      "mean_token_accuracy": 0.8098136365413666,
+      "num_tokens": 9322554.0,
+      "step": 8420
+    },
+    {
+      "epoch": 1.698569413661092,
+      "grad_norm": 13.5,
+      "learning_rate": 8.677547182483714e-06,
+      "loss": 0.9204,
+      "mean_token_accuracy": 0.7753970444202423,
+      "num_tokens": 9334306.0,
+      "step": 8430
+    },
+    {
+      "epoch": 1.7005843239975822,
+      "grad_norm": 10.375,
+      "learning_rate": 8.664114446907113e-06,
+      "loss": 0.7777,
+      "mean_token_accuracy": 0.8091802179813385,
+      "num_tokens": 9347003.0,
+      "step": 8440
+    },
+    {
+      "epoch": 1.7025992343340721,
+      "grad_norm": 15.5625,
+      "learning_rate": 8.650681711330513e-06,
+      "loss": 0.7196,
+      "mean_token_accuracy": 0.8092711210250855,
+      "num_tokens": 9357300.0,
+      "step": 8450
+    },
+    {
+      "epoch": 1.704614144670562,
+      "grad_norm": 11.3125,
+      "learning_rate": 8.637248975753914e-06,
+      "loss": 0.826,
+      "mean_token_accuracy": 0.7981557488441468,
+      "num_tokens": 9369935.0,
+      "step": 8460
+    },
+    {
+      "epoch": 1.7066290550070522,
+      "grad_norm": 10.125,
+      "learning_rate": 8.623816240177313e-06,
+      "loss": 0.8045,
+      "mean_token_accuracy": 0.8022239625453949,
+      "num_tokens": 9381204.0,
+      "step": 8470
+    },
+    {
+      "epoch": 1.7086439653435423,
+      "grad_norm": 11.9375,
+      "learning_rate": 8.610383504600712e-06,
+      "loss": 0.7834,
+      "mean_token_accuracy": 0.7945830345153808,
+      "num_tokens": 9391506.0,
+      "step": 8480
+    },
+    {
+      "epoch": 1.7106588756800323,
+      "grad_norm": 11.75,
+      "learning_rate": 8.596950769024112e-06,
+      "loss": 0.8079,
+      "mean_token_accuracy": 0.8012938261032104,
+      "num_tokens": 9402691.0,
+      "step": 8490
+    },
+    {
+      "epoch": 1.7126737860165222,
+      "grad_norm": 10.8125,
+      "learning_rate": 8.583518033447513e-06,
+      "loss": 0.8476,
+      "mean_token_accuracy": 0.7890658736228943,
+      "num_tokens": 9414095.0,
+      "step": 8500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1396175021686784e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null