Training in progress, step 4000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f96aaa5e97f3f83387afc0775efd5e922752a17138c7276a9efe7c9ff0bbeee
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:17ab6fbe9c97d82ef7dac860e0afd63f233555e8f23a9fd5286c2c92aa0de809
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:451881f3cab07a4e85e5f970801619f2d6aa94fada708d3b827ca3fafa636054
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2fdccc0924c16c14bbca889730272d2d9adcc2fdeb5cc2188b22634e6a65ba6
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cae1361ad95b650252f8194ff20a5669981349cd4f0f59f3528fb4497ea319b8
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b9d0e16227a53d102f718b321b6ebc380604ad5e862513fc6df0711cea1a67f
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7052186177715092,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3158,6 +3158,456 @@
       "mean_token_accuracy": 0.7891253709793091,
       "num_tokens": 3879065.0,
       "step": 3500
     }
   ],
   "logging_steps": 10,
@@ -3177,7 +3627,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4699418269335552.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8059641345960105,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7891253709793091,
       "num_tokens": 3879065.0,
       "step": 3500
+    },
+    {
+      "epoch": 0.7072335281079992,
+      "grad_norm": 12.25,
+      "learning_rate": 1.5286453086171e-05,
+      "loss": 1.021,
+      "mean_token_accuracy": 0.7534075140953064,
+      "num_tokens": 3890409.0,
+      "step": 3510
+    },
+    {
+      "epoch": 0.7092484384444893,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.52730203505944e-05,
+      "loss": 0.9314,
+      "mean_token_accuracy": 0.7765843331813812,
+      "num_tokens": 3902208.0,
+      "step": 3520
+    },
+    {
+      "epoch": 0.7112633487809793,
+      "grad_norm": 9.875,
+      "learning_rate": 1.52595876150178e-05,
+      "loss": 0.7786,
+      "mean_token_accuracy": 0.8059293925762177,
+      "num_tokens": 3913221.0,
+      "step": 3530
+    },
+    {
+      "epoch": 0.7132782591174692,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.52461548794412e-05,
+      "loss": 0.8675,
+      "mean_token_accuracy": 0.7885148406028748,
+      "num_tokens": 3923202.0,
+      "step": 3540
+    },
+    {
+      "epoch": 0.7152931694539593,
+      "grad_norm": 11.625,
+      "learning_rate": 1.52327221438646e-05,
+      "loss": 0.945,
+      "mean_token_accuracy": 0.7707227051258088,
+      "num_tokens": 3933469.0,
+      "step": 3550
+    },
+    {
+      "epoch": 0.7173080797904493,
+      "grad_norm": 11.75,
+      "learning_rate": 1.5219289408287999e-05,
+      "loss": 0.8829,
+      "mean_token_accuracy": 0.7817340910434722,
+      "num_tokens": 3944523.0,
+      "step": 3560
+    },
+    {
+      "epoch": 0.7193229901269393,
+      "grad_norm": 13.5625,
+      "learning_rate": 1.52058566727114e-05,
+      "loss": 0.9075,
+      "mean_token_accuracy": 0.7843019485473632,
+      "num_tokens": 3955650.0,
+      "step": 3570
+    },
+    {
+      "epoch": 0.7213379004634294,
+      "grad_norm": 11.25,
+      "learning_rate": 1.51924239371348e-05,
+      "loss": 0.9087,
+      "mean_token_accuracy": 0.7732051312923431,
+      "num_tokens": 3967014.0,
+      "step": 3580
+    },
+    {
+      "epoch": 0.7233528107999194,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.5178991201558197e-05,
+      "loss": 0.8595,
+      "mean_token_accuracy": 0.7891602039337158,
+      "num_tokens": 3977669.0,
+      "step": 3590
+    },
+    {
+      "epoch": 0.7253677211364095,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.5165558465981597e-05,
+      "loss": 0.8617,
+      "mean_token_accuracy": 0.7840434491634369,
+      "num_tokens": 3989279.0,
+      "step": 3600
+    },
+    {
+      "epoch": 0.7273826314728995,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.5152125730404998e-05,
+      "loss": 0.8872,
+      "mean_token_accuracy": 0.7797149956226349,
+      "num_tokens": 4000448.0,
+      "step": 3610
+    },
+    {
+      "epoch": 0.7293975418093894,
+      "grad_norm": 9.375,
+      "learning_rate": 1.5138692994828398e-05,
+      "loss": 0.8267,
+      "mean_token_accuracy": 0.7977706253528595,
+      "num_tokens": 4010787.0,
+      "step": 3620
+    },
+    {
+      "epoch": 0.7314124521458795,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.5125260259251797e-05,
+      "loss": 0.9227,
+      "mean_token_accuracy": 0.7788041710853577,
+      "num_tokens": 4021823.0,
+      "step": 3630
+    },
+    {
+      "epoch": 0.7334273624823695,
+      "grad_norm": 9.1875,
+      "learning_rate": 1.5111827523675198e-05,
+      "loss": 0.988,
+      "mean_token_accuracy": 0.7647354364395141,
+      "num_tokens": 4034278.0,
+      "step": 3640
+    },
+    {
+      "epoch": 0.7354422728188595,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.5098394788098598e-05,
+      "loss": 1.0355,
+      "mean_token_accuracy": 0.7544133722782135,
+      "num_tokens": 4045371.0,
+      "step": 3650
+    },
+    {
+      "epoch": 0.7374571831553496,
+      "grad_norm": 11.875,
+      "learning_rate": 1.5084962052521997e-05,
+      "loss": 0.8856,
+      "mean_token_accuracy": 0.7889864265918731,
+      "num_tokens": 4056216.0,
+      "step": 3660
+    },
+    {
+      "epoch": 0.7394720934918396,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.5071529316945398e-05,
+      "loss": 0.942,
+      "mean_token_accuracy": 0.7709968864917756,
+      "num_tokens": 4066100.0,
+      "step": 3670
+    },
+    {
+      "epoch": 0.7414870038283297,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.5058096581368798e-05,
+      "loss": 0.8474,
+      "mean_token_accuracy": 0.7917793452739715,
+      "num_tokens": 4076638.0,
+      "step": 3680
+    },
+    {
+      "epoch": 0.7435019141648197,
+      "grad_norm": 12.625,
+      "learning_rate": 1.5044663845792197e-05,
+      "loss": 0.8937,
+      "mean_token_accuracy": 0.779036569595337,
+      "num_tokens": 4088398.0,
+      "step": 3690
+    },
+    {
+      "epoch": 0.7455168245013097,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.5031231110215596e-05,
+      "loss": 0.9305,
+      "mean_token_accuracy": 0.7710303366184235,
+      "num_tokens": 4100854.0,
+      "step": 3700
+    },
+    {
+      "epoch": 0.7475317348377997,
+      "grad_norm": 10.375,
+      "learning_rate": 1.5017798374638996e-05,
+      "loss": 0.9195,
+      "mean_token_accuracy": 0.7792443215847016,
+      "num_tokens": 4113144.0,
+      "step": 3710
+    },
+    {
+      "epoch": 0.7495466451742897,
+      "grad_norm": 10.25,
+      "learning_rate": 1.5004365639062397e-05,
+      "loss": 0.8205,
+      "mean_token_accuracy": 0.8025223255157471,
+      "num_tokens": 4124241.0,
+      "step": 3720
+    },
+    {
+      "epoch": 0.7515615555107797,
+      "grad_norm": 13.375,
+      "learning_rate": 1.4990932903485796e-05,
+      "loss": 0.7566,
+      "mean_token_accuracy": 0.8099412024021149,
+      "num_tokens": 4134131.0,
+      "step": 3730
+    },
+    {
+      "epoch": 0.7535764658472698,
+      "grad_norm": 9.3125,
+      "learning_rate": 1.4977500167909196e-05,
+      "loss": 0.8882,
+      "mean_token_accuracy": 0.7791573405265808,
+      "num_tokens": 4144499.0,
+      "step": 3740
+    },
+    {
+      "epoch": 0.7555913761837598,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.4964067432332597e-05,
+      "loss": 0.8661,
+      "mean_token_accuracy": 0.7914558589458466,
+      "num_tokens": 4155442.0,
+      "step": 3750
+    },
+    {
+      "epoch": 0.7576062865202499,
+      "grad_norm": 13.5625,
+      "learning_rate": 1.4950634696755994e-05,
+      "loss": 0.8986,
+      "mean_token_accuracy": 0.7791661143302917,
+      "num_tokens": 4165905.0,
+      "step": 3760
+    },
+    {
+      "epoch": 0.7596211968567399,
+      "grad_norm": 10.875,
+      "learning_rate": 1.4937201961179395e-05,
+      "loss": 0.9857,
+      "mean_token_accuracy": 0.7646209299564362,
+      "num_tokens": 4177252.0,
+      "step": 3770
+    },
+    {
+      "epoch": 0.7616361071932299,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.4923769225602795e-05,
+      "loss": 0.8163,
+      "mean_token_accuracy": 0.8001804709434509,
+      "num_tokens": 4187603.0,
+      "step": 3780
+    },
+    {
+      "epoch": 0.76365101752972,
+      "grad_norm": 12.5625,
+      "learning_rate": 1.4910336490026196e-05,
+      "loss": 0.8719,
+      "mean_token_accuracy": 0.793983542919159,
+      "num_tokens": 4198158.0,
+      "step": 3790
+    },
+    {
+      "epoch": 0.7656659278662099,
+      "grad_norm": 11.625,
+      "learning_rate": 1.4896903754449594e-05,
+      "loss": 0.8003,
+      "mean_token_accuracy": 0.8059770345687867,
+      "num_tokens": 4209371.0,
+      "step": 3800
+    },
+    {
+      "epoch": 0.7676808382026999,
+      "grad_norm": 11.375,
+      "learning_rate": 1.4883471018872995e-05,
+      "loss": 0.8484,
+      "mean_token_accuracy": 0.791538542509079,
+      "num_tokens": 4220051.0,
+      "step": 3810
+    },
+    {
+      "epoch": 0.76969574853919,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.4870038283296395e-05,
+      "loss": 0.8216,
+      "mean_token_accuracy": 0.7945187032222748,
+      "num_tokens": 4230922.0,
+      "step": 3820
+    },
+    {
+      "epoch": 0.77171065887568,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.4856605547719794e-05,
+      "loss": 0.8319,
+      "mean_token_accuracy": 0.7939063310623169,
+      "num_tokens": 4242793.0,
+      "step": 3830
+    },
+    {
+      "epoch": 0.7737255692121701,
+      "grad_norm": 14.125,
+      "learning_rate": 1.4843172812143193e-05,
+      "loss": 0.8577,
+      "mean_token_accuracy": 0.7900285601615906,
+      "num_tokens": 4253881.0,
+      "step": 3840
+    },
+    {
+      "epoch": 0.7757404795486601,
+      "grad_norm": 10.875,
+      "learning_rate": 1.4829740076566594e-05,
+      "loss": 0.836,
+      "mean_token_accuracy": 0.7931070744991302,
+      "num_tokens": 4266304.0,
+      "step": 3850
+    },
+    {
+      "epoch": 0.7777553898851501,
+      "grad_norm": 11.125,
+      "learning_rate": 1.4816307340989994e-05,
+      "loss": 1.0042,
+      "mean_token_accuracy": 0.7616709470748901,
+      "num_tokens": 4276817.0,
+      "step": 3860
+    },
+    {
+      "epoch": 0.7797703002216402,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.4802874605413393e-05,
+      "loss": 0.7827,
+      "mean_token_accuracy": 0.8023504674434662,
+      "num_tokens": 4286833.0,
+      "step": 3870
+    },
+    {
+      "epoch": 0.7817852105581302,
+      "grad_norm": 12.125,
+      "learning_rate": 1.4789441869836794e-05,
+      "loss": 0.8489,
+      "mean_token_accuracy": 0.7849018990993499,
+      "num_tokens": 4297516.0,
+      "step": 3880
+    },
+    {
+      "epoch": 0.7838001208946201,
+      "grad_norm": 11.625,
+      "learning_rate": 1.4776009134260194e-05,
+      "loss": 0.8809,
+      "mean_token_accuracy": 0.7819288611412049,
+      "num_tokens": 4309049.0,
+      "step": 3890
+    },
+    {
+      "epoch": 0.7858150312311102,
+      "grad_norm": 10.625,
+      "learning_rate": 1.4762576398683593e-05,
+      "loss": 0.9198,
+      "mean_token_accuracy": 0.7767218172550201,
+      "num_tokens": 4320154.0,
+      "step": 3900
+    },
+    {
+      "epoch": 0.7878299415676002,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.4749143663106993e-05,
+      "loss": 0.9142,
+      "mean_token_accuracy": 0.7742327690124512,
+      "num_tokens": 4334166.0,
+      "step": 3910
+    },
+    {
+      "epoch": 0.7898448519040903,
+      "grad_norm": 16.0,
+      "learning_rate": 1.4735710927530394e-05,
+      "loss": 0.8259,
+      "mean_token_accuracy": 0.798123425245285,
+      "num_tokens": 4344500.0,
+      "step": 3920
+    },
+    {
+      "epoch": 0.7918597622405803,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.4722278191953791e-05,
+      "loss": 0.8897,
+      "mean_token_accuracy": 0.7863348364830017,
+      "num_tokens": 4355554.0,
+      "step": 3930
+    },
+    {
+      "epoch": 0.7938746725770703,
+      "grad_norm": 10.3125,
+      "learning_rate": 1.4708845456377192e-05,
+      "loss": 0.8904,
+      "mean_token_accuracy": 0.7880643427371978,
+      "num_tokens": 4365823.0,
+      "step": 3940
+    },
+    {
+      "epoch": 0.7958895829135604,
+      "grad_norm": 15.375,
+      "learning_rate": 1.4695412720800592e-05,
+      "loss": 0.8622,
+      "mean_token_accuracy": 0.7930482983589172,
+      "num_tokens": 4377033.0,
+      "step": 3950
+    },
+    {
+      "epoch": 0.7979044932500504,
+      "grad_norm": 11.75,
+      "learning_rate": 1.4681979985223993e-05,
+      "loss": 0.9426,
+      "mean_token_accuracy": 0.7710152387619018,
+      "num_tokens": 4387397.0,
+      "step": 3960
+    },
+    {
+      "epoch": 0.7999194035865403,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.4668547249647392e-05,
+      "loss": 0.8042,
+      "mean_token_accuracy": 0.8007622241973877,
+      "num_tokens": 4397683.0,
+      "step": 3970
+    },
+    {
+      "epoch": 0.8019343139230304,
+      "grad_norm": 9.75,
+      "learning_rate": 1.4655114514070792e-05,
+      "loss": 0.8862,
+      "mean_token_accuracy": 0.7830459952354432,
+      "num_tokens": 4408500.0,
+      "step": 3980
+    },
+    {
+      "epoch": 0.8039492242595204,
+      "grad_norm": 13.375,
+      "learning_rate": 1.4641681778494193e-05,
+      "loss": 0.9356,
+      "mean_token_accuracy": 0.7747329294681549,
+      "num_tokens": 4419148.0,
+      "step": 3990
+    },
+    {
+      "epoch": 0.8059641345960105,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.462824904291759e-05,
+      "loss": 0.9006,
+      "mean_token_accuracy": 0.7772108554840088,
+      "num_tokens": 4430041.0,
+      "step": 4000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5359648531077120.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null