Training in progress, step 9000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16ca55f673b3ad7e95262a9d0296f5d8f2b7edb92a87d108841a282630107b61
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ab362d2b3f9dedf1f0f43335f7b06eefee0b16e014fc83df80bc46c1b6044cf
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d62e7293944847d060dba9b65b5eb64216e79d1a688e81c3a95ed8977d7ce35
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:b116e5cf316372406a0b75f20675173ce00a1448ad26470e8baba7a28543337c
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3aeebf16be5d93156c95c5c47fce9ca30893837ac7097fcc26a2ec8d4dc9f51
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:553711fa7348e1460e8e11ff55c1e2ba08096c9266ea56894e269e1a647bd7f3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7126737860165222,
   "eval_steps": 500,
-  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7658,6 +7658,456 @@
       "mean_token_accuracy": 0.7890658736228943,
       "num_tokens": 9414095.0,
       "step": 8500
     }
   ],
   "logging_steps": 10,
@@ -7677,7 +8127,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1396175021686784e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8134193028410235,
   "eval_steps": 500,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7890658736228943,
       "num_tokens": 9414095.0,
       "step": 8500
+    },
+    {
+      "epoch": 1.7146886963530124,
+      "grad_norm": 10.6875,
+      "learning_rate": 8.570085297870913e-06,
+      "loss": 0.7469,
+      "mean_token_accuracy": 0.8128379642963409,
+      "num_tokens": 9425228.0,
+      "step": 8510
+    },
+    {
+      "epoch": 1.7167036066895023,
+      "grad_norm": 11.5625,
+      "learning_rate": 8.556652562294312e-06,
+      "loss": 0.8635,
+      "mean_token_accuracy": 0.7921235024929046,
+      "num_tokens": 9436032.0,
+      "step": 8520
+    },
+    {
+      "epoch": 1.7187185170259922,
+      "grad_norm": 11.5,
+      "learning_rate": 8.54321982671771e-06,
+      "loss": 0.888,
+      "mean_token_accuracy": 0.7825378775596619,
+      "num_tokens": 9447102.0,
+      "step": 8530
+    },
+    {
+      "epoch": 1.7207334273624824,
+      "grad_norm": 13.25,
+      "learning_rate": 8.529787091141111e-06,
+      "loss": 0.774,
+      "mean_token_accuracy": 0.809429943561554,
+      "num_tokens": 9456885.0,
+      "step": 8540
+    },
+    {
+      "epoch": 1.7227483376989725,
+      "grad_norm": 10.9375,
+      "learning_rate": 8.516354355564512e-06,
+      "loss": 0.8615,
+      "mean_token_accuracy": 0.7885714650154114,
+      "num_tokens": 9469044.0,
+      "step": 8550
+    },
+    {
+      "epoch": 1.7247632480354624,
+      "grad_norm": 11.75,
+      "learning_rate": 8.502921619987912e-06,
+      "loss": 0.844,
+      "mean_token_accuracy": 0.7914490044116974,
+      "num_tokens": 9480822.0,
+      "step": 8560
+    },
+    {
+      "epoch": 1.7267781583719524,
+      "grad_norm": 12.0,
+      "learning_rate": 8.489488884411311e-06,
+      "loss": 0.8777,
+      "mean_token_accuracy": 0.7846565127372742,
+      "num_tokens": 9491344.0,
+      "step": 8570
+    },
+    {
+      "epoch": 1.7287930687084425,
+      "grad_norm": 12.0,
+      "learning_rate": 8.47605614883471e-06,
+      "loss": 0.739,
+      "mean_token_accuracy": 0.8153780162334442,
+      "num_tokens": 9501669.0,
+      "step": 8580
+    },
+    {
+      "epoch": 1.7308079790449327,
+      "grad_norm": 12.25,
+      "learning_rate": 8.46262341325811e-06,
+      "loss": 0.8505,
+      "mean_token_accuracy": 0.7858089745044708,
+      "num_tokens": 9512619.0,
+      "step": 8590
+    },
+    {
+      "epoch": 1.7328228893814224,
+      "grad_norm": 11.0,
+      "learning_rate": 8.44919067768151e-06,
+      "loss": 0.9526,
+      "mean_token_accuracy": 0.7702113807201385,
+      "num_tokens": 9525285.0,
+      "step": 8600
+    },
+    {
+      "epoch": 1.7348377997179125,
+      "grad_norm": 12.3125,
+      "learning_rate": 8.43575794210491e-06,
+      "loss": 0.8298,
+      "mean_token_accuracy": 0.7936967372894287,
+      "num_tokens": 9536607.0,
+      "step": 8610
+    },
+    {
+      "epoch": 1.7368527100544027,
+      "grad_norm": 11.875,
+      "learning_rate": 8.42232520652831e-06,
+      "loss": 0.8394,
+      "mean_token_accuracy": 0.7899468779563904,
+      "num_tokens": 9547548.0,
+      "step": 8620
+    },
+    {
+      "epoch": 1.7388676203908926,
+      "grad_norm": 10.875,
+      "learning_rate": 8.40889247095171e-06,
+      "loss": 0.7908,
+      "mean_token_accuracy": 0.7996328830718994,
+      "num_tokens": 9559379.0,
+      "step": 8630
+    },
+    {
+      "epoch": 1.7408825307273825,
+      "grad_norm": 11.5,
+      "learning_rate": 8.39545973537511e-06,
+      "loss": 0.7211,
+      "mean_token_accuracy": 0.815495389699936,
+      "num_tokens": 9569522.0,
+      "step": 8640
+    },
+    {
+      "epoch": 1.7428974410638727,
+      "grad_norm": 13.4375,
+      "learning_rate": 8.382026999798509e-06,
+      "loss": 0.8985,
+      "mean_token_accuracy": 0.7802120566368103,
+      "num_tokens": 9580936.0,
+      "step": 8650
+    },
+    {
+      "epoch": 1.7449123514003628,
+      "grad_norm": 11.625,
+      "learning_rate": 8.36859426422191e-06,
+      "loss": 0.8709,
+      "mean_token_accuracy": 0.7891122341156006,
+      "num_tokens": 9592276.0,
+      "step": 8660
+    },
+    {
+      "epoch": 1.7469272617368528,
+      "grad_norm": 11.4375,
+      "learning_rate": 8.35516152864531e-06,
+      "loss": 0.8361,
+      "mean_token_accuracy": 0.7939860701560975,
+      "num_tokens": 9603087.0,
+      "step": 8670
+    },
+    {
+      "epoch": 1.7489421720733427,
+      "grad_norm": 10.75,
+      "learning_rate": 8.34172879306871e-06,
+      "loss": 0.7678,
+      "mean_token_accuracy": 0.8116808116436005,
+      "num_tokens": 9613559.0,
+      "step": 8680
+    },
+    {
+      "epoch": 1.7509570824098328,
+      "grad_norm": 11.6875,
+      "learning_rate": 8.328296057492109e-06,
+      "loss": 0.7728,
+      "mean_token_accuracy": 0.8031215369701385,
+      "num_tokens": 9625395.0,
+      "step": 8690
+    },
+    {
+      "epoch": 1.7529719927463228,
+      "grad_norm": 13.6875,
+      "learning_rate": 8.314863321915508e-06,
+      "loss": 0.7771,
+      "mean_token_accuracy": 0.802968579530716,
+      "num_tokens": 9636437.0,
+      "step": 8700
+    },
+    {
+      "epoch": 1.7549869030828127,
+      "grad_norm": 12.5,
+      "learning_rate": 8.301430586338909e-06,
+      "loss": 0.8337,
+      "mean_token_accuracy": 0.79465811252594,
+      "num_tokens": 9647693.0,
+      "step": 8710
+    },
+    {
+      "epoch": 1.7570018134193028,
+      "grad_norm": 12.375,
+      "learning_rate": 8.287997850762309e-06,
+      "loss": 0.9093,
+      "mean_token_accuracy": 0.7816155433654786,
+      "num_tokens": 9659058.0,
+      "step": 8720
+    },
+    {
+      "epoch": 1.759016723755793,
+      "grad_norm": 10.125,
+      "learning_rate": 8.274565115185708e-06,
+      "loss": 0.8053,
+      "mean_token_accuracy": 0.7992358326911926,
+      "num_tokens": 9671229.0,
+      "step": 8730
+    },
+    {
+      "epoch": 1.761031634092283,
+      "grad_norm": 13.1875,
+      "learning_rate": 8.261132379609108e-06,
+      "loss": 0.9656,
+      "mean_token_accuracy": 0.7700483322143554,
+      "num_tokens": 9682074.0,
+      "step": 8740
+    },
+    {
+      "epoch": 1.7630465444287728,
+      "grad_norm": 12.625,
+      "learning_rate": 8.247699644032507e-06,
+      "loss": 0.775,
+      "mean_token_accuracy": 0.8076685547828675,
+      "num_tokens": 9692580.0,
+      "step": 8750
+    },
+    {
+      "epoch": 1.765061454765263,
+      "grad_norm": 13.3125,
+      "learning_rate": 8.234266908455908e-06,
+      "loss": 0.7936,
+      "mean_token_accuracy": 0.8011666655540466,
+      "num_tokens": 9703690.0,
+      "step": 8760
+    },
+    {
+      "epoch": 1.767076365101753,
+      "grad_norm": 12.625,
+      "learning_rate": 8.220834172879307e-06,
+      "loss": 0.7932,
+      "mean_token_accuracy": 0.8000261068344117,
+      "num_tokens": 9715172.0,
+      "step": 8770
+    },
+    {
+      "epoch": 1.7690912754382428,
+      "grad_norm": 13.375,
+      "learning_rate": 8.207401437302707e-06,
+      "loss": 0.8277,
+      "mean_token_accuracy": 0.7993273079395294,
+      "num_tokens": 9726400.0,
+      "step": 8780
+    },
+    {
+      "epoch": 1.771106185774733,
+      "grad_norm": 14.9375,
+      "learning_rate": 8.193968701726108e-06,
+      "loss": 0.8041,
+      "mean_token_accuracy": 0.801609891653061,
+      "num_tokens": 9738233.0,
+      "step": 8790
+    },
+    {
+      "epoch": 1.7731210961112231,
+      "grad_norm": 13.5625,
+      "learning_rate": 8.180535966149506e-06,
+      "loss": 0.9014,
+      "mean_token_accuracy": 0.7815512001514435,
+      "num_tokens": 9749323.0,
+      "step": 8800
+    },
+    {
+      "epoch": 1.775136006447713,
+      "grad_norm": 10.5,
+      "learning_rate": 8.167103230572907e-06,
+      "loss": 0.7797,
+      "mean_token_accuracy": 0.7976033747196197,
+      "num_tokens": 9760814.0,
+      "step": 8810
+    },
+    {
+      "epoch": 1.777150916784203,
+      "grad_norm": 13.125,
+      "learning_rate": 8.153670494996306e-06,
+      "loss": 0.7727,
+      "mean_token_accuracy": 0.8090618014335632,
+      "num_tokens": 9771342.0,
+      "step": 8820
+    },
+    {
+      "epoch": 1.7791658271206932,
+      "grad_norm": 11.625,
+      "learning_rate": 8.140237759419706e-06,
+      "loss": 0.7791,
+      "mean_token_accuracy": 0.805637001991272,
+      "num_tokens": 9781975.0,
+      "step": 8830
+    },
+    {
+      "epoch": 1.7811807374571833,
+      "grad_norm": 12.0,
+      "learning_rate": 8.126805023843107e-06,
+      "loss": 0.7841,
+      "mean_token_accuracy": 0.8054970562458038,
+      "num_tokens": 9793656.0,
+      "step": 8840
+    },
+    {
+      "epoch": 1.7831956477936732,
+      "grad_norm": 10.4375,
+      "learning_rate": 8.113372288266507e-06,
+      "loss": 0.8201,
+      "mean_token_accuracy": 0.7929071843624115,
+      "num_tokens": 9804717.0,
+      "step": 8850
+    },
+    {
+      "epoch": 1.7852105581301632,
+      "grad_norm": 13.1875,
+      "learning_rate": 8.099939552689906e-06,
+      "loss": 0.8184,
+      "mean_token_accuracy": 0.7929362654685974,
+      "num_tokens": 9815462.0,
+      "step": 8860
+    },
+    {
+      "epoch": 1.7872254684666533,
+      "grad_norm": 10.5,
+      "learning_rate": 8.086506817113305e-06,
+      "loss": 0.8737,
+      "mean_token_accuracy": 0.7850127279758453,
+      "num_tokens": 9827212.0,
+      "step": 8870
+    },
+    {
+      "epoch": 1.7892403788031432,
+      "grad_norm": 9.5625,
+      "learning_rate": 8.073074081536706e-06,
+      "loss": 0.8605,
+      "mean_token_accuracy": 0.7867051362991333,
+      "num_tokens": 9839656.0,
+      "step": 8880
+    },
+    {
+      "epoch": 1.7912552891396332,
+      "grad_norm": 10.375,
+      "learning_rate": 8.059641345960104e-06,
+      "loss": 0.8143,
+      "mean_token_accuracy": 0.8001775145530701,
+      "num_tokens": 9851032.0,
+      "step": 8890
+    },
+    {
+      "epoch": 1.7932701994761233,
+      "grad_norm": 11.5625,
+      "learning_rate": 8.046208610383505e-06,
+      "loss": 0.8651,
+      "mean_token_accuracy": 0.7894278347492218,
+      "num_tokens": 9863136.0,
+      "step": 8900
+    },
+    {
+      "epoch": 1.7952851098126135,
+      "grad_norm": 11.1875,
+      "learning_rate": 8.032775874806906e-06,
+      "loss": 0.7915,
+      "mean_token_accuracy": 0.8040505468845367,
+      "num_tokens": 9874065.0,
+      "step": 8910
+    },
+    {
+      "epoch": 1.7973000201491034,
+      "grad_norm": 11.5,
+      "learning_rate": 8.019343139230304e-06,
+      "loss": 0.7863,
+      "mean_token_accuracy": 0.804164183139801,
+      "num_tokens": 9884180.0,
+      "step": 8920
+    },
+    {
+      "epoch": 1.7993149304855933,
+      "grad_norm": 12.1875,
+      "learning_rate": 8.005910403653705e-06,
+      "loss": 0.7998,
+      "mean_token_accuracy": 0.8023830056190491,
+      "num_tokens": 9893817.0,
+      "step": 8930
+    },
+    {
+      "epoch": 1.8013298408220835,
+      "grad_norm": 12.5,
+      "learning_rate": 7.992477668077104e-06,
+      "loss": 0.8189,
+      "mean_token_accuracy": 0.8001566708087922,
+      "num_tokens": 9904272.0,
+      "step": 8940
+    },
+    {
+      "epoch": 1.8033447511585734,
+      "grad_norm": 10.3125,
+      "learning_rate": 7.979044932500504e-06,
+      "loss": 0.8199,
+      "mean_token_accuracy": 0.79620281457901,
+      "num_tokens": 9915875.0,
+      "step": 8950
+    },
+    {
+      "epoch": 1.8053596614950633,
+      "grad_norm": 9.3125,
+      "learning_rate": 7.965612196923905e-06,
+      "loss": 0.8058,
+      "mean_token_accuracy": 0.7988872945308685,
+      "num_tokens": 9927434.0,
+      "step": 8960
+    },
+    {
+      "epoch": 1.8073745718315535,
+      "grad_norm": 16.5,
+      "learning_rate": 7.952179461347304e-06,
+      "loss": 0.8912,
+      "mean_token_accuracy": 0.785044139623642,
+      "num_tokens": 9936917.0,
+      "step": 8970
+    },
+    {
+      "epoch": 1.8093894821680436,
+      "grad_norm": 9.5,
+      "learning_rate": 7.938746725770704e-06,
+      "loss": 0.73,
+      "mean_token_accuracy": 0.8187473714351654,
+      "num_tokens": 9947903.0,
+      "step": 8980
+    },
+    {
+      "epoch": 1.8114043925045336,
+      "grad_norm": 10.5625,
+      "learning_rate": 7.925313990194103e-06,
+      "loss": 0.7863,
+      "mean_token_accuracy": 0.8035355567932129,
+      "num_tokens": 9957362.0,
+      "step": 8990
+    },
+    {
+      "epoch": 1.8134193028410235,
+      "grad_norm": 11.8125,
+      "learning_rate": 7.911881254617504e-06,
+      "loss": 0.9173,
+      "mean_token_accuracy": 0.7758583545684814,
+      "num_tokens": 9969639.0,
+      "step": 9000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2065001216479232e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null