Training in progress, step 7500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e99f98def5707de3be1588197fe5096482fac3f483b22d6d05ac701448ef1f6
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:445a128b149954e68d1af5a00630de0dc09e06cb78963d856ab9efe3a52157d9
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c36c51441c6a4e72e59a3d4e0e9b5b84bfb5e8d67b647194ab6c6bfde7983c0e
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:66488112339a052865703e73eb9d72b3f5f142ea84ea68d0b968dcf9eb080bb8
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:326c38bef4f14b97646caa84204f32859351159ff635853df88679a10264e29a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:88ec7f0fcbb8e83ac60a847dffeda029d1a65c084556d4707d85ad106bc04ba0
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4104372355430184,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6308,6 +6308,456 @@
       "mean_token_accuracy": 0.7988959193229676,
       "num_tokens": 7754571.0,
       "step": 7000
     }
   ],
   "logging_steps": 10,
@@ -6327,7 +6777,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9382261075611648.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5111827523675196,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7988959193229676,
       "num_tokens": 7754571.0,
       "step": 7000
+    },
+    {
+      "epoch": 1.4124521458795083,
+      "grad_norm": 12.5625,
+      "learning_rate": 1.0584995634360939e-05,
+      "loss": 0.8291,
+      "mean_token_accuracy": 0.7979937255382538,
+      "num_tokens": 7765407.0,
+      "step": 7010
+    },
+    {
+      "epoch": 1.4144670562159984,
+      "grad_norm": 11.0,
+      "learning_rate": 1.0571562898784338e-05,
+      "loss": 0.7867,
+      "mean_token_accuracy": 0.804653775691986,
+      "num_tokens": 7777508.0,
+      "step": 7020
+    },
+    {
+      "epoch": 1.4164819665524884,
+      "grad_norm": 12.5,
+      "learning_rate": 1.0558130163207738e-05,
+      "loss": 0.9272,
+      "mean_token_accuracy": 0.7761716663837432,
+      "num_tokens": 7789199.0,
+      "step": 7030
+    },
+    {
+      "epoch": 1.4184968768889785,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.0544697427631139e-05,
+      "loss": 0.8449,
+      "mean_token_accuracy": 0.7917571127414703,
+      "num_tokens": 7800709.0,
+      "step": 7040
+    },
+    {
+      "epoch": 1.4205117872254684,
+      "grad_norm": 13.0,
+      "learning_rate": 1.0531264692054538e-05,
+      "loss": 0.9143,
+      "mean_token_accuracy": 0.7804217040538788,
+      "num_tokens": 7813083.0,
+      "step": 7050
+    },
+    {
+      "epoch": 1.4225266975619584,
+      "grad_norm": 11.875,
+      "learning_rate": 1.0517831956477938e-05,
+      "loss": 0.8094,
+      "mean_token_accuracy": 0.8005238711833954,
+      "num_tokens": 7823896.0,
+      "step": 7060
+    },
+    {
+      "epoch": 1.4245416078984485,
+      "grad_norm": 11.9375,
+      "learning_rate": 1.0504399220901339e-05,
+      "loss": 0.773,
+      "mean_token_accuracy": 0.8118914902210236,
+      "num_tokens": 7834242.0,
+      "step": 7070
+    },
+    {
+      "epoch": 1.4265565182349387,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.0490966485324736e-05,
+      "loss": 0.8299,
+      "mean_token_accuracy": 0.7923681199550628,
+      "num_tokens": 7845550.0,
+      "step": 7080
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.0477533749748136e-05,
+      "loss": 0.8102,
+      "mean_token_accuracy": 0.7967373371124268,
+      "num_tokens": 7856319.0,
+      "step": 7090
+    },
+    {
+      "epoch": 1.4305863389079185,
+      "grad_norm": 11.9375,
+      "learning_rate": 1.0464101014171537e-05,
+      "loss": 0.9132,
+      "mean_token_accuracy": 0.7812554478645325,
+      "num_tokens": 7867021.0,
+      "step": 7100
+    },
+    {
+      "epoch": 1.4326012492444087,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.0450668278594937e-05,
+      "loss": 0.7123,
+      "mean_token_accuracy": 0.8167718529701233,
+      "num_tokens": 7877634.0,
+      "step": 7110
+    },
+    {
+      "epoch": 1.4346161595808986,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.0437235543018336e-05,
+      "loss": 0.8817,
+      "mean_token_accuracy": 0.7886090099811554,
+      "num_tokens": 7889170.0,
+      "step": 7120
+    },
+    {
+      "epoch": 1.4366310699173888,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.0423802807441737e-05,
+      "loss": 0.8589,
+      "mean_token_accuracy": 0.7861130595207214,
+      "num_tokens": 7899457.0,
+      "step": 7130
+    },
+    {
+      "epoch": 1.4386459802538787,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.0410370071865137e-05,
+      "loss": 0.9932,
+      "mean_token_accuracy": 0.7648563742637634,
+      "num_tokens": 7910678.0,
+      "step": 7140
+    },
+    {
+      "epoch": 1.4406608905903688,
+      "grad_norm": 10.0,
+      "learning_rate": 1.0396937336288534e-05,
+      "loss": 0.9069,
+      "mean_token_accuracy": 0.7735403776168823,
+      "num_tokens": 7922908.0,
+      "step": 7150
+    },
+    {
+      "epoch": 1.4426758009268588,
+      "grad_norm": 12.875,
+      "learning_rate": 1.0383504600711935e-05,
+      "loss": 0.8557,
+      "mean_token_accuracy": 0.7988546848297119,
+      "num_tokens": 7933362.0,
+      "step": 7160
+    },
+    {
+      "epoch": 1.4446907112633487,
+      "grad_norm": 12.625,
+      "learning_rate": 1.0370071865135335e-05,
+      "loss": 0.8692,
+      "mean_token_accuracy": 0.786381047964096,
+      "num_tokens": 7944561.0,
+      "step": 7170
+    },
+    {
+      "epoch": 1.4467056215998388,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.0356639129558736e-05,
+      "loss": 0.9052,
+      "mean_token_accuracy": 0.7769907891750336,
+      "num_tokens": 7955497.0,
+      "step": 7180
+    },
+    {
+      "epoch": 1.4487205319363288,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.0343206393982135e-05,
+      "loss": 0.8062,
+      "mean_token_accuracy": 0.7997641444206238,
+      "num_tokens": 7966168.0,
+      "step": 7190
+    },
+    {
+      "epoch": 1.450735442272819,
+      "grad_norm": 12.5,
+      "learning_rate": 1.0329773658405535e-05,
+      "loss": 0.8286,
+      "mean_token_accuracy": 0.8001461684703827,
+      "num_tokens": 7977058.0,
+      "step": 7200
+    },
+    {
+      "epoch": 1.4527503526093088,
+      "grad_norm": 11.25,
+      "learning_rate": 1.0316340922828936e-05,
+      "loss": 0.8228,
+      "mean_token_accuracy": 0.7994490921497345,
+      "num_tokens": 7987859.0,
+      "step": 7210
+    },
+    {
+      "epoch": 1.454765262945799,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.0302908187252335e-05,
+      "loss": 0.8172,
+      "mean_token_accuracy": 0.7964129328727723,
+      "num_tokens": 7999424.0,
+      "step": 7220
+    },
+    {
+      "epoch": 1.456780173282289,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.0289475451675735e-05,
+      "loss": 0.8538,
+      "mean_token_accuracy": 0.7890827238559723,
+      "num_tokens": 8011181.0,
+      "step": 7230
+    },
+    {
+      "epoch": 1.4587950836187789,
+      "grad_norm": 12.9375,
+      "learning_rate": 1.0276042716099136e-05,
+      "loss": 0.9005,
+      "mean_token_accuracy": 0.7845316469669342,
+      "num_tokens": 8021786.0,
+      "step": 7240
+    },
+    {
+      "epoch": 1.460809993955269,
+      "grad_norm": 12.0,
+      "learning_rate": 1.0262609980522533e-05,
+      "loss": 0.8514,
+      "mean_token_accuracy": 0.7937814593315125,
+      "num_tokens": 8033599.0,
+      "step": 7250
+    },
+    {
+      "epoch": 1.4628249042917592,
+      "grad_norm": 13.8125,
+      "learning_rate": 1.0249177244945933e-05,
+      "loss": 0.9692,
+      "mean_token_accuracy": 0.768017840385437,
+      "num_tokens": 8044948.0,
+      "step": 7260
+    },
+    {
+      "epoch": 1.464839814628249,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.0235744509369334e-05,
+      "loss": 0.8586,
+      "mean_token_accuracy": 0.7864105820655822,
+      "num_tokens": 8056601.0,
+      "step": 7270
+    },
+    {
+      "epoch": 1.466854724964739,
+      "grad_norm": 10.875,
+      "learning_rate": 1.0222311773792735e-05,
+      "loss": 0.7389,
+      "mean_token_accuracy": 0.8095929026603699,
+      "num_tokens": 8067564.0,
+      "step": 7280
+    },
+    {
+      "epoch": 1.4688696353012292,
+      "grad_norm": 10.75,
+      "learning_rate": 1.0208879038216133e-05,
+      "loss": 0.829,
+      "mean_token_accuracy": 0.7980533838272095,
+      "num_tokens": 8077900.0,
+      "step": 7290
+    },
+    {
+      "epoch": 1.470884545637719,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.0195446302639534e-05,
+      "loss": 0.783,
+      "mean_token_accuracy": 0.8065039277076721,
+      "num_tokens": 8088501.0,
+      "step": 7300
+    },
+    {
+      "epoch": 1.472899455974209,
+      "grad_norm": 10.375,
+      "learning_rate": 1.0182013567062934e-05,
+      "loss": 0.7907,
+      "mean_token_accuracy": 0.7920153796672821,
+      "num_tokens": 8099942.0,
+      "step": 7310
+    },
+    {
+      "epoch": 1.4749143663106992,
+      "grad_norm": 11.125,
+      "learning_rate": 1.0168580831486332e-05,
+      "loss": 0.8727,
+      "mean_token_accuracy": 0.7863239705562591,
+      "num_tokens": 8111532.0,
+      "step": 7320
+    },
+    {
+      "epoch": 1.4769292766471893,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.0155148095909732e-05,
+      "loss": 0.798,
+      "mean_token_accuracy": 0.8027134239673615,
+      "num_tokens": 8122335.0,
+      "step": 7330
+    },
+    {
+      "epoch": 1.4789441869836792,
+      "grad_norm": 13.9375,
+      "learning_rate": 1.0141715360333133e-05,
+      "loss": 0.7377,
+      "mean_token_accuracy": 0.8082942187786102,
+      "num_tokens": 8132604.0,
+      "step": 7340
+    },
+    {
+      "epoch": 1.4809590973201692,
+      "grad_norm": 11.5,
+      "learning_rate": 1.0128282624756533e-05,
+      "loss": 0.8337,
+      "mean_token_accuracy": 0.7979135930538177,
+      "num_tokens": 8143891.0,
+      "step": 7350
+    },
+    {
+      "epoch": 1.4829740076566593,
+      "grad_norm": 13.375,
+      "learning_rate": 1.0114849889179932e-05,
+      "loss": 0.9091,
+      "mean_token_accuracy": 0.7805217266082763,
+      "num_tokens": 8154184.0,
+      "step": 7360
+    },
+    {
+      "epoch": 1.4849889179931492,
+      "grad_norm": 9.875,
+      "learning_rate": 1.0101417153603332e-05,
+      "loss": 0.8451,
+      "mean_token_accuracy": 0.7925164818763732,
+      "num_tokens": 8165049.0,
+      "step": 7370
+    },
+    {
+      "epoch": 1.4870038283296394,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.0087984418026733e-05,
+      "loss": 0.8572,
+      "mean_token_accuracy": 0.7849507808685303,
+      "num_tokens": 8177037.0,
+      "step": 7380
+    },
+    {
+      "epoch": 1.4890187386661293,
+      "grad_norm": 10.875,
+      "learning_rate": 1.0074551682450132e-05,
+      "loss": 0.8239,
+      "mean_token_accuracy": 0.795056939125061,
+      "num_tokens": 8187440.0,
+      "step": 7390
+    },
+    {
+      "epoch": 1.4910336490026195,
+      "grad_norm": 10.0,
+      "learning_rate": 1.006111894687353e-05,
+      "loss": 0.8283,
+      "mean_token_accuracy": 0.7943599224090576,
+      "num_tokens": 8199890.0,
+      "step": 7400
+    },
+    {
+      "epoch": 1.4930485593391094,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.0047686211296931e-05,
+      "loss": 0.8196,
+      "mean_token_accuracy": 0.7991042912006379,
+      "num_tokens": 8211416.0,
+      "step": 7410
+    },
+    {
+      "epoch": 1.4950634696755993,
+      "grad_norm": 15.125,
+      "learning_rate": 1.003425347572033e-05,
+      "loss": 0.7576,
+      "mean_token_accuracy": 0.8098958432674408,
+      "num_tokens": 8221936.0,
+      "step": 7420
+    },
+    {
+      "epoch": 1.4970783800120895,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.002082074014373e-05,
+      "loss": 0.7949,
+      "mean_token_accuracy": 0.803859144449234,
+      "num_tokens": 8232684.0,
+      "step": 7430
+    },
+    {
+      "epoch": 1.4990932903485794,
+      "grad_norm": 12.5,
+      "learning_rate": 1.0007388004567131e-05,
+      "loss": 0.8918,
+      "mean_token_accuracy": 0.7786654233932495,
+      "num_tokens": 8244164.0,
+      "step": 7440
+    },
+    {
+      "epoch": 1.5011082006850696,
+      "grad_norm": 11.4375,
+      "learning_rate": 9.99395526899053e-06,
+      "loss": 0.9013,
+      "mean_token_accuracy": 0.7826810419559479,
+      "num_tokens": 8255935.0,
+      "step": 7450
+    },
+    {
+      "epoch": 1.5031231110215595,
+      "grad_norm": 11.4375,
+      "learning_rate": 9.98052253341393e-06,
+      "loss": 0.7827,
+      "mean_token_accuracy": 0.8083594501018524,
+      "num_tokens": 8267114.0,
+      "step": 7460
+    },
+    {
+      "epoch": 1.5051380213580496,
+      "grad_norm": 12.0,
+      "learning_rate": 9.967089797837331e-06,
+      "loss": 0.7499,
+      "mean_token_accuracy": 0.8060566544532776,
+      "num_tokens": 8277828.0,
+      "step": 7470
+    },
+    {
+      "epoch": 1.5071529316945396,
+      "grad_norm": 12.375,
+      "learning_rate": 9.95365706226073e-06,
+      "loss": 0.8611,
+      "mean_token_accuracy": 0.7861000895500183,
+      "num_tokens": 8289857.0,
+      "step": 7480
+    },
+    {
+      "epoch": 1.5091678420310295,
+      "grad_norm": 12.125,
+      "learning_rate": 9.94022432668413e-06,
+      "loss": 0.8669,
+      "mean_token_accuracy": 0.7892852067947388,
+      "num_tokens": 8300286.0,
+      "step": 7490
+    },
+    {
+      "epoch": 1.5111827523675196,
+      "grad_norm": 10.8125,
+      "learning_rate": 9.92679159110753e-06,
+      "loss": 0.7735,
+      "mean_token_accuracy": 0.8061196208000183,
+      "num_tokens": 8312344.0,
+      "step": 7500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.006244257019904e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null