{
  "best_global_step": 2360,
  "best_metric": 0.71119624376297,
  "best_model_checkpoint": "/mnt/shared-storage-user/zhangchenhao/work/LLaMA-Factory-own/LLaMA-Factory/saves/SFT_StepCount_all_with_plus_without_point_reasoning_optimized_no_prompt_answer80_point2p5/checkpoint-2360",
  "epoch": 3.0,
  "eval_steps": 295,
  "global_step": 3537,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004244031830238726,
      "grad_norm": 297.75304987581995,
      "learning_rate": 5.649717514124295e-07,
      "loss": 5.8629,
      "num_input_tokens_seen": 4530624,
      "step": 5,
      "train_runtime": 653.1761,
      "train_tokens_per_second": 6936.298
    },
    {
      "epoch": 0.008488063660477453,
      "grad_norm": 131.78345996041816,
      "learning_rate": 1.2711864406779662e-06,
      "loss": 4.6976,
      "num_input_tokens_seen": 9034496,
      "step": 10,
      "train_runtime": 1273.69,
      "train_tokens_per_second": 7093.167
    },
    {
      "epoch": 0.01273209549071618,
      "grad_norm": 41.38402483800692,
      "learning_rate": 1.977401129943503e-06,
      "loss": 3.047,
      "num_input_tokens_seen": 13435712,
      "step": 15,
      "train_runtime": 1887.0646,
      "train_tokens_per_second": 7119.9
    },
    {
      "epoch": 0.016976127320954906,
      "grad_norm": 30.090022612502594,
      "learning_rate": 2.6836158192090396e-06,
      "loss": 2.1792,
      "num_input_tokens_seen": 17831104,
      "step": 20,
      "train_runtime": 2539.5416,
      "train_tokens_per_second": 7021.387
    },
    {
      "epoch": 0.021220159151193633,
      "grad_norm": 10.507378327830093,
      "learning_rate": 3.3898305084745763e-06,
      "loss": 1.806,
      "num_input_tokens_seen": 22489280,
      "step": 25,
      "train_runtime": 3223.2496,
      "train_tokens_per_second": 6977.207
    },
    {
      "epoch": 0.02546419098143236,
      "grad_norm": 7.849105701004419,
      "learning_rate": 4.096045197740113e-06,
      "loss": 1.5334,
      "num_input_tokens_seen": 26938368,
      "step": 30,
      "train_runtime": 3838.47,
      "train_tokens_per_second": 7017.996
    },
    {
      "epoch": 0.029708222811671087,
      "grad_norm": 7.864574931572695,
      "learning_rate": 4.80225988700565e-06,
      "loss": 1.377,
      "num_input_tokens_seen": 31539968,
      "step": 35,
      "train_runtime": 4503.6915,
      "train_tokens_per_second": 7003.137
    },
    {
      "epoch": 0.03395225464190981,
      "grad_norm": 7.3747833148860025,
      "learning_rate": 5.508474576271187e-06,
      "loss": 1.3089,
      "num_input_tokens_seen": 35979392,
      "step": 40,
      "train_runtime": 5147.1318,
      "train_tokens_per_second": 6990.183
    },
    {
      "epoch": 0.03819628647214854,
      "grad_norm": 8.361663447491122,
      "learning_rate": 6.214689265536724e-06,
      "loss": 1.2385,
      "num_input_tokens_seen": 40533440,
      "step": 45,
      "train_runtime": 5799.5796,
      "train_tokens_per_second": 6989.031
    },
    {
      "epoch": 0.042440318302387266,
      "grad_norm": 7.700383821460495,
      "learning_rate": 6.92090395480226e-06,
      "loss": 1.1772,
      "num_input_tokens_seen": 45172288,
      "step": 50,
      "train_runtime": 6470.1331,
      "train_tokens_per_second": 6981.663
    },
    {
      "epoch": 0.04668435013262599,
      "grad_norm": 7.153074169274688,
      "learning_rate": 7.627118644067798e-06,
      "loss": 1.1281,
      "num_input_tokens_seen": 49855040,
      "step": 55,
      "train_runtime": 7138.9239,
      "train_tokens_per_second": 6983.551
    },
    {
      "epoch": 0.05092838196286472,
      "grad_norm": 5.863677860447595,
      "learning_rate": 8.333333333333334e-06,
      "loss": 1.0659,
      "num_input_tokens_seen": 54260032,
      "step": 60,
      "train_runtime": 7733.863,
      "train_tokens_per_second": 7015.903
    },
    {
      "epoch": 0.05517241379310345,
      "grad_norm": 5.211482731988629,
      "learning_rate": 9.039548022598871e-06,
      "loss": 0.992,
      "num_input_tokens_seen": 58804672,
      "step": 65,
      "train_runtime": 8385.1953,
      "train_tokens_per_second": 7012.916
    },
    {
      "epoch": 0.059416445623342175,
      "grad_norm": 3.0025030899721137,
      "learning_rate": 9.745762711864407e-06,
      "loss": 0.9647,
      "num_input_tokens_seen": 63162880,
      "step": 70,
      "train_runtime": 9001.3827,
      "train_tokens_per_second": 7017.02
    },
    {
      "epoch": 0.0636604774535809,
      "grad_norm": 1.999806623127411,
      "learning_rate": 1.0451977401129943e-05,
      "loss": 0.9392,
      "num_input_tokens_seen": 67642560,
      "step": 75,
      "train_runtime": 9659.9049,
      "train_tokens_per_second": 7002.404
    },
    {
      "epoch": 0.06790450928381962,
      "grad_norm": 2.1507559480146172,
      "learning_rate": 1.115819209039548e-05,
      "loss": 0.9183,
      "num_input_tokens_seen": 72091264,
      "step": 80,
      "train_runtime": 10244.6396,
      "train_tokens_per_second": 7036.974
    },
    {
      "epoch": 0.07214854111405836,
      "grad_norm": 2.2495505770555297,
      "learning_rate": 1.1864406779661018e-05,
      "loss": 0.9072,
      "num_input_tokens_seen": 76507136,
      "step": 85,
      "train_runtime": 10853.5827,
      "train_tokens_per_second": 7049.021
    },
    {
      "epoch": 0.07639257294429708,
      "grad_norm": 2.121224741489407,
      "learning_rate": 1.2570621468926556e-05,
      "loss": 0.9108,
      "num_input_tokens_seen": 80870400,
      "step": 90,
      "train_runtime": 11472.3492,
      "train_tokens_per_second": 7049.158
    },
    {
      "epoch": 0.08063660477453581,
      "grad_norm": 2.588502611123473,
      "learning_rate": 1.3276836158192092e-05,
      "loss": 0.8924,
      "num_input_tokens_seen": 85329024,
      "step": 95,
      "train_runtime": 12124.6375,
      "train_tokens_per_second": 7037.656
    },
    {
      "epoch": 0.08488063660477453,
      "grad_norm": 2.168204787290024,
      "learning_rate": 1.3983050847457627e-05,
      "loss": 0.9035,
      "num_input_tokens_seen": 89666944,
      "step": 100,
      "train_runtime": 12721.9573,
      "train_tokens_per_second": 7048.203
    },
    {
      "epoch": 0.08912466843501327,
      "grad_norm": 2.039908089915845,
      "learning_rate": 1.4689265536723165e-05,
      "loss": 0.8925,
      "num_input_tokens_seen": 94089920,
      "step": 105,
      "train_runtime": 13381.4037,
      "train_tokens_per_second": 7031.394
    },
    {
      "epoch": 0.09336870026525199,
      "grad_norm": 120.4758045680371,
      "learning_rate": 1.5395480225988703e-05,
      "loss": 0.909,
      "num_input_tokens_seen": 98437760,
      "step": 110,
      "train_runtime": 14013.3414,
      "train_tokens_per_second": 7024.574
    },
    {
      "epoch": 0.09761273209549072,
      "grad_norm": 1.953705157702643,
      "learning_rate": 1.6101694915254237e-05,
      "loss": 0.9098,
      "num_input_tokens_seen": 103115456,
      "step": 115,
      "train_runtime": 14689.3018,
      "train_tokens_per_second": 7019.766
    },
    {
      "epoch": 0.10185676392572944,
      "grad_norm": 1.548682015852324,
      "learning_rate": 1.6807909604519774e-05,
      "loss": 0.8787,
      "num_input_tokens_seen": 107696768,
      "step": 120,
      "train_runtime": 15307.4003,
      "train_tokens_per_second": 7035.601
    },
    {
      "epoch": 0.10610079575596817,
      "grad_norm": 1.4155432758105517,
      "learning_rate": 1.7514124293785312e-05,
      "loss": 0.8971,
      "num_input_tokens_seen": 112245632,
      "step": 125,
      "train_runtime": 15954.3044,
      "train_tokens_per_second": 7035.445
    },
    {
      "epoch": 0.1103448275862069,
      "grad_norm": 1.5268658891716769,
      "learning_rate": 1.8220338983050846e-05,
      "loss": 0.8735,
      "num_input_tokens_seen": 116619392,
      "step": 130,
      "train_runtime": 16586.124,
      "train_tokens_per_second": 7031.142
    },
    {
      "epoch": 0.11458885941644563,
      "grad_norm": 1.4550371590475242,
      "learning_rate": 1.8926553672316387e-05,
      "loss": 0.8871,
      "num_input_tokens_seen": 121198656,
      "step": 135,
      "train_runtime": 17239.014,
      "train_tokens_per_second": 7030.487
    },
    {
      "epoch": 0.11883289124668435,
      "grad_norm": 1.4816395671279814,
      "learning_rate": 1.963276836158192e-05,
      "loss": 0.8735,
      "num_input_tokens_seen": 125766592,
      "step": 140,
      "train_runtime": 17856.4497,
      "train_tokens_per_second": 7043.203
    },
    {
      "epoch": 0.12307692307692308,
      "grad_norm": 1.8562529667931933,
      "learning_rate": 2.033898305084746e-05,
      "loss": 0.8841,
      "num_input_tokens_seen": 130417216,
      "step": 145,
      "train_runtime": 18488.9056,
      "train_tokens_per_second": 7053.809
    },
    {
      "epoch": 0.1273209549071618,
      "grad_norm": 1.3288711166284626,
      "learning_rate": 2.1045197740112996e-05,
      "loss": 0.8847,
      "num_input_tokens_seen": 134684288,
      "step": 150,
      "train_runtime": 19070.7007,
      "train_tokens_per_second": 7062.367
    },
    {
      "epoch": 0.13156498673740052,
      "grad_norm": 1.716843857648477,
      "learning_rate": 2.175141242937853e-05,
      "loss": 0.8699,
      "num_input_tokens_seen": 139319872,
      "step": 155,
      "train_runtime": 19757.791,
      "train_tokens_per_second": 7051.389
    },
    {
      "epoch": 0.13580901856763924,
      "grad_norm": 2.015691688957,
      "learning_rate": 2.245762711864407e-05,
      "loss": 0.8707,
      "num_input_tokens_seen": 143717952,
      "step": 160,
      "train_runtime": 20371.2146,
      "train_tokens_per_second": 7054.953
    },
    {
      "epoch": 0.140053050397878,
      "grad_norm": 1.787168466261934,
      "learning_rate": 2.3163841807909606e-05,
      "loss": 0.8796,
      "num_input_tokens_seen": 148245632,
      "step": 165,
      "train_runtime": 21001.0169,
      "train_tokens_per_second": 7058.974
    },
    {
      "epoch": 0.1442970822281167,
      "grad_norm": 4.713178832164353,
      "learning_rate": 2.3870056497175143e-05,
      "loss": 0.8977,
      "num_input_tokens_seen": 152687296,
      "step": 170,
      "train_runtime": 21617.8243,
      "train_tokens_per_second": 7063.028
    },
    {
      "epoch": 0.14854111405835543,
      "grad_norm": 1.4590858301256864,
      "learning_rate": 2.457627118644068e-05,
      "loss": 0.8959,
      "num_input_tokens_seen": 157314368,
      "step": 175,
      "train_runtime": 22299.4419,
      "train_tokens_per_second": 7054.633
    },
    {
      "epoch": 0.15278514588859415,
      "grad_norm": 1.4882611183761851,
      "learning_rate": 2.5282485875706215e-05,
      "loss": 0.8729,
      "num_input_tokens_seen": 161815808,
      "step": 180,
      "train_runtime": 22965.2954,
      "train_tokens_per_second": 7046.102
    },
    {
      "epoch": 0.1570291777188329,
      "grad_norm": 1.2937684487451329,
      "learning_rate": 2.5988700564971752e-05,
      "loss": 0.8801,
      "num_input_tokens_seen": 166361792,
      "step": 185,
      "train_runtime": 23622.1066,
      "train_tokens_per_second": 7042.631
    },
    {
      "epoch": 0.16127320954907162,
      "grad_norm": 1.326371860515381,
      "learning_rate": 2.669491525423729e-05,
      "loss": 0.8837,
      "num_input_tokens_seen": 170963072,
      "step": 190,
      "train_runtime": 24288.8241,
      "train_tokens_per_second": 7038.755
    },
    {
      "epoch": 0.16551724137931034,
      "grad_norm": 1.3881050133378776,
      "learning_rate": 2.7401129943502824e-05,
      "loss": 0.8848,
      "num_input_tokens_seen": 175401600,
      "step": 195,
      "train_runtime": 24906.6505,
      "train_tokens_per_second": 7042.36
    },
    {
      "epoch": 0.16976127320954906,
      "grad_norm": 1.5698900690401176,
      "learning_rate": 2.8107344632768362e-05,
      "loss": 0.8687,
      "num_input_tokens_seen": 179779200,
      "step": 200,
      "train_runtime": 25515.4439,
      "train_tokens_per_second": 7045.897
    },
    {
      "epoch": 0.1740053050397878,
      "grad_norm": 1.4897036851687533,
      "learning_rate": 2.88135593220339e-05,
      "loss": 0.8782,
      "num_input_tokens_seen": 184224512,
      "step": 205,
      "train_runtime": 26153.0151,
      "train_tokens_per_second": 7044.102
    },
    {
      "epoch": 0.17824933687002653,
      "grad_norm": 1.82238111934615,
      "learning_rate": 2.951977401129944e-05,
      "loss": 0.8838,
      "num_input_tokens_seen": 188802432,
      "step": 210,
      "train_runtime": 26835.6565,
      "train_tokens_per_second": 7035.506
    },
    {
      "epoch": 0.18249336870026525,
      "grad_norm": 1.653089989083378,
      "learning_rate": 3.022598870056497e-05,
      "loss": 0.8724,
      "num_input_tokens_seen": 193510336,
      "step": 215,
      "train_runtime": 27522.5514,
      "train_tokens_per_second": 7030.974
    },
    {
      "epoch": 0.18673740053050397,
      "grad_norm": 1.4627059373154376,
      "learning_rate": 3.093220338983051e-05,
      "loss": 0.8649,
      "num_input_tokens_seen": 197993536,
      "step": 220,
      "train_runtime": 28129.6066,
      "train_tokens_per_second": 7038.617
    },
    {
      "epoch": 0.1909814323607427,
      "grad_norm": 1.247186929390262,
      "learning_rate": 3.1638418079096046e-05,
      "loss": 0.8707,
      "num_input_tokens_seen": 202834048,
      "step": 225,
      "train_runtime": 28804.0632,
      "train_tokens_per_second": 7041.855
    },
    {
      "epoch": 0.19522546419098144,
      "grad_norm": 1.5240142785161233,
      "learning_rate": 3.234463276836158e-05,
      "loss": 0.8686,
      "num_input_tokens_seen": 207360320,
      "step": 230,
      "train_runtime": 29445.3467,
      "train_tokens_per_second": 7042.21
    },
    {
      "epoch": 0.19946949602122016,
      "grad_norm": 1.186249792586507,
      "learning_rate": 3.305084745762712e-05,
      "loss": 0.8591,
      "num_input_tokens_seen": 211972800,
      "step": 235,
      "train_runtime": 30125.9512,
      "train_tokens_per_second": 7036.219
    },
    {
      "epoch": 0.20371352785145888,
      "grad_norm": 1.5311530250979444,
      "learning_rate": 3.375706214689266e-05,
      "loss": 0.88,
      "num_input_tokens_seen": 216741248,
      "step": 240,
      "train_runtime": 30816.4459,
      "train_tokens_per_second": 7033.298
    },
    {
      "epoch": 0.2079575596816976,
      "grad_norm": 1.0601153174356541,
      "learning_rate": 3.446327683615819e-05,
      "loss": 0.8828,
      "num_input_tokens_seen": 221190080,
      "step": 245,
      "train_runtime": 31439.204,
      "train_tokens_per_second": 7035.486
    },
    {
      "epoch": 0.21220159151193635,
      "grad_norm": 1.75722517567588,
      "learning_rate": 3.516949152542373e-05,
      "loss": 0.8921,
      "num_input_tokens_seen": 225847168,
      "step": 250,
      "train_runtime": 32147.0921,
      "train_tokens_per_second": 7025.431
    },
    {
      "epoch": 0.21644562334217507,
      "grad_norm": 2.0274303550036263,
      "learning_rate": 3.587570621468927e-05,
      "loss": 0.9012,
      "num_input_tokens_seen": 230582208,
      "step": 255,
      "train_runtime": 32842.8641,
      "train_tokens_per_second": 7020.77
    },
    {
      "epoch": 0.2206896551724138,
      "grad_norm": 1.9253331362655286,
      "learning_rate": 3.6581920903954806e-05,
      "loss": 0.8999,
      "num_input_tokens_seen": 235274688,
      "step": 260,
      "train_runtime": 33539.0669,
      "train_tokens_per_second": 7014.944
    },
    {
      "epoch": 0.2249336870026525,
      "grad_norm": 2.2082649940934975,
      "learning_rate": 3.728813559322034e-05,
      "loss": 0.9029,
      "num_input_tokens_seen": 239864000,
      "step": 265,
      "train_runtime": 34221.492,
      "train_tokens_per_second": 7009.163
    },
    {
      "epoch": 0.22917771883289126,
      "grad_norm": 1.452691571968028,
      "learning_rate": 3.799435028248588e-05,
      "loss": 0.9046,
      "num_input_tokens_seen": 244225344,
      "step": 270,
      "train_runtime": 34836.4135,
      "train_tokens_per_second": 7010.634
    },
    {
      "epoch": 0.23342175066312998,
      "grad_norm": 2.730577739346072,
      "learning_rate": 3.8700564971751415e-05,
      "loss": 0.8874,
      "num_input_tokens_seen": 248726272,
      "step": 275,
      "train_runtime": 35499.0341,
      "train_tokens_per_second": 7006.565
    },
    {
      "epoch": 0.2376657824933687,
      "grad_norm": 1.093231645373866,
      "learning_rate": 3.940677966101695e-05,
      "loss": 0.8809,
      "num_input_tokens_seen": 253245952,
      "step": 280,
      "train_runtime": 36135.7808,
      "train_tokens_per_second": 7008.177
    },
    {
      "epoch": 0.24190981432360742,
      "grad_norm": 1.307461678503626,
      "learning_rate": 4.011299435028249e-05,
      "loss": 0.8598,
      "num_input_tokens_seen": 257684480,
      "step": 285,
      "train_runtime": 36728.042,
      "train_tokens_per_second": 7016.015
    },
    {
      "epoch": 0.24615384615384617,
      "grad_norm": 1.2991784389959953,
      "learning_rate": 4.0819209039548024e-05,
      "loss": 0.8981,
      "num_input_tokens_seen": 262108992,
      "step": 290,
      "train_runtime": 37341.918,
      "train_tokens_per_second": 7019.163
    },
    {
      "epoch": 0.25039787798408486,
      "grad_norm": 1.4781716766460902,
      "learning_rate": 4.152542372881356e-05,
      "loss": 0.9007,
      "num_input_tokens_seen": 266677504,
      "step": 295,
      "train_runtime": 38006.4439,
      "train_tokens_per_second": 7016.639
    },
    {
      "epoch": 0.25039787798408486,
      "eval_loss": 0.8760802745819092,
      "eval_runtime": 1055.1289,
      "eval_samples_per_second": 2.888,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 266677504,
      "step": 295
    },
    {
      "epoch": 0.2546419098143236,
      "grad_norm": 1.3728608285035016,
      "learning_rate": 4.22316384180791e-05,
      "loss": 0.8857,
      "num_input_tokens_seen": 271486592,
      "step": 300,
      "train_runtime": 39774.4771,
      "train_tokens_per_second": 6825.648
    },
    {
      "epoch": 0.25888594164456236,
      "grad_norm": 1.3128466580163847,
      "learning_rate": 4.2937853107344634e-05,
      "loss": 1.0976,
      "num_input_tokens_seen": 276035072,
      "step": 305,
      "train_runtime": 40413.7335,
      "train_tokens_per_second": 6830.229
    },
    {
      "epoch": 0.26312997347480105,
      "grad_norm": 1.9380613988266078,
      "learning_rate": 4.3644067796610175e-05,
      "loss": 0.8879,
      "num_input_tokens_seen": 280424512,
      "step": 310,
      "train_runtime": 41016.3815,
      "train_tokens_per_second": 6836.891
    },
    {
      "epoch": 0.2673740053050398,
      "grad_norm": 1.7436380468280226,
      "learning_rate": 4.435028248587571e-05,
      "loss": 0.894,
      "num_input_tokens_seen": 284818432,
      "step": 315,
      "train_runtime": 41649.8882,
      "train_tokens_per_second": 6838.396
    },
    {
      "epoch": 0.2716180371352785,
      "grad_norm": 1.81753757832679,
      "learning_rate": 4.505649717514124e-05,
      "loss": 0.8883,
      "num_input_tokens_seen": 289399424,
      "step": 320,
      "train_runtime": 42320.1609,
      "train_tokens_per_second": 6838.335
    },
    {
      "epoch": 0.27586206896551724,
      "grad_norm": 0.9404537896048348,
      "learning_rate": 4.5762711864406784e-05,
      "loss": 0.9124,
      "num_input_tokens_seen": 293917312,
      "step": 325,
      "train_runtime": 42970.7229,
      "train_tokens_per_second": 6839.943
    },
    {
      "epoch": 0.280106100795756,
      "grad_norm": 2.947005859311638,
      "learning_rate": 4.646892655367232e-05,
      "loss": 0.8892,
      "num_input_tokens_seen": 298366272,
      "step": 330,
      "train_runtime": 43553.8539,
      "train_tokens_per_second": 6850.514
    },
    {
      "epoch": 0.2843501326259947,
      "grad_norm": 1.6174994735745432,
      "learning_rate": 4.717514124293785e-05,
      "loss": 0.8881,
      "num_input_tokens_seen": 302869952,
      "step": 335,
      "train_runtime": 44211.0204,
      "train_tokens_per_second": 6850.553
    },
    {
      "epoch": 0.2885941644562334,
      "grad_norm": 1.7792646072660459,
      "learning_rate": 4.788135593220339e-05,
      "loss": 0.8803,
      "num_input_tokens_seen": 307426560,
      "step": 340,
      "train_runtime": 44880.4175,
      "train_tokens_per_second": 6849.904
    },
    {
      "epoch": 0.2928381962864722,
      "grad_norm": 1.0669701860722622,
      "learning_rate": 4.8587570621468934e-05,
      "loss": 0.897,
      "num_input_tokens_seen": 312164928,
      "step": 345,
      "train_runtime": 45578.8582,
      "train_tokens_per_second": 6848.897
    },
    {
      "epoch": 0.29708222811671087,
      "grad_norm": 1.2083166811125388,
      "learning_rate": 4.929378531073446e-05,
      "loss": 0.9033,
      "num_input_tokens_seen": 316741824,
      "step": 350,
      "train_runtime": 46190.9574,
      "train_tokens_per_second": 6857.226
    },
    {
      "epoch": 0.3013262599469496,
      "grad_norm": 2.667811908170323,
      "learning_rate": 5e-05,
      "loss": 0.8758,
      "num_input_tokens_seen": 321123008,
      "step": 355,
      "train_runtime": 46809.8332,
      "train_tokens_per_second": 6860.161
    },
    {
      "epoch": 0.3055702917771883,
      "grad_norm": 1.5315598777999704,
      "learning_rate": 4.999969557829892e-05,
      "loss": 0.8975,
      "num_input_tokens_seen": 325636416,
      "step": 360,
      "train_runtime": 47466.7463,
      "train_tokens_per_second": 6860.306
    },
    {
      "epoch": 0.30981432360742706,
      "grad_norm": 1.0061504802501977,
      "learning_rate": 4.999878232060946e-05,
      "loss": 0.8919,
      "num_input_tokens_seen": 330217472,
      "step": 365,
      "train_runtime": 48143.739,
      "train_tokens_per_second": 6858.991
    },
    {
      "epoch": 0.3140583554376658,
      "grad_norm": 1.0691191893512106,
      "learning_rate": 4.999726024917288e-05,
      "loss": 0.8775,
      "num_input_tokens_seen": 334605888,
      "step": 370,
      "train_runtime": 48800.4766,
      "train_tokens_per_second": 6856.611
    },
    {
      "epoch": 0.3183023872679045,
      "grad_norm": 1.1646960467870506,
      "learning_rate": 4.99951294010573e-05,
      "loss": 0.8944,
      "num_input_tokens_seen": 339190016,
      "step": 375,
      "train_runtime": 49427.2381,
      "train_tokens_per_second": 6862.411
    },
    {
      "epoch": 0.32254641909814324,
      "grad_norm": 13.073420853243217,
      "learning_rate": 4.999238982815683e-05,
      "loss": 0.908,
      "num_input_tokens_seen": 343751808,
      "step": 380,
      "train_runtime": 50079.7525,
      "train_tokens_per_second": 6864.088
    },
    {
      "epoch": 0.32679045092838194,
      "grad_norm": 1.030515508528764,
      "learning_rate": 4.99890415971903e-05,
      "loss": 0.9207,
      "num_input_tokens_seen": 348170752,
      "step": 385,
      "train_runtime": 50717.2414,
      "train_tokens_per_second": 6864.939
    },
    {
      "epoch": 0.3310344827586207,
      "grad_norm": 2.462002678202629,
      "learning_rate": 4.9985084789699645e-05,
      "loss": 0.8857,
      "num_input_tokens_seen": 352658368,
      "step": 390,
      "train_runtime": 51341.856,
      "train_tokens_per_second": 6868.828
    },
    {
      "epoch": 0.33527851458885943,
      "grad_norm": 1.1178056520913622,
      "learning_rate": 4.998051950204792e-05,
      "loss": 0.8942,
      "num_input_tokens_seen": 357241472,
      "step": 395,
      "train_runtime": 51991.5243,
      "train_tokens_per_second": 6871.148
    },
    {
      "epoch": 0.3395225464190981,
      "grad_norm": 12.174478000037658,
      "learning_rate": 4.997534584541692e-05,
      "loss": 0.9033,
      "num_input_tokens_seen": 361706368,
      "step": 400,
      "train_runtime": 52622.4401,
      "train_tokens_per_second": 6873.615
    },
    {
      "epoch": 0.3437665782493369,
      "grad_norm": 1.3129250294672423,
      "learning_rate": 4.996956394580453e-05,
      "loss": 0.9534,
      "num_input_tokens_seen": 366301824,
      "step": 405,
      "train_runtime": 53287.8409,
      "train_tokens_per_second": 6874.023
    },
    {
      "epoch": 0.3480106100795756,
      "grad_norm": 1.2922663914137134,
      "learning_rate": 4.9963173944021604e-05,
      "loss": 0.907,
      "num_input_tokens_seen": 370813440,
      "step": 410,
      "train_runtime": 53932.276,
      "train_tokens_per_second": 6875.539
    },
    {
      "epoch": 0.3522546419098143,
      "grad_norm": 3.97037390684764,
      "learning_rate": 4.995617599568855e-05,
      "loss": 0.8908,
      "num_input_tokens_seen": 375343232,
      "step": 415,
      "train_runtime": 54587.718,
      "train_tokens_per_second": 6875.965
    },
    {
      "epoch": 0.35649867374005306,
      "grad_norm": 1.198328142782024,
      "learning_rate": 4.9948570271231553e-05,
      "loss": 0.8871,
      "num_input_tokens_seen": 379904000,
      "step": 420,
      "train_runtime": 55281.7215,
      "train_tokens_per_second": 6872.145
    },
    {
      "epoch": 0.36074270557029176,
      "grad_norm": 0.971040029995864,
      "learning_rate": 4.9940356955878436e-05,
      "loss": 0.883,
      "num_input_tokens_seen": 384479488,
      "step": 425,
      "train_runtime": 55946.6877,
      "train_tokens_per_second": 6872.248
    },
    {
      "epoch": 0.3649867374005305,
      "grad_norm": 1.1690338997234486,
      "learning_rate": 4.99315362496541e-05,
      "loss": 0.8915,
      "num_input_tokens_seen": 389250176,
      "step": 430,
      "train_runtime": 56652.1149,
      "train_tokens_per_second": 6870.885
    },
    {
      "epoch": 0.36923076923076925,
      "grad_norm": 1.33505203332503,
      "learning_rate": 4.9922108367375695e-05,
      "loss": 0.8924,
      "num_input_tokens_seen": 393810688,
      "step": 435,
      "train_runtime": 57300.4821,
      "train_tokens_per_second": 6872.729
    },
    {
      "epoch": 0.37347480106100794,
      "grad_norm": 1.049216620404627,
      "learning_rate": 4.991207353864739e-05,
      "loss": 0.8777,
      "num_input_tokens_seen": 398511168,
      "step": 440,
      "train_runtime": 57988.9682,
      "train_tokens_per_second": 6872.189
    },
    {
      "epoch": 0.3777188328912467,
      "grad_norm": 1.1473154938029155,
      "learning_rate": 4.9901432007854744e-05,
      "loss": 0.8633,
      "num_input_tokens_seen": 403089152,
      "step": 445,
      "train_runtime": 58633.6036,
      "train_tokens_per_second": 6874.712
    },
    {
      "epoch": 0.3819628647214854,
      "grad_norm": 1.4204892310138295,
      "learning_rate": 4.9890184034158794e-05,
      "loss": 0.8873,
      "num_input_tokens_seen": 407921792,
      "step": 450,
      "train_runtime": 59298.1247,
      "train_tokens_per_second": 6879.169
    },
    {
      "epoch": 0.38620689655172413,
      "grad_norm": 1.1936514251690153,
      "learning_rate": 4.987832989148973e-05,
      "loss": 0.8795,
      "num_input_tokens_seen": 412324096,
      "step": 455,
      "train_runtime": 59926.4345,
      "train_tokens_per_second": 6880.504
    },
    {
      "epoch": 0.3904509283819629,
      "grad_norm": 1.10287952418463,
      "learning_rate": 4.986586986854019e-05,
      "loss": 0.8606,
      "num_input_tokens_seen": 416742912,
      "step": 460,
      "train_runtime": 60568.403,
      "train_tokens_per_second": 6880.533
    },
    {
      "epoch": 0.3946949602122016,
      "grad_norm": 1.072213338502524,
      "learning_rate": 4.985280426875831e-05,
      "loss": 0.872,
      "num_input_tokens_seen": 421138880,
      "step": 465,
      "train_runtime": 61260.5252,
      "train_tokens_per_second": 6874.555
    },
    {
      "epoch": 0.3989389920424403,
      "grad_norm": 1.0219296197838135,
      "learning_rate": 4.983913341034026e-05,
      "loss": 0.8775,
      "num_input_tokens_seen": 425727936,
      "step": 470,
      "train_runtime": 61904.3467,
      "train_tokens_per_second": 6877.19
    },
    {
      "epoch": 0.40318302387267907,
      "grad_norm": 1.3843761799310907,
      "learning_rate": 4.98248576262225e-05,
      "loss": 0.8775,
      "num_input_tokens_seen": 430157696,
      "step": 475,
      "train_runtime": 62556.696,
      "train_tokens_per_second": 6876.285
    },
    {
      "epoch": 0.40742705570291776,
      "grad_norm": 1.1025487338096294,
      "learning_rate": 4.980997726407371e-05,
      "loss": 0.8504,
      "num_input_tokens_seen": 434654208,
      "step": 480,
      "train_runtime": 63190.0546,
      "train_tokens_per_second": 6878.522
    },
    {
      "epoch": 0.4116710875331565,
      "grad_norm": 1.2747087605024068,
      "learning_rate": 4.979449268628632e-05,
      "loss": 0.8666,
      "num_input_tokens_seen": 439274752,
      "step": 485,
      "train_runtime": 63846.4067,
      "train_tokens_per_second": 6880.18
    },
    {
      "epoch": 0.4159151193633952,
      "grad_norm": 1.1710609815467128,
      "learning_rate": 4.977840426996763e-05,
      "loss": 0.8805,
      "num_input_tokens_seen": 443719872,
      "step": 490,
      "train_runtime": 64497.93,
      "train_tokens_per_second": 6879.599
    },
    {
      "epoch": 0.42015915119363395,
      "grad_norm": 1.0097086187416695,
      "learning_rate": 4.97617124069307e-05,
      "loss": 0.8903,
      "num_input_tokens_seen": 448255296,
      "step": 495,
      "train_runtime": 65132.19,
      "train_tokens_per_second": 6882.239
    },
    {
      "epoch": 0.4244031830238727,
      "grad_norm": 37.867408485972554,
      "learning_rate": 4.974441750368476e-05,
      "loss": 0.8397,
      "num_input_tokens_seen": 452923520,
      "step": 500,
      "train_runtime": 65815.3494,
      "train_tokens_per_second": 6881.731
    },
    {
      "epoch": 0.4286472148541114,
      "grad_norm": 1.0330730902667171,
      "learning_rate": 4.97265199814253e-05,
      "loss": 0.8865,
      "num_input_tokens_seen": 457377280,
      "step": 505,
      "train_runtime": 66451.0204,
      "train_tokens_per_second": 6882.923
    },
    {
      "epoch": 0.43289124668435014,
      "grad_norm": 1.3051062489077976,
      "learning_rate": 4.9708020276023874e-05,
      "loss": 0.86,
      "num_input_tokens_seen": 461956224,
      "step": 510,
      "train_runtime": 67114.9924,
      "train_tokens_per_second": 6883.056
    },
    {
      "epoch": 0.43713527851458883,
      "grad_norm": 2.1187078081806012,
      "learning_rate": 4.968891883801742e-05,
      "loss": 0.8749,
      "num_input_tokens_seen": 466374976,
      "step": 515,
      "train_runtime": 67739.4567,
      "train_tokens_per_second": 6884.835
    },
    {
      "epoch": 0.4413793103448276,
      "grad_norm": 1.4438973622990432,
      "learning_rate": 4.966921613259731e-05,
      "loss": 0.871,
      "num_input_tokens_seen": 470742528,
      "step": 520,
      "train_runtime": 68365.462,
      "train_tokens_per_second": 6885.678
    },
    {
      "epoch": 0.44562334217506633,
      "grad_norm": 1.53355639196128,
      "learning_rate": 4.964891263959803e-05,
      "loss": 0.8369,
      "num_input_tokens_seen": 475324480,
      "step": 525,
      "train_runtime": 69025.3358,
      "train_tokens_per_second": 6886.232
    },
    {
      "epoch": 0.449867374005305,
      "grad_norm": 1.128289481595987,
      "learning_rate": 4.962800885348551e-05,
      "loss": 0.863,
      "num_input_tokens_seen": 479877312,
      "step": 530,
      "train_runtime": 69684.2916,
      "train_tokens_per_second": 6886.449
    },
    {
      "epoch": 0.45411140583554377,
      "grad_norm": 1.0503072430304274,
      "learning_rate": 4.960650528334502e-05,
      "loss": 0.8667,
      "num_input_tokens_seen": 484343232,
      "step": 535,
      "train_runtime": 70344.4784,
      "train_tokens_per_second": 6885.306
    },
    {
      "epoch": 0.4583554376657825,
      "grad_norm": 0.9545521304763791,
      "learning_rate": 4.958440245286884e-05,
      "loss": 0.8696,
      "num_input_tokens_seen": 488876416,
      "step": 540,
      "train_runtime": 70972.8212,
      "train_tokens_per_second": 6888.22
    },
    {
      "epoch": 0.4625994694960212,
      "grad_norm": 1.3295608584891012,
      "learning_rate": 4.956170090034346e-05,
      "loss": 0.8349,
      "num_input_tokens_seen": 493485888,
      "step": 545,
      "train_runtime": 71650.7674,
      "train_tokens_per_second": 6887.378
    },
    {
      "epoch": 0.46684350132625996,
      "grad_norm": 1.1735342027871698,
      "learning_rate": 4.953840117863652e-05,
      "loss": 0.8458,
      "num_input_tokens_seen": 498090432,
      "step": 550,
      "train_runtime": 72292.0675,
      "train_tokens_per_second": 6889.974
    },
    {
      "epoch": 0.47108753315649865,
      "grad_norm": 1.2695672366224662,
      "learning_rate": 4.951450385518328e-05,
      "loss": 0.8423,
      "num_input_tokens_seen": 502546368,
      "step": 555,
      "train_runtime": 72919.7187,
      "train_tokens_per_second": 6891.776
    },
    {
      "epoch": 0.4753315649867374,
      "grad_norm": 1.0194113412118773,
      "learning_rate": 4.9490009511972856e-05,
      "loss": 0.8536,
      "num_input_tokens_seen": 507353920,
      "step": 560,
      "train_runtime": 73610.9277,
      "train_tokens_per_second": 6892.372
    },
    {
      "epoch": 0.47957559681697615,
      "grad_norm": 1.0743184753428263,
      "learning_rate": 4.9464918745534e-05,
      "loss": 0.8325,
      "num_input_tokens_seen": 511882560,
      "step": 565,
      "train_runtime": 74223.3431,
      "train_tokens_per_second": 6896.517
    },
    {
      "epoch": 0.48381962864721484,
      "grad_norm": 1.1038161960566173,
      "learning_rate": 4.943923216692064e-05,
      "loss": 0.834,
      "num_input_tokens_seen": 516353792,
      "step": 570,
      "train_runtime": 74834.7805,
      "train_tokens_per_second": 6899.917
    },
    {
      "epoch": 0.4880636604774536,
      "grad_norm": 1.0619822713768314,
      "learning_rate": 4.941295040169692e-05,
      "loss": 0.8388,
      "num_input_tokens_seen": 520893376,
      "step": 575,
      "train_runtime": 75515.5945,
      "train_tokens_per_second": 6897.825
    },
    {
      "epoch": 0.49230769230769234,
      "grad_norm": 0.9968217355531681,
      "learning_rate": 4.938607408992201e-05,
      "loss": 0.8393,
      "num_input_tokens_seen": 525369600,
      "step": 580,
      "train_runtime": 76150.219,
      "train_tokens_per_second": 6899.121
    },
    {
      "epoch": 0.496551724137931,
      "grad_norm": 1.081156576705322,
      "learning_rate": 4.9358603886134516e-05,
      "loss": 0.8227,
      "num_input_tokens_seen": 529878080,
      "step": 585,
      "train_runtime": 76814.7653,
      "train_tokens_per_second": 6898.128
    },
    {
      "epoch": 0.5007957559681697,
      "grad_norm": 0.9811791489788025,
      "learning_rate": 4.9330540459336536e-05,
      "loss": 0.8409,
      "num_input_tokens_seen": 534499648,
      "step": 590,
      "train_runtime": 77463.1501,
      "train_tokens_per_second": 6900.051
    },
    {
      "epoch": 0.5007957559681697,
      "eval_loss": 0.8492689728736877,
      "eval_runtime": 1055.1977,
      "eval_samples_per_second": 2.888,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 534499648,
      "step": 590
    },
    {
      "epoch": 0.5050397877984085,
      "grad_norm": 1.0876099733444793,
      "learning_rate": 4.930188449297737e-05,
      "loss": 0.8384,
      "num_input_tokens_seen": 538899968,
      "step": 595,
      "train_runtime": 79158.0223,
      "train_tokens_per_second": 6807.901
    },
    {
      "epoch": 0.5092838196286472,
      "grad_norm": 0.999155054979559,
      "learning_rate": 4.927263668493683e-05,
      "loss": 0.8359,
      "num_input_tokens_seen": 543296704,
      "step": 600,
      "train_runtime": 79818.1806,
      "train_tokens_per_second": 6806.679
    },
    {
      "epoch": 0.5135278514588859,
      "grad_norm": 1.3228294516057693,
      "learning_rate": 4.924279774750835e-05,
      "loss": 0.8315,
      "num_input_tokens_seen": 548007296,
      "step": 605,
      "train_runtime": 80478.8962,
      "train_tokens_per_second": 6809.329
    },
    {
      "epoch": 0.5177718832891247,
      "grad_norm": 1.1178865175204313,
      "learning_rate": 4.9212368407381515e-05,
      "loss": 0.8577,
      "num_input_tokens_seen": 552534656,
      "step": 610,
      "train_runtime": 81169.77,
      "train_tokens_per_second": 6807.148
    },
    {
      "epoch": 0.5220159151193634,
      "grad_norm": 1.1717734488513787,
      "learning_rate": 4.9181349405624444e-05,
      "loss": 0.8449,
      "num_input_tokens_seen": 557040512,
      "step": 615,
      "train_runtime": 81818.0476,
      "train_tokens_per_second": 6808.284
    },
    {
      "epoch": 0.5262599469496021,
      "grad_norm": 1.281506485794031,
      "learning_rate": 4.9149741497665724e-05,
      "loss": 0.8236,
      "num_input_tokens_seen": 561632640,
      "step": 620,
      "train_runtime": 82448.1767,
      "train_tokens_per_second": 6811.947
    },
    {
      "epoch": 0.5305039787798409,
      "grad_norm": 1.2084706718767035,
      "learning_rate": 4.9117545453276016e-05,
      "loss": 0.8396,
      "num_input_tokens_seen": 566108032,
      "step": 625,
      "train_runtime": 83077.9364,
      "train_tokens_per_second": 6814.18
    },
    {
      "epoch": 0.5347480106100796,
      "grad_norm": 0.9983384620282137,
      "learning_rate": 4.908476205654926e-05,
      "loss": 0.8534,
      "num_input_tokens_seen": 570380992,
      "step": 630,
      "train_runtime": 83704.2336,
      "train_tokens_per_second": 6814.243
    },
    {
      "epoch": 0.5389920424403183,
      "grad_norm": 0.9073500421909143,
      "learning_rate": 4.905139210588367e-05,
      "loss": 0.8345,
      "num_input_tokens_seen": 574750656,
      "step": 635,
      "train_runtime": 84320.0888,
      "train_tokens_per_second": 6816.296
    },
    {
      "epoch": 0.543236074270557,
      "grad_norm": 0.8991742233452803,
      "learning_rate": 4.9017436413962214e-05,
      "loss": 0.8238,
      "num_input_tokens_seen": 579340672,
      "step": 640,
      "train_runtime": 84974.8594,
      "train_tokens_per_second": 6817.789
    },
    {
      "epoch": 0.5474801061007958,
      "grad_norm": 4.653712662762566,
      "learning_rate": 4.898289580773284e-05,
      "loss": 0.8246,
      "num_input_tokens_seen": 583953984,
      "step": 645,
      "train_runtime": 85620.5078,
      "train_tokens_per_second": 6820.258
    },
    {
      "epoch": 0.5517241379310345,
      "grad_norm": 1.2360522636755376,
      "learning_rate": 4.8947771128388375e-05,
      "loss": 0.8556,
      "num_input_tokens_seen": 588613760,
      "step": 650,
      "train_runtime": 86304.8212,
      "train_tokens_per_second": 6820.172
    },
    {
      "epoch": 0.5559681697612732,
      "grad_norm": 1.012520096736992,
      "learning_rate": 4.891206323134598e-05,
      "loss": 0.8536,
      "num_input_tokens_seen": 593383872,
      "step": 655,
      "train_runtime": 87061.5623,
      "train_tokens_per_second": 6815.681
    },
    {
      "epoch": 0.560212201591512,
      "grad_norm": 0.8267761442768032,
      "learning_rate": 4.887577298622635e-05,
      "loss": 0.8353,
      "num_input_tokens_seen": 597805376,
      "step": 660,
      "train_runtime": 87694.9854,
      "train_tokens_per_second": 6816.871
    },
    {
      "epoch": 0.5644562334217507,
      "grad_norm": 0.7725220551193656,
      "learning_rate": 4.883890127683255e-05,
      "loss": 0.8328,
      "num_input_tokens_seen": 602285312,
      "step": 665,
      "train_runtime": 88327.7078,
      "train_tokens_per_second": 6818.759
    },
    {
      "epoch": 0.5687002652519894,
      "grad_norm": 1.0161234053244246,
      "learning_rate": 4.8801449001128455e-05,
      "loss": 0.8292,
      "num_input_tokens_seen": 606832384,
      "step": 670,
      "train_runtime": 88954.121,
      "train_tokens_per_second": 6821.858
    },
    {
      "epoch": 0.5729442970822282,
      "grad_norm": 0.9710515463242312,
      "learning_rate": 4.87634170712169e-05,
      "loss": 0.8299,
      "num_input_tokens_seen": 611343936,
      "step": 675,
      "train_runtime": 89596.2203,
      "train_tokens_per_second": 6823.323
    },
    {
      "epoch": 0.5771883289124669,
      "grad_norm": 0.877400582973328,
      "learning_rate": 4.872480641331747e-05,
      "loss": 0.8233,
      "num_input_tokens_seen": 615967936,
      "step": 680,
      "train_runtime": 90249.7743,
      "train_tokens_per_second": 6825.147
    },
    {
      "epoch": 0.5814323607427055,
      "grad_norm": 1.088037474445821,
      "learning_rate": 4.868561796774394e-05,
      "loss": 0.834,
      "num_input_tokens_seen": 620611584,
      "step": 685,
      "train_runtime": 90936.5491,
      "train_tokens_per_second": 6824.666
    },
    {
      "epoch": 0.5856763925729443,
      "grad_norm": 1.1907419217852628,
      "learning_rate": 4.8645852688881355e-05,
      "loss": 0.8409,
      "num_input_tokens_seen": 624875392,
      "step": 690,
      "train_runtime": 91496.14,
      "train_tokens_per_second": 6829.527
    },
    {
      "epoch": 0.589920424403183,
      "grad_norm": 1.050185541897206,
      "learning_rate": 4.860551154516285e-05,
      "loss": 0.8312,
      "num_input_tokens_seen": 629393280,
      "step": 695,
      "train_runtime": 92108.2917,
      "train_tokens_per_second": 6833.188
    },
    {
      "epoch": 0.5941644562334217,
      "grad_norm": 1.010783386950393,
      "learning_rate": 4.856459551904597e-05,
      "loss": 0.8435,
      "num_input_tokens_seen": 633982080,
      "step": 700,
      "train_runtime": 92773.246,
      "train_tokens_per_second": 6833.674
    },
    {
      "epoch": 0.5984084880636604,
      "grad_norm": 0.8655815203324599,
      "learning_rate": 4.8523105606988835e-05,
      "loss": 0.8341,
      "num_input_tokens_seen": 638403328,
      "step": 705,
      "train_runtime": 93409.0451,
      "train_tokens_per_second": 6834.492
    },
    {
      "epoch": 0.6026525198938992,
      "grad_norm": 1.0223867573550975,
      "learning_rate": 4.84810428194258e-05,
      "loss": 0.8298,
      "num_input_tokens_seen": 643227008,
      "step": 710,
      "train_runtime": 94093.6295,
      "train_tokens_per_second": 6836.031
    },
    {
      "epoch": 0.6068965517241379,
      "grad_norm": 0.9038681896334841,
      "learning_rate": 4.8438408180742894e-05,
      "loss": 0.8236,
      "num_input_tokens_seen": 647670528,
      "step": 715,
      "train_runtime": 94754.1626,
      "train_tokens_per_second": 6835.273
    },
    {
      "epoch": 0.6111405835543766,
      "grad_norm": 0.8915747409475175,
      "learning_rate": 4.839520272925286e-05,
      "loss": 0.8321,
      "num_input_tokens_seen": 652249152,
      "step": 720,
      "train_runtime": 95432.8253,
      "train_tokens_per_second": 6834.642
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.97865694250563,
      "learning_rate": 4.835142751716986e-05,
      "loss": 0.8209,
      "num_input_tokens_seen": 656865472,
      "step": 725,
      "train_runtime": 96098.174,
      "train_tokens_per_second": 6835.359
    },
    {
      "epoch": 0.6196286472148541,
      "grad_norm": 1.059303689963251,
      "learning_rate": 4.8307083610583846e-05,
      "loss": 0.8402,
      "num_input_tokens_seen": 661394048,
      "step": 730,
      "train_runtime": 96740.313,
      "train_tokens_per_second": 6836.799
    },
    {
      "epoch": 0.6238726790450928,
      "grad_norm": 1.0997482317899427,
      "learning_rate": 4.8262172089434635e-05,
      "loss": 0.8172,
      "num_input_tokens_seen": 666086336,
      "step": 735,
      "train_runtime": 97449.6172,
      "train_tokens_per_second": 6835.187
    },
    {
      "epoch": 0.6281167108753316,
      "grad_norm": 1.0533663604386134,
      "learning_rate": 4.8216694047485554e-05,
      "loss": 0.8044,
      "num_input_tokens_seen": 670654912,
      "step": 740,
      "train_runtime": 98101.755,
      "train_tokens_per_second": 6836.319
    },
    {
      "epoch": 0.6323607427055703,
      "grad_norm": 0.9308590706085377,
      "learning_rate": 4.817065059229682e-05,
      "loss": 0.8285,
      "num_input_tokens_seen": 675148480,
      "step": 745,
      "train_runtime": 98698.5544,
      "train_tokens_per_second": 6840.51
    },
    {
      "epoch": 0.636604774535809,
      "grad_norm": 1.3308817219838736,
      "learning_rate": 4.812404284519861e-05,
      "loss": 0.8158,
      "num_input_tokens_seen": 679716288,
      "step": 750,
      "train_runtime": 99373.7407,
      "train_tokens_per_second": 6839.999
    },
    {
      "epoch": 0.6408488063660478,
      "grad_norm": 0.9405621214215828,
      "learning_rate": 4.8076871941263676e-05,
      "loss": 0.8149,
      "num_input_tokens_seen": 684227584,
      "step": 755,
      "train_runtime": 100016.4536,
      "train_tokens_per_second": 6841.15
    },
    {
      "epoch": 0.6450928381962865,
      "grad_norm": 0.8872116598330962,
      "learning_rate": 4.8029139029279785e-05,
      "loss": 0.826,
      "num_input_tokens_seen": 688566720,
      "step": 760,
      "train_runtime": 100660.3191,
      "train_tokens_per_second": 6840.498
    },
    {
      "epoch": 0.6493368700265252,
      "grad_norm": 0.9148948434386133,
      "learning_rate": 4.798084527172167e-05,
      "loss": 0.8166,
      "num_input_tokens_seen": 693048704,
      "step": 765,
      "train_runtime": 101289.7336,
      "train_tokens_per_second": 6842.24
    },
    {
      "epoch": 0.6535809018567639,
      "grad_norm": 1.0036481967491233,
      "learning_rate": 4.793199184472274e-05,
      "loss": 0.7923,
      "num_input_tokens_seen": 697787008,
      "step": 770,
      "train_runtime": 101976.2461,
      "train_tokens_per_second": 6842.643
    },
    {
      "epoch": 0.6578249336870027,
      "grad_norm": 1.2742858954042269,
      "learning_rate": 4.7882579938046485e-05,
      "loss": 0.8215,
      "num_input_tokens_seen": 702239936,
      "step": 775,
      "train_runtime": 102610.041,
      "train_tokens_per_second": 6843.774
    },
    {
      "epoch": 0.6620689655172414,
      "grad_norm": 0.8006816309417074,
      "learning_rate": 4.783261075505743e-05,
      "loss": 0.8246,
      "num_input_tokens_seen": 706860352,
      "step": 780,
      "train_runtime": 103308.8254,
      "train_tokens_per_second": 6842.207
    },
    {
      "epoch": 0.6663129973474801,
      "grad_norm": 0.965961260253803,
      "learning_rate": 4.7782085512691875e-05,
      "loss": 0.8038,
      "num_input_tokens_seen": 711270720,
      "step": 785,
      "train_runtime": 103950.3781,
      "train_tokens_per_second": 6842.406
    },
    {
      "epoch": 0.6705570291777189,
      "grad_norm": 1.0034852088994206,
      "learning_rate": 4.7731005441428233e-05,
      "loss": 0.8138,
      "num_input_tokens_seen": 715836544,
      "step": 790,
      "train_runtime": 104619.9901,
      "train_tokens_per_second": 6842.254
    },
    {
      "epoch": 0.6748010610079576,
      "grad_norm": 1.0147223046467029,
      "learning_rate": 4.767937178525709e-05,
      "loss": 0.8025,
      "num_input_tokens_seen": 720186176,
      "step": 795,
      "train_runtime": 105243.2657,
      "train_tokens_per_second": 6843.062
    },
    {
      "epoch": 0.6790450928381963,
      "grad_norm": 0.926457311442124,
      "learning_rate": 4.7627185801650856e-05,
      "loss": 0.7936,
      "num_input_tokens_seen": 724606016,
      "step": 800,
      "train_runtime": 105887.5277,
      "train_tokens_per_second": 6843.167
    },
    {
      "epoch": 0.683289124668435,
      "grad_norm": 0.8015225346610259,
      "learning_rate": 4.757444876153323e-05,
      "loss": 0.8111,
      "num_input_tokens_seen": 729128640,
      "step": 805,
      "train_runtime": 106518.7609,
      "train_tokens_per_second": 6845.072
    },
    {
      "epoch": 0.6875331564986737,
      "grad_norm": 0.9590554887765099,
      "learning_rate": 4.752116194924816e-05,
      "loss": 0.817,
      "num_input_tokens_seen": 733513856,
      "step": 810,
      "train_runtime": 107154.5457,
      "train_tokens_per_second": 6845.383
    },
    {
      "epoch": 0.6917771883289124,
      "grad_norm": 1.252406369714219,
      "learning_rate": 4.746732666252861e-05,
      "loss": 0.8036,
      "num_input_tokens_seen": 737837376,
      "step": 815,
      "train_runtime": 107786.6851,
      "train_tokens_per_second": 6845.348
    },
    {
      "epoch": 0.6960212201591512,
      "grad_norm": 1.1913694647387847,
      "learning_rate": 4.7412944212464935e-05,
      "loss": 0.8184,
      "num_input_tokens_seen": 742147072,
      "step": 820,
      "train_runtime": 108401.4826,
      "train_tokens_per_second": 6846.282
    },
    {
      "epoch": 0.7002652519893899,
      "grad_norm": 0.9763850021800689,
      "learning_rate": 4.7358015923472986e-05,
      "loss": 0.8044,
      "num_input_tokens_seen": 747045952,
      "step": 825,
      "train_runtime": 109094.785,
      "train_tokens_per_second": 6847.678
    },
    {
      "epoch": 0.7045092838196286,
      "grad_norm": 0.9052886472757133,
      "learning_rate": 4.730254313326181e-05,
      "loss": 0.8081,
      "num_input_tokens_seen": 751393984,
      "step": 830,
      "train_runtime": 109732.5528,
      "train_tokens_per_second": 6847.503
    },
    {
      "epoch": 0.7087533156498673,
      "grad_norm": 0.8281556672805458,
      "learning_rate": 4.724652719280111e-05,
      "loss": 0.7982,
      "num_input_tokens_seen": 756075328,
      "step": 835,
      "train_runtime": 110411.1601,
      "train_tokens_per_second": 6847.816
    },
    {
      "epoch": 0.7129973474801061,
      "grad_norm": 0.971171145956504,
      "learning_rate": 4.718996946628829e-05,
      "loss": 0.7825,
      "num_input_tokens_seen": 760528320,
      "step": 840,
      "train_runtime": 111055.3652,
      "train_tokens_per_second": 6848.191
    },
    {
      "epoch": 0.7172413793103448,
      "grad_norm": 0.9931373968227002,
      "learning_rate": 4.713287133111533e-05,
      "loss": 0.8096,
      "num_input_tokens_seen": 765244928,
      "step": 845,
      "train_runtime": 111727.8513,
      "train_tokens_per_second": 6849.187
    },
    {
      "epoch": 0.7214854111405835,
      "grad_norm": 1.2834237882216515,
      "learning_rate": 4.707523417783511e-05,
      "loss": 0.7948,
      "num_input_tokens_seen": 769642624,
      "step": 850,
      "train_runtime": 112389.6421,
      "train_tokens_per_second": 6847.985
    },
    {
      "epoch": 0.7257294429708223,
      "grad_norm": 0.8486465229852926,
      "learning_rate": 4.701705941012767e-05,
      "loss": 0.8044,
      "num_input_tokens_seen": 774147136,
      "step": 855,
      "train_runtime": 113005.1043,
      "train_tokens_per_second": 6850.55
    },
    {
      "epoch": 0.729973474801061,
      "grad_norm": 0.7791940973514704,
      "learning_rate": 4.6958348444765954e-05,
      "loss": 0.7998,
      "num_input_tokens_seen": 778752064,
      "step": 860,
      "train_runtime": 113685.5974,
      "train_tokens_per_second": 6850.05
    },
    {
      "epoch": 0.7342175066312997,
      "grad_norm": 1.1164402590095137,
      "learning_rate": 4.689910271158131e-05,
      "loss": 0.8177,
      "num_input_tokens_seen": 783091968,
      "step": 865,
      "train_runtime": 114295.4264,
      "train_tokens_per_second": 6851.472
    },
    {
      "epoch": 0.7384615384615385,
      "grad_norm": 0.9094005817671243,
      "learning_rate": 4.6839323653428693e-05,
      "loss": 0.8154,
      "num_input_tokens_seen": 787572544,
      "step": 870,
      "train_runtime": 114937.7188,
      "train_tokens_per_second": 6852.168
    },
    {
      "epoch": 0.7427055702917772,
      "grad_norm": 1.0703160970060077,
      "learning_rate": 4.677901272615149e-05,
      "loss": 0.8013,
      "num_input_tokens_seen": 791977152,
      "step": 875,
      "train_runtime": 115587.8811,
      "train_tokens_per_second": 6851.732
    },
    {
      "epoch": 0.7469496021220159,
      "grad_norm": 0.749724050960587,
      "learning_rate": 4.6718171398546136e-05,
      "loss": 0.7849,
      "num_input_tokens_seen": 796372864,
      "step": 880,
      "train_runtime": 116239.6888,
      "train_tokens_per_second": 6851.127
    },
    {
      "epoch": 0.7511936339522547,
      "grad_norm": 0.8931070149936695,
      "learning_rate": 4.6656801152326244e-05,
      "loss": 0.7947,
      "num_input_tokens_seen": 800903424,
      "step": 885,
      "train_runtime": 116882.2446,
      "train_tokens_per_second": 6852.225
    },
    {
      "epoch": 0.7511936339522547,
      "eval_loss": 0.8023512363433838,
      "eval_runtime": 1055.9576,
      "eval_samples_per_second": 2.886,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 800903424,
      "step": 885
    },
    {
      "epoch": 0.7554376657824934,
      "grad_norm": 0.8326667759990252,
      "learning_rate": 4.6594903482086605e-05,
      "loss": 0.7865,
      "num_input_tokens_seen": 805358784,
      "step": 890,
      "train_runtime": 118552.9366,
      "train_tokens_per_second": 6793.242
    },
    {
      "epoch": 0.7596816976127321,
      "grad_norm": 0.8171872300696933,
      "learning_rate": 4.653247989526675e-05,
      "loss": 0.811,
      "num_input_tokens_seen": 809917248,
      "step": 895,
      "train_runtime": 119241.0553,
      "train_tokens_per_second": 6792.268
    },
    {
      "epoch": 0.7639257294429708,
      "grad_norm": 0.9066917659881738,
      "learning_rate": 4.646953191211422e-05,
      "loss": 0.7936,
      "num_input_tokens_seen": 814265600,
      "step": 900,
      "train_runtime": 119851.6659,
      "train_tokens_per_second": 6793.945
    },
    {
      "epoch": 0.7681697612732096,
      "grad_norm": 0.9338261305365108,
      "learning_rate": 4.640606106564759e-05,
      "loss": 0.8104,
      "num_input_tokens_seen": 818678144,
      "step": 905,
      "train_runtime": 120471.0976,
      "train_tokens_per_second": 6795.639
    },
    {
      "epoch": 0.7724137931034483,
      "grad_norm": 0.8719603501589874,
      "learning_rate": 4.6342068901619115e-05,
      "loss": 0.7913,
      "num_input_tokens_seen": 823195328,
      "step": 910,
      "train_runtime": 121127.4303,
      "train_tokens_per_second": 6796.11
    },
    {
      "epoch": 0.776657824933687,
      "grad_norm": 1.0213034444078577,
      "learning_rate": 4.6277556978477063e-05,
      "loss": 0.8081,
      "num_input_tokens_seen": 827899840,
      "step": 915,
      "train_runtime": 121853.2081,
      "train_tokens_per_second": 6794.239
    },
    {
      "epoch": 0.7809018567639258,
      "grad_norm": 1.0336867967280456,
      "learning_rate": 4.6212526867327785e-05,
      "loss": 0.8118,
      "num_input_tokens_seen": 832394688,
      "step": 920,
      "train_runtime": 122480.5431,
      "train_tokens_per_second": 6796.138
    },
    {
      "epoch": 0.7851458885941645,
      "grad_norm": 1.0694313116089975,
      "learning_rate": 4.614698015189744e-05,
      "loss": 0.8067,
      "num_input_tokens_seen": 837091072,
      "step": 925,
      "train_runtime": 123144.408,
      "train_tokens_per_second": 6797.638
    },
    {
      "epoch": 0.7893899204244031,
      "grad_norm": 0.9268002608848666,
      "learning_rate": 4.6080918428493447e-05,
      "loss": 0.7948,
      "num_input_tokens_seen": 841442112,
      "step": 930,
      "train_runtime": 123780.7152,
      "train_tokens_per_second": 6797.845
    },
    {
      "epoch": 0.793633952254642,
      "grad_norm": 0.9823980696238214,
      "learning_rate": 4.601434330596557e-05,
      "loss": 0.7926,
      "num_input_tokens_seen": 845885504,
      "step": 935,
      "train_runtime": 124463.32,
      "train_tokens_per_second": 6796.263
    },
    {
      "epoch": 0.7978779840848806,
      "grad_norm": 1.0766192496117053,
      "learning_rate": 4.594725640566679e-05,
      "loss": 0.8019,
      "num_input_tokens_seen": 850419456,
      "step": 940,
      "train_runtime": 125130.694,
      "train_tokens_per_second": 6796.25
    },
    {
      "epoch": 0.8021220159151193,
      "grad_norm": 1.0293248834632993,
      "learning_rate": 4.5879659361413754e-05,
      "loss": 0.8065,
      "num_input_tokens_seen": 854885120,
      "step": 945,
      "train_runtime": 125769.8721,
      "train_tokens_per_second": 6797.217
    },
    {
      "epoch": 0.8063660477453581,
      "grad_norm": 1.0089948918046479,
      "learning_rate": 4.581155381944705e-05,
      "loss": 0.8084,
      "num_input_tokens_seen": 859518400,
      "step": 950,
      "train_runtime": 126468.1103,
      "train_tokens_per_second": 6796.325
    },
    {
      "epoch": 0.8106100795755968,
      "grad_norm": 0.9051441031845476,
      "learning_rate": 4.574294143839107e-05,
      "loss": 0.7832,
      "num_input_tokens_seen": 863890816,
      "step": 955,
      "train_runtime": 127085.4612,
      "train_tokens_per_second": 6797.716
    },
    {
      "epoch": 0.8148541114058355,
      "grad_norm": 0.8826069009760195,
      "learning_rate": 4.567382388921363e-05,
      "loss": 0.8055,
      "num_input_tokens_seen": 868430208,
      "step": 960,
      "train_runtime": 127753.0201,
      "train_tokens_per_second": 6797.727
    },
    {
      "epoch": 0.8190981432360742,
      "grad_norm": 0.9189235994594633,
      "learning_rate": 4.560420285518529e-05,
      "loss": 0.8076,
      "num_input_tokens_seen": 873261376,
      "step": 965,
      "train_runtime": 128445.48,
      "train_tokens_per_second": 6798.693
    },
    {
      "epoch": 0.823342175066313,
      "grad_norm": 0.6649154972034895,
      "learning_rate": 4.5534080031838336e-05,
      "loss": 0.8748,
      "num_input_tokens_seen": 877848320,
      "step": 970,
      "train_runtime": 129117.949,
      "train_tokens_per_second": 6798.809
    },
    {
      "epoch": 0.8275862068965517,
      "grad_norm": 0.7645668184363056,
      "learning_rate": 4.5463457126925493e-05,
      "loss": 0.7949,
      "num_input_tokens_seen": 882236288,
      "step": 975,
      "train_runtime": 129732.9954,
      "train_tokens_per_second": 6800.4
    },
    {
      "epoch": 0.8318302387267904,
      "grad_norm": 0.9335431624509639,
      "learning_rate": 4.539233586037836e-05,
      "loss": 0.7904,
      "num_input_tokens_seen": 886710592,
      "step": 980,
      "train_runtime": 130375.8011,
      "train_tokens_per_second": 6801.19
    },
    {
      "epoch": 0.8360742705570292,
      "grad_norm": 0.8454411533111347,
      "learning_rate": 4.532071796426549e-05,
      "loss": 0.7944,
      "num_input_tokens_seen": 891233088,
      "step": 985,
      "train_runtime": 131026.9147,
      "train_tokens_per_second": 6801.909
    },
    {
      "epoch": 0.8403183023872679,
      "grad_norm": 0.9294276165792987,
      "learning_rate": 4.5248605182750224e-05,
      "loss": 0.8052,
      "num_input_tokens_seen": 895797056,
      "step": 990,
      "train_runtime": 131628.0839,
      "train_tokens_per_second": 6805.516
    },
    {
      "epoch": 0.8445623342175066,
      "grad_norm": 1.0688757710466947,
      "learning_rate": 4.5175999272048205e-05,
      "loss": 0.7871,
      "num_input_tokens_seen": 900477248,
      "step": 995,
      "train_runtime": 132307.0252,
      "train_tokens_per_second": 6805.967
    },
    {
      "epoch": 0.8488063660477454,
      "grad_norm": 0.8274182681903438,
      "learning_rate": 4.510290200038463e-05,
      "loss": 0.8022,
      "num_input_tokens_seen": 905019392,
      "step": 1000,
      "train_runtime": 132955.1592,
      "train_tokens_per_second": 6806.952
    },
    {
      "epoch": 0.8530503978779841,
      "grad_norm": 1.0546997932680735,
      "learning_rate": 4.502931514795116e-05,
      "loss": 0.7817,
      "num_input_tokens_seen": 909356352,
      "step": 1005,
      "train_runtime": 133539.5693,
      "train_tokens_per_second": 6809.64
    },
    {
      "epoch": 0.8572944297082228,
      "grad_norm": 1.2588102790900502,
      "learning_rate": 4.495524050686257e-05,
      "loss": 0.788,
      "num_input_tokens_seen": 913771904,
      "step": 1010,
      "train_runtime": 134129.5941,
      "train_tokens_per_second": 6812.605
    },
    {
      "epoch": 0.8615384615384616,
      "grad_norm": 1.1408803201963393,
      "learning_rate": 4.488067988111313e-05,
      "loss": 0.8001,
      "num_input_tokens_seen": 918194944,
      "step": 1015,
      "train_runtime": 134742.2212,
      "train_tokens_per_second": 6814.456
    },
    {
      "epoch": 0.8657824933687003,
      "grad_norm": 1.1899291730699249,
      "learning_rate": 4.480563508653264e-05,
      "loss": 0.7955,
      "num_input_tokens_seen": 922666688,
      "step": 1020,
      "train_runtime": 135362.6791,
      "train_tokens_per_second": 6816.256
    },
    {
      "epoch": 0.870026525198939,
      "grad_norm": 0.8130281973510006,
      "learning_rate": 4.473010795074221e-05,
      "loss": 0.7979,
      "num_input_tokens_seen": 927156672,
      "step": 1025,
      "train_runtime": 136033.28,
      "train_tokens_per_second": 6815.661
    },
    {
      "epoch": 0.8742705570291777,
      "grad_norm": 0.7570121360764169,
      "learning_rate": 4.465410031310979e-05,
      "loss": 0.8073,
      "num_input_tokens_seen": 931890368,
      "step": 1030,
      "train_runtime": 136755.15,
      "train_tokens_per_second": 6814.298
    },
    {
      "epoch": 0.8785145888594165,
      "grad_norm": 0.9159403793732956,
      "learning_rate": 4.457761402470532e-05,
      "loss": 0.8,
      "num_input_tokens_seen": 936323264,
      "step": 1035,
      "train_runtime": 137383.018,
      "train_tokens_per_second": 6815.422
    },
    {
      "epoch": 0.8827586206896552,
      "grad_norm": 1.0377351854287133,
      "learning_rate": 4.450065094825567e-05,
      "loss": 0.801,
      "num_input_tokens_seen": 940907840,
      "step": 1040,
      "train_runtime": 138076.6951,
      "train_tokens_per_second": 6814.386
    },
    {
      "epoch": 0.8870026525198939,
      "grad_norm": 0.8502067435449593,
      "learning_rate": 4.442321295809932e-05,
      "loss": 0.7884,
      "num_input_tokens_seen": 945377920,
      "step": 1045,
      "train_runtime": 138693.9405,
      "train_tokens_per_second": 6816.289
    },
    {
      "epoch": 0.8912466843501327,
      "grad_norm": 1.0008412143003285,
      "learning_rate": 4.4345301940140625e-05,
      "loss": 0.794,
      "num_input_tokens_seen": 949653760,
      "step": 1050,
      "train_runtime": 139252.8781,
      "train_tokens_per_second": 6819.635
    },
    {
      "epoch": 0.8954907161803713,
      "grad_norm": 0.7701062680223436,
      "learning_rate": 4.426691979180395e-05,
      "loss": 0.7879,
      "num_input_tokens_seen": 953995840,
      "step": 1055,
      "train_runtime": 139848.6279,
      "train_tokens_per_second": 6821.632
    },
    {
      "epoch": 0.89973474801061,
      "grad_norm": 0.7657676098694198,
      "learning_rate": 4.4188068421987475e-05,
      "loss": 0.78,
      "num_input_tokens_seen": 958380160,
      "step": 1060,
      "train_runtime": 140471.8443,
      "train_tokens_per_second": 6822.578
    },
    {
      "epoch": 0.9039787798408488,
      "grad_norm": 0.9443174140002766,
      "learning_rate": 4.410874975101662e-05,
      "loss": 0.7975,
      "num_input_tokens_seen": 962938624,
      "step": 1065,
      "train_runtime": 141147.4618,
      "train_tokens_per_second": 6822.217
    },
    {
      "epoch": 0.9082228116710875,
      "grad_norm": 1.0109837282388179,
      "learning_rate": 4.402896571059738e-05,
      "loss": 0.7979,
      "num_input_tokens_seen": 967324608,
      "step": 1070,
      "train_runtime": 141768.6116,
      "train_tokens_per_second": 6823.264
    },
    {
      "epoch": 0.9124668435013262,
      "grad_norm": 0.8120979404556385,
      "learning_rate": 4.394871824376923e-05,
      "loss": 0.7889,
      "num_input_tokens_seen": 971853824,
      "step": 1075,
      "train_runtime": 142397.8849,
      "train_tokens_per_second": 6824.918
    },
    {
      "epoch": 0.916710875331565,
      "grad_norm": 0.7674620546551851,
      "learning_rate": 4.386800930485777e-05,
      "loss": 0.7872,
      "num_input_tokens_seen": 976342336,
      "step": 1080,
      "train_runtime": 143033.2803,
      "train_tokens_per_second": 6825.98
    },
    {
      "epoch": 0.9209549071618037,
      "grad_norm": 0.8642492390279295,
      "learning_rate": 4.378684085942722e-05,
      "loss": 0.7968,
      "num_input_tokens_seen": 980950016,
      "step": 1085,
      "train_runtime": 143727.3251,
      "train_tokens_per_second": 6825.077
    },
    {
      "epoch": 0.9251989389920424,
      "grad_norm": 0.7868533581684258,
      "learning_rate": 4.370521488423248e-05,
      "loss": 0.7723,
      "num_input_tokens_seen": 985579968,
      "step": 1090,
      "train_runtime": 144414.0117,
      "train_tokens_per_second": 6824.684
    },
    {
      "epoch": 0.9294429708222812,
      "grad_norm": 0.9784190030448764,
      "learning_rate": 4.3623133367171e-05,
      "loss": 0.7657,
      "num_input_tokens_seen": 990242240,
      "step": 1095,
      "train_runtime": 145104.4504,
      "train_tokens_per_second": 6824.341
    },
    {
      "epoch": 0.9336870026525199,
      "grad_norm": 0.8416491217730794,
      "learning_rate": 4.354059830723439e-05,
      "loss": 0.7762,
      "num_input_tokens_seen": 994700352,
      "step": 1100,
      "train_runtime": 145724.9371,
      "train_tokens_per_second": 6825.876
    },
    {
      "epoch": 0.9379310344827586,
      "grad_norm": 0.8128690749017204,
      "learning_rate": 4.34576117144597e-05,
      "loss": 0.7872,
      "num_input_tokens_seen": 999373568,
      "step": 1105,
      "train_runtime": 146429.9411,
      "train_tokens_per_second": 6824.926
    },
    {
      "epoch": 0.9421750663129973,
      "grad_norm": 0.8795752491352558,
      "learning_rate": 4.337417560988053e-05,
      "loss": 0.7907,
      "num_input_tokens_seen": 1003937216,
      "step": 1110,
      "train_runtime": 147068.6613,
      "train_tokens_per_second": 6826.316
    },
    {
      "epoch": 0.9464190981432361,
      "grad_norm": 1.0803855481863844,
      "learning_rate": 4.329029202547774e-05,
      "loss": 0.7802,
      "num_input_tokens_seen": 1008544768,
      "step": 1115,
      "train_runtime": 147756.5973,
      "train_tokens_per_second": 6825.717
    },
    {
      "epoch": 0.9506631299734748,
      "grad_norm": 0.9249709902148427,
      "learning_rate": 4.3205963004130016e-05,
      "loss": 0.7835,
      "num_input_tokens_seen": 1013050048,
      "step": 1120,
      "train_runtime": 148402.3493,
      "train_tokens_per_second": 6826.375
    },
    {
      "epoch": 0.9549071618037135,
      "grad_norm": 0.8556253260160931,
      "learning_rate": 4.3121190599564075e-05,
      "loss": 0.7797,
      "num_input_tokens_seen": 1017459840,
      "step": 1125,
      "train_runtime": 149027.5856,
      "train_tokens_per_second": 6827.326
    },
    {
      "epoch": 0.9591511936339523,
      "grad_norm": 1.0166848790525587,
      "learning_rate": 4.30359768763047e-05,
      "loss": 0.7676,
      "num_input_tokens_seen": 1022257088,
      "step": 1130,
      "train_runtime": 149712.8732,
      "train_tokens_per_second": 6828.117
    },
    {
      "epoch": 0.963395225464191,
      "grad_norm": 0.9097894747416901,
      "learning_rate": 4.2950323909624404e-05,
      "loss": 0.7736,
      "num_input_tokens_seen": 1026797248,
      "step": 1135,
      "train_runtime": 150374.5156,
      "train_tokens_per_second": 6828.266
    },
    {
      "epoch": 0.9676392572944297,
      "grad_norm": 0.7704218910218441,
      "learning_rate": 4.286423378549294e-05,
      "loss": 0.7899,
      "num_input_tokens_seen": 1031489344,
      "step": 1140,
      "train_runtime": 151058.329,
      "train_tokens_per_second": 6828.418
    },
    {
      "epoch": 0.9718832891246685,
      "grad_norm": 0.7852167446402514,
      "learning_rate": 4.2777708600526475e-05,
      "loss": 0.7825,
      "num_input_tokens_seen": 1035924096,
      "step": 1145,
      "train_runtime": 151677.6959,
      "train_tokens_per_second": 6829.772
    },
    {
      "epoch": 0.9761273209549072,
      "grad_norm": 0.8709541370781978,
      "learning_rate": 4.269075046193651e-05,
      "loss": 0.7853,
      "num_input_tokens_seen": 1040557120,
      "step": 1150,
      "train_runtime": 152331.7174,
      "train_tokens_per_second": 6830.863
    },
    {
      "epoch": 0.9803713527851459,
      "grad_norm": 0.7354772314266763,
      "learning_rate": 4.2603361487478635e-05,
      "loss": 0.7796,
      "num_input_tokens_seen": 1045138240,
      "step": 1155,
      "train_runtime": 153014.033,
      "train_tokens_per_second": 6830.342
    },
    {
      "epoch": 0.9846153846153847,
      "grad_norm": 0.8929842185397294,
      "learning_rate": 4.2515543805400845e-05,
      "loss": 0.7931,
      "num_input_tokens_seen": 1049637440,
      "step": 1160,
      "train_runtime": 153673.9541,
      "train_tokens_per_second": 6830.288
    },
    {
      "epoch": 0.9888594164456234,
      "grad_norm": 0.8843306924811901,
      "learning_rate": 4.2427299554391795e-05,
      "loss": 0.7818,
      "num_input_tokens_seen": 1054084800,
      "step": 1165,
      "train_runtime": 154301.843,
      "train_tokens_per_second": 6831.317
    },
    {
      "epoch": 0.993103448275862,
      "grad_norm": 0.7260294542114571,
      "learning_rate": 4.2338630883528694e-05,
      "loss": 0.7868,
      "num_input_tokens_seen": 1058576128,
      "step": 1170,
      "train_runtime": 154951.0655,
      "train_tokens_per_second": 6831.68
    },
    {
      "epoch": 0.9973474801061007,
      "grad_norm": 1.0310167390412928,
      "learning_rate": 4.224953995222495e-05,
      "loss": 0.7913,
      "num_input_tokens_seen": 1063234944,
      "step": 1175,
      "train_runtime": 155625.4902,
      "train_tokens_per_second": 6832.01
    },
    {
      "epoch": 1.0008488063660477,
      "grad_norm": 0.9546542980993455,
      "learning_rate": 4.2160028930177586e-05,
      "loss": 0.6435,
      "num_input_tokens_seen": 1066978304,
      "step": 1180,
      "train_runtime": 156195.3002,
      "train_tokens_per_second": 6831.053
    },
    {
      "epoch": 1.0008488063660477,
      "eval_loss": 0.7810727953910828,
      "eval_runtime": 1060.3774,
      "eval_samples_per_second": 2.874,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 1066978304,
      "step": 1180
    },
    {
      "epoch": 1.0050928381962865,
      "grad_norm": 1.0559718016156323,
      "learning_rate": 4.207009999731441e-05,
      "loss": 0.724,
      "num_input_tokens_seen": 1071397376,
      "step": 1185,
      "train_runtime": 157954.8381,
      "train_tokens_per_second": 6782.935
    },
    {
      "epoch": 1.0093368700265253,
      "grad_norm": 0.8356946223535584,
      "learning_rate": 4.1979755343740936e-05,
      "loss": 0.7198,
      "num_input_tokens_seen": 1075925056,
      "step": 1190,
      "train_runtime": 158621.7481,
      "train_tokens_per_second": 6782.961
    },
    {
      "epoch": 1.0135809018567639,
      "grad_norm": 0.9532551565257256,
      "learning_rate": 4.188899716968699e-05,
      "loss": 0.7137,
      "num_input_tokens_seen": 1080308416,
      "step": 1195,
      "train_runtime": 159243.7038,
      "train_tokens_per_second": 6783.995
    },
    {
      "epoch": 1.0178249336870027,
      "grad_norm": 0.886163908743495,
      "learning_rate": 4.179782768545321e-05,
      "loss": 0.6985,
      "num_input_tokens_seen": 1084861632,
      "step": 1200,
      "train_runtime": 159917.1941,
      "train_tokens_per_second": 6783.896
    },
    {
      "epoch": 1.0220689655172415,
      "grad_norm": 0.8306981011679802,
      "learning_rate": 4.170624911135713e-05,
      "loss": 0.7246,
      "num_input_tokens_seen": 1089273600,
      "step": 1205,
      "train_runtime": 160556.71,
      "train_tokens_per_second": 6784.354
    },
    {
      "epoch": 1.02631299734748,
      "grad_norm": 0.9829055718597421,
      "learning_rate": 4.161426367767921e-05,
      "loss": 0.7219,
      "num_input_tokens_seen": 1093625472,
      "step": 1210,
      "train_runtime": 161182.2827,
      "train_tokens_per_second": 6785.023
    },
    {
      "epoch": 1.0305570291777189,
      "grad_norm": 0.9263411832733288,
      "learning_rate": 4.1521873624608396e-05,
      "loss": 0.7293,
      "num_input_tokens_seen": 1098036992,
      "step": 1215,
      "train_runtime": 161813.3681,
      "train_tokens_per_second": 6785.824
    },
    {
      "epoch": 1.0348010610079577,
      "grad_norm": 1.3238936418341176,
      "learning_rate": 4.1429081202187667e-05,
      "loss": 0.7214,
      "num_input_tokens_seen": 1102560128,
      "step": 1220,
      "train_runtime": 162471.5936,
      "train_tokens_per_second": 6786.172
    },
    {
      "epoch": 1.0390450928381962,
      "grad_norm": 0.822682923114858,
      "learning_rate": 4.1335888670259196e-05,
      "loss": 0.704,
      "num_input_tokens_seen": 1107129920,
      "step": 1225,
      "train_runtime": 163123.1296,
      "train_tokens_per_second": 6787.081
    },
    {
      "epoch": 1.043289124668435,
      "grad_norm": 0.9140492461674421,
      "learning_rate": 4.12422982984093e-05,
      "loss": 0.7199,
      "num_input_tokens_seen": 1111822080,
      "step": 1230,
      "train_runtime": 163825.6741,
      "train_tokens_per_second": 6786.617
    },
    {
      "epoch": 1.0475331564986738,
      "grad_norm": 0.8760621488535013,
      "learning_rate": 4.11483123659132e-05,
      "loss": 0.7055,
      "num_input_tokens_seen": 1116287808,
      "step": 1235,
      "train_runtime": 164439.6584,
      "train_tokens_per_second": 6788.434
    },
    {
      "epoch": 1.0517771883289124,
      "grad_norm": 0.8280642864840718,
      "learning_rate": 4.1053933161679494e-05,
      "loss": 0.7235,
      "num_input_tokens_seen": 1120773120,
      "step": 1240,
      "train_runtime": 165072.1322,
      "train_tokens_per_second": 6789.596
    },
    {
      "epoch": 1.0560212201591512,
      "grad_norm": 0.9389411578202482,
      "learning_rate": 4.095916298419441e-05,
      "loss": 0.7058,
      "num_input_tokens_seen": 1125450432,
      "step": 1245,
      "train_runtime": 165746.363,
      "train_tokens_per_second": 6790.197
    },
    {
      "epoch": 1.06026525198939,
      "grad_norm": 0.8674975290576171,
      "learning_rate": 4.0864004141465844e-05,
      "loss": 0.7144,
      "num_input_tokens_seen": 1129770880,
      "step": 1250,
      "train_runtime": 166381.7549,
      "train_tokens_per_second": 6790.233
    },
    {
      "epoch": 1.0645092838196286,
      "grad_norm": 0.8423637185173262,
      "learning_rate": 4.0768458950967135e-05,
      "loss": 0.6924,
      "num_input_tokens_seen": 1134325824,
      "step": 1255,
      "train_runtime": 167041.841,
      "train_tokens_per_second": 6790.669
    },
    {
      "epoch": 1.0687533156498674,
      "grad_norm": 0.8463731702794449,
      "learning_rate": 4.067252973958064e-05,
      "loss": 0.7022,
      "num_input_tokens_seen": 1138890880,
      "step": 1260,
      "train_runtime": 167698.4028,
      "train_tokens_per_second": 6791.304
    },
    {
      "epoch": 1.072997347480106,
      "grad_norm": 1.2814601777565326,
      "learning_rate": 4.0576218843541046e-05,
      "loss": 0.7244,
      "num_input_tokens_seen": 1143446080,
      "step": 1265,
      "train_runtime": 168389.1765,
      "train_tokens_per_second": 6790.496
    },
    {
      "epoch": 1.0772413793103448,
      "grad_norm": 0.7804384260432371,
      "learning_rate": 4.0479528608378515e-05,
      "loss": 0.7118,
      "num_input_tokens_seen": 1148022848,
      "step": 1270,
      "train_runtime": 169068.4692,
      "train_tokens_per_second": 6790.284
    },
    {
      "epoch": 1.0814854111405836,
      "grad_norm": 0.8440032711255191,
      "learning_rate": 4.0382461388861505e-05,
      "loss": 0.7069,
      "num_input_tokens_seen": 1152678080,
      "step": 1275,
      "train_runtime": 169749.9181,
      "train_tokens_per_second": 6790.449
    },
    {
      "epoch": 1.0857294429708222,
      "grad_norm": 1.0462601786941845,
      "learning_rate": 4.0285019548939464e-05,
      "loss": 0.7009,
      "num_input_tokens_seen": 1157385088,
      "step": 1280,
      "train_runtime": 170412.1829,
      "train_tokens_per_second": 6791.68
    },
    {
      "epoch": 1.089973474801061,
      "grad_norm": 0.7949896906145127,
      "learning_rate": 4.018720546168524e-05,
      "loss": 0.714,
      "num_input_tokens_seen": 1161843200,
      "step": 1285,
      "train_runtime": 171052.7364,
      "train_tokens_per_second": 6792.31
    },
    {
      "epoch": 1.0942175066312998,
      "grad_norm": 0.8723394657733861,
      "learning_rate": 4.008902150923731e-05,
      "loss": 0.7173,
      "num_input_tokens_seen": 1166275008,
      "step": 1290,
      "train_runtime": 171633.6694,
      "train_tokens_per_second": 6795.141
    },
    {
      "epoch": 1.0984615384615384,
      "grad_norm": 1.271199939246554,
      "learning_rate": 3.999047008274173e-05,
      "loss": 0.718,
      "num_input_tokens_seen": 1170805952,
      "step": 1295,
      "train_runtime": 172293.1957,
      "train_tokens_per_second": 6795.428
    },
    {
      "epoch": 1.1027055702917772,
      "grad_norm": 0.7123662125520419,
      "learning_rate": 3.989155358229394e-05,
      "loss": 0.7326,
      "num_input_tokens_seen": 1175398720,
      "step": 1300,
      "train_runtime": 172948.1235,
      "train_tokens_per_second": 6796.25
    },
    {
      "epoch": 1.106949602122016,
      "grad_norm": 0.838546216114602,
      "learning_rate": 3.979227441688028e-05,
      "loss": 0.7096,
      "num_input_tokens_seen": 1179790336,
      "step": 1305,
      "train_runtime": 173532.3842,
      "train_tokens_per_second": 6798.675
    },
    {
      "epoch": 1.1111936339522546,
      "grad_norm": 1.0578594741413954,
      "learning_rate": 3.969263500431935e-05,
      "loss": 0.736,
      "num_input_tokens_seen": 1184330304,
      "step": 1310,
      "train_runtime": 174200.2849,
      "train_tokens_per_second": 6798.67
    },
    {
      "epoch": 1.1154376657824934,
      "grad_norm": 1.0727364156307728,
      "learning_rate": 3.9592637771203114e-05,
      "loss": 0.7149,
      "num_input_tokens_seen": 1188880384,
      "step": 1315,
      "train_runtime": 174872.9271,
      "train_tokens_per_second": 6798.539
    },
    {
      "epoch": 1.1196816976127322,
      "grad_norm": 1.4213471650077618,
      "learning_rate": 3.949228515283777e-05,
      "loss": 0.7044,
      "num_input_tokens_seen": 1193170816,
      "step": 1320,
      "train_runtime": 175486.1393,
      "train_tokens_per_second": 6799.231
    },
    {
      "epoch": 1.1239257294429708,
      "grad_norm": 0.9528308642512087,
      "learning_rate": 3.9391579593184525e-05,
      "loss": 0.7046,
      "num_input_tokens_seen": 1197641344,
      "step": 1325,
      "train_runtime": 176147.7116,
      "train_tokens_per_second": 6799.074
    },
    {
      "epoch": 1.1281697612732096,
      "grad_norm": 0.8240250587692688,
      "learning_rate": 3.929052354479999e-05,
      "loss": 0.7073,
      "num_input_tokens_seen": 1202042432,
      "step": 1330,
      "train_runtime": 176809.4403,
      "train_tokens_per_second": 6798.52
    },
    {
      "epoch": 1.1324137931034484,
      "grad_norm": 0.9575820680101333,
      "learning_rate": 3.918911946877651e-05,
      "loss": 0.7123,
      "num_input_tokens_seen": 1206438080,
      "step": 1335,
      "train_runtime": 177399.569,
      "train_tokens_per_second": 6800.682
    },
    {
      "epoch": 1.136657824933687,
      "grad_norm": 1.0494568271450921,
      "learning_rate": 3.908736983468219e-05,
      "loss": 0.7037,
      "num_input_tokens_seen": 1211039616,
      "step": 1340,
      "train_runtime": 178060.7312,
      "train_tokens_per_second": 6801.273
    },
    {
      "epoch": 1.1409018567639257,
      "grad_norm": 1.3953016773438447,
      "learning_rate": 3.898527712050074e-05,
      "loss": 0.6992,
      "num_input_tokens_seen": 1215405568,
      "step": 1345,
      "train_runtime": 178700.2333,
      "train_tokens_per_second": 6801.365
    },
    {
      "epoch": 1.1451458885941646,
      "grad_norm": 0.9502009725403173,
      "learning_rate": 3.88828438125712e-05,
      "loss": 0.7273,
      "num_input_tokens_seen": 1220023168,
      "step": 1350,
      "train_runtime": 179354.7367,
      "train_tokens_per_second": 6802.291
    },
    {
      "epoch": 1.1493899204244031,
      "grad_norm": 1.1556987622554753,
      "learning_rate": 3.878007240552732e-05,
      "loss": 0.6946,
      "num_input_tokens_seen": 1224574464,
      "step": 1355,
      "train_runtime": 180001.4614,
      "train_tokens_per_second": 6803.136
    },
    {
      "epoch": 1.153633952254642,
      "grad_norm": 0.792466643427966,
      "learning_rate": 3.867696540223681e-05,
      "loss": 0.708,
      "num_input_tokens_seen": 1229115520,
      "step": 1360,
      "train_runtime": 180638.8559,
      "train_tokens_per_second": 6804.27
    },
    {
      "epoch": 1.1578779840848807,
      "grad_norm": 0.9099009827745455,
      "learning_rate": 3.8573525313740435e-05,
      "loss": 0.7198,
      "num_input_tokens_seen": 1233652160,
      "step": 1365,
      "train_runtime": 181281.2594,
      "train_tokens_per_second": 6805.183
    },
    {
      "epoch": 1.1621220159151193,
      "grad_norm": 0.8873710969043223,
      "learning_rate": 3.846975465919079e-05,
      "loss": 0.7047,
      "num_input_tokens_seen": 1238186112,
      "step": 1370,
      "train_runtime": 181914.6873,
      "train_tokens_per_second": 6806.411
    },
    {
      "epoch": 1.1663660477453581,
      "grad_norm": 1.0769227041949128,
      "learning_rate": 3.836565596579103e-05,
      "loss": 0.7363,
      "num_input_tokens_seen": 1242761728,
      "step": 1375,
      "train_runtime": 182587.2454,
      "train_tokens_per_second": 6806.399
    },
    {
      "epoch": 1.1706100795755967,
      "grad_norm": 0.9446612826256684,
      "learning_rate": 3.826123176873324e-05,
      "loss": 0.7001,
      "num_input_tokens_seen": 1247182656,
      "step": 1380,
      "train_runtime": 183248.8336,
      "train_tokens_per_second": 6805.951
    },
    {
      "epoch": 1.1748541114058355,
      "grad_norm": 0.7930410617767145,
      "learning_rate": 3.8156484611136774e-05,
      "loss": 0.7121,
      "num_input_tokens_seen": 1251653056,
      "step": 1385,
      "train_runtime": 183867.2318,
      "train_tokens_per_second": 6807.374
    },
    {
      "epoch": 1.1790981432360743,
      "grad_norm": 1.2141311456918997,
      "learning_rate": 3.805141704398626e-05,
      "loss": 0.7085,
      "num_input_tokens_seen": 1256043584,
      "step": 1390,
      "train_runtime": 184507.3826,
      "train_tokens_per_second": 6807.552
    },
    {
      "epoch": 1.1833421750663131,
      "grad_norm": 0.8727742652201835,
      "learning_rate": 3.794603162606949e-05,
      "loss": 0.7021,
      "num_input_tokens_seen": 1260434688,
      "step": 1395,
      "train_runtime": 185139.6011,
      "train_tokens_per_second": 6808.023
    },
    {
      "epoch": 1.1875862068965517,
      "grad_norm": 0.7037237894630392,
      "learning_rate": 3.784033092391513e-05,
      "loss": 0.732,
      "num_input_tokens_seen": 1264932736,
      "step": 1400,
      "train_runtime": 185754.0941,
      "train_tokens_per_second": 6809.717
    },
    {
      "epoch": 1.1918302387267905,
      "grad_norm": 0.8398911891859556,
      "learning_rate": 3.773431751173018e-05,
      "loss": 0.7254,
      "num_input_tokens_seen": 1269425664,
      "step": 1405,
      "train_runtime": 186452.0318,
      "train_tokens_per_second": 6808.323
    },
    {
      "epoch": 1.196074270557029,
      "grad_norm": 1.046439278032978,
      "learning_rate": 3.76279939713373e-05,
      "loss": 0.7034,
      "num_input_tokens_seen": 1273725056,
      "step": 1410,
      "train_runtime": 187095.6204,
      "train_tokens_per_second": 6807.883
    },
    {
      "epoch": 1.2003183023872679,
      "grad_norm": 0.7473279729847268,
      "learning_rate": 3.7521362892111945e-05,
      "loss": 0.7002,
      "num_input_tokens_seen": 1278142592,
      "step": 1415,
      "train_runtime": 187703.911,
      "train_tokens_per_second": 6809.355
    },
    {
      "epoch": 1.2045623342175067,
      "grad_norm": 1.0374275407130875,
      "learning_rate": 3.741442687091926e-05,
      "loss": 0.7204,
      "num_input_tokens_seen": 1282692032,
      "step": 1420,
      "train_runtime": 188345.3351,
      "train_tokens_per_second": 6810.32
    },
    {
      "epoch": 1.2088063660477453,
      "grad_norm": 0.7440268721036309,
      "learning_rate": 3.730718851205089e-05,
      "loss": 0.7114,
      "num_input_tokens_seen": 1287034560,
      "step": 1425,
      "train_runtime": 188944.1141,
      "train_tokens_per_second": 6811.721
    },
    {
      "epoch": 1.213050397877984,
      "grad_norm": 0.776479873397123,
      "learning_rate": 3.719965042716154e-05,
      "loss": 0.7081,
      "num_input_tokens_seen": 1291460416,
      "step": 1430,
      "train_runtime": 189556.4755,
      "train_tokens_per_second": 6813.064
    },
    {
      "epoch": 1.2172944297082229,
      "grad_norm": 0.7404149511150007,
      "learning_rate": 3.709181523520532e-05,
      "loss": 0.7022,
      "num_input_tokens_seen": 1296144576,
      "step": 1435,
      "train_runtime": 190275.4375,
      "train_tokens_per_second": 6811.938
    },
    {
      "epoch": 1.2215384615384615,
      "grad_norm": 0.7950074266734066,
      "learning_rate": 3.698368556237206e-05,
      "loss": 0.7245,
      "num_input_tokens_seen": 1300612352,
      "step": 1440,
      "train_runtime": 190917.0602,
      "train_tokens_per_second": 6812.447
    },
    {
      "epoch": 1.2257824933687003,
      "grad_norm": 0.8330406088802553,
      "learning_rate": 3.687526404202326e-05,
      "loss": 0.6876,
      "num_input_tokens_seen": 1305227776,
      "step": 1445,
      "train_runtime": 191618.6772,
      "train_tokens_per_second": 6811.59
    },
    {
      "epoch": 1.230026525198939,
      "grad_norm": 0.7986919467015979,
      "learning_rate": 3.6766553314628016e-05,
      "loss": 0.6882,
      "num_input_tokens_seen": 1309815616,
      "step": 1450,
      "train_runtime": 192268.2878,
      "train_tokens_per_second": 6812.437
    },
    {
      "epoch": 1.2342705570291777,
      "grad_norm": 0.8194811456779011,
      "learning_rate": 3.66575560276987e-05,
      "loss": 0.6992,
      "num_input_tokens_seen": 1314293440,
      "step": 1455,
      "train_runtime": 192911.152,
      "train_tokens_per_second": 6812.947
    },
    {
      "epoch": 1.2385145888594165,
      "grad_norm": 0.8920784814801206,
      "learning_rate": 3.654827483572647e-05,
      "loss": 0.7034,
      "num_input_tokens_seen": 1318678784,
      "step": 1460,
      "train_runtime": 193534.093,
      "train_tokens_per_second": 6813.677
    },
    {
      "epoch": 1.2427586206896553,
      "grad_norm": 0.7947592511270455,
      "learning_rate": 3.6438712400116626e-05,
      "loss": 0.7277,
      "num_input_tokens_seen": 1323485248,
      "step": 1465,
      "train_runtime": 194275.8066,
      "train_tokens_per_second": 6812.404
    },
    {
      "epoch": 1.2470026525198938,
      "grad_norm": 0.9177270797271538,
      "learning_rate": 3.6328871389123817e-05,
      "loss": 0.7177,
      "num_input_tokens_seen": 1327989184,
      "step": 1470,
      "train_runtime": 194920.646,
      "train_tokens_per_second": 6812.973
    },
    {
      "epoch": 1.2512466843501326,
      "grad_norm": 0.9095775155270419,
      "learning_rate": 3.6218754477787034e-05,
      "loss": 0.69,
      "num_input_tokens_seen": 1332484288,
      "step": 1475,
      "train_runtime": 195594.2663,
      "train_tokens_per_second": 6812.492
    },
    {
      "epoch": 1.2512466843501326,
      "eval_loss": 0.7701402306556702,
      "eval_runtime": 1058.7996,
      "eval_samples_per_second": 2.878,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 1332484288,
      "step": 1475
    },
    {
      "epoch": 1.2554907161803714,
      "grad_norm": 1.0025427441776165,
      "learning_rate": 3.610836434786448e-05,
      "loss": 0.7226,
      "num_input_tokens_seen": 1336834944,
      "step": 1480,
      "train_runtime": 197298.3845,
      "train_tokens_per_second": 6775.701
    },
    {
      "epoch": 1.25973474801061,
      "grad_norm": 1.1051405618486907,
      "learning_rate": 3.599770368776824e-05,
      "loss": 0.717,
      "num_input_tokens_seen": 1341307904,
      "step": 1485,
      "train_runtime": 197946.5126,
      "train_tokens_per_second": 6776.113
    },
    {
      "epoch": 1.2639787798408488,
      "grad_norm": 0.7277747101019799,
      "learning_rate": 3.588677519249883e-05,
      "loss": 0.7129,
      "num_input_tokens_seen": 1345945600,
      "step": 1490,
      "train_runtime": 198583.5461,
      "train_tokens_per_second": 6777.73
    },
    {
      "epoch": 1.2682228116710874,
      "grad_norm": 1.0644077159168257,
      "learning_rate": 3.577558156357954e-05,
      "loss": 0.6964,
      "num_input_tokens_seen": 1350721856,
      "step": 1495,
      "train_runtime": 199281.1546,
      "train_tokens_per_second": 6777.971
    },
    {
      "epoch": 1.2724668435013262,
      "grad_norm": 0.7336344093486956,
      "learning_rate": 3.566412550899067e-05,
      "loss": 0.7085,
      "num_input_tokens_seen": 1355297856,
      "step": 1500,
      "train_runtime": 199944.5213,
      "train_tokens_per_second": 6778.37
    },
    {
      "epoch": 1.276710875331565,
      "grad_norm": 0.8133225375902521,
      "learning_rate": 3.5552409743103556e-05,
      "loss": 0.6867,
      "num_input_tokens_seen": 1359679104,
      "step": 1505,
      "train_runtime": 200577.4067,
      "train_tokens_per_second": 6778.825
    },
    {
      "epoch": 1.2809549071618038,
      "grad_norm": 0.697351763291778,
      "learning_rate": 3.5440436986614475e-05,
      "loss": 0.6982,
      "num_input_tokens_seen": 1364232960,
      "step": 1510,
      "train_runtime": 201233.0814,
      "train_tokens_per_second": 6779.367
    },
    {
      "epoch": 1.2851989389920424,
      "grad_norm": 0.7278903758794186,
      "learning_rate": 3.53282099664784e-05,
      "loss": 0.6908,
      "num_input_tokens_seen": 1368631360,
      "step": 1515,
      "train_runtime": 201880.3686,
      "train_tokens_per_second": 6779.418
    },
    {
      "epoch": 1.2894429708222812,
      "grad_norm": 0.8347309141959418,
      "learning_rate": 3.521573141584254e-05,
      "loss": 0.6901,
      "num_input_tokens_seen": 1373082240,
      "step": 1520,
      "train_runtime": 202488.6455,
      "train_tokens_per_second": 6781.033
    },
    {
      "epoch": 1.2936870026525198,
      "grad_norm": 0.8283488230820615,
      "learning_rate": 3.5103004073979854e-05,
      "loss": 0.6807,
      "num_input_tokens_seen": 1377433792,
      "step": 1525,
      "train_runtime": 203113.9684,
      "train_tokens_per_second": 6781.581
    },
    {
      "epoch": 1.2979310344827586,
      "grad_norm": 0.7419000730982289,
      "learning_rate": 3.499003068622226e-05,
      "loss": 0.6995,
      "num_input_tokens_seen": 1382143808,
      "step": 1530,
      "train_runtime": 203848.007,
      "train_tokens_per_second": 6780.266
    },
    {
      "epoch": 1.3021750663129974,
      "grad_norm": 0.8544362640648647,
      "learning_rate": 3.487681400389384e-05,
      "loss": 0.6932,
      "num_input_tokens_seen": 1386581504,
      "step": 1535,
      "train_runtime": 204454.9055,
      "train_tokens_per_second": 6781.845
    },
    {
      "epoch": 1.3064190981432362,
      "grad_norm": 0.7409589690489501,
      "learning_rate": 3.4763356784243784e-05,
      "loss": 0.6943,
      "num_input_tokens_seen": 1391187968,
      "step": 1540,
      "train_runtime": 205112.5105,
      "train_tokens_per_second": 6782.56
    },
    {
      "epoch": 1.3106631299734748,
      "grad_norm": 0.8626742457912966,
      "learning_rate": 3.4649661790379285e-05,
      "loss": 0.6894,
      "num_input_tokens_seen": 1395756992,
      "step": 1545,
      "train_runtime": 205751.9562,
      "train_tokens_per_second": 6783.688
    },
    {
      "epoch": 1.3149071618037136,
      "grad_norm": 0.9751075736447785,
      "learning_rate": 3.453573179119821e-05,
      "loss": 0.6919,
      "num_input_tokens_seen": 1400210880,
      "step": 1550,
      "train_runtime": 206360.6402,
      "train_tokens_per_second": 6785.261
    },
    {
      "epoch": 1.3191511936339522,
      "grad_norm": 0.839491541858112,
      "learning_rate": 3.4421569561321705e-05,
      "loss": 0.7069,
      "num_input_tokens_seen": 1404544896,
      "step": 1555,
      "train_runtime": 206988.7608,
      "train_tokens_per_second": 6785.609
    },
    {
      "epoch": 1.323395225464191,
      "grad_norm": 0.7686049267619298,
      "learning_rate": 3.4307177881026574e-05,
      "loss": 0.7102,
      "num_input_tokens_seen": 1409135360,
      "step": 1560,
      "train_runtime": 207645.0724,
      "train_tokens_per_second": 6786.269
    },
    {
      "epoch": 1.3276392572944298,
      "grad_norm": 0.7897081067547944,
      "learning_rate": 3.419255953617762e-05,
      "loss": 0.7095,
      "num_input_tokens_seen": 1413494272,
      "step": 1565,
      "train_runtime": 208306.3313,
      "train_tokens_per_second": 6785.652
    },
    {
      "epoch": 1.3318832891246684,
      "grad_norm": 0.9461779222467549,
      "learning_rate": 3.407771731815975e-05,
      "loss": 0.685,
      "num_input_tokens_seen": 1417846272,
      "step": 1570,
      "train_runtime": 208904.186,
      "train_tokens_per_second": 6787.065
    },
    {
      "epoch": 1.3361273209549072,
      "grad_norm": 0.8934996824542671,
      "learning_rate": 3.3962654023810056e-05,
      "loss": 0.6814,
      "num_input_tokens_seen": 1422340672,
      "step": 1575,
      "train_runtime": 209567.9077,
      "train_tokens_per_second": 6787.016
    },
    {
      "epoch": 1.340371352785146,
      "grad_norm": 0.8661495630419888,
      "learning_rate": 3.384737245534962e-05,
      "loss": 0.7181,
      "num_input_tokens_seen": 1426955904,
      "step": 1580,
      "train_runtime": 210237.9687,
      "train_tokens_per_second": 6787.337
    },
    {
      "epoch": 1.3446153846153845,
      "grad_norm": 0.8719974075076845,
      "learning_rate": 3.373187542031534e-05,
      "loss": 0.6959,
      "num_input_tokens_seen": 1431489088,
      "step": 1585,
      "train_runtime": 210873.0161,
      "train_tokens_per_second": 6788.394
    },
    {
      "epoch": 1.3488594164456233,
      "grad_norm": 1.1626368748489013,
      "learning_rate": 3.361616573149153e-05,
      "loss": 0.6832,
      "num_input_tokens_seen": 1435997504,
      "step": 1590,
      "train_runtime": 211532.587,
      "train_tokens_per_second": 6788.54
    },
    {
      "epoch": 1.3531034482758622,
      "grad_norm": 0.8538479857974732,
      "learning_rate": 3.350024620684142e-05,
      "loss": 0.7099,
      "num_input_tokens_seen": 1440263232,
      "step": 1595,
      "train_runtime": 212121.5231,
      "train_tokens_per_second": 6789.802
    },
    {
      "epoch": 1.3573474801061007,
      "grad_norm": 0.8056069140705914,
      "learning_rate": 3.338411966943852e-05,
      "loss": 0.69,
      "num_input_tokens_seen": 1444712192,
      "step": 1600,
      "train_runtime": 212749.667,
      "train_tokens_per_second": 6790.667
    },
    {
      "epoch": 1.3615915119363395,
      "grad_norm": 0.7748917218818391,
      "learning_rate": 3.326778894739787e-05,
      "loss": 0.7012,
      "num_input_tokens_seen": 1449143872,
      "step": 1605,
      "train_runtime": 213375.0723,
      "train_tokens_per_second": 6791.533
    },
    {
      "epoch": 1.3658355437665781,
      "grad_norm": 0.7420765913634999,
      "learning_rate": 3.3151256873807166e-05,
      "loss": 0.7044,
      "num_input_tokens_seen": 1453720384,
      "step": 1610,
      "train_runtime": 214016.224,
      "train_tokens_per_second": 6792.571
    },
    {
      "epoch": 1.370079575596817,
      "grad_norm": 0.8236976518371382,
      "learning_rate": 3.3034526286657784e-05,
      "loss": 0.6767,
      "num_input_tokens_seen": 1458310144,
      "step": 1615,
      "train_runtime": 214691.52,
      "train_tokens_per_second": 6792.584
    },
    {
      "epoch": 1.3743236074270557,
      "grad_norm": 1.234048869991443,
      "learning_rate": 3.291760002877563e-05,
      "loss": 0.694,
      "num_input_tokens_seen": 1462804672,
      "step": 1620,
      "train_runtime": 215323.1611,
      "train_tokens_per_second": 6793.531
    },
    {
      "epoch": 1.3785676392572945,
      "grad_norm": 1.1190238309471685,
      "learning_rate": 3.280048094775194e-05,
      "loss": 0.6912,
      "num_input_tokens_seen": 1467354688,
      "step": 1625,
      "train_runtime": 215957.7438,
      "train_tokens_per_second": 6794.638
    },
    {
      "epoch": 1.3828116710875331,
      "grad_norm": 0.7424932571208389,
      "learning_rate": 3.268317189587389e-05,
      "loss": 0.6772,
      "num_input_tokens_seen": 1471765312,
      "step": 1630,
      "train_runtime": 216588.9755,
      "train_tokens_per_second": 6795.2
    },
    {
      "epoch": 1.387055702917772,
      "grad_norm": 0.8756485744320969,
      "learning_rate": 3.256567573005519e-05,
      "loss": 0.7056,
      "num_input_tokens_seen": 1476461312,
      "step": 1635,
      "train_runtime": 217239.6368,
      "train_tokens_per_second": 6796.464
    },
    {
      "epoch": 1.3912997347480105,
      "grad_norm": 0.8539432184293334,
      "learning_rate": 3.2447995311766426e-05,
      "loss": 0.6921,
      "num_input_tokens_seen": 1481070080,
      "step": 1640,
      "train_runtime": 217902.9575,
      "train_tokens_per_second": 6796.925
    },
    {
      "epoch": 1.3955437665782493,
      "grad_norm": 0.9984531979139321,
      "learning_rate": 3.233013350696547e-05,
      "loss": 0.6788,
      "num_input_tokens_seen": 1485426304,
      "step": 1645,
      "train_runtime": 218524.3978,
      "train_tokens_per_second": 6797.531
    },
    {
      "epoch": 1.399787798408488,
      "grad_norm": 0.8306599513500448,
      "learning_rate": 3.22120931860276e-05,
      "loss": 0.7068,
      "num_input_tokens_seen": 1489976064,
      "step": 1650,
      "train_runtime": 219164.0872,
      "train_tokens_per_second": 6798.45
    },
    {
      "epoch": 1.404031830238727,
      "grad_norm": 0.8165110526157475,
      "learning_rate": 3.2093877223675657e-05,
      "loss": 0.7055,
      "num_input_tokens_seen": 1494425408,
      "step": 1655,
      "train_runtime": 219817.6974,
      "train_tokens_per_second": 6798.476
    },
    {
      "epoch": 1.4082758620689655,
      "grad_norm": 0.9181922831479999,
      "learning_rate": 3.197548849890997e-05,
      "loss": 0.6919,
      "num_input_tokens_seen": 1499022912,
      "step": 1660,
      "train_runtime": 220540.8581,
      "train_tokens_per_second": 6797.03
    },
    {
      "epoch": 1.4125198938992043,
      "grad_norm": 0.8451299000501948,
      "learning_rate": 3.1856929894938294e-05,
      "loss": 0.6851,
      "num_input_tokens_seen": 1503165184,
      "step": 1665,
      "train_runtime": 221107.0695,
      "train_tokens_per_second": 6798.359
    },
    {
      "epoch": 1.4167639257294429,
      "grad_norm": 0.9309089115614846,
      "learning_rate": 3.17382042991056e-05,
      "loss": 0.6779,
      "num_input_tokens_seen": 1507912704,
      "step": 1670,
      "train_runtime": 221826.3413,
      "train_tokens_per_second": 6797.717
    },
    {
      "epoch": 1.4210079575596817,
      "grad_norm": 0.897730430026796,
      "learning_rate": 3.16193146028237e-05,
      "loss": 0.6916,
      "num_input_tokens_seen": 1512406912,
      "step": 1675,
      "train_runtime": 222474.5449,
      "train_tokens_per_second": 6798.112
    },
    {
      "epoch": 1.4252519893899205,
      "grad_norm": 1.0914616744302021,
      "learning_rate": 3.1500263701500896e-05,
      "loss": 0.7087,
      "num_input_tokens_seen": 1516995328,
      "step": 1680,
      "train_runtime": 223170.4553,
      "train_tokens_per_second": 6797.474
    },
    {
      "epoch": 1.4294960212201593,
      "grad_norm": 0.7658163870719906,
      "learning_rate": 3.1381054494471405e-05,
      "loss": 0.703,
      "num_input_tokens_seen": 1521406976,
      "step": 1685,
      "train_runtime": 223818.5244,
      "train_tokens_per_second": 6797.502
    },
    {
      "epoch": 1.4337400530503979,
      "grad_norm": 0.7295564226365354,
      "learning_rate": 3.12616898849248e-05,
      "loss": 0.7035,
      "num_input_tokens_seen": 1526055168,
      "step": 1690,
      "train_runtime": 224524.94,
      "train_tokens_per_second": 6796.818
    },
    {
      "epoch": 1.4379840848806367,
      "grad_norm": 0.8439956680094854,
      "learning_rate": 3.1142172779835274e-05,
      "loss": 0.6746,
      "num_input_tokens_seen": 1530635200,
      "step": 1695,
      "train_runtime": 225153.441,
      "train_tokens_per_second": 6798.187
    },
    {
      "epoch": 1.4422281167108753,
      "grad_norm": 0.8397468802586634,
      "learning_rate": 3.1022506089890876e-05,
      "loss": 0.7068,
      "num_input_tokens_seen": 1535012288,
      "step": 1700,
      "train_runtime": 225781.6539,
      "train_tokens_per_second": 6798.658
    },
    {
      "epoch": 1.446472148541114,
      "grad_norm": 0.7474048463993876,
      "learning_rate": 3.0902692729422575e-05,
      "loss": 0.6865,
      "num_input_tokens_seen": 1539284736,
      "step": 1705,
      "train_runtime": 226344.0602,
      "train_tokens_per_second": 6800.641
    },
    {
      "epoch": 1.4507161803713529,
      "grad_norm": 0.9736770454301451,
      "learning_rate": 3.078273561633335e-05,
      "loss": 0.6763,
      "num_input_tokens_seen": 1543699904,
      "step": 1710,
      "train_runtime": 226957.3024,
      "train_tokens_per_second": 6801.719
    },
    {
      "epoch": 1.4549602122015914,
      "grad_norm": 1.1147200850975938,
      "learning_rate": 3.066263767202706e-05,
      "loss": 0.6914,
      "num_input_tokens_seen": 1548275328,
      "step": 1715,
      "train_runtime": 227614.0923,
      "train_tokens_per_second": 6802.195
    },
    {
      "epoch": 1.4592042440318302,
      "grad_norm": 0.9261552445682865,
      "learning_rate": 3.0542401821337346e-05,
      "loss": 0.6895,
      "num_input_tokens_seen": 1552716864,
      "step": 1720,
      "train_runtime": 228231.3018,
      "train_tokens_per_second": 6803.26
    },
    {
      "epoch": 1.463448275862069,
      "grad_norm": 0.7494164761692941,
      "learning_rate": 3.042203099245639e-05,
      "loss": 0.6871,
      "num_input_tokens_seen": 1557269760,
      "step": 1725,
      "train_runtime": 228914.9513,
      "train_tokens_per_second": 6802.831
    },
    {
      "epoch": 1.4676923076923076,
      "grad_norm": 0.7383133192878851,
      "learning_rate": 3.0301528116863592e-05,
      "loss": 0.6914,
      "num_input_tokens_seen": 1561556608,
      "step": 1730,
      "train_runtime": 229541.9414,
      "train_tokens_per_second": 6802.925
    },
    {
      "epoch": 1.4719363395225464,
      "grad_norm": 0.877542891400688,
      "learning_rate": 3.0180896129254182e-05,
      "loss": 0.6962,
      "num_input_tokens_seen": 1565974592,
      "step": 1735,
      "train_runtime": 230156.1279,
      "train_tokens_per_second": 6803.967
    },
    {
      "epoch": 1.4761803713527852,
      "grad_norm": 0.7394328578918072,
      "learning_rate": 3.006013796746774e-05,
      "loss": 0.6763,
      "num_input_tokens_seen": 1570370368,
      "step": 1740,
      "train_runtime": 230776.2675,
      "train_tokens_per_second": 6804.731
    },
    {
      "epoch": 1.4804244031830238,
      "grad_norm": 0.8032649294789167,
      "learning_rate": 2.993925657241668e-05,
      "loss": 0.6904,
      "num_input_tokens_seen": 1574874432,
      "step": 1745,
      "train_runtime": 231438.1989,
      "train_tokens_per_second": 6804.73
    },
    {
      "epoch": 1.4846684350132626,
      "grad_norm": 0.9191103442108757,
      "learning_rate": 2.9818254888014586e-05,
      "loss": 0.6809,
      "num_input_tokens_seen": 1579401664,
      "step": 1750,
      "train_runtime": 232077.6612,
      "train_tokens_per_second": 6805.488
    },
    {
      "epoch": 1.4889124668435012,
      "grad_norm": 0.86131262301876,
      "learning_rate": 2.9697135861104546e-05,
      "loss": 0.6976,
      "num_input_tokens_seen": 1584000064,
      "step": 1755,
      "train_runtime": 232725.1511,
      "train_tokens_per_second": 6806.312
    },
    {
      "epoch": 1.49315649867374,
      "grad_norm": 0.7493354049181269,
      "learning_rate": 2.9575902441387393e-05,
      "loss": 0.693,
      "num_input_tokens_seen": 1588529152,
      "step": 1760,
      "train_runtime": 233378.3571,
      "train_tokens_per_second": 6806.669
    },
    {
      "epoch": 1.4974005305039788,
      "grad_norm": 0.790057237962092,
      "learning_rate": 2.9454557581349818e-05,
      "loss": 0.6793,
      "num_input_tokens_seen": 1593390656,
      "step": 1765,
      "train_runtime": 234055.6771,
      "train_tokens_per_second": 6807.742
    },
    {
      "epoch": 1.5016445623342176,
      "grad_norm": 0.8848325086982859,
      "learning_rate": 2.933310423619252e-05,
      "loss": 0.6963,
      "num_input_tokens_seen": 1597966720,
      "step": 1770,
      "train_runtime": 234761.2586,
      "train_tokens_per_second": 6806.774
    },
    {
      "epoch": 1.5016445623342176,
      "eval_loss": 0.7488037943840027,
      "eval_runtime": 1056.893,
      "eval_samples_per_second": 2.883,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 1597966720,
      "step": 1770
    },
    {
      "epoch": 1.5058885941644562,
      "grad_norm": 0.8733912053492838,
      "learning_rate": 2.9211545363758214e-05,
      "loss": 0.6861,
      "num_input_tokens_seen": 1602346944,
      "step": 1775,
      "train_runtime": 236413.8812,
      "train_tokens_per_second": 6777.719
    },
    {
      "epoch": 1.510132625994695,
      "grad_norm": 0.9213477294170037,
      "learning_rate": 2.9089883924459603e-05,
      "loss": 0.6802,
      "num_input_tokens_seen": 1606861888,
      "step": 1780,
      "train_runtime": 237090.594,
      "train_tokens_per_second": 6777.417
    },
    {
      "epoch": 1.5143766578249336,
      "grad_norm": 0.8533906385009806,
      "learning_rate": 2.8968122881207272e-05,
      "loss": 0.6926,
      "num_input_tokens_seen": 1611490176,
      "step": 1785,
      "train_runtime": 237783.8661,
      "train_tokens_per_second": 6777.122
    },
    {
      "epoch": 1.5186206896551724,
      "grad_norm": 0.700075097629672,
      "learning_rate": 2.884626519933753e-05,
      "loss": 0.6809,
      "num_input_tokens_seen": 1616104256,
      "step": 1790,
      "train_runtime": 238446.2141,
      "train_tokens_per_second": 6777.647
    },
    {
      "epoch": 1.5228647214854112,
      "grad_norm": 0.7529188790563152,
      "learning_rate": 2.872431384654021e-05,
      "loss": 0.6744,
      "num_input_tokens_seen": 1620585216,
      "step": 1795,
      "train_runtime": 239099.2559,
      "train_tokens_per_second": 6777.876
    },
    {
      "epoch": 1.52710875331565,
      "grad_norm": 0.9180471978156958,
      "learning_rate": 2.8602271792786355e-05,
      "loss": 0.6979,
      "num_input_tokens_seen": 1625263744,
      "step": 1800,
      "train_runtime": 239770.0872,
      "train_tokens_per_second": 6778.426
    },
    {
      "epoch": 1.5313527851458886,
      "grad_norm": 0.936376426158768,
      "learning_rate": 2.8480142010255956e-05,
      "loss": 0.6701,
      "num_input_tokens_seen": 1629558400,
      "step": 1805,
      "train_runtime": 240351.8577,
      "train_tokens_per_second": 6779.887
    },
    {
      "epoch": 1.5355968169761272,
      "grad_norm": 0.6813164585163979,
      "learning_rate": 2.835792747326549e-05,
      "loss": 0.6846,
      "num_input_tokens_seen": 1633885760,
      "step": 1810,
      "train_runtime": 240960.0435,
      "train_tokens_per_second": 6780.733
    },
    {
      "epoch": 1.539840848806366,
      "grad_norm": 0.9012352213500389,
      "learning_rate": 2.8235631158195542e-05,
      "loss": 0.6752,
      "num_input_tokens_seen": 1638485184,
      "step": 1815,
      "train_runtime": 241606.7877,
      "train_tokens_per_second": 6781.619
    },
    {
      "epoch": 1.5440848806366048,
      "grad_norm": 1.0501209838121786,
      "learning_rate": 2.8113256043418296e-05,
      "loss": 0.6786,
      "num_input_tokens_seen": 1643127424,
      "step": 1820,
      "train_runtime": 242328.0234,
      "train_tokens_per_second": 6780.592
    },
    {
      "epoch": 1.5483289124668436,
      "grad_norm": 0.7301282294890542,
      "learning_rate": 2.7990805109224994e-05,
      "loss": 0.7052,
      "num_input_tokens_seen": 1647584256,
      "step": 1825,
      "train_runtime": 242957.2381,
      "train_tokens_per_second": 6781.375
    },
    {
      "epoch": 1.5525729442970824,
      "grad_norm": 0.7180423134088882,
      "learning_rate": 2.786828133775337e-05,
      "loss": 0.6862,
      "num_input_tokens_seen": 1651979520,
      "step": 1830,
      "train_runtime": 243571.1176,
      "train_tokens_per_second": 6782.329
    },
    {
      "epoch": 1.556816976127321,
      "grad_norm": 1.0492539609549594,
      "learning_rate": 2.774568771291503e-05,
      "loss": 0.6832,
      "num_input_tokens_seen": 1656516672,
      "step": 1835,
      "train_runtime": 244227.2168,
      "train_tokens_per_second": 6782.687
    },
    {
      "epoch": 1.5610610079575595,
      "grad_norm": 1.1159044633198913,
      "learning_rate": 2.7623027220322757e-05,
      "loss": 0.6695,
      "num_input_tokens_seen": 1661151360,
      "step": 1840,
      "train_runtime": 244907.8876,
      "train_tokens_per_second": 6782.76
    },
    {
      "epoch": 1.5653050397877983,
      "grad_norm": 0.7897737642307381,
      "learning_rate": 2.75003028472178e-05,
      "loss": 0.6781,
      "num_input_tokens_seen": 1665702272,
      "step": 1845,
      "train_runtime": 245544.1767,
      "train_tokens_per_second": 6783.717
    },
    {
      "epoch": 1.5695490716180371,
      "grad_norm": 0.8021337355935967,
      "learning_rate": 2.737751758239717e-05,
      "loss": 0.6872,
      "num_input_tokens_seen": 1670142848,
      "step": 1850,
      "train_runtime": 246145.0482,
      "train_tokens_per_second": 6785.198
    },
    {
      "epoch": 1.573793103448276,
      "grad_norm": 0.9146806729788793,
      "learning_rate": 2.7254674416140796e-05,
      "loss": 0.6674,
      "num_input_tokens_seen": 1674686336,
      "step": 1855,
      "train_runtime": 246790.7905,
      "train_tokens_per_second": 6785.854
    },
    {
      "epoch": 1.5780371352785147,
      "grad_norm": 0.7370948567058712,
      "learning_rate": 2.7131776340138732e-05,
      "loss": 0.6835,
      "num_input_tokens_seen": 1679386880,
      "step": 1860,
      "train_runtime": 247484.4332,
      "train_tokens_per_second": 6785.828
    },
    {
      "epoch": 1.5822811671087533,
      "grad_norm": 0.8275204157097062,
      "learning_rate": 2.700882634741828e-05,
      "loss": 0.6633,
      "num_input_tokens_seen": 1683943488,
      "step": 1865,
      "train_runtime": 248132.5186,
      "train_tokens_per_second": 6786.468
    },
    {
      "epoch": 1.586525198938992,
      "grad_norm": 0.9040723037619556,
      "learning_rate": 2.688582743227112e-05,
      "loss": 0.6687,
      "num_input_tokens_seen": 1688602624,
      "step": 1870,
      "train_runtime": 248805.7127,
      "train_tokens_per_second": 6786.832
    },
    {
      "epoch": 1.5907692307692307,
      "grad_norm": 0.760985868201272,
      "learning_rate": 2.676278259018037e-05,
      "loss": 0.6978,
      "num_input_tokens_seen": 1693144960,
      "step": 1875,
      "train_runtime": 249443.0497,
      "train_tokens_per_second": 6787.701
    },
    {
      "epoch": 1.5950132625994695,
      "grad_norm": 0.6622361089518702,
      "learning_rate": 2.663969481774764e-05,
      "loss": 0.6809,
      "num_input_tokens_seen": 1697705216,
      "step": 1880,
      "train_runtime": 250088.7537,
      "train_tokens_per_second": 6788.411
    },
    {
      "epoch": 1.5992572944297083,
      "grad_norm": 0.9742697876211484,
      "learning_rate": 2.6516567112620057e-05,
      "loss": 0.6955,
      "num_input_tokens_seen": 1702328000,
      "step": 1885,
      "train_runtime": 250811.4006,
      "train_tokens_per_second": 6787.283
    },
    {
      "epoch": 1.603501326259947,
      "grad_norm": 0.8432142437312786,
      "learning_rate": 2.6393402473417257e-05,
      "loss": 0.6891,
      "num_input_tokens_seen": 1706848704,
      "step": 1890,
      "train_runtime": 251465.4682,
      "train_tokens_per_second": 6787.607
    },
    {
      "epoch": 1.6077453580901857,
      "grad_norm": 1.1461032434751868,
      "learning_rate": 2.627020389965835e-05,
      "loss": 0.6813,
      "num_input_tokens_seen": 1711334336,
      "step": 1895,
      "train_runtime": 252107.1822,
      "train_tokens_per_second": 6788.122
    },
    {
      "epoch": 1.6119893899204243,
      "grad_norm": 0.7667390099087915,
      "learning_rate": 2.61469743916889e-05,
      "loss": 0.6809,
      "num_input_tokens_seen": 1715695488,
      "step": 1900,
      "train_runtime": 252733.9504,
      "train_tokens_per_second": 6788.544
    },
    {
      "epoch": 1.616233421750663,
      "grad_norm": 1.319936113059114,
      "learning_rate": 2.6023716950607814e-05,
      "loss": 0.6773,
      "num_input_tokens_seen": 1720293184,
      "step": 1905,
      "train_runtime": 253411.1635,
      "train_tokens_per_second": 6788.545
    },
    {
      "epoch": 1.620477453580902,
      "grad_norm": 0.8696242756135805,
      "learning_rate": 2.590043457819428e-05,
      "loss": 0.6858,
      "num_input_tokens_seen": 1724818304,
      "step": 1910,
      "train_runtime": 254091.2449,
      "train_tokens_per_second": 6788.185
    },
    {
      "epoch": 1.6247214854111407,
      "grad_norm": 0.6984051732842884,
      "learning_rate": 2.5777130276834677e-05,
      "loss": 0.6558,
      "num_input_tokens_seen": 1729429824,
      "step": 1915,
      "train_runtime": 254736.195,
      "train_tokens_per_second": 6789.101
    },
    {
      "epoch": 1.6289655172413793,
      "grad_norm": 0.7277968832920597,
      "learning_rate": 2.56538070494494e-05,
      "loss": 0.6816,
      "num_input_tokens_seen": 1733884032,
      "step": 1920,
      "train_runtime": 255336.8051,
      "train_tokens_per_second": 6790.576
    },
    {
      "epoch": 1.633209549071618,
      "grad_norm": 0.9589871027299995,
      "learning_rate": 2.5530467899419792e-05,
      "loss": 0.6529,
      "num_input_tokens_seen": 1738507328,
      "step": 1925,
      "train_runtime": 256022.2293,
      "train_tokens_per_second": 6790.455
    },
    {
      "epoch": 1.6374535809018567,
      "grad_norm": 0.8788636504147925,
      "learning_rate": 2.5407115830514955e-05,
      "loss": 0.6613,
      "num_input_tokens_seen": 1743139584,
      "step": 1930,
      "train_runtime": 256649.7946,
      "train_tokens_per_second": 6791.899
    },
    {
      "epoch": 1.6416976127320955,
      "grad_norm": 0.751730530930981,
      "learning_rate": 2.5283753846818626e-05,
      "loss": 0.6688,
      "num_input_tokens_seen": 1747799104,
      "step": 1935,
      "train_runtime": 257356.5973,
      "train_tokens_per_second": 6791.351
    },
    {
      "epoch": 1.6459416445623343,
      "grad_norm": 1.0663719817746726,
      "learning_rate": 2.516038495265599e-05,
      "loss": 0.6806,
      "num_input_tokens_seen": 1752473536,
      "step": 1940,
      "train_runtime": 258018.0708,
      "train_tokens_per_second": 6792.057
    },
    {
      "epoch": 1.650185676392573,
      "grad_norm": 0.8682191978665272,
      "learning_rate": 2.503701215252056e-05,
      "loss": 0.6834,
      "num_input_tokens_seen": 1757236416,
      "step": 1945,
      "train_runtime": 258721.276,
      "train_tokens_per_second": 6792.006
    },
    {
      "epoch": 1.6544297082228117,
      "grad_norm": 0.7561744190987955,
      "learning_rate": 2.4913638451000926e-05,
      "loss": 0.6723,
      "num_input_tokens_seen": 1761509184,
      "step": 1950,
      "train_runtime": 259302.524,
      "train_tokens_per_second": 6793.259
    },
    {
      "epoch": 1.6586737400530502,
      "grad_norm": 0.9925925496141875,
      "learning_rate": 2.479026685270767e-05,
      "loss": 0.652,
      "num_input_tokens_seen": 1766119104,
      "step": 1955,
      "train_runtime": 259978.5543,
      "train_tokens_per_second": 6793.326
    },
    {
      "epoch": 1.662917771883289,
      "grad_norm": 0.6823275549351902,
      "learning_rate": 2.4666900362200124e-05,
      "loss": 0.6702,
      "num_input_tokens_seen": 1770634688,
      "step": 1960,
      "train_runtime": 260619.4472,
      "train_tokens_per_second": 6793.947
    },
    {
      "epoch": 1.6671618037135278,
      "grad_norm": 0.8309834963725057,
      "learning_rate": 2.4543541983913257e-05,
      "loss": 0.6498,
      "num_input_tokens_seen": 1775127616,
      "step": 1965,
      "train_runtime": 261263.6563,
      "train_tokens_per_second": 6794.392
    },
    {
      "epoch": 1.6714058355437666,
      "grad_norm": 0.916270148214916,
      "learning_rate": 2.4420194722084438e-05,
      "loss": 0.6637,
      "num_input_tokens_seen": 1779681280,
      "step": 1970,
      "train_runtime": 261910.4255,
      "train_tokens_per_second": 6795.0
    },
    {
      "epoch": 1.6756498673740055,
      "grad_norm": 0.8052511706103775,
      "learning_rate": 2.4296861580680348e-05,
      "loss": 0.6941,
      "num_input_tokens_seen": 1784311040,
      "step": 1975,
      "train_runtime": 262520.958,
      "train_tokens_per_second": 6796.833
    },
    {
      "epoch": 1.679893899204244,
      "grad_norm": 0.9680550812544997,
      "learning_rate": 2.4173545563323745e-05,
      "loss": 0.6812,
      "num_input_tokens_seen": 1788858240,
      "step": 1980,
      "train_runtime": 263164.4906,
      "train_tokens_per_second": 6797.491
    },
    {
      "epoch": 1.6841379310344826,
      "grad_norm": 0.854153010692225,
      "learning_rate": 2.4050249673220394e-05,
      "loss": 0.6798,
      "num_input_tokens_seen": 1793492672,
      "step": 1985,
      "train_runtime": 263823.0171,
      "train_tokens_per_second": 6798.09
    },
    {
      "epoch": 1.6883819628647214,
      "grad_norm": 0.9065907609733993,
      "learning_rate": 2.3926976913085848e-05,
      "loss": 0.6844,
      "num_input_tokens_seen": 1798141312,
      "step": 1990,
      "train_runtime": 264461.4917,
      "train_tokens_per_second": 6799.256
    },
    {
      "epoch": 1.6926259946949602,
      "grad_norm": 0.964561250811086,
      "learning_rate": 2.3803730285072366e-05,
      "loss": 0.6795,
      "num_input_tokens_seen": 1802590528,
      "step": 1995,
      "train_runtime": 265120.6177,
      "train_tokens_per_second": 6799.134
    },
    {
      "epoch": 1.696870026525199,
      "grad_norm": 0.9694821325807637,
      "learning_rate": 2.3680512790695818e-05,
      "loss": 0.6863,
      "num_input_tokens_seen": 1806991488,
      "step": 2000,
      "train_runtime": 265757.2174,
      "train_tokens_per_second": 6799.407
    },
    {
      "epoch": 1.7011140583554378,
      "grad_norm": 0.8677648954151779,
      "learning_rate": 2.3557327430762528e-05,
      "loss": 0.6698,
      "num_input_tokens_seen": 1811461056,
      "step": 2005,
      "train_runtime": 266396.2479,
      "train_tokens_per_second": 6799.875
    },
    {
      "epoch": 1.7053580901856764,
      "grad_norm": 0.7613369253339761,
      "learning_rate": 2.3434177205296257e-05,
      "loss": 0.6613,
      "num_input_tokens_seen": 1816142272,
      "step": 2010,
      "train_runtime": 267054.6771,
      "train_tokens_per_second": 6800.638
    },
    {
      "epoch": 1.709602122015915,
      "grad_norm": 1.0622307149303414,
      "learning_rate": 2.3311065113465083e-05,
      "loss": 0.6602,
      "num_input_tokens_seen": 1820555008,
      "step": 2015,
      "train_runtime": 267688.1492,
      "train_tokens_per_second": 6801.03
    },
    {
      "epoch": 1.7138461538461538,
      "grad_norm": 0.8964492847174279,
      "learning_rate": 2.3187994153508397e-05,
      "loss": 0.658,
      "num_input_tokens_seen": 1825223808,
      "step": 2020,
      "train_runtime": 268333.947,
      "train_tokens_per_second": 6802.061
    },
    {
      "epoch": 1.7180901856763926,
      "grad_norm": 1.177224036456473,
      "learning_rate": 2.3064967322663893e-05,
      "loss": 0.6932,
      "num_input_tokens_seen": 1829789568,
      "step": 2025,
      "train_runtime": 268969.5993,
      "train_tokens_per_second": 6802.961
    },
    {
      "epoch": 1.7223342175066314,
      "grad_norm": 1.0226100260638311,
      "learning_rate": 2.2941987617094527e-05,
      "loss": 0.6721,
      "num_input_tokens_seen": 1834277632,
      "step": 2030,
      "train_runtime": 269616.3957,
      "train_tokens_per_second": 6803.287
    },
    {
      "epoch": 1.72657824933687,
      "grad_norm": 0.776158652036907,
      "learning_rate": 2.2819058031815606e-05,
      "loss": 0.685,
      "num_input_tokens_seen": 1838997504,
      "step": 2035,
      "train_runtime": 270312.8678,
      "train_tokens_per_second": 6803.219
    },
    {
      "epoch": 1.7308222811671088,
      "grad_norm": 0.8255759535290057,
      "learning_rate": 2.26961815606218e-05,
      "loss": 0.6708,
      "num_input_tokens_seen": 1843497088,
      "step": 2040,
      "train_runtime": 270987.9158,
      "train_tokens_per_second": 6802.876
    },
    {
      "epoch": 1.7350663129973474,
      "grad_norm": 0.9846063905318818,
      "learning_rate": 2.2573361196014245e-05,
      "loss": 0.68,
      "num_input_tokens_seen": 1848067968,
      "step": 2045,
      "train_runtime": 271662.3336,
      "train_tokens_per_second": 6802.813
    },
    {
      "epoch": 1.7393103448275862,
      "grad_norm": 0.8104965013143679,
      "learning_rate": 2.2450599929127715e-05,
      "loss": 0.6681,
      "num_input_tokens_seen": 1852536512,
      "step": 2050,
      "train_runtime": 272308.8148,
      "train_tokens_per_second": 6803.072
    },
    {
      "epoch": 1.743554376657825,
      "grad_norm": 0.7512768919734117,
      "learning_rate": 2.2327900749657677e-05,
      "loss": 0.6608,
      "num_input_tokens_seen": 1856969408,
      "step": 2055,
      "train_runtime": 272924.5407,
      "train_tokens_per_second": 6803.966
    },
    {
      "epoch": 1.7477984084880638,
      "grad_norm": 0.938563336869354,
      "learning_rate": 2.2205266645787588e-05,
      "loss": 0.6436,
      "num_input_tokens_seen": 1861364032,
      "step": 2060,
      "train_runtime": 273525.8351,
      "train_tokens_per_second": 6805.076
    },
    {
      "epoch": 1.7520424403183024,
      "grad_norm": 0.9168142161151926,
      "learning_rate": 2.2082700604116046e-05,
      "loss": 0.6734,
      "num_input_tokens_seen": 1866079936,
      "step": 2065,
      "train_runtime": 274238.6936,
      "train_tokens_per_second": 6804.583
    },
    {
      "epoch": 1.7520424403183024,
      "eval_loss": 0.729947566986084,
      "eval_runtime": 1057.9673,
      "eval_samples_per_second": 2.88,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 1866079936,
      "step": 2065
    },
    {
      "epoch": 1.7562864721485412,
      "grad_norm": 0.7781219629120125,
      "learning_rate": 2.1960205609584066e-05,
      "loss": 0.6555,
      "num_input_tokens_seen": 1870563904,
      "step": 2070,
      "train_runtime": 275928.5055,
      "train_tokens_per_second": 6779.162
    },
    {
      "epoch": 1.7605305039787797,
      "grad_norm": 0.8980636445872143,
      "learning_rate": 2.183778464540244e-05,
      "loss": 0.6756,
      "num_input_tokens_seen": 1874859840,
      "step": 2075,
      "train_runtime": 276546.0381,
      "train_tokens_per_second": 6779.558
    },
    {
      "epoch": 1.7647745358090186,
      "grad_norm": 0.8923077727556372,
      "learning_rate": 2.1715440692978994e-05,
      "loss": 0.6779,
      "num_input_tokens_seen": 1879558656,
      "step": 2080,
      "train_runtime": 277240.8007,
      "train_tokens_per_second": 6779.517
    },
    {
      "epoch": 1.7690185676392574,
      "grad_norm": 1.1974687941835145,
      "learning_rate": 2.159317673184608e-05,
      "loss": 0.6671,
      "num_input_tokens_seen": 1883979904,
      "step": 2085,
      "train_runtime": 277861.5498,
      "train_tokens_per_second": 6780.283
    },
    {
      "epoch": 1.7732625994694962,
      "grad_norm": 0.7953214594587166,
      "learning_rate": 2.1470995739587944e-05,
      "loss": 0.6731,
      "num_input_tokens_seen": 1888448384,
      "step": 2090,
      "train_runtime": 278500.3438,
      "train_tokens_per_second": 6780.776
    },
    {
      "epoch": 1.7775066312997347,
      "grad_norm": 0.7353368817381706,
      "learning_rate": 2.13489006917682e-05,
      "loss": 0.6567,
      "num_input_tokens_seen": 1892962880,
      "step": 2095,
      "train_runtime": 279180.0365,
      "train_tokens_per_second": 6780.438
    },
    {
      "epoch": 1.7817506631299733,
      "grad_norm": 0.7817976445897892,
      "learning_rate": 2.1226894561857447e-05,
      "loss": 0.6645,
      "num_input_tokens_seen": 1897595968,
      "step": 2100,
      "train_runtime": 279829.9966,
      "train_tokens_per_second": 6781.246
    },
    {
      "epoch": 1.7859946949602121,
      "grad_norm": 0.8309895762650132,
      "learning_rate": 2.1104980321160752e-05,
      "loss": 0.6734,
      "num_input_tokens_seen": 1902109888,
      "step": 2105,
      "train_runtime": 280489.1904,
      "train_tokens_per_second": 6781.402
    },
    {
      "epoch": 1.790238726790451,
      "grad_norm": 0.6339748804576945,
      "learning_rate": 2.0983160938745382e-05,
      "loss": 0.6526,
      "num_input_tokens_seen": 1906705216,
      "step": 2110,
      "train_runtime": 281135.8565,
      "train_tokens_per_second": 6782.149
    },
    {
      "epoch": 1.7944827586206897,
      "grad_norm": 0.8552208011108713,
      "learning_rate": 2.086143938136841e-05,
      "loss": 0.6563,
      "num_input_tokens_seen": 1911218304,
      "step": 2115,
      "train_runtime": 281788.5646,
      "train_tokens_per_second": 6782.455
    },
    {
      "epoch": 1.7987267904509285,
      "grad_norm": 0.9732618024212317,
      "learning_rate": 2.0739818613404513e-05,
      "loss": 0.6619,
      "num_input_tokens_seen": 1915723008,
      "step": 2120,
      "train_runtime": 282459.2265,
      "train_tokens_per_second": 6782.299
    },
    {
      "epoch": 1.8029708222811671,
      "grad_norm": 1.0431409571591543,
      "learning_rate": 2.06183015967738e-05,
      "loss": 0.6451,
      "num_input_tokens_seen": 1920464320,
      "step": 2125,
      "train_runtime": 283127.6969,
      "train_tokens_per_second": 6783.032
    },
    {
      "epoch": 1.8072148541114057,
      "grad_norm": 0.874966660194592,
      "learning_rate": 2.0496891290869595e-05,
      "loss": 0.6679,
      "num_input_tokens_seen": 1924942528,
      "step": 2130,
      "train_runtime": 283780.283,
      "train_tokens_per_second": 6783.214
    },
    {
      "epoch": 1.8114588859416445,
      "grad_norm": 0.7749558949940442,
      "learning_rate": 2.0375590652486482e-05,
      "loss": 0.6803,
      "num_input_tokens_seen": 1929745408,
      "step": 2135,
      "train_runtime": 284477.4061,
      "train_tokens_per_second": 6783.475
    },
    {
      "epoch": 1.8157029177718833,
      "grad_norm": 0.7228243017653365,
      "learning_rate": 2.025440263574817e-05,
      "loss": 0.6338,
      "num_input_tokens_seen": 1934284800,
      "step": 2140,
      "train_runtime": 285111.2012,
      "train_tokens_per_second": 6784.317
    },
    {
      "epoch": 1.819946949602122,
      "grad_norm": 0.7810955976714484,
      "learning_rate": 2.013333019203563e-05,
      "loss": 0.6532,
      "num_input_tokens_seen": 1938877184,
      "step": 2145,
      "train_runtime": 285771.2844,
      "train_tokens_per_second": 6784.717
    },
    {
      "epoch": 1.8241909814323607,
      "grad_norm": 0.8174083310669077,
      "learning_rate": 2.001237626991523e-05,
      "loss": 0.6511,
      "num_input_tokens_seen": 1943391872,
      "step": 2150,
      "train_runtime": 286412.497,
      "train_tokens_per_second": 6785.29
    },
    {
      "epoch": 1.8284350132625995,
      "grad_norm": 0.795144872361272,
      "learning_rate": 1.989154381506684e-05,
      "loss": 0.6598,
      "num_input_tokens_seen": 1947919808,
      "step": 2155,
      "train_runtime": 287052.841,
      "train_tokens_per_second": 6785.928
    },
    {
      "epoch": 1.832679045092838,
      "grad_norm": 0.7485422633125285,
      "learning_rate": 1.9770835770212198e-05,
      "loss": 0.6566,
      "num_input_tokens_seen": 1952470976,
      "step": 2160,
      "train_runtime": 287718.7456,
      "train_tokens_per_second": 6786.04
    },
    {
      "epoch": 1.8369230769230769,
      "grad_norm": 1.1308794437672134,
      "learning_rate": 1.9650255075043163e-05,
      "loss": 0.6559,
      "num_input_tokens_seen": 1957140480,
      "step": 2165,
      "train_runtime": 288394.0615,
      "train_tokens_per_second": 6786.341
    },
    {
      "epoch": 1.8411671087533157,
      "grad_norm": 0.8804300984321736,
      "learning_rate": 1.9529804666150157e-05,
      "loss": 0.6628,
      "num_input_tokens_seen": 1961650176,
      "step": 2170,
      "train_runtime": 289025.4848,
      "train_tokens_per_second": 6787.118
    },
    {
      "epoch": 1.8454111405835545,
      "grad_norm": 0.7255223951059633,
      "learning_rate": 1.940948747695066e-05,
      "loss": 0.6394,
      "num_input_tokens_seen": 1966166336,
      "step": 2175,
      "train_runtime": 289641.3116,
      "train_tokens_per_second": 6788.28
    },
    {
      "epoch": 1.849655172413793,
      "grad_norm": 0.7679331866159973,
      "learning_rate": 1.9289306437617734e-05,
      "loss": 0.6643,
      "num_input_tokens_seen": 1970829888,
      "step": 2180,
      "train_runtime": 290308.436,
      "train_tokens_per_second": 6788.745
    },
    {
      "epoch": 1.8538992042440319,
      "grad_norm": 1.142785592894065,
      "learning_rate": 1.916926447500871e-05,
      "loss": 0.6499,
      "num_input_tokens_seen": 1975190528,
      "step": 2185,
      "train_runtime": 290918.3543,
      "train_tokens_per_second": 6789.501
    },
    {
      "epoch": 1.8581432360742705,
      "grad_norm": 0.9065635652001467,
      "learning_rate": 1.904936451259384e-05,
      "loss": 0.6607,
      "num_input_tokens_seen": 1979864704,
      "step": 2190,
      "train_runtime": 291624.09,
      "train_tokens_per_second": 6789.099
    },
    {
      "epoch": 1.8623872679045093,
      "grad_norm": 2.2396906301840747,
      "learning_rate": 1.892960947038519e-05,
      "loss": 0.671,
      "num_input_tokens_seen": 1984425600,
      "step": 2195,
      "train_runtime": 292249.7481,
      "train_tokens_per_second": 6790.17
    },
    {
      "epoch": 1.866631299734748,
      "grad_norm": 0.821508733622114,
      "learning_rate": 1.8810002264865444e-05,
      "loss": 0.6556,
      "num_input_tokens_seen": 1988847360,
      "step": 2200,
      "train_runtime": 292879.9609,
      "train_tokens_per_second": 6790.657
    },
    {
      "epoch": 1.8708753315649869,
      "grad_norm": 0.7742604167377043,
      "learning_rate": 1.8690545808916908e-05,
      "loss": 0.6713,
      "num_input_tokens_seen": 1993346432,
      "step": 2205,
      "train_runtime": 293530.2207,
      "train_tokens_per_second": 6790.941
    },
    {
      "epoch": 1.8751193633952254,
      "grad_norm": 0.7780945672181276,
      "learning_rate": 1.8571243011750604e-05,
      "loss": 0.6511,
      "num_input_tokens_seen": 1997950144,
      "step": 2210,
      "train_runtime": 294160.5008,
      "train_tokens_per_second": 6792.041
    },
    {
      "epoch": 1.879363395225464,
      "grad_norm": 0.7883576009365799,
      "learning_rate": 1.8452096778835348e-05,
      "loss": 0.6611,
      "num_input_tokens_seen": 2002450688,
      "step": 2215,
      "train_runtime": 294809.6886,
      "train_tokens_per_second": 6792.35
    },
    {
      "epoch": 1.8836074270557028,
      "grad_norm": 1.3753307055301716,
      "learning_rate": 1.833311001182707e-05,
      "loss": 0.6566,
      "num_input_tokens_seen": 2006911360,
      "step": 2220,
      "train_runtime": 295455.3095,
      "train_tokens_per_second": 6792.605
    },
    {
      "epoch": 1.8878514588859416,
      "grad_norm": 0.7211010767842578,
      "learning_rate": 1.821428560849809e-05,
      "loss": 0.6493,
      "num_input_tokens_seen": 2011488384,
      "step": 2225,
      "train_runtime": 296132.4569,
      "train_tokens_per_second": 6792.529
    },
    {
      "epoch": 1.8920954907161804,
      "grad_norm": 0.7499760395080998,
      "learning_rate": 1.8095626462666548e-05,
      "loss": 0.6688,
      "num_input_tokens_seen": 2016013248,
      "step": 2230,
      "train_runtime": 296757.4534,
      "train_tokens_per_second": 6793.471
    },
    {
      "epoch": 1.8963395225464192,
      "grad_norm": 0.7281088629603852,
      "learning_rate": 1.797713546412598e-05,
      "loss": 0.6691,
      "num_input_tokens_seen": 2020582592,
      "step": 2235,
      "train_runtime": 297412.3677,
      "train_tokens_per_second": 6793.875
    },
    {
      "epoch": 1.9005835543766578,
      "grad_norm": 0.6418455823156107,
      "learning_rate": 1.78588154985749e-05,
      "loss": 0.6638,
      "num_input_tokens_seen": 2025185600,
      "step": 2240,
      "train_runtime": 298049.559,
      "train_tokens_per_second": 6794.795
    },
    {
      "epoch": 1.9048275862068964,
      "grad_norm": 0.8741945049532132,
      "learning_rate": 1.7740669447546513e-05,
      "loss": 0.6691,
      "num_input_tokens_seen": 2029829952,
      "step": 2245,
      "train_runtime": 298722.6372,
      "train_tokens_per_second": 6795.032
    },
    {
      "epoch": 1.9090716180371352,
      "grad_norm": 0.841478880460149,
      "learning_rate": 1.762270018833857e-05,
      "loss": 0.6789,
      "num_input_tokens_seen": 2034547456,
      "step": 2250,
      "train_runtime": 299449.1091,
      "train_tokens_per_second": 6794.301
    },
    {
      "epoch": 1.913315649867374,
      "grad_norm": 0.8723647428014106,
      "learning_rate": 1.7504910593943267e-05,
      "loss": 0.6579,
      "num_input_tokens_seen": 2039144640,
      "step": 2255,
      "train_runtime": 300085.9181,
      "train_tokens_per_second": 6795.203
    },
    {
      "epoch": 1.9175596816976128,
      "grad_norm": 0.7892235650709017,
      "learning_rate": 1.738730353297732e-05,
      "loss": 0.6824,
      "num_input_tokens_seen": 2043803392,
      "step": 2260,
      "train_runtime": 300788.7082,
      "train_tokens_per_second": 6794.814
    },
    {
      "epoch": 1.9218037135278516,
      "grad_norm": 0.7722394088543671,
      "learning_rate": 1.726988186961202e-05,
      "loss": 0.6557,
      "num_input_tokens_seen": 2048335872,
      "step": 2265,
      "train_runtime": 301420.1009,
      "train_tokens_per_second": 6795.618
    },
    {
      "epoch": 1.9260477453580902,
      "grad_norm": 0.922769500095772,
      "learning_rate": 1.7152648463503605e-05,
      "loss": 0.6614,
      "num_input_tokens_seen": 2053131840,
      "step": 2270,
      "train_runtime": 302141.3095,
      "train_tokens_per_second": 6795.27
    },
    {
      "epoch": 1.9302917771883288,
      "grad_norm": 0.7824828630386448,
      "learning_rate": 1.7035606169723488e-05,
      "loss": 0.6478,
      "num_input_tokens_seen": 2057792768,
      "step": 2275,
      "train_runtime": 302806.6263,
      "train_tokens_per_second": 6795.732
    },
    {
      "epoch": 1.9345358090185676,
      "grad_norm": 0.8688413702016398,
      "learning_rate": 1.69187578386888e-05,
      "loss": 0.6524,
      "num_input_tokens_seen": 2062355392,
      "step": 2280,
      "train_runtime": 303443.8425,
      "train_tokens_per_second": 6796.498
    },
    {
      "epoch": 1.9387798408488064,
      "grad_norm": 0.9595105345229777,
      "learning_rate": 1.6802106316092966e-05,
      "loss": 0.6603,
      "num_input_tokens_seen": 2066871424,
      "step": 2285,
      "train_runtime": 304131.5685,
      "train_tokens_per_second": 6795.978
    },
    {
      "epoch": 1.9430238726790452,
      "grad_norm": 0.8712664797281483,
      "learning_rate": 1.6685654442836373e-05,
      "loss": 0.6587,
      "num_input_tokens_seen": 2071492864,
      "step": 2290,
      "train_runtime": 304825.7013,
      "train_tokens_per_second": 6795.663
    },
    {
      "epoch": 1.9472679045092838,
      "grad_norm": 0.7732671706732043,
      "learning_rate": 1.656940505495722e-05,
      "loss": 0.6524,
      "num_input_tokens_seen": 2075990976,
      "step": 2295,
      "train_runtime": 305476.6188,
      "train_tokens_per_second": 6795.908
    },
    {
      "epoch": 1.9515119363395226,
      "grad_norm": 0.8870290841303411,
      "learning_rate": 1.645336098356242e-05,
      "loss": 0.6405,
      "num_input_tokens_seen": 2080441856,
      "step": 2300,
      "train_runtime": 306111.3026,
      "train_tokens_per_second": 6796.358
    },
    {
      "epoch": 1.9557559681697612,
      "grad_norm": 0.8458061170360918,
      "learning_rate": 1.633752505475864e-05,
      "loss": 0.6634,
      "num_input_tokens_seen": 2085189888,
      "step": 2305,
      "train_runtime": 306781.713,
      "train_tokens_per_second": 6796.982
    },
    {
      "epoch": 1.96,
      "grad_norm": 1.3279259324289545,
      "learning_rate": 1.622190008958354e-05,
      "loss": 0.6473,
      "num_input_tokens_seen": 2089579008,
      "step": 2310,
      "train_runtime": 307390.5024,
      "train_tokens_per_second": 6797.8
    },
    {
      "epoch": 1.9642440318302388,
      "grad_norm": 0.9118221582118621,
      "learning_rate": 1.610648890393701e-05,
      "loss": 0.6665,
      "num_input_tokens_seen": 2094280256,
      "step": 2315,
      "train_runtime": 308079.9412,
      "train_tokens_per_second": 6797.847
    },
    {
      "epoch": 1.9684880636604776,
      "grad_norm": 0.8711258127478657,
      "learning_rate": 1.5991294308512595e-05,
      "loss": 0.6587,
      "num_input_tokens_seen": 2098990464,
      "step": 2320,
      "train_runtime": 308818.5174,
      "train_tokens_per_second": 6796.841
    },
    {
      "epoch": 1.9727320954907162,
      "grad_norm": 0.7184830235566304,
      "learning_rate": 1.5876319108729077e-05,
      "loss": 0.6661,
      "num_input_tokens_seen": 2103407872,
      "step": 2325,
      "train_runtime": 309463.3706,
      "train_tokens_per_second": 6796.953
    },
    {
      "epoch": 1.976976127320955,
      "grad_norm": 0.7747189164106947,
      "learning_rate": 1.5761566104662117e-05,
      "loss": 0.6518,
      "num_input_tokens_seen": 2107807168,
      "step": 2330,
      "train_runtime": 310069.0252,
      "train_tokens_per_second": 6797.864
    },
    {
      "epoch": 1.9812201591511935,
      "grad_norm": 0.878008091110606,
      "learning_rate": 1.5647038090976114e-05,
      "loss": 0.6593,
      "num_input_tokens_seen": 2112190016,
      "step": 2335,
      "train_runtime": 310683.7408,
      "train_tokens_per_second": 6798.521
    },
    {
      "epoch": 1.9854641909814323,
      "grad_norm": 0.7138571628786999,
      "learning_rate": 1.5532737856856062e-05,
      "loss": 0.6507,
      "num_input_tokens_seen": 2116487360,
      "step": 2340,
      "train_runtime": 311271.0869,
      "train_tokens_per_second": 6799.499
    },
    {
      "epoch": 1.9897082228116711,
      "grad_norm": 0.873326228404246,
      "learning_rate": 1.5418668185939715e-05,
      "loss": 0.6422,
      "num_input_tokens_seen": 2120920256,
      "step": 2345,
      "train_runtime": 311893.1375,
      "train_tokens_per_second": 6800.15
    },
    {
      "epoch": 1.99395225464191,
      "grad_norm": 0.6793405806925589,
      "learning_rate": 1.530483185624973e-05,
      "loss": 0.6492,
      "num_input_tokens_seen": 2125213056,
      "step": 2350,
      "train_runtime": 312486.8653,
      "train_tokens_per_second": 6800.968
    },
    {
      "epoch": 1.9981962864721485,
      "grad_norm": 0.7840816343012773,
      "learning_rate": 1.519123164012603e-05,
      "loss": 0.6551,
      "num_input_tokens_seen": 2129589248,
      "step": 2355,
      "train_runtime": 313085.9064,
      "train_tokens_per_second": 6801.933
    },
    {
      "epoch": 2.0016976127320953,
      "grad_norm": 0.7056893265010777,
      "learning_rate": 1.507787030415831e-05,
      "loss": 0.4932,
      "num_input_tokens_seen": 2133444224,
      "step": 2360,
      "train_runtime": 313640.7613,
      "train_tokens_per_second": 6802.191
    },
    {
      "epoch": 2.0016976127320953,
      "eval_loss": 0.71119624376297,
      "eval_runtime": 1056.465,
      "eval_samples_per_second": 2.884,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 2133444224,
      "step": 2360
    },
    {
      "epoch": 2.005941644562334,
      "grad_norm": 0.8558740917942909,
      "learning_rate": 1.4964750609118614e-05,
      "loss": 0.5706,
      "num_input_tokens_seen": 2138178304,
      "step": 2365,
      "train_runtime": 315463.138,
      "train_tokens_per_second": 6777.902
    },
    {
      "epoch": 2.010185676392573,
      "grad_norm": 0.8240864942611333,
      "learning_rate": 1.4851875309894159e-05,
      "loss": 0.5672,
      "num_input_tokens_seen": 2142597568,
      "step": 2370,
      "train_runtime": 316074.4747,
      "train_tokens_per_second": 6778.774
    },
    {
      "epoch": 2.0144297082228118,
      "grad_norm": 0.9448165249761411,
      "learning_rate": 1.4739247155420183e-05,
      "loss": 0.5481,
      "num_input_tokens_seen": 2147211968,
      "step": 2375,
      "train_runtime": 316715.0106,
      "train_tokens_per_second": 6779.634
    },
    {
      "epoch": 2.0186737400530506,
      "grad_norm": 0.8633716944676363,
      "learning_rate": 1.4626868888613027e-05,
      "loss": 0.5397,
      "num_input_tokens_seen": 2151752896,
      "step": 2380,
      "train_runtime": 317376.0878,
      "train_tokens_per_second": 6779.82
    },
    {
      "epoch": 2.022917771883289,
      "grad_norm": 0.809745604875603,
      "learning_rate": 1.4514743246303359e-05,
      "loss": 0.5531,
      "num_input_tokens_seen": 2156288704,
      "step": 2385,
      "train_runtime": 318045.818,
      "train_tokens_per_second": 6779.805
    },
    {
      "epoch": 2.0271618037135277,
      "grad_norm": 0.8968293184086553,
      "learning_rate": 1.4402872959169461e-05,
      "loss": 0.5337,
      "num_input_tokens_seen": 2160913088,
      "step": 2390,
      "train_runtime": 318702.9313,
      "train_tokens_per_second": 6780.336
    },
    {
      "epoch": 2.0314058355437665,
      "grad_norm": 0.9550756849016048,
      "learning_rate": 1.4291260751670816e-05,
      "loss": 0.5366,
      "num_input_tokens_seen": 2165574976,
      "step": 2395,
      "train_runtime": 319403.5503,
      "train_tokens_per_second": 6780.059
    },
    {
      "epoch": 2.0356498673740053,
      "grad_norm": 1.207409378421572,
      "learning_rate": 1.4179909341981625e-05,
      "loss": 0.5345,
      "num_input_tokens_seen": 2170092736,
      "step": 2400,
      "train_runtime": 320033.1824,
      "train_tokens_per_second": 6780.837
    },
    {
      "epoch": 2.039893899204244,
      "grad_norm": 0.8757416767488818,
      "learning_rate": 1.4068821441924779e-05,
      "loss": 0.5715,
      "num_input_tokens_seen": 2174494400,
      "step": 2405,
      "train_runtime": 320671.8092,
      "train_tokens_per_second": 6781.059
    },
    {
      "epoch": 2.044137931034483,
      "grad_norm": 0.8349852718141944,
      "learning_rate": 1.3957999756905643e-05,
      "loss": 0.5607,
      "num_input_tokens_seen": 2178937728,
      "step": 2410,
      "train_runtime": 321299.9151,
      "train_tokens_per_second": 6781.632
    },
    {
      "epoch": 2.0483819628647213,
      "grad_norm": 0.8313527873747903,
      "learning_rate": 1.3847446985846297e-05,
      "loss": 0.5364,
      "num_input_tokens_seen": 2183459520,
      "step": 2415,
      "train_runtime": 321952.4508,
      "train_tokens_per_second": 6781.932
    },
    {
      "epoch": 2.05262599469496,
      "grad_norm": 1.5262840043879295,
      "learning_rate": 1.3737165821119752e-05,
      "loss": 0.5404,
      "num_input_tokens_seen": 2187827712,
      "step": 2420,
      "train_runtime": 322540.9554,
      "train_tokens_per_second": 6783.1
    },
    {
      "epoch": 2.056870026525199,
      "grad_norm": 2.1756261698457076,
      "learning_rate": 1.3627158948484391e-05,
      "loss": 0.5469,
      "num_input_tokens_seen": 2192377216,
      "step": 2425,
      "train_runtime": 323190.2135,
      "train_tokens_per_second": 6783.551
    },
    {
      "epoch": 2.0611140583554377,
      "grad_norm": 1.0913830108446643,
      "learning_rate": 1.351742904701856e-05,
      "loss": 0.5683,
      "num_input_tokens_seen": 2196995328,
      "step": 2430,
      "train_runtime": 323877.7351,
      "train_tokens_per_second": 6783.41
    },
    {
      "epoch": 2.0653580901856765,
      "grad_norm": 0.9641578470507003,
      "learning_rate": 1.3407978789055311e-05,
      "loss": 0.551,
      "num_input_tokens_seen": 2201593728,
      "step": 2435,
      "train_runtime": 324546.3078,
      "train_tokens_per_second": 6783.604
    },
    {
      "epoch": 2.0696021220159153,
      "grad_norm": 0.79070536279513,
      "learning_rate": 1.3298810840117348e-05,
      "loss": 0.5296,
      "num_input_tokens_seen": 2206299712,
      "step": 2440,
      "train_runtime": 325212.3944,
      "train_tokens_per_second": 6784.181
    },
    {
      "epoch": 2.0738461538461537,
      "grad_norm": 0.9950759732472904,
      "learning_rate": 1.3189927858852092e-05,
      "loss": 0.5623,
      "num_input_tokens_seen": 2210768256,
      "step": 2445,
      "train_runtime": 325832.427,
      "train_tokens_per_second": 6784.985
    },
    {
      "epoch": 2.0780901856763925,
      "grad_norm": 1.0145751132111058,
      "learning_rate": 1.3081332496966923e-05,
      "loss": 0.5454,
      "num_input_tokens_seen": 2215064064,
      "step": 2450,
      "train_runtime": 326434.2676,
      "train_tokens_per_second": 6785.636
    },
    {
      "epoch": 2.0823342175066313,
      "grad_norm": 1.2823230060644373,
      "learning_rate": 1.297302739916463e-05,
      "loss": 0.5435,
      "num_input_tokens_seen": 2219600896,
      "step": 2455,
      "train_runtime": 327106.8846,
      "train_tokens_per_second": 6785.552
    },
    {
      "epoch": 2.08657824933687,
      "grad_norm": 0.9419195367761739,
      "learning_rate": 1.2865015203078996e-05,
      "loss": 0.5445,
      "num_input_tokens_seen": 2224140416,
      "step": 2460,
      "train_runtime": 327852.8283,
      "train_tokens_per_second": 6783.96
    },
    {
      "epoch": 2.090822281167109,
      "grad_norm": 1.125875379008506,
      "learning_rate": 1.27572985392105e-05,
      "loss": 0.5443,
      "num_input_tokens_seen": 2228717248,
      "step": 2465,
      "train_runtime": 328535.4625,
      "train_tokens_per_second": 6783.795
    },
    {
      "epoch": 2.0950663129973477,
      "grad_norm": 1.1324409125579475,
      "learning_rate": 1.2649880030862393e-05,
      "loss": 0.5599,
      "num_input_tokens_seen": 2233320128,
      "step": 2470,
      "train_runtime": 329151.185,
      "train_tokens_per_second": 6785.089
    },
    {
      "epoch": 2.099310344827586,
      "grad_norm": 0.931872300199955,
      "learning_rate": 1.2542762294076631e-05,
      "loss": 0.5637,
      "num_input_tokens_seen": 2237752384,
      "step": 2475,
      "train_runtime": 329773.7972,
      "train_tokens_per_second": 6785.719
    },
    {
      "epoch": 2.103554376657825,
      "grad_norm": 0.8489286981286124,
      "learning_rate": 1.2435947937570355e-05,
      "loss": 0.5598,
      "num_input_tokens_seen": 2242141568,
      "step": 2480,
      "train_runtime": 330402.9852,
      "train_tokens_per_second": 6786.081
    },
    {
      "epoch": 2.1077984084880637,
      "grad_norm": 1.1131489144682933,
      "learning_rate": 1.2329439562672178e-05,
      "loss": 0.5418,
      "num_input_tokens_seen": 2246654592,
      "step": 2485,
      "train_runtime": 331056.83,
      "train_tokens_per_second": 6786.311
    },
    {
      "epoch": 2.1120424403183025,
      "grad_norm": 0.9322580519781613,
      "learning_rate": 1.2223239763258965e-05,
      "loss": 0.5505,
      "num_input_tokens_seen": 2251247168,
      "step": 2490,
      "train_runtime": 331724.102,
      "train_tokens_per_second": 6786.505
    },
    {
      "epoch": 2.1162864721485413,
      "grad_norm": 0.9283803102424425,
      "learning_rate": 1.2117351125692603e-05,
      "loss": 0.5568,
      "num_input_tokens_seen": 2255680768,
      "step": 2495,
      "train_runtime": 332394.4276,
      "train_tokens_per_second": 6786.157
    },
    {
      "epoch": 2.12053050397878,
      "grad_norm": 1.1047391998064584,
      "learning_rate": 1.2011776228757024e-05,
      "loss": 0.5505,
      "num_input_tokens_seen": 2260087168,
      "step": 2500,
      "train_runtime": 333031.3463,
      "train_tokens_per_second": 6786.41
    },
    {
      "epoch": 2.1247745358090184,
      "grad_norm": 0.975091099261222,
      "learning_rate": 1.1906517643595408e-05,
      "loss": 0.5573,
      "num_input_tokens_seen": 2264578560,
      "step": 2505,
      "train_runtime": 333699.72,
      "train_tokens_per_second": 6786.276
    },
    {
      "epoch": 2.1290185676392572,
      "grad_norm": 1.1511567847202058,
      "learning_rate": 1.180157793364756e-05,
      "loss": 0.5413,
      "num_input_tokens_seen": 2269041472,
      "step": 2510,
      "train_runtime": 334339.6624,
      "train_tokens_per_second": 6786.636
    },
    {
      "epoch": 2.133262599469496,
      "grad_norm": 1.0466460806645501,
      "learning_rate": 1.1696959654587474e-05,
      "loss": 0.5493,
      "num_input_tokens_seen": 2273598720,
      "step": 2515,
      "train_runtime": 334997.2489,
      "train_tokens_per_second": 6786.918
    },
    {
      "epoch": 2.137506631299735,
      "grad_norm": 1.0291472253443341,
      "learning_rate": 1.1592665354261118e-05,
      "loss": 0.5456,
      "num_input_tokens_seen": 2278146944,
      "step": 2520,
      "train_runtime": 335632.7848,
      "train_tokens_per_second": 6787.617
    },
    {
      "epoch": 2.1417506631299736,
      "grad_norm": 1.0091794838431885,
      "learning_rate": 1.1488697572624351e-05,
      "loss": 0.5668,
      "num_input_tokens_seen": 2282573568,
      "step": 2525,
      "train_runtime": 336253.6573,
      "train_tokens_per_second": 6788.249
    },
    {
      "epoch": 2.145994694960212,
      "grad_norm": 0.85992217862161,
      "learning_rate": 1.138505884168109e-05,
      "loss": 0.5308,
      "num_input_tokens_seen": 2287001600,
      "step": 2530,
      "train_runtime": 336902.3826,
      "train_tokens_per_second": 6788.321
    },
    {
      "epoch": 2.150238726790451,
      "grad_norm": 0.8608747847941026,
      "learning_rate": 1.1281751685421646e-05,
      "loss": 0.5605,
      "num_input_tokens_seen": 2291406080,
      "step": 2535,
      "train_runtime": 337530.1254,
      "train_tokens_per_second": 6788.745
    },
    {
      "epoch": 2.1544827586206896,
      "grad_norm": 1.0839910126914474,
      "learning_rate": 1.1178778619761209e-05,
      "loss": 0.5507,
      "num_input_tokens_seen": 2295897472,
      "step": 2540,
      "train_runtime": 338146.0422,
      "train_tokens_per_second": 6789.662
    },
    {
      "epoch": 2.1587267904509284,
      "grad_norm": 0.8806247078251732,
      "learning_rate": 1.1076142152478686e-05,
      "loss": 0.5449,
      "num_input_tokens_seen": 2300505152,
      "step": 2545,
      "train_runtime": 338818.075,
      "train_tokens_per_second": 6789.795
    },
    {
      "epoch": 2.162970822281167,
      "grad_norm": 1.1516459030706268,
      "learning_rate": 1.0973844783155474e-05,
      "loss": 0.5267,
      "num_input_tokens_seen": 2304838976,
      "step": 2550,
      "train_runtime": 339432.6849,
      "train_tokens_per_second": 6790.268
    },
    {
      "epoch": 2.167214854111406,
      "grad_norm": 0.8899542374126376,
      "learning_rate": 1.0871889003114743e-05,
      "loss": 0.5415,
      "num_input_tokens_seen": 2309598144,
      "step": 2555,
      "train_runtime": 340127.2354,
      "train_tokens_per_second": 6790.395
    },
    {
      "epoch": 2.1714588859416444,
      "grad_norm": 0.9275051879320549,
      "learning_rate": 1.0770277295360629e-05,
      "loss": 0.535,
      "num_input_tokens_seen": 2314332800,
      "step": 2560,
      "train_runtime": 340820.4477,
      "train_tokens_per_second": 6790.475
    },
    {
      "epoch": 2.175702917771883,
      "grad_norm": 1.0929509877136006,
      "learning_rate": 1.066901213451785e-05,
      "loss": 0.5407,
      "num_input_tokens_seen": 2318735744,
      "step": 2565,
      "train_runtime": 341455.108,
      "train_tokens_per_second": 6790.748
    },
    {
      "epoch": 2.179946949602122,
      "grad_norm": 1.2365680582016083,
      "learning_rate": 1.0568095986771414e-05,
      "loss": 0.5256,
      "num_input_tokens_seen": 2323017216,
      "step": 2570,
      "train_runtime": 342078.7972,
      "train_tokens_per_second": 6790.883
    },
    {
      "epoch": 2.184190981432361,
      "grad_norm": 0.9117201092121693,
      "learning_rate": 1.0467531309806547e-05,
      "loss": 0.5471,
      "num_input_tokens_seen": 2327511360,
      "step": 2575,
      "train_runtime": 342733.0181,
      "train_tokens_per_second": 6791.033
    },
    {
      "epoch": 2.1884350132625996,
      "grad_norm": 0.9389916789629429,
      "learning_rate": 1.0367320552748849e-05,
      "loss": 0.533,
      "num_input_tokens_seen": 2332033792,
      "step": 2580,
      "train_runtime": 343352.1052,
      "train_tokens_per_second": 6791.96
    },
    {
      "epoch": 2.1926790450928384,
      "grad_norm": 0.9268628668955959,
      "learning_rate": 1.0267466156104655e-05,
      "loss": 0.5493,
      "num_input_tokens_seen": 2336623744,
      "step": 2585,
      "train_runtime": 344011.0131,
      "train_tokens_per_second": 6792.293
    },
    {
      "epoch": 2.1969230769230768,
      "grad_norm": 0.9632958346283522,
      "learning_rate": 1.0167970551701586e-05,
      "loss": 0.5585,
      "num_input_tokens_seen": 2341059904,
      "step": 2590,
      "train_runtime": 344653.4787,
      "train_tokens_per_second": 6792.503
    },
    {
      "epoch": 2.2011671087533156,
      "grad_norm": 0.9858607973372651,
      "learning_rate": 1.0068836162629333e-05,
      "loss": 0.551,
      "num_input_tokens_seen": 2345544192,
      "step": 2595,
      "train_runtime": 345280.1341,
      "train_tokens_per_second": 6793.163
    },
    {
      "epoch": 2.2054111405835544,
      "grad_norm": 0.9219599125064627,
      "learning_rate": 9.970065403180648e-06,
      "loss": 0.5456,
      "num_input_tokens_seen": 2350091328,
      "step": 2600,
      "train_runtime": 345944.8214,
      "train_tokens_per_second": 6793.255
    },
    {
      "epoch": 2.209655172413793,
      "grad_norm": 1.0056863158147027,
      "learning_rate": 9.871660678792532e-06,
      "loss": 0.5573,
      "num_input_tokens_seen": 2354507008,
      "step": 2605,
      "train_runtime": 346586.1214,
      "train_tokens_per_second": 6793.426
    },
    {
      "epoch": 2.213899204244032,
      "grad_norm": 0.805746716680293,
      "learning_rate": 9.77362438598769e-06,
      "loss": 0.5316,
      "num_input_tokens_seen": 2358953152,
      "step": 2610,
      "train_runtime": 347186.5132,
      "train_tokens_per_second": 6794.484
    },
    {
      "epoch": 2.2181432360742708,
      "grad_norm": 1.0149168469719647,
      "learning_rate": 9.675958912316091e-06,
      "loss": 0.5582,
      "num_input_tokens_seen": 2363513408,
      "step": 2615,
      "train_runtime": 347848.8662,
      "train_tokens_per_second": 6794.656
    },
    {
      "epoch": 2.222387267904509,
      "grad_norm": 0.9339666893590254,
      "learning_rate": 9.578666636296946e-06,
      "loss": 0.5468,
      "num_input_tokens_seen": 2368091328,
      "step": 2620,
      "train_runtime": 348511.7283,
      "train_tokens_per_second": 6794.868
    },
    {
      "epoch": 2.226631299734748,
      "grad_norm": 0.8237811196852415,
      "learning_rate": 9.481749927360627e-06,
      "loss": 0.5219,
      "num_input_tokens_seen": 2372630144,
      "step": 2625,
      "train_runtime": 349198.393,
      "train_tokens_per_second": 6794.505
    },
    {
      "epoch": 2.2308753315649867,
      "grad_norm": 0.9312360048745897,
      "learning_rate": 9.385211145791126e-06,
      "loss": 0.5316,
      "num_input_tokens_seen": 2377249792,
      "step": 2630,
      "train_runtime": 349861.9157,
      "train_tokens_per_second": 6794.823
    },
    {
      "epoch": 2.2351193633952255,
      "grad_norm": 1.0941579207092957,
      "learning_rate": 9.289052642668416e-06,
      "loss": 0.5307,
      "num_input_tokens_seen": 2381752576,
      "step": 2635,
      "train_runtime": 350477.7588,
      "train_tokens_per_second": 6795.731
    },
    {
      "epoch": 2.2393633952254643,
      "grad_norm": 1.054157711767946,
      "learning_rate": 9.193276759811339e-06,
      "loss": 0.5608,
      "num_input_tokens_seen": 2386147072,
      "step": 2640,
      "train_runtime": 351111.8395,
      "train_tokens_per_second": 6795.974
    },
    {
      "epoch": 2.2436074270557027,
      "grad_norm": 0.8910120445576349,
      "learning_rate": 9.097885829720443e-06,
      "loss": 0.5412,
      "num_input_tokens_seen": 2390898880,
      "step": 2645,
      "train_runtime": 351810.8417,
      "train_tokens_per_second": 6795.978
    },
    {
      "epoch": 2.2478514588859415,
      "grad_norm": 1.2007055994992777,
      "learning_rate": 9.002882175521272e-06,
      "loss": 0.5399,
      "num_input_tokens_seen": 2395503232,
      "step": 2650,
      "train_runtime": 352435.7792,
      "train_tokens_per_second": 6796.992
    },
    {
      "epoch": 2.2520954907161803,
      "grad_norm": 1.1196939855484749,
      "learning_rate": 8.90826811090775e-06,
      "loss": 0.5167,
      "num_input_tokens_seen": 2399908928,
      "step": 2655,
      "train_runtime": 353060.1062,
      "train_tokens_per_second": 6797.451
    },
    {
      "epoch": 2.2520954907161803,
      "eval_loss": 0.7378480434417725,
      "eval_runtime": 1056.8523,
      "eval_samples_per_second": 2.883,
      "eval_steps_per_second": 0.091,
      "num_input_tokens_seen": 2399908928,
      "step": 2655
    },
    {
      "epoch": 2.256339522546419,
      "grad_norm": 1.2536339396950835,
      "learning_rate": 8.814045940085832e-06,
      "loss": 0.5282,
      "num_input_tokens_seen": 2404340864,
      "step": 2660,
      "train_runtime": 354734.293,
      "train_tokens_per_second": 6777.864
    },
    {
      "epoch": 2.260583554376658,
      "grad_norm": 1.0188614881940494,
      "learning_rate": 8.720217957717409e-06,
      "loss": 0.5746,
      "num_input_tokens_seen": 2408905408,
      "step": 2665,
      "train_runtime": 355379.4662,
      "train_tokens_per_second": 6778.403
    },
    {
      "epoch": 2.2648275862068967,
      "grad_norm": 0.8497257096281086,
      "learning_rate": 8.62678644886439e-06,
      "loss": 0.5434,
      "num_input_tokens_seen": 2413171200,
      "step": 2670,
      "train_runtime": 355989.2119,
      "train_tokens_per_second": 6778.776
    },
    {
      "epoch": 2.269071618037135,
      "grad_norm": 0.9253941979058675,
      "learning_rate": 8.533753688933093e-06,
      "loss": 0.5716,
      "num_input_tokens_seen": 2417806976,
      "step": 2675,
      "train_runtime": 356663.8352,
      "train_tokens_per_second": 6778.952
    },
    {
      "epoch": 2.273315649867374,
      "grad_norm": 0.7919650133709085,
      "learning_rate": 8.441121943618797e-06,
      "loss": 0.5217,
      "num_input_tokens_seen": 2422469504,
      "step": 2680,
      "train_runtime": 357398.8789,
      "train_tokens_per_second": 6778.056
    },
    {
      "epoch": 2.2775596816976127,
      "grad_norm": 0.9826186100423545,
      "learning_rate": 8.34889346885058e-06,
      "loss": 0.537,
      "num_input_tokens_seen": 2427001408,
      "step": 2685,
      "train_runtime": 358060.275,
      "train_tokens_per_second": 6778.192
    },
    {
      "epoch": 2.2818037135278515,
      "grad_norm": 0.9270721696870025,
      "learning_rate": 8.257070510736375e-06,
      "loss": 0.5473,
      "num_input_tokens_seen": 2431585984,
      "step": 2690,
      "train_runtime": 358720.1033,
      "train_tokens_per_second": 6778.505
    },
    {
      "epoch": 2.2860477453580903,
      "grad_norm": 1.0463399115668766,
      "learning_rate": 8.165655305508283e-06,
      "loss": 0.5199,
      "num_input_tokens_seen": 2436195008,
      "step": 2695,
      "train_runtime": 359371.4989,
      "train_tokens_per_second": 6779.043
    },
    {
      "epoch": 2.290291777188329,
      "grad_norm": 0.8433980949747677,
      "learning_rate": 8.074650079468061e-06,
      "loss": 0.5406,
      "num_input_tokens_seen": 2440643712,
      "step": 2700,
      "train_runtime": 360023.2487,
      "train_tokens_per_second": 6779.128
    },
    {
      "epoch": 2.2945358090185675,
      "grad_norm": 0.8344761722848487,
      "learning_rate": 7.984057048932994e-06,
      "loss": 0.523,
      "num_input_tokens_seen": 2445383360,
      "step": 2705,
      "train_runtime": 360768.2247,
      "train_tokens_per_second": 6778.267
    },
    {
      "epoch": 2.2987798408488063,
      "grad_norm": 0.9238013027939782,
      "learning_rate": 7.893878420181814e-06,
      "loss": 0.5394,
      "num_input_tokens_seen": 2449944832,
      "step": 2710,
      "train_runtime": 361432.627,
      "train_tokens_per_second": 6778.427
    },
    {
      "epoch": 2.303023872679045,
      "grad_norm": 0.830003880013244,
      "learning_rate": 7.80411638940107e-06,
      "loss": 0.5329,
      "num_input_tokens_seen": 2454313856,
      "step": 2715,
      "train_runtime": 362054.2575,
      "train_tokens_per_second": 6778.856
    },
    {
      "epoch": 2.307267904509284,
      "grad_norm": 1.2592294301355798,
      "learning_rate": 7.714773142631553e-06,
      "loss": 0.5287,
      "num_input_tokens_seen": 2458717888,
      "step": 2720,
      "train_runtime": 362669.4395,
      "train_tokens_per_second": 6779.501
    },
    {
      "epoch": 2.3115119363395227,
      "grad_norm": 1.04619682795218,
      "learning_rate": 7.625850855715125e-06,
      "loss": 0.5494,
      "num_input_tokens_seen": 2463239104,
      "step": 2725,
      "train_runtime": 363325.7794,
      "train_tokens_per_second": 6779.698
    },
    {
      "epoch": 2.3157559681697615,
      "grad_norm": 0.9229168180828327,
      "learning_rate": 7.53735169424169e-06,
      "loss": 0.5247,
      "num_input_tokens_seen": 2467903744,
      "step": 2730,
      "train_runtime": 364007.0501,
      "train_tokens_per_second": 6779.824
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.9124446948723857,
      "learning_rate": 7.449277813496469e-06,
      "loss": 0.5264,
      "num_input_tokens_seen": 2472315328,
      "step": 2735,
      "train_runtime": 364630.5034,
      "train_tokens_per_second": 6780.331
    },
    {
      "epoch": 2.3242440318302386,
      "grad_norm": 0.9029907706736199,
      "learning_rate": 7.361631358407511e-06,
      "loss": 0.5462,
      "num_input_tokens_seen": 2476917568,
      "step": 2740,
      "train_runtime": 365293.8544,
      "train_tokens_per_second": 6780.617
    },
    {
      "epoch": 2.3284880636604774,
      "grad_norm": 0.965769243054048,
      "learning_rate": 7.274414463493457e-06,
      "loss": 0.5276,
      "num_input_tokens_seen": 2481395968,
      "step": 2745,
      "train_runtime": 365941.4705,
      "train_tokens_per_second": 6780.855
    },
    {
      "epoch": 2.3327320954907163,
      "grad_norm": 1.0526371028734811,
      "learning_rate": 7.1876292528115425e-06,
      "loss": 0.524,
      "num_input_tokens_seen": 2485823424,
      "step": 2750,
      "train_runtime": 366578.7434,
      "train_tokens_per_second": 6781.144
    },
    {
      "epoch": 2.336976127320955,
      "grad_norm": 1.029915538876609,
      "learning_rate": 7.101277839905887e-06,
      "loss": 0.5337,
      "num_input_tokens_seen": 2490461696,
      "step": 2755,
      "train_runtime": 367244.9697,
      "train_tokens_per_second": 6781.473
    },
    {
      "epoch": 2.3412201591511934,
      "grad_norm": 0.8452644471628386,
      "learning_rate": 7.015362327756009e-06,
      "loss": 0.5565,
      "num_input_tokens_seen": 2494895104,
      "step": 2760,
      "train_runtime": 367940.8003,
      "train_tokens_per_second": 6780.697
    },
    {
      "epoch": 2.345464190981432,
      "grad_norm": 1.0284851305831375,
      "learning_rate": 6.92988480872562e-06,
      "loss": 0.5551,
      "num_input_tokens_seen": 2499453376,
      "step": 2765,
      "train_runtime": 368624.734,
      "train_tokens_per_second": 6780.482
    },
    {
      "epoch": 2.349708222811671,
      "grad_norm": 0.9746799945929299,
      "learning_rate": 6.844847364511667e-06,
      "loss": 0.5652,
      "num_input_tokens_seen": 2503898176,
      "step": 2770,
      "train_runtime": 369245.4874,
      "train_tokens_per_second": 6781.121
    },
    {
      "epoch": 2.35395225464191,
      "grad_norm": 1.0403632612371465,
      "learning_rate": 6.760252066093598e-06,
      "loss": 0.536,
      "num_input_tokens_seen": 2508404032,
      "step": 2775,
      "train_runtime": 369898.6243,
      "train_tokens_per_second": 6781.328
    },
    {
      "epoch": 2.3581962864721486,
      "grad_norm": 1.1324249124610484,
      "learning_rate": 6.676100973683019e-06,
      "loss": 0.5293,
      "num_input_tokens_seen": 2512983360,
      "step": 2780,
      "train_runtime": 370586.7059,
      "train_tokens_per_second": 6781.094
    },
    {
      "epoch": 2.3624403183023874,
      "grad_norm": 0.9136829751433924,
      "learning_rate": 6.592396136673396e-06,
      "loss": 0.5133,
      "num_input_tokens_seen": 2517545792,
      "step": 2785,
      "train_runtime": 371255.3251,
      "train_tokens_per_second": 6781.171
    },
    {
      "epoch": 2.3666843501326262,
      "grad_norm": 1.0337343562459835,
      "learning_rate": 6.509139593590263e-06,
      "loss": 0.5449,
      "num_input_tokens_seen": 2521995456,
      "step": 2790,
      "train_runtime": 371858.1677,
      "train_tokens_per_second": 6782.144
    },
    {
      "epoch": 2.3709283819628646,
      "grad_norm": 0.8876485451947176,
      "learning_rate": 6.426333372041482e-06,
      "loss": 0.5321,
      "num_input_tokens_seen": 2526578304,
      "step": 2795,
      "train_runtime": 372512.2967,
      "train_tokens_per_second": 6782.537
    },
    {
      "epoch": 2.3751724137931034,
      "grad_norm": 1.01633470136039,
      "learning_rate": 6.343979488667923e-06,
      "loss": 0.546,
      "num_input_tokens_seen": 2531181120,
      "step": 2800,
      "train_runtime": 373190.8361,
      "train_tokens_per_second": 6782.538
    },
    {
      "epoch": 2.379416445623342,
      "grad_norm": 1.17898509851511,
      "learning_rate": 6.2620799490943296e-06,
      "loss": 0.5339,
      "num_input_tokens_seen": 2535604096,
      "step": 2805,
      "train_runtime": 373804.9218,
      "train_tokens_per_second": 6783.228
    },
    {
      "epoch": 2.383660477453581,
      "grad_norm": 0.995446476535709,
      "learning_rate": 6.18063674788047e-06,
      "loss": 0.5294,
      "num_input_tokens_seen": 2539962496,
      "step": 2810,
      "train_runtime": 374428.8855,
      "train_tokens_per_second": 6783.565
    },
    {
      "epoch": 2.38790450928382,
      "grad_norm": 1.4781781798293818,
      "learning_rate": 6.099651868472578e-06,
      "loss": 0.5377,
      "num_input_tokens_seen": 2544523264,
      "step": 2815,
      "train_runtime": 375082.1614,
      "train_tokens_per_second": 6783.909
    },
    {
      "epoch": 2.392148541114058,
      "grad_norm": 0.9042911431359419,
      "learning_rate": 6.0191272831550296e-06,
      "loss": 0.5277,
      "num_input_tokens_seen": 2549001728,
      "step": 2820,
      "train_runtime": 375739.4269,
      "train_tokens_per_second": 6783.961
    },
    {
      "epoch": 2.396392572944297,
      "grad_norm": 0.9427728279286258,
      "learning_rate": 5.939064953002324e-06,
      "loss": 0.5286,
      "num_input_tokens_seen": 2553568448,
      "step": 2825,
      "train_runtime": 376350.7934,
      "train_tokens_per_second": 6785.075
    },
    {
      "epoch": 2.4006366047745358,
      "grad_norm": 1.140690055341589,
      "learning_rate": 5.859466827831325e-06,
      "loss": 0.5404,
      "num_input_tokens_seen": 2557913088,
      "step": 2830,
      "train_runtime": 376975.3041,
      "train_tokens_per_second": 6785.36
    },
    {
      "epoch": 2.4048806366047746,
      "grad_norm": 0.973992690753586,
      "learning_rate": 5.780334846153762e-06,
      "loss": 0.5361,
      "num_input_tokens_seen": 2562388224,
      "step": 2835,
      "train_runtime": 377604.1066,
      "train_tokens_per_second": 6785.912
    },
    {
      "epoch": 2.4091246684350134,
      "grad_norm": 0.8947292451598252,
      "learning_rate": 5.701670935129033e-06,
      "loss": 0.5458,
      "num_input_tokens_seen": 2566790976,
      "step": 2840,
      "train_runtime": 378241.5611,
      "train_tokens_per_second": 6786.116
    },
    {
      "epoch": 2.413368700265252,
      "grad_norm": 0.9334940824258273,
      "learning_rate": 5.623477010517269e-06,
      "loss": 0.5225,
      "num_input_tokens_seen": 2571270592,
      "step": 2845,
      "train_runtime": 378873.6154,
      "train_tokens_per_second": 6786.618
    },
    {
      "epoch": 2.4176127320954905,
      "grad_norm": 0.7746666166786925,
      "learning_rate": 5.545754976632672e-06,
      "loss": 0.534,
      "num_input_tokens_seen": 2575889152,
      "step": 2850,
      "train_runtime": 379547.952,
      "train_tokens_per_second": 6786.729
    },
    {
      "epoch": 2.4218567639257294,
      "grad_norm": 1.0182336381313688,
      "learning_rate": 5.468506726297149e-06,
      "loss": 0.5221,
      "num_input_tokens_seen": 2580260608,
      "step": 2855,
      "train_runtime": 380137.2732,
      "train_tokens_per_second": 6787.707
    },
    {
      "epoch": 2.426100795755968,
      "grad_norm": 0.9862563470365936,
      "learning_rate": 5.391734140794183e-06,
      "loss": 0.5398,
      "num_input_tokens_seen": 2585142720,
      "step": 2860,
      "train_runtime": 380839.0154,
      "train_tokens_per_second": 6788.02
    },
    {
      "epoch": 2.430344827586207,
      "grad_norm": 0.9041618526091733,
      "learning_rate": 5.3154390898230846e-06,
      "loss": 0.512,
      "num_input_tokens_seen": 2589755136,
      "step": 2865,
      "train_runtime": 381496.5415,
      "train_tokens_per_second": 6788.411
    },
    {
      "epoch": 2.4345888594164458,
      "grad_norm": 0.914359636860779,
      "learning_rate": 5.2396234314533665e-06,
      "loss": 0.5143,
      "num_input_tokens_seen": 2594081792,
      "step": 2870,
      "train_runtime": 382111.5001,
      "train_tokens_per_second": 6788.808
    },
    {
      "epoch": 2.438832891246684,
      "grad_norm": 1.033477002199706,
      "learning_rate": 5.16428901207959e-06,
      "loss": 0.5324,
      "num_input_tokens_seen": 2598687872,
      "step": 2875,
      "train_runtime": 382756.5754,
      "train_tokens_per_second": 6789.401
    },
    {
      "epoch": 2.443076923076923,
      "grad_norm": 0.9057174065952954,
      "learning_rate": 5.089437666376304e-06,
      "loss": 0.5263,
      "num_input_tokens_seen": 2603366144,
      "step": 2880,
      "train_runtime": 383439.9985,
      "train_tokens_per_second": 6789.501
    },
    {
      "epoch": 2.4473209549071617,
      "grad_norm": 0.8529850767813882,
      "learning_rate": 5.015071217253428e-06,
      "loss": 0.5113,
      "num_input_tokens_seen": 2608005440,
      "step": 2885,
      "train_runtime": 384090.9187,
      "train_tokens_per_second": 6790.073
    },
    {
      "epoch": 2.4515649867374005,
      "grad_norm": 1.3879570401538315,
      "learning_rate": 4.941191475811843e-06,
      "loss": 0.5222,
      "num_input_tokens_seen": 2612660480,
      "step": 2890,
      "train_runtime": 384747.1837,
      "train_tokens_per_second": 6790.59
    },
    {
      "epoch": 2.4558090185676393,
      "grad_norm": 1.2654753413045388,
      "learning_rate": 4.867800241299275e-06,
      "loss": 0.5128,
      "num_input_tokens_seen": 2617068928,
      "step": 2895,
      "train_runtime": 385371.9974,
      "train_tokens_per_second": 6791.02
    },
    {
      "epoch": 2.460053050397878,
      "grad_norm": 0.9035128336837777,
      "learning_rate": 4.794899301066477e-06,
      "loss": 0.529,
      "num_input_tokens_seen": 2621648384,
      "step": 2900,
      "train_runtime": 386085.7096,
      "train_tokens_per_second": 6790.327
    },
    {
      "epoch": 2.464297082228117,
      "grad_norm": 0.8567446173412482,
      "learning_rate": 4.72249043052371e-06,
      "loss": 0.5269,
      "num_input_tokens_seen": 2626115776,
      "step": 2905,
      "train_runtime": 386725.7007,
      "train_tokens_per_second": 6790.642
    },
    {
      "epoch": 2.4685411140583553,
      "grad_norm": 0.8912412665948739,
      "learning_rate": 4.650575393097498e-06,
      "loss": 0.5387,
      "num_input_tokens_seen": 2630631040,
      "step": 2910,
      "train_runtime": 387368.1112,
      "train_tokens_per_second": 6791.037
    },
    {
      "epoch": 2.472785145888594,
      "grad_norm": 1.1130459835714437,
      "learning_rate": 4.57915594018768e-06,
      "loss": 0.5337,
      "num_input_tokens_seen": 2635143296,
      "step": 2915,
      "train_runtime": 388043.1985,
      "train_tokens_per_second": 6790.85
    },
    {
      "epoch": 2.477029177718833,
      "grad_norm": 0.9430504436597011,
      "learning_rate": 4.508233811124765e-06,
      "loss": 0.5261,
      "num_input_tokens_seen": 2639559808,
      "step": 2920,
      "train_runtime": 388662.674,
      "train_tokens_per_second": 6791.39
    },
    {
      "epoch": 2.4812732095490717,
      "grad_norm": 0.9383789050215547,
      "learning_rate": 4.437810733127571e-06,
      "loss": 0.5464,
      "num_input_tokens_seen": 2644172096,
      "step": 2925,
      "train_runtime": 389299.3342,
      "train_tokens_per_second": 6792.131
    },
    {
      "epoch": 2.4855172413793105,
      "grad_norm": 0.9063379227339012,
      "learning_rate": 4.367888421261154e-06,
      "loss": 0.509,
      "num_input_tokens_seen": 2648731712,
      "step": 2930,
      "train_runtime": 389972.3983,
      "train_tokens_per_second": 6792.1
    },
    {
      "epoch": 2.489761273209549,
      "grad_norm": 0.8758741295078302,
      "learning_rate": 4.298468578395029e-06,
      "loss": 0.5072,
      "num_input_tokens_seen": 2653268800,
      "step": 2935,
      "train_runtime": 390605.8102,
      "train_tokens_per_second": 6792.702
    },
    {
      "epoch": 2.4940053050397877,
      "grad_norm": 1.0498774972803595,
      "learning_rate": 4.229552895161754e-06,
      "loss": 0.5399,
      "num_input_tokens_seen": 2657767616,
      "step": 2940,
      "train_runtime": 391245.0688,
      "train_tokens_per_second": 6793.102
    },
    {
      "epoch": 2.4982493368700265,
      "grad_norm": 0.9576568252690971,
      "learning_rate": 4.161143049915661e-06,
      "loss": 0.5167,
      "num_input_tokens_seen": 2662204992,
      "step": 2945,
      "train_runtime": 391840.1072,
      "train_tokens_per_second": 6794.111
    },
    {
      "epoch": 2.5024933687002653,
      "grad_norm": 1.297030102246004,
      "learning_rate": 4.093240708692098e-06,
      "loss": 0.5434,
      "num_input_tokens_seen": 2666829440,
      "step": 2950,
      "train_runtime": 392486.1885,
      "train_tokens_per_second": 6794.709
    },
    {
      "epoch": 2.5024933687002653,
      "eval_loss": 0.7277879118919373,
      "eval_runtime": 1062.7442,
      "eval_samples_per_second": 2.867,
      "eval_steps_per_second": 0.09,
      "num_input_tokens_seen": 2666829440,
      "step": 2950
    },
    {
      "epoch": 2.506737400530504,
      "grad_norm": 0.9337370037141564,
      "learning_rate": 4.025847525166737e-06,
      "loss": 0.521,
      "num_input_tokens_seen": 2671303040,
      "step": 2955,
      "train_runtime": 394192.7243,
      "train_tokens_per_second": 6776.642
    },
    {
      "epoch": 2.510981432360743,
      "grad_norm": 1.0142479442870918,
      "learning_rate": 3.958965140615395e-06,
      "loss": 0.5013,
      "num_input_tokens_seen": 2675854528,
      "step": 2960,
      "train_runtime": 394856.393,
      "train_tokens_per_second": 6776.779
    },
    {
      "epoch": 2.5152254641909817,
      "grad_norm": 0.9673554697201667,
      "learning_rate": 3.892595183874015e-06,
      "loss": 0.5138,
      "num_input_tokens_seen": 2680310976,
      "step": 2965,
      "train_runtime": 395478.0069,
      "train_tokens_per_second": 6777.396
    },
    {
      "epoch": 2.51946949602122,
      "grad_norm": 0.9773791433571442,
      "learning_rate": 3.826739271299004e-06,
      "loss": 0.5374,
      "num_input_tokens_seen": 2685063360,
      "step": 2970,
      "train_runtime": 396163.4888,
      "train_tokens_per_second": 6777.665
    },
    {
      "epoch": 2.523713527851459,
      "grad_norm": 0.8762686166416458,
      "learning_rate": 3.761399006727878e-06,
      "loss": 0.518,
      "num_input_tokens_seen": 2689742912,
      "step": 2975,
      "train_runtime": 396848.2908,
      "train_tokens_per_second": 6777.761
    },
    {
      "epoch": 2.5279575596816977,
      "grad_norm": 0.9814246027282987,
      "learning_rate": 3.696575981440198e-06,
      "loss": 0.5333,
      "num_input_tokens_seen": 2694003776,
      "step": 2980,
      "train_runtime": 397469.5249,
      "train_tokens_per_second": 6777.888
    },
    {
      "epoch": 2.5322015915119365,
      "grad_norm": 1.0494687013783062,
      "learning_rate": 3.632271774118812e-06,
      "loss": 0.5249,
      "num_input_tokens_seen": 2698482432,
      "step": 2985,
      "train_runtime": 398112.2116,
      "train_tokens_per_second": 6778.196
    },
    {
      "epoch": 2.536445623342175,
      "grad_norm": 0.9167136316488117,
      "learning_rate": 3.568487950811414e-06,
      "loss": 0.5179,
      "num_input_tokens_seen": 2703208384,
      "step": 2990,
      "train_runtime": 398770.7605,
      "train_tokens_per_second": 6778.853
    },
    {
      "epoch": 2.5406896551724136,
      "grad_norm": 1.0631373570087592,
      "learning_rate": 3.5052260648924056e-06,
      "loss": 0.5258,
      "num_input_tokens_seen": 2707736448,
      "step": 2995,
      "train_runtime": 399417.3719,
      "train_tokens_per_second": 6779.216
    },
    {
      "epoch": 2.5449336870026524,
      "grad_norm": 0.8646476638396003,
      "learning_rate": 3.442487657025059e-06,
      "loss": 0.5148,
      "num_input_tokens_seen": 2712052544,
      "step": 3000,
      "train_runtime": 400011.3913,
      "train_tokens_per_second": 6779.938
    },
    {
      "epoch": 2.5491777188328912,
      "grad_norm": 1.3814464306803582,
      "learning_rate": 3.380274255124008e-06,
      "loss": 0.5328,
      "num_input_tokens_seen": 2716590016,
      "step": 3005,
      "train_runtime": 400647.6096,
      "train_tokens_per_second": 6780.497
    },
    {
      "epoch": 2.55342175066313,
      "grad_norm": 0.9608139693650856,
      "learning_rate": 3.318587374318008e-06,
      "loss": 0.5221,
      "num_input_tokens_seen": 2721057600,
      "step": 3010,
      "train_runtime": 401293.542,
      "train_tokens_per_second": 6780.716
    },
    {
      "epoch": 2.557665782493369,
      "grad_norm": 1.052375691071485,
      "learning_rate": 3.257428516913094e-06,
      "loss": 0.5356,
      "num_input_tokens_seen": 2725470592,
      "step": 3015,
      "train_runtime": 401915.8909,
      "train_tokens_per_second": 6781.196
    },
    {
      "epoch": 2.5619098143236076,
      "grad_norm": 1.0422726914250204,
      "learning_rate": 3.1967991723559186e-06,
      "loss": 0.5357,
      "num_input_tokens_seen": 2729976320,
      "step": 3020,
      "train_runtime": 402550.4344,
      "train_tokens_per_second": 6781.7
    },
    {
      "epoch": 2.566153846153846,
      "grad_norm": 1.0115755929526138,
      "learning_rate": 3.1367008171975606e-06,
      "loss": 0.5292,
      "num_input_tokens_seen": 2734356096,
      "step": 3025,
      "train_runtime": 403147.2983,
      "train_tokens_per_second": 6782.524
    },
    {
      "epoch": 2.570397877984085,
      "grad_norm": 0.9326348646064712,
      "learning_rate": 3.0771349150574833e-06,
      "loss": 0.5032,
      "num_input_tokens_seen": 2738757568,
      "step": 3030,
      "train_runtime": 403750.7771,
      "train_tokens_per_second": 6783.287
    },
    {
      "epoch": 2.5746419098143236,
      "grad_norm": 0.8962193098952964,
      "learning_rate": 3.0181029165879505e-06,
      "loss": 0.5235,
      "num_input_tokens_seen": 2743195520,
      "step": 3035,
      "train_runtime": 404385.6448,
      "train_tokens_per_second": 6783.613
    },
    {
      "epoch": 2.5788859416445624,
      "grad_norm": 0.9643001215470395,
      "learning_rate": 2.959606259438677e-06,
      "loss": 0.5371,
      "num_input_tokens_seen": 2747720128,
      "step": 3040,
      "train_runtime": 405024.1548,
      "train_tokens_per_second": 6784.09
    },
    {
      "epoch": 2.583129973474801,
      "grad_norm": 1.083989853159668,
      "learning_rate": 2.9016463682218137e-06,
      "loss": 0.5045,
      "num_input_tokens_seen": 2752185344,
      "step": 3045,
      "train_runtime": 405663.7384,
      "train_tokens_per_second": 6784.401
    },
    {
      "epoch": 2.5873740053050396,
      "grad_norm": 1.0350757402442816,
      "learning_rate": 2.844224654477251e-06,
      "loss": 0.535,
      "num_input_tokens_seen": 2756955712,
      "step": 3050,
      "train_runtime": 406343.9367,
      "train_tokens_per_second": 6784.784
    },
    {
      "epoch": 2.5916180371352784,
      "grad_norm": 1.0876688931917096,
      "learning_rate": 2.787342516638253e-06,
      "loss": 0.5241,
      "num_input_tokens_seen": 2761469632,
      "step": 3055,
      "train_runtime": 406991.7195,
      "train_tokens_per_second": 6785.076
    },
    {
      "epoch": 2.595862068965517,
      "grad_norm": 1.187734783928453,
      "learning_rate": 2.7310013399973937e-06,
      "loss": 0.5083,
      "num_input_tokens_seen": 2766078848,
      "step": 3060,
      "train_runtime": 407630.5997,
      "train_tokens_per_second": 6785.749
    },
    {
      "epoch": 2.600106100795756,
      "grad_norm": 0.8033965202229059,
      "learning_rate": 2.6752024966728186e-06,
      "loss": 0.5078,
      "num_input_tokens_seen": 2770419968,
      "step": 3065,
      "train_runtime": 408227.7584,
      "train_tokens_per_second": 6786.457
    },
    {
      "epoch": 2.604350132625995,
      "grad_norm": 1.0703320175428703,
      "learning_rate": 2.6199473455748302e-06,
      "loss": 0.523,
      "num_input_tokens_seen": 2774944704,
      "step": 3070,
      "train_runtime": 408874.2335,
      "train_tokens_per_second": 6786.793
    },
    {
      "epoch": 2.6085941644562336,
      "grad_norm": 0.8853137013274479,
      "learning_rate": 2.5652372323727995e-06,
      "loss": 0.5344,
      "num_input_tokens_seen": 2779491968,
      "step": 3075,
      "train_runtime": 409530.6069,
      "train_tokens_per_second": 6787.019
    },
    {
      "epoch": 2.6128381962864724,
      "grad_norm": 0.9523960118476597,
      "learning_rate": 2.5110734894623845e-06,
      "loss": 0.5238,
      "num_input_tokens_seen": 2784101184,
      "step": 3080,
      "train_runtime": 410217.1802,
      "train_tokens_per_second": 6786.896
    },
    {
      "epoch": 2.6170822281167108,
      "grad_norm": 0.9141894377610371,
      "learning_rate": 2.457457435933083e-06,
      "loss": 0.5072,
      "num_input_tokens_seen": 2788760320,
      "step": 3085,
      "train_runtime": 410902.2723,
      "train_tokens_per_second": 6786.919
    },
    {
      "epoch": 2.6213262599469496,
      "grad_norm": 0.9601107951690412,
      "learning_rate": 2.404390377536117e-06,
      "loss": 0.5461,
      "num_input_tokens_seen": 2793482240,
      "step": 3090,
      "train_runtime": 411591.1251,
      "train_tokens_per_second": 6787.032
    },
    {
      "epoch": 2.6255702917771884,
      "grad_norm": 1.092143809724588,
      "learning_rate": 2.3518736066526106e-06,
      "loss": 0.5355,
      "num_input_tokens_seen": 2798052800,
      "step": 3095,
      "train_runtime": 412253.9967,
      "train_tokens_per_second": 6787.206
    },
    {
      "epoch": 2.629814323607427,
      "grad_norm": 0.9775173060346775,
      "learning_rate": 2.2999084022621575e-06,
      "loss": 0.5187,
      "num_input_tokens_seen": 2802623616,
      "step": 3100,
      "train_runtime": 412972.0833,
      "train_tokens_per_second": 6786.472
    },
    {
      "epoch": 2.6340583554376655,
      "grad_norm": 0.8882149505754918,
      "learning_rate": 2.2484960299116176e-06,
      "loss": 0.5234,
      "num_input_tokens_seen": 2807059072,
      "step": 3105,
      "train_runtime": 413616.3561,
      "train_tokens_per_second": 6786.625
    },
    {
      "epoch": 2.6383023872679043,
      "grad_norm": 1.04737202246014,
      "learning_rate": 2.1976377416843496e-06,
      "loss": 0.5337,
      "num_input_tokens_seen": 2811685952,
      "step": 3110,
      "train_runtime": 414302.3818,
      "train_tokens_per_second": 6786.555
    },
    {
      "epoch": 2.642546419098143,
      "grad_norm": 0.8525650275605402,
      "learning_rate": 2.1473347761696765e-06,
      "loss": 0.5122,
      "num_input_tokens_seen": 2816097472,
      "step": 3115,
      "train_runtime": 414912.2037,
      "train_tokens_per_second": 6787.213
    },
    {
      "epoch": 2.646790450928382,
      "grad_norm": 1.4897884354340427,
      "learning_rate": 2.097588358432745e-06,
      "loss": 0.5344,
      "num_input_tokens_seen": 2820541952,
      "step": 3120,
      "train_runtime": 415551.6146,
      "train_tokens_per_second": 6787.465
    },
    {
      "epoch": 2.6510344827586207,
      "grad_norm": 0.9315543634592929,
      "learning_rate": 2.048399699984685e-06,
      "loss": 0.5204,
      "num_input_tokens_seen": 2825211008,
      "step": 3125,
      "train_runtime": 416236.0998,
      "train_tokens_per_second": 6787.52
    },
    {
      "epoch": 2.6552785145888596,
      "grad_norm": 0.994893210880857,
      "learning_rate": 1.999769998753101e-06,
      "loss": 0.5092,
      "num_input_tokens_seen": 2829805440,
      "step": 3130,
      "train_runtime": 416937.1267,
      "train_tokens_per_second": 6787.128
    },
    {
      "epoch": 2.6595225464190984,
      "grad_norm": 0.9211547478732683,
      "learning_rate": 1.951700439052906e-06,
      "loss": 0.509,
      "num_input_tokens_seen": 2834319168,
      "step": 3135,
      "train_runtime": 417580.9275,
      "train_tokens_per_second": 6787.473
    },
    {
      "epoch": 2.6637665782493367,
      "grad_norm": 1.1092045966595683,
      "learning_rate": 1.9041921915574718e-06,
      "loss": 0.5213,
      "num_input_tokens_seen": 2838842944,
      "step": 3140,
      "train_runtime": 418214.8375,
      "train_tokens_per_second": 6788.001
    },
    {
      "epoch": 2.6680106100795755,
      "grad_norm": 0.8680731962765761,
      "learning_rate": 1.857246413270114e-06,
      "loss": 0.5303,
      "num_input_tokens_seen": 2843287936,
      "step": 3145,
      "train_runtime": 418837.8662,
      "train_tokens_per_second": 6788.517
    },
    {
      "epoch": 2.6722546419098143,
      "grad_norm": 1.370277456535701,
      "learning_rate": 1.810864247495933e-06,
      "loss": 0.5351,
      "num_input_tokens_seen": 2847823872,
      "step": 3150,
      "train_runtime": 419460.3925,
      "train_tokens_per_second": 6789.256
    },
    {
      "epoch": 2.676498673740053,
      "grad_norm": 1.0792319656449618,
      "learning_rate": 1.7650468238139484e-06,
      "loss": 0.5114,
      "num_input_tokens_seen": 2852148544,
      "step": 3155,
      "train_runtime": 420051.6697,
      "train_tokens_per_second": 6789.995
    },
    {
      "epoch": 2.680742705570292,
      "grad_norm": 0.8781496188483874,
      "learning_rate": 1.7197952580496086e-06,
      "loss": 0.5126,
      "num_input_tokens_seen": 2856524608,
      "step": 3160,
      "train_runtime": 420644.3052,
      "train_tokens_per_second": 6790.832
    },
    {
      "epoch": 2.6849867374005303,
      "grad_norm": 0.9491071552727024,
      "learning_rate": 1.6751106522476078e-06,
      "loss": 0.5242,
      "num_input_tokens_seen": 2861096576,
      "step": 3165,
      "train_runtime": 421277.8845,
      "train_tokens_per_second": 6791.471
    },
    {
      "epoch": 2.689230769230769,
      "grad_norm": 0.9895886874283716,
      "learning_rate": 1.6309940946450276e-06,
      "loss": 0.5422,
      "num_input_tokens_seen": 2865604864,
      "step": 3170,
      "train_runtime": 421930.8634,
      "train_tokens_per_second": 6791.646
    },
    {
      "epoch": 2.693474801061008,
      "grad_norm": 0.9535636472034763,
      "learning_rate": 1.5874466596448894e-06,
      "loss": 0.5138,
      "num_input_tokens_seen": 2870295232,
      "step": 3175,
      "train_runtime": 422607.9976,
      "train_tokens_per_second": 6791.862
    },
    {
      "epoch": 2.6977188328912467,
      "grad_norm": 1.2371458441648222,
      "learning_rate": 1.5444694077899112e-06,
      "loss": 0.5143,
      "num_input_tokens_seen": 2874723904,
      "step": 3180,
      "train_runtime": 423241.8919,
      "train_tokens_per_second": 6792.154
    },
    {
      "epoch": 2.7019628647214855,
      "grad_norm": 1.0270055431553666,
      "learning_rate": 1.5020633857367629e-06,
      "loss": 0.5097,
      "num_input_tokens_seen": 2879036160,
      "step": 3185,
      "train_runtime": 423847.9941,
      "train_tokens_per_second": 6792.615
    },
    {
      "epoch": 2.7062068965517243,
      "grad_norm": 1.0047782227717184,
      "learning_rate": 1.4602296262304998e-06,
      "loss": 0.531,
      "num_input_tokens_seen": 2883503104,
      "step": 3190,
      "train_runtime": 424512.874,
      "train_tokens_per_second": 6792.499
    },
    {
      "epoch": 2.710450928381963,
      "grad_norm": 0.7991655241640006,
      "learning_rate": 1.4189691480794659e-06,
      "loss": 0.5031,
      "num_input_tokens_seen": 2888068736,
      "step": 3195,
      "train_runtime": 425152.1322,
      "train_tokens_per_second": 6793.024
    },
    {
      "epoch": 2.7146949602122015,
      "grad_norm": 0.9290447093133773,
      "learning_rate": 1.3782829561304528e-06,
      "loss": 0.5214,
      "num_input_tokens_seen": 2892383104,
      "step": 3200,
      "train_runtime": 425736.2555,
      "train_tokens_per_second": 6793.838
    },
    {
      "epoch": 2.7189389920424403,
      "grad_norm": 0.9336749097922185,
      "learning_rate": 1.3381720412442484e-06,
      "loss": 0.5046,
      "num_input_tokens_seen": 2896798592,
      "step": 3205,
      "train_runtime": 426372.4313,
      "train_tokens_per_second": 6794.057
    },
    {
      "epoch": 2.723183023872679,
      "grad_norm": 0.923464487407943,
      "learning_rate": 1.2986373802714806e-06,
      "loss": 0.519,
      "num_input_tokens_seen": 2901355840,
      "step": 3210,
      "train_runtime": 427007.4668,
      "train_tokens_per_second": 6794.626
    },
    {
      "epoch": 2.727427055702918,
      "grad_norm": 1.054195900551347,
      "learning_rate": 1.259679936028857e-06,
      "loss": 0.5278,
      "num_input_tokens_seen": 2906018048,
      "step": 3215,
      "train_runtime": 427698.5588,
      "train_tokens_per_second": 6794.547
    },
    {
      "epoch": 2.7316710875331562,
      "grad_norm": 1.053479012440482,
      "learning_rate": 1.2213006572756868e-06,
      "loss": 0.5052,
      "num_input_tokens_seen": 2910317120,
      "step": 3220,
      "train_runtime": 428289.4292,
      "train_tokens_per_second": 6795.211
    },
    {
      "epoch": 2.735915119363395,
      "grad_norm": 0.9664035844106731,
      "learning_rate": 1.1835004786907994e-06,
      "loss": 0.5285,
      "num_input_tokens_seen": 2914766912,
      "step": 3225,
      "train_runtime": 428926.8091,
      "train_tokens_per_second": 6795.488
    },
    {
      "epoch": 2.740159151193634,
      "grad_norm": 0.9743299232561019,
      "learning_rate": 1.1462803208497658e-06,
      "loss": 0.5349,
      "num_input_tokens_seen": 2919116864,
      "step": 3230,
      "train_runtime": 429579.5988,
      "train_tokens_per_second": 6795.287
    },
    {
      "epoch": 2.7444031830238726,
      "grad_norm": 0.9853416108002045,
      "learning_rate": 1.1096410902024874e-06,
      "loss": 0.5281,
      "num_input_tokens_seen": 2923624768,
      "step": 3235,
      "train_runtime": 430191.282,
      "train_tokens_per_second": 6796.104
    },
    {
      "epoch": 2.7486472148541115,
      "grad_norm": 0.9605567975250936,
      "learning_rate": 1.073583679051124e-06,
      "loss": 0.5301,
      "num_input_tokens_seen": 2928050752,
      "step": 3240,
      "train_runtime": 430824.3873,
      "train_tokens_per_second": 6796.39
    },
    {
      "epoch": 2.7528912466843503,
      "grad_norm": 1.1024226803397792,
      "learning_rate": 1.0381089655283394e-06,
      "loss": 0.5316,
      "num_input_tokens_seen": 2932468416,
      "step": 3245,
      "train_runtime": 431459.9194,
      "train_tokens_per_second": 6796.618
    },
    {
      "epoch": 2.7528912466843503,
      "eval_loss": 0.7258533835411072,
      "eval_runtime": 1061.3977,
      "eval_samples_per_second": 2.871,
      "eval_steps_per_second": 0.09,
      "num_input_tokens_seen": 2932468416,
      "step": 3245
    },
    {
      "epoch": 2.757135278514589,
      "grad_norm": 1.0283547426763588,
      "learning_rate": 1.0032178135759546e-06,
      "loss": 0.5119,
      "num_input_tokens_seen": 2936775872,
      "step": 3250,
      "train_runtime": 433099.9457,
      "train_tokens_per_second": 6780.827
    },
    {
      "epoch": 2.7613793103448274,
      "grad_norm": 0.9455593371411998,
      "learning_rate": 9.68911072923867e-07,
      "loss": 0.5204,
      "num_input_tokens_seen": 2941314240,
      "step": 3255,
      "train_runtime": 433763.0738,
      "train_tokens_per_second": 6780.924
    },
    {
      "epoch": 2.7656233421750662,
      "grad_norm": 0.9779382933428667,
      "learning_rate": 9.351895790693955e-07,
      "loss": 0.5273,
      "num_input_tokens_seen": 2945907136,
      "step": 3260,
      "train_runtime": 434418.6226,
      "train_tokens_per_second": 6781.263
    },
    {
      "epoch": 2.769867374005305,
      "grad_norm": 0.9433322444237364,
      "learning_rate": 9.020541532568899e-07,
      "loss": 0.5289,
      "num_input_tokens_seen": 2950538496,
      "step": 3265,
      "train_runtime": 435105.6078,
      "train_tokens_per_second": 6781.201
    },
    {
      "epoch": 2.774111405835544,
      "grad_norm": 1.0359211392265961,
      "learning_rate": 8.695056024577792e-07,
      "loss": 0.5082,
      "num_input_tokens_seen": 2955022208,
      "step": 3270,
      "train_runtime": 435708.6215,
      "train_tokens_per_second": 6782.106
    },
    {
      "epoch": 2.7783554376657826,
      "grad_norm": 0.8927269780868947,
      "learning_rate": 8.375447193508662e-07,
      "loss": 0.5196,
      "num_input_tokens_seen": 2959619008,
      "step": 3275,
      "train_runtime": 436404.7763,
      "train_tokens_per_second": 6781.821
    },
    {
      "epoch": 2.782599469496021,
      "grad_norm": 0.994250431687146,
      "learning_rate": 8.061722823030693e-07,
      "loss": 0.5294,
      "num_input_tokens_seen": 2964249856,
      "step": 3280,
      "train_runtime": 437073.9242,
      "train_tokens_per_second": 6782.033
    },
    {
      "epoch": 2.78684350132626,
      "grad_norm": 0.8514551639091007,
      "learning_rate": 7.753890553504422e-07,
      "loss": 0.5073,
      "num_input_tokens_seen": 2968889344,
      "step": 3285,
      "train_runtime": 437728.8681,
      "train_tokens_per_second": 6782.485
    },
    {
      "epoch": 2.7910875331564986,
      "grad_norm": 1.0389333757881603,
      "learning_rate": 7.451957881795673e-07,
      "loss": 0.532,
      "num_input_tokens_seen": 2973153152,
      "step": 3290,
      "train_runtime": 438317.3334,
      "train_tokens_per_second": 6783.106
    },
    {
      "epoch": 2.7953315649867374,
      "grad_norm": 0.8808663623494958,
      "learning_rate": 7.155932161093032e-07,
      "loss": 0.5312,
      "num_input_tokens_seen": 2977666176,
      "step": 3295,
      "train_runtime": 438968.9598,
      "train_tokens_per_second": 6783.318
    },
    {
      "epoch": 2.799575596816976,
      "grad_norm": 1.0049671673931104,
      "learning_rate": 6.865820600728823e-07,
      "loss": 0.5352,
      "num_input_tokens_seen": 2982187392,
      "step": 3300,
      "train_runtime": 439614.2835,
      "train_tokens_per_second": 6783.645
    },
    {
      "epoch": 2.803819628647215,
      "grad_norm": 0.9855264400649804,
      "learning_rate": 6.581630266003419e-07,
      "loss": 0.5523,
      "num_input_tokens_seen": 2986898304,
      "step": 3305,
      "train_runtime": 440321.2266,
      "train_tokens_per_second": 6783.453
    },
    {
      "epoch": 2.808063660477454,
      "grad_norm": 1.0813234011741917,
      "learning_rate": 6.303368078013183e-07,
      "loss": 0.5116,
      "num_input_tokens_seen": 2991295104,
      "step": 3310,
      "train_runtime": 440944.6485,
      "train_tokens_per_second": 6783.834
    },
    {
      "epoch": 2.812307692307692,
      "grad_norm": 0.9341722231468776,
      "learning_rate": 6.031040813482047e-07,
      "loss": 0.5215,
      "num_input_tokens_seen": 2995983808,
      "step": 3315,
      "train_runtime": 441625.9103,
      "train_tokens_per_second": 6783.986
    },
    {
      "epoch": 2.816551724137931,
      "grad_norm": 0.8962570756580445,
      "learning_rate": 5.764655104596311e-07,
      "loss": 0.536,
      "num_input_tokens_seen": 3000598080,
      "step": 3320,
      "train_runtime": 442297.9755,
      "train_tokens_per_second": 6784.11
    },
    {
      "epoch": 2.82079575596817,
      "grad_norm": 0.884157880198946,
      "learning_rate": 5.504217438843301e-07,
      "loss": 0.5187,
      "num_input_tokens_seen": 3005166144,
      "step": 3325,
      "train_runtime": 442917.9433,
      "train_tokens_per_second": 6784.928
    },
    {
      "epoch": 2.8250397877984086,
      "grad_norm": 0.9880705840554078,
      "learning_rate": 5.249734158853048e-07,
      "loss": 0.5367,
      "num_input_tokens_seen": 3009451904,
      "step": 3330,
      "train_runtime": 443509.8078,
      "train_tokens_per_second": 6785.536
    },
    {
      "epoch": 2.829283819628647,
      "grad_norm": 0.9577753896346771,
      "learning_rate": 5.001211462244359e-07,
      "loss": 0.5214,
      "num_input_tokens_seen": 3013832512,
      "step": 3335,
      "train_runtime": 444142.2629,
      "train_tokens_per_second": 6785.737
    },
    {
      "epoch": 2.8335278514588857,
      "grad_norm": 0.9814158353022203,
      "learning_rate": 4.758655401473272e-07,
      "loss": 0.5255,
      "num_input_tokens_seen": 3018354112,
      "step": 3340,
      "train_runtime": 444781.1211,
      "train_tokens_per_second": 6786.156
    },
    {
      "epoch": 2.8377718832891246,
      "grad_norm": 1.1181096501664909,
      "learning_rate": 4.522071883686141e-07,
      "loss": 0.5053,
      "num_input_tokens_seen": 3022790720,
      "step": 3345,
      "train_runtime": 445390.6168,
      "train_tokens_per_second": 6786.831
    },
    {
      "epoch": 2.8420159151193634,
      "grad_norm": 0.9098207875260499,
      "learning_rate": 4.291466670575506e-07,
      "loss": 0.5205,
      "num_input_tokens_seen": 3027432384,
      "step": 3350,
      "train_runtime": 446049.4125,
      "train_tokens_per_second": 6787.213
    },
    {
      "epoch": 2.846259946949602,
      "grad_norm": 0.8045024632334659,
      "learning_rate": 4.0668453782398696e-07,
      "loss": 0.5009,
      "num_input_tokens_seen": 3032032768,
      "step": 3355,
      "train_runtime": 446687.1742,
      "train_tokens_per_second": 6787.821
    },
    {
      "epoch": 2.850503978779841,
      "grad_norm": 0.9168040586174651,
      "learning_rate": 3.848213477046919e-07,
      "loss": 0.5227,
      "num_input_tokens_seen": 3036567680,
      "step": 3360,
      "train_runtime": 447330.9014,
      "train_tokens_per_second": 6788.191
    },
    {
      "epoch": 2.8547480106100798,
      "grad_norm": 1.1113058183093447,
      "learning_rate": 3.6355762915002143e-07,
      "loss": 0.5462,
      "num_input_tokens_seen": 3041310976,
      "step": 3365,
      "train_runtime": 448024.7841,
      "train_tokens_per_second": 6788.265
    },
    {
      "epoch": 2.8589920424403186,
      "grad_norm": 1.1615276846957676,
      "learning_rate": 3.4289390001097377e-07,
      "loss": 0.5032,
      "num_input_tokens_seen": 3045742528,
      "step": 3370,
      "train_runtime": 448635.5559,
      "train_tokens_per_second": 6788.901
    },
    {
      "epoch": 2.863236074270557,
      "grad_norm": 1.022077622432263,
      "learning_rate": 3.2283066352654936e-07,
      "loss": 0.5328,
      "num_input_tokens_seen": 3050306496,
      "step": 3375,
      "train_runtime": 449289.2558,
      "train_tokens_per_second": 6789.182
    },
    {
      "epoch": 2.8674801061007957,
      "grad_norm": 0.9272311129173908,
      "learning_rate": 3.0336840831151626e-07,
      "loss": 0.5273,
      "num_input_tokens_seen": 3054867520,
      "step": 3380,
      "train_runtime": 449945.3409,
      "train_tokens_per_second": 6789.419
    },
    {
      "epoch": 2.8717241379310345,
      "grad_norm": 0.9436512733023248,
      "learning_rate": 2.8450760834450307e-07,
      "loss": 0.5194,
      "num_input_tokens_seen": 3059487552,
      "step": 3385,
      "train_runtime": 450608.7914,
      "train_tokens_per_second": 6789.676
    },
    {
      "epoch": 2.8759681697612733,
      "grad_norm": 0.9504790766629004,
      "learning_rate": 2.662487229564525e-07,
      "loss": 0.5342,
      "num_input_tokens_seen": 3064172992,
      "step": 3390,
      "train_runtime": 451284.6962,
      "train_tokens_per_second": 6789.889
    },
    {
      "epoch": 2.8802122015915117,
      "grad_norm": 0.9713790898947682,
      "learning_rate": 2.485921968194416e-07,
      "loss": 0.534,
      "num_input_tokens_seen": 3068583616,
      "step": 3395,
      "train_runtime": 451906.6499,
      "train_tokens_per_second": 6790.304
    },
    {
      "epoch": 2.8844562334217505,
      "grad_norm": 1.0394097264342836,
      "learning_rate": 2.3153845993584834e-07,
      "loss": 0.516,
      "num_input_tokens_seen": 3073191360,
      "step": 3400,
      "train_runtime": 452591.3839,
      "train_tokens_per_second": 6790.212
    },
    {
      "epoch": 2.8887002652519893,
      "grad_norm": 0.9630302970032499,
      "learning_rate": 2.1508792762787723e-07,
      "loss": 0.5191,
      "num_input_tokens_seen": 3077554560,
      "step": 3405,
      "train_runtime": 453214.0954,
      "train_tokens_per_second": 6790.509
    },
    {
      "epoch": 2.892944297082228,
      "grad_norm": 1.0072599246388074,
      "learning_rate": 1.9924100052745586e-07,
      "loss": 0.5081,
      "num_input_tokens_seen": 3082016768,
      "step": 3410,
      "train_runtime": 453848.0797,
      "train_tokens_per_second": 6790.856
    },
    {
      "epoch": 2.897188328912467,
      "grad_norm": 0.8435644898142695,
      "learning_rate": 1.8399806456645963e-07,
      "loss": 0.5184,
      "num_input_tokens_seen": 3086770176,
      "step": 3415,
      "train_runtime": 454559.6162,
      "train_tokens_per_second": 6790.683
    },
    {
      "epoch": 2.9014323607427057,
      "grad_norm": 1.0235162502387214,
      "learning_rate": 1.6935949096733016e-07,
      "loss": 0.534,
      "num_input_tokens_seen": 3091125184,
      "step": 3420,
      "train_runtime": 455183.2572,
      "train_tokens_per_second": 6790.947
    },
    {
      "epoch": 2.9056763925729445,
      "grad_norm": 0.9662120266545192,
      "learning_rate": 1.5532563623402718e-07,
      "loss": 0.526,
      "num_input_tokens_seen": 3095550336,
      "step": 3425,
      "train_runtime": 455803.201,
      "train_tokens_per_second": 6791.419
    },
    {
      "epoch": 2.909920424403183,
      "grad_norm": 0.8700940267517274,
      "learning_rate": 1.4189684214334087e-07,
      "loss": 0.5214,
      "num_input_tokens_seen": 3100072256,
      "step": 3430,
      "train_runtime": 456479.466,
      "train_tokens_per_second": 6791.263
    },
    {
      "epoch": 2.9141644562334217,
      "grad_norm": 1.0663457112375756,
      "learning_rate": 1.2907343573658194e-07,
      "loss": 0.5457,
      "num_input_tokens_seen": 3104605376,
      "step": 3435,
      "train_runtime": 457154.9293,
      "train_tokens_per_second": 6791.145
    },
    {
      "epoch": 2.9184084880636605,
      "grad_norm": 0.8678572276073582,
      "learning_rate": 1.1685572931160737e-07,
      "loss": 0.5259,
      "num_input_tokens_seen": 3109137920,
      "step": 3440,
      "train_runtime": 457837.7574,
      "train_tokens_per_second": 6790.916
    },
    {
      "epoch": 2.9226525198938993,
      "grad_norm": 1.015827014706817,
      "learning_rate": 1.0524402041520997e-07,
      "loss": 0.5011,
      "num_input_tokens_seen": 3113606784,
      "step": 3445,
      "train_runtime": 458466.3165,
      "train_tokens_per_second": 6791.353
    },
    {
      "epoch": 2.926896551724138,
      "grad_norm": 1.006376986197294,
      "learning_rate": 9.42385918358879e-08,
      "loss": 0.5323,
      "num_input_tokens_seen": 3118176512,
      "step": 3450,
      "train_runtime": 459172.3619,
      "train_tokens_per_second": 6790.863
    },
    {
      "epoch": 2.9311405835543765,
      "grad_norm": 0.9168280974190645,
      "learning_rate": 8.383971159694193e-08,
      "loss": 0.5284,
      "num_input_tokens_seen": 3122635072,
      "step": 3455,
      "train_runtime": 459796.4487,
      "train_tokens_per_second": 6791.342
    },
    {
      "epoch": 2.9353846153846153,
      "grad_norm": 0.8691560318885593,
      "learning_rate": 7.404763294995565e-08,
      "loss": 0.5378,
      "num_input_tokens_seen": 3127211136,
      "step": 3460,
      "train_runtime": 460443.0378,
      "train_tokens_per_second": 6791.744
    },
    {
      "epoch": 2.939628647214854,
      "grad_norm": 0.8391826158196111,
      "learning_rate": 6.486259436863373e-08,
      "loss": 0.5057,
      "num_input_tokens_seen": 3131755648,
      "step": 3465,
      "train_runtime": 461119.9271,
      "train_tokens_per_second": 6791.629
    },
    {
      "epoch": 2.943872679045093,
      "grad_norm": 0.9266785431840717,
      "learning_rate": 5.628481954297604e-08,
      "loss": 0.5041,
      "num_input_tokens_seen": 3136402176,
      "step": 3470,
      "train_runtime": 461787.0454,
      "train_tokens_per_second": 6791.88
    },
    {
      "epoch": 2.9481167108753317,
      "grad_norm": 0.9181454594188112,
      "learning_rate": 4.83145173738514e-08,
      "loss": 0.5146,
      "num_input_tokens_seen": 3140924544,
      "step": 3475,
      "train_runtime": 462405.4235,
      "train_tokens_per_second": 6792.577
    },
    {
      "epoch": 2.9523607427055705,
      "grad_norm": 0.8349784460725406,
      "learning_rate": 4.095188196789057e-08,
      "loss": 0.5158,
      "num_input_tokens_seen": 3145415872,
      "step": 3480,
      "train_runtime": 463062.3059,
      "train_tokens_per_second": 6792.641
    },
    {
      "epoch": 2.9566047745358093,
      "grad_norm": 0.9323692378640641,
      "learning_rate": 3.419709263277893e-08,
      "loss": 0.5251,
      "num_input_tokens_seen": 3149924224,
      "step": 3485,
      "train_runtime": 463701.0926,
      "train_tokens_per_second": 6793.006
    },
    {
      "epoch": 2.9608488063660476,
      "grad_norm": 0.8451251639267238,
      "learning_rate": 2.8050313872868273e-08,
      "loss": 0.5253,
      "num_input_tokens_seen": 3154558400,
      "step": 3490,
      "train_runtime": 464407.8316,
      "train_tokens_per_second": 6792.647
    },
    {
      "epoch": 2.9650928381962864,
      "grad_norm": 1.0163495151903155,
      "learning_rate": 2.251169538518838e-08,
      "loss": 0.5481,
      "num_input_tokens_seen": 3159207360,
      "step": 3495,
      "train_runtime": 465073.4609,
      "train_tokens_per_second": 6792.921
    },
    {
      "epoch": 2.9693368700265252,
      "grad_norm": 1.0129744457478043,
      "learning_rate": 1.758137205579158e-08,
      "loss": 0.5135,
      "num_input_tokens_seen": 3163694016,
      "step": 3500,
      "train_runtime": 465699.5834,
      "train_tokens_per_second": 6793.422
    },
    {
      "epoch": 2.973580901856764,
      "grad_norm": 1.000739655978131,
      "learning_rate": 1.3259463956469265e-08,
      "loss": 0.5001,
      "num_input_tokens_seen": 3168337088,
      "step": 3505,
      "train_runtime": 466401.7551,
      "train_tokens_per_second": 6793.15
    },
    {
      "epoch": 2.9778249336870024,
      "grad_norm": 0.9167977963170866,
      "learning_rate": 9.546076341834798e-09,
      "loss": 0.5125,
      "num_input_tokens_seen": 3172760384,
      "step": 3510,
      "train_runtime": 467024.7423,
      "train_tokens_per_second": 6793.56
    },
    {
      "epoch": 2.982068965517241,
      "grad_norm": 0.9752251889997392,
      "learning_rate": 6.441299646750554e-09,
      "loss": 0.5214,
      "num_input_tokens_seen": 3177405824,
      "step": 3515,
      "train_runtime": 467725.4913,
      "train_tokens_per_second": 6793.313
    },
    {
      "epoch": 2.98631299734748,
      "grad_norm": 0.9307610509549541,
      "learning_rate": 3.945209484124135e-09,
      "loss": 0.5254,
      "num_input_tokens_seen": 3182049024,
      "step": 3520,
      "train_runtime": 468383.2029,
      "train_tokens_per_second": 6793.687
    },
    {
      "epoch": 2.990557029177719,
      "grad_norm": 0.9957718574851812,
      "learning_rate": 2.0578666430765e-09,
      "loss": 0.5124,
      "num_input_tokens_seen": 3186550272,
      "step": 3525,
      "train_runtime": 469031.712,
      "train_tokens_per_second": 6793.891
    },
    {
      "epoch": 2.9948010610079576,
      "grad_norm": 1.1631587185707446,
      "learning_rate": 7.793170874625943e-10,
      "loss": 0.5197,
      "num_input_tokens_seen": 3191082304,
      "step": 3530,
      "train_runtime": 469677.0947,
      "train_tokens_per_second": 6794.205
    },
    {
      "epoch": 2.9990450928381964,
      "grad_norm": 0.9116914677984228,
      "learning_rate": 1.0959195473614348e-10,
      "loss": 0.5392,
      "num_input_tokens_seen": 3195636736,
      "step": 3535,
      "train_runtime": 470373.7704,
      "train_tokens_per_second": 6793.824
    }
  ],
  "logging_steps": 5,
  "max_steps": 3537,
  "num_input_tokens_seen": 3196694976,
  "num_train_epochs": 3,
  "save_steps": 1180,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.62813488136192e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}