TransMind / logging.jsonl

Upload folder using huggingface_hub

b47933b verified 10 months ago

103 kB

{"train_dataset": "69.804945±20.058270, min=36.000000, max=134.000000, size=1456", "val_dataset": "68.642857±14.921735, min=50.000000, max=106.000000, size=14", "model_parameter_info": "PeftModelForCausalLM: 32830.9852M Params (67.1089M Trainable [0.2044%]), 0.0001M Buffers.", "last_model_checkpoint": "/ml/output/model/checkpoint-2184", "best_model_checkpoint": "/ml/output/model/checkpoint-1000", "best_metric": 0.72302622, "global_step": 2184, "log_history": [{"loss": 4.845100402832031, "token_acc": 0.3181818181818182, "grad_norm": 1.859609603881836, "learning_rate": 4.999997413548046e-06, "memory(GiB)": 84.54, "train_speed(iter/s)": 0.364939, "epoch": 0.0027472527472527475, "step": 1}, {"loss": 5.431885719299316, "token_acc": 0.269449715370019, "grad_norm": 3.8943259716033936, "learning_rate": 4.999935338968726e-06, "memory(GiB)": 84.54, "train_speed(iter/s)": 0.560099, "epoch": 0.013736263736263736, "step": 5}, {"loss": 4.299792861938476, "token_acc": 0.3250296559905101, "grad_norm": 3.4477555751800537, "learning_rate": 4.999741359219741e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.614556, "epoch": 0.027472527472527472, "step": 10}, {"loss": 3.4991291046142576, "token_acc": 0.3755656108597285, "grad_norm": 2.6436126232147217, "learning_rate": 4.9994180707873904e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.631823, "epoch": 0.04120879120879121, "step": 15}, {"loss": 3.1393104553222657, "token_acc": 0.4008574490889603, "grad_norm": 1.6658120155334473, "learning_rate": 4.998965490395006e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.645092, "epoch": 0.054945054945054944, "step": 20}, {"loss": 3.0061120986938477, "token_acc": 0.4362801377726751, "grad_norm": 1.3414336442947388, "learning_rate": 4.998383641454037e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.648377, "epoch": 0.06868131868131869, "step": 25}, {"loss": 2.5346633911132814, "token_acc": 0.48195876288659795, "grad_norm": 1.9603320360183716, "learning_rate": 4.997672554062849e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.653293, "epoch": 0.08241758241758242, "step": 30}, {"loss": 2.4882802963256836, "token_acc": 0.4882280049566295, "grad_norm": 1.5868936777114868, "learning_rate": 4.996832265005154e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.66068, "epoch": 0.09615384615384616, "step": 35}, {"loss": 1.9163589477539062, "token_acc": 0.5761772853185596, "grad_norm": 2.0011613368988037, "learning_rate": 4.99586281774812e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.668517, "epoch": 0.10989010989010989, "step": 40}, {"loss": 1.9364435195922851, "token_acc": 0.5630354957160343, "grad_norm": 2.0488202571868896, "learning_rate": 4.994764262440113e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.667942, "epoch": 0.12362637362637363, "step": 45}, {"loss": 1.5958708763122558, "token_acc": 0.6441495778045838, "grad_norm": 0.8501625657081604, "learning_rate": 4.9935366559081085e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.67181, "epoch": 0.13736263736263737, "step": 50}, {"loss": 1.6581647872924805, "token_acc": 0.6561014263074485, "grad_norm": 1.8299508094787598, "learning_rate": 4.992180061654751e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.677914, "epoch": 0.1510989010989011, "step": 55}, {"loss": 1.5821645736694336, "token_acc": 0.6297117516629712, "grad_norm": 0.9090773463249207, "learning_rate": 4.990694549855066e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.679563, "epoch": 0.16483516483516483, "step": 60}, {"loss": 1.5258435249328612, "token_acc": 0.655937846836848, "grad_norm": 1.5795096158981323, "learning_rate": 4.989080197352834e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.680261, "epoch": 0.17857142857142858, "step": 65}, {"loss": 1.9352359771728516, "token_acc": 0.6036671368124118, "grad_norm": 2.982811212539673, "learning_rate": 4.987337087656614e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.683312, "epoch": 0.19230769230769232, "step": 70}, {"loss": 1.893062210083008, "token_acc": 0.5701581027667985, "grad_norm": 1.2153289318084717, "learning_rate": 4.985465310935421e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.680688, "epoch": 0.20604395604395603, "step": 75}, {"loss": 1.3533341407775878, "token_acc": 0.6736214605067065, "grad_norm": 1.096890926361084, "learning_rate": 4.983464964014066e-06, "memory(GiB)": 84.55, "train_speed(iter/s)": 0.685792, "epoch": 0.21978021978021978, "step": 80}, {"loss": 1.593102264404297, "token_acc": 0.6555269922879178, "grad_norm": 1.296724796295166, "learning_rate": 4.981336150368146e-06, "memory(GiB)": 84.59, "train_speed(iter/s)": 0.687401, "epoch": 0.23351648351648352, "step": 85}, {"loss": 1.81397705078125, "token_acc": 0.6201550387596899, "grad_norm": 1.6288936138153076, "learning_rate": 4.979078980118688e-06, "memory(GiB)": 84.59, "train_speed(iter/s)": 0.687068, "epoch": 0.24725274725274726, "step": 90}, {"loss": 1.6157730102539063, "token_acc": 0.6188811188811189, "grad_norm": 0.8399831056594849, "learning_rate": 4.9766935700264565e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.688415, "epoch": 0.260989010989011, "step": 95}, {"loss": 1.2339402198791505, "token_acc": 0.6983002832861189, "grad_norm": 1.257629632949829, "learning_rate": 4.974180043485914e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.690629, "epoch": 0.27472527472527475, "step": 100}, {"loss": 1.2127707481384278, "token_acc": 0.7070422535211267, "grad_norm": 0.8729527592658997, "learning_rate": 4.971538530518836e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.692082, "epoch": 0.28846153846153844, "step": 105}, {"loss": 1.2520215034484863, "token_acc": 0.6645962732919255, "grad_norm": 0.6654256582260132, "learning_rate": 4.968769167767582e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694031, "epoch": 0.3021978021978022, "step": 110}, {"loss": 1.4289642333984376, "token_acc": 0.6518072289156627, "grad_norm": 0.9979475736618042, "learning_rate": 4.965872098488035e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694599, "epoch": 0.3159340659340659, "step": 115}, {"loss": 1.5948931694030761, "token_acc": 0.6274752475247525, "grad_norm": 2.2141644954681396, "learning_rate": 4.9628474725421845e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694039, "epoch": 0.32967032967032966, "step": 120}, {"loss": 1.4569047927856444, "token_acc": 0.6356589147286822, "grad_norm": 1.7539677619934082, "learning_rate": 4.959695446390377e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694412, "epoch": 0.3434065934065934, "step": 125}, {"loss": 1.262307071685791, "token_acc": 0.6853055916775033, "grad_norm": 0.7835946679115295, "learning_rate": 4.9564161830832214e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695295, "epoch": 0.35714285714285715, "step": 130}, {"loss": 1.3285348892211915, "token_acc": 0.6835106382978723, "grad_norm": 1.0600110292434692, "learning_rate": 4.953009852253155e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695758, "epoch": 0.3708791208791209, "step": 135}, {"loss": 1.273412036895752, "token_acc": 0.66, "grad_norm": 1.0087701082229614, "learning_rate": 4.94947663010567e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696177, "epoch": 0.38461538461538464, "step": 140}, {"loss": 1.4524594306945802, "token_acc": 0.6542155816435432, "grad_norm": 1.353060245513916, "learning_rate": 4.945816699410197e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695412, "epoch": 0.3983516483516483, "step": 145}, {"loss": 1.3715271949768066, "token_acc": 0.6324022346368715, "grad_norm": 1.3130184412002563, "learning_rate": 4.942030249490648e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694903, "epoch": 0.41208791208791207, "step": 150}, {"loss": 1.2133062362670899, "token_acc": 0.6899618805590851, "grad_norm": 0.9101914763450623, "learning_rate": 4.938117476215632e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695465, "epoch": 0.4258241758241758, "step": 155}, {"loss": 1.0930197715759278, "token_acc": 0.7142857142857143, "grad_norm": 1.1700353622436523, "learning_rate": 4.9340785819883104e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696161, "epoch": 0.43956043956043955, "step": 160}, {"loss": 1.1405070304870606, "token_acc": 0.6986794717887155, "grad_norm": 1.637927770614624, "learning_rate": 4.929913775735938e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695573, "epoch": 0.4532967032967033, "step": 165}, {"loss": 1.3693831443786622, "token_acc": 0.6682188591385332, "grad_norm": 2.3025734424591064, "learning_rate": 4.925623272899047e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695334, "epoch": 0.46703296703296704, "step": 170}, {"loss": 1.3776451110839845, "token_acc": 0.6644034917555771, "grad_norm": 1.0438071489334106, "learning_rate": 4.921207295420309e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694442, "epoch": 0.4807692307692308, "step": 175}, {"loss": 1.4028091430664062, "token_acc": 0.6322869955156951, "grad_norm": 1.2680623531341553, "learning_rate": 4.9166660717330496e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.693975, "epoch": 0.4945054945054945, "step": 180}, {"loss": 1.3440594673156738, "token_acc": 0.6721311475409836, "grad_norm": 1.4872736930847168, "learning_rate": 4.911999836749434e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694211, "epoch": 0.5082417582417582, "step": 185}, {"loss": 0.952613353729248, "token_acc": 0.7395411605937922, "grad_norm": 0.9149159789085388, "learning_rate": 4.907208831848316e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695336, "epoch": 0.521978021978022, "step": 190}, {"loss": 1.0965003967285156, "token_acc": 0.7111650485436893, "grad_norm": 0.915104866027832, "learning_rate": 4.9022933048627496e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6954, "epoch": 0.5357142857142857, "step": 195}, {"loss": 1.2806970596313476, "token_acc": 0.6783707865168539, "grad_norm": 1.560219407081604, "learning_rate": 4.8972535100671695e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695963, "epoch": 0.5494505494505495, "step": 200}, {"loss": 1.2148287773132325, "token_acc": 0.7126030624263839, "grad_norm": 0.9153175950050354, "learning_rate": 4.892089708164239e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696359, "epoch": 0.5631868131868132, "step": 205}, {"loss": 1.251271629333496, "token_acc": 0.6767676767676768, "grad_norm": 1.1186519861221313, "learning_rate": 4.886802166271365e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695715, "epoch": 0.5769230769230769, "step": 210}, {"loss": 1.4077491760253906, "token_acc": 0.6398996235884568, "grad_norm": 1.6051172018051147, "learning_rate": 4.881391157906874e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695701, "epoch": 0.5906593406593407, "step": 215}, {"loss": 1.1775382041931153, "token_acc": 0.7035040431266847, "grad_norm": 1.594714879989624, "learning_rate": 4.875856962975872e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695693, "epoch": 0.6043956043956044, "step": 220}, {"loss": 1.2701961517333984, "token_acc": 0.662777129521587, "grad_norm": 1.1291377544403076, "learning_rate": 4.870199867755762e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695885, "epoch": 0.6181318681318682, "step": 225}, {"loss": 1.122669506072998, "token_acc": 0.7027579162410623, "grad_norm": 1.3166444301605225, "learning_rate": 4.8644201648814295e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694924, "epoch": 0.6318681318681318, "step": 230}, {"loss": 1.0439199447631835, "token_acc": 0.7241379310344828, "grad_norm": 2.1241183280944824, "learning_rate": 4.858518153330115e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695662, "epoch": 0.6456043956043956, "step": 235}, {"loss": 1.3217242240905762, "token_acc": 0.6645077720207254, "grad_norm": 1.3728176355361938, "learning_rate": 4.852494138405942e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695463, "epoch": 0.6593406593406593, "step": 240}, {"loss": 1.3315425872802735, "token_acc": 0.6626106194690266, "grad_norm": 0.7666327357292175, "learning_rate": 4.846348431724123e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694997, "epoch": 0.6730769230769231, "step": 245}, {"loss": 1.2476265907287598, "token_acc": 0.6826608505997819, "grad_norm": 1.0763760805130005, "learning_rate": 4.840081351194843e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695046, "epoch": 0.6868131868131868, "step": 250}, {"loss": 1.3097673416137696, "token_acc": 0.6701149425287356, "grad_norm": 2.0932700634002686, "learning_rate": 4.833693221006817e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.694831, "epoch": 0.7005494505494505, "step": 255}, {"loss": 1.1251026153564454, "token_acc": 0.70875, "grad_norm": 2.7902257442474365, "learning_rate": 4.827184371610511e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69515, "epoch": 0.7142857142857143, "step": 260}, {"loss": 1.1930950164794922, "token_acc": 0.6829545454545455, "grad_norm": 1.4167520999908447, "learning_rate": 4.820555139701058e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695317, "epoch": 0.728021978021978, "step": 265}, {"loss": 1.15640287399292, "token_acc": 0.6998722860791826, "grad_norm": 1.572184443473816, "learning_rate": 4.813805868200834e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.695992, "epoch": 0.7417582417582418, "step": 270}, {"loss": 0.9353804588317871, "token_acc": 0.7280187573270809, "grad_norm": 1.1399966478347778, "learning_rate": 4.806936906241725e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696614, "epoch": 0.7554945054945055, "step": 275}, {"loss": 1.1991602897644043, "token_acc": 0.6851015801354402, "grad_norm": 1.1597713232040405, "learning_rate": 4.799948609147061e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696301, "epoch": 0.7692307692307693, "step": 280}, {"loss": 0.9426383018493653, "token_acc": 0.7280248190279214, "grad_norm": 0.8000651597976685, "learning_rate": 4.79284133841324e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696158, "epoch": 0.782967032967033, "step": 285}, {"loss": 1.1252105712890625, "token_acc": 0.7033492822966507, "grad_norm": 2.2230985164642334, "learning_rate": 4.785615461691027e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696106, "epoch": 0.7967032967032966, "step": 290}, {"loss": 1.1163786888122558, "token_acc": 0.7113022113022113, "grad_norm": 1.535373568534851, "learning_rate": 4.778271352766533e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696626, "epoch": 0.8104395604395604, "step": 295}, {"loss": 1.311510181427002, "token_acc": 0.6730123180291153, "grad_norm": 2.1452412605285645, "learning_rate": 4.770809391541885e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696602, "epoch": 0.8241758241758241, "step": 300}, {"loss": 1.050265121459961, "token_acc": 0.7198538367844093, "grad_norm": 1.0178555250167847, "learning_rate": 4.763229964015569e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69658, "epoch": 0.8379120879120879, "step": 305}, {"loss": 1.1311578750610352, "token_acc": 0.716514954486346, "grad_norm": 0.9918026328086853, "learning_rate": 4.755533462262465e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696992, "epoch": 0.8516483516483516, "step": 310}, {"loss": 0.9940155029296875, "token_acc": 0.7348130841121495, "grad_norm": 1.499839186668396, "learning_rate": 4.747720284413565e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697076, "epoch": 0.8653846153846154, "step": 315}, {"loss": 1.0620455741882324, "token_acc": 0.6918671248568156, "grad_norm": 1.3686118125915527, "learning_rate": 4.73979083463538e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696957, "epoch": 0.8791208791208791, "step": 320}, {"loss": 0.9061845779418946, "token_acc": 0.7661064425770309, "grad_norm": 1.500191569328308, "learning_rate": 4.731745523109029e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697714, "epoch": 0.8928571428571429, "step": 325}, {"loss": 1.1300849914550781, "token_acc": 0.7107969151670951, "grad_norm": 1.2986173629760742, "learning_rate": 4.723584766009025e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69815, "epoch": 0.9065934065934066, "step": 330}, {"loss": 0.9698718070983887, "token_acc": 0.7515060240963856, "grad_norm": 1.188836693763733, "learning_rate": 4.7153089854817435e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699027, "epoch": 0.9203296703296703, "step": 335}, {"loss": 1.1299867630004883, "token_acc": 0.7009966777408638, "grad_norm": 0.9763712286949158, "learning_rate": 4.706918609623587e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698685, "epoch": 0.9340659340659341, "step": 340}, {"loss": 1.1391003608703614, "token_acc": 0.7339782345828295, "grad_norm": 1.4268925189971924, "learning_rate": 4.698414072458841e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698546, "epoch": 0.9478021978021978, "step": 345}, {"loss": 0.8140497207641602, "token_acc": 0.7789799072642968, "grad_norm": 0.8556198477745056, "learning_rate": 4.68979581391722e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699384, "epoch": 0.9615384615384616, "step": 350}, {"loss": 1.02474365234375, "token_acc": 0.7229050279329609, "grad_norm": 1.122625708580017, "learning_rate": 4.681064279811112e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699278, "epoch": 0.9752747252747253, "step": 355}, {"loss": 0.9025652885437012, "token_acc": 0.7358722358722358, "grad_norm": 1.0837434530258179, "learning_rate": 4.672219921812517e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69986, "epoch": 0.989010989010989, "step": 360}, {"loss": 0.9243046760559082, "token_acc": 0.7524875621890548, "grad_norm": 1.0550817251205444, "learning_rate": 4.663263197429681e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699536, "epoch": 1.0027472527472527, "step": 365}, {"loss": 0.8359884262084961, "token_acc": 0.7660485021398002, "grad_norm": 1.3758487701416016, "learning_rate": 4.654194569983435e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700332, "epoch": 1.0164835164835164, "step": 370}, {"loss": 0.8076002120971679, "token_acc": 0.7722289890377588, "grad_norm": 0.7889564633369446, "learning_rate": 4.6450145085832196e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700329, "epoch": 1.0302197802197801, "step": 375}, {"loss": 0.7522358417510986, "token_acc": 0.7901234567901234, "grad_norm": 1.0751668214797974, "learning_rate": 4.6357234881028256e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700624, "epoch": 1.043956043956044, "step": 380}, {"loss": 0.8143800735473633, "token_acc": 0.7802056555269923, "grad_norm": 0.9292008280754089, "learning_rate": 4.6263219891558245e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700837, "epoch": 1.0576923076923077, "step": 385}, {"loss": 1.0150009155273438, "token_acc": 0.7247132429614181, "grad_norm": 1.0368188619613647, "learning_rate": 4.6168104980707105e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700233, "epoch": 1.0714285714285714, "step": 390}, {"loss": 0.9379083633422851, "token_acc": 0.7580174927113703, "grad_norm": 0.8190715909004211, "learning_rate": 4.607189506865743e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700962, "epoch": 1.085164835164835, "step": 395}, {"loss": 1.0399494171142578, "token_acc": 0.7237163814180929, "grad_norm": 1.102157473564148, "learning_rate": 4.59745951322349e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701318, "epoch": 1.098901098901099, "step": 400}, {"loss": 0.8263424873352051, "token_acc": 0.7591324200913242, "grad_norm": 1.302546501159668, "learning_rate": 4.587621020465093e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701423, "epoch": 1.1126373626373627, "step": 405}, {"loss": 0.7165181159973144, "token_acc": 0.7879581151832461, "grad_norm": 0.7975465655326843, "learning_rate": 4.57767453752422e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701859, "epoch": 1.1263736263736264, "step": 410}, {"loss": 0.7782285690307618, "token_acc": 0.7649938800489596, "grad_norm": 1.0834057331085205, "learning_rate": 4.567620578920748e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701949, "epoch": 1.14010989010989, "step": 415}, {"loss": 0.8597348213195801, "token_acc": 0.7609427609427609, "grad_norm": 0.9222910404205322, "learning_rate": 4.5574596647341414e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701727, "epoch": 1.1538461538461537, "step": 420}, {"loss": 0.8206391334533691, "token_acc": 0.7761194029850746, "grad_norm": 1.0122376680374146, "learning_rate": 4.547192320576554e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701756, "epoch": 1.1675824175824177, "step": 425}, {"loss": 0.9467921257019043, "token_acc": 0.7760115606936416, "grad_norm": 1.6993930339813232, "learning_rate": 4.536819077565632e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.702075, "epoch": 1.1813186813186813, "step": 430}, {"loss": 0.9572113037109375, "token_acc": 0.7199074074074074, "grad_norm": 1.3360753059387207, "learning_rate": 4.526340472297051e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.70171, "epoch": 1.195054945054945, "step": 435}, {"loss": 0.854743766784668, "token_acc": 0.77875, "grad_norm": 1.312260389328003, "learning_rate": 4.515757046816747e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701796, "epoch": 1.2087912087912087, "step": 440}, {"loss": 1.1159043312072754, "token_acc": 0.715922107674685, "grad_norm": 1.3424869775772095, "learning_rate": 4.505069348592887e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701716, "epoch": 1.2225274725274726, "step": 445}, {"loss": 0.8975043296813965, "token_acc": 0.7289377289377289, "grad_norm": 1.103350043296814, "learning_rate": 4.494277930487541e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.70155, "epoch": 1.2362637362637363, "step": 450}, {"loss": 0.8165018081665039, "token_acc": 0.7599067599067599, "grad_norm": 0.9655750393867493, "learning_rate": 4.4833833507280884e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.70159, "epoch": 1.25, "step": 455}, {"loss": 0.968562126159668, "token_acc": 0.7417840375586855, "grad_norm": 2.042757034301758, "learning_rate": 4.472386172878339e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701661, "epoch": 1.2637362637362637, "step": 460}, {"loss": 0.8219250679016114, "token_acc": 0.7769516728624535, "grad_norm": 1.2457046508789062, "learning_rate": 4.4612869658093815e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701711, "epoch": 1.2774725274725274, "step": 465}, {"loss": 0.9412391662597657, "token_acc": 0.7457002457002457, "grad_norm": 1.7527958154678345, "learning_rate": 4.4500863036701555e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701744, "epoch": 1.2912087912087913, "step": 470}, {"loss": 0.970545482635498, "token_acc": 0.7432273262661955, "grad_norm": 0.9749510288238525, "learning_rate": 4.438784765857754e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701747, "epoch": 1.304945054945055, "step": 475}, {"loss": 1.0594603538513183, "token_acc": 0.7239263803680982, "grad_norm": 1.3091418743133545, "learning_rate": 4.427382936987449e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701476, "epoch": 1.3186813186813187, "step": 480}, {"loss": 0.9017731666564941, "token_acc": 0.7457180500658761, "grad_norm": 1.7165377140045166, "learning_rate": 4.4158814068624515e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.701817, "epoch": 1.3324175824175823, "step": 485}, {"loss": 0.9396559715270996, "token_acc": 0.7369109947643979, "grad_norm": 2.2040843963623047, "learning_rate": 4.404280770443398e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.702009, "epoch": 1.3461538461538463, "step": 490}, {"loss": 0.8426984786987305, "token_acc": 0.7902511078286558, "grad_norm": 1.6644452810287476, "learning_rate": 4.392581627817583e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.702456, "epoch": 1.35989010989011, "step": 495}, {"loss": 0.8629344940185547, "token_acc": 0.7410926365795725, "grad_norm": 2.068499803543091, "learning_rate": 4.380784584167907e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.702686, "epoch": 1.3736263736263736, "step": 500}, {"eval_loss": 0.7868840098381042, "eval_token_acc": 0.7407407407407407, "eval_runtime": 1.5118, "eval_samples_per_second": 9.261, "eval_steps_per_second": 9.261, "epoch": 1.3736263736263736, "step": 500}, {"loss": 0.9566965103149414, "token_acc": 0.7275985663082437, "grad_norm": 1.0813981294631958, "learning_rate": 4.368890249741576e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699313, "epoch": 1.3873626373626373, "step": 505}, {"loss": 1.1420529365539551, "token_acc": 0.6906934306569343, "grad_norm": 1.4047659635543823, "learning_rate": 4.356899239818536e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698859, "epoch": 1.401098901098901, "step": 510}, {"loss": 0.9280705451965332, "token_acc": 0.7342047930283224, "grad_norm": 1.306005835533142, "learning_rate": 4.34481217467964e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698602, "epoch": 1.414835164835165, "step": 515}, {"loss": 0.8816601753234863, "token_acc": 0.75, "grad_norm": 1.2008450031280518, "learning_rate": 4.332629679574566e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69865, "epoch": 1.4285714285714286, "step": 520}, {"loss": 0.9030305862426757, "token_acc": 0.7491207502930832, "grad_norm": 1.5160796642303467, "learning_rate": 4.3203523846894715e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698907, "epoch": 1.4423076923076923, "step": 525}, {"loss": 1.0662851333618164, "token_acc": 0.7195945945945946, "grad_norm": 1.1599265336990356, "learning_rate": 4.307980925114395e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698715, "epoch": 1.456043956043956, "step": 530}, {"loss": 0.9371971130371094, "token_acc": 0.7447595561035758, "grad_norm": 0.9304958581924438, "learning_rate": 4.295515940810404e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698803, "epoch": 1.4697802197802199, "step": 535}, {"loss": 1.1010364532470702, "token_acc": 0.6989853438556933, "grad_norm": 1.5172704458236694, "learning_rate": 4.282958076576491e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698656, "epoch": 1.4835164835164836, "step": 540}, {"loss": 0.8189828872680665, "token_acc": 0.7601760176017601, "grad_norm": 1.233534812927246, "learning_rate": 4.270307982016217e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698587, "epoch": 1.4972527472527473, "step": 545}, {"loss": 0.9283863067626953, "token_acc": 0.75254730713246, "grad_norm": 2.4461982250213623, "learning_rate": 4.257566311504111e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698914, "epoch": 1.510989010989011, "step": 550}, {"loss": 0.8334375381469726, "token_acc": 0.75, "grad_norm": 1.0831338167190552, "learning_rate": 4.244733724151816e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699204, "epoch": 1.5247252747252746, "step": 555}, {"loss": 1.062040138244629, "token_acc": 0.702061855670103, "grad_norm": 1.2225896120071411, "learning_rate": 4.231810883773999e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698829, "epoch": 1.5384615384615383, "step": 560}, {"loss": 0.6060447216033935, "token_acc": 0.8235294117647058, "grad_norm": 0.8017207384109497, "learning_rate": 4.218798458854008e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699137, "epoch": 1.5521978021978022, "step": 565}, {"loss": 0.7125026702880859, "token_acc": 0.8144736842105263, "grad_norm": 1.0359010696411133, "learning_rate": 4.205697122509294e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699295, "epoch": 1.565934065934066, "step": 570}, {"loss": 1.082395076751709, "token_acc": 0.6967615309126595, "grad_norm": 1.7180095911026, "learning_rate": 4.1925075524565935e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699077, "epoch": 1.5796703296703298, "step": 575}, {"loss": 0.8497726440429687, "token_acc": 0.782560706401766, "grad_norm": 1.546633005142212, "learning_rate": 4.179230430976868e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699122, "epoch": 1.5934065934065935, "step": 580}, {"loss": 0.7687014579772949, "token_acc": 0.7860576923076923, "grad_norm": 1.4698306322097778, "learning_rate": 4.1658664448800105e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699187, "epoch": 1.6071428571428572, "step": 585}, {"loss": 1.0332008361816407, "token_acc": 0.7347994825355757, "grad_norm": 1.6101118326187134, "learning_rate": 4.15241628546932e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699074, "epoch": 1.620879120879121, "step": 590}, {"loss": 0.8939567565917969, "token_acc": 0.7643610785463072, "grad_norm": 1.0033167600631714, "learning_rate": 4.1388806485057375e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699145, "epoch": 1.6346153846153846, "step": 595}, {"loss": 0.9037868499755859, "token_acc": 0.7602040816326531, "grad_norm": 1.456146001815796, "learning_rate": 4.125260234171861e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699148, "epoch": 1.6483516483516483, "step": 600}, {"loss": 0.8166815757751464, "token_acc": 0.7819444444444444, "grad_norm": 1.130057454109192, "learning_rate": 4.11155574703572e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699423, "epoch": 1.662087912087912, "step": 605}, {"loss": 0.9042266845703125, "token_acc": 0.7339108910891089, "grad_norm": 1.3775123357772827, "learning_rate": 4.0977678960143305e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699531, "epoch": 1.6758241758241759, "step": 610}, {"loss": 0.9461534500122071, "token_acc": 0.7455197132616488, "grad_norm": 1.5186614990234375, "learning_rate": 4.0838973943370256e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6997, "epoch": 1.6895604395604396, "step": 615}, {"loss": 0.80079345703125, "token_acc": 0.78, "grad_norm": 0.8454467058181763, "learning_rate": 4.06994495950856e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69984, "epoch": 1.7032967032967035, "step": 620}, {"loss": 0.8127128601074218, "token_acc": 0.7636612021857924, "grad_norm": 1.7185651063919067, "learning_rate": 4.055911313271994e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700205, "epoch": 1.7170329670329672, "step": 625}, {"loss": 0.848236083984375, "token_acc": 0.7733812949640287, "grad_norm": 1.264552116394043, "learning_rate": 4.041797181571358e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700212, "epoch": 1.7307692307692308, "step": 630}, {"loss": 0.7802391052246094, "token_acc": 0.7873900293255132, "grad_norm": 1.2710704803466797, "learning_rate": 4.0276032945140995e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.70042, "epoch": 1.7445054945054945, "step": 635}, {"loss": 1.2466366767883301, "token_acc": 0.6973224679860303, "grad_norm": 1.329993486404419, "learning_rate": 4.01333038633332e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700188, "epoch": 1.7582417582417582, "step": 640}, {"loss": 0.9457121849060058, "token_acc": 0.7454323995127893, "grad_norm": 1.269930362701416, "learning_rate": 3.99897919534979e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700173, "epoch": 1.771978021978022, "step": 645}, {"loss": 1.1441109657287598, "token_acc": 0.7209302325581395, "grad_norm": 1.1039958000183105, "learning_rate": 3.984550463933754e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700187, "epoch": 1.7857142857142856, "step": 650}, {"loss": 0.8400129318237305, "token_acc": 0.766624843161857, "grad_norm": 1.3419623374938965, "learning_rate": 3.9700449384665376e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700301, "epoch": 1.7994505494505495, "step": 655}, {"loss": 0.7588065147399903, "token_acc": 0.7889022919179735, "grad_norm": 2.368591785430908, "learning_rate": 3.9554633693019275e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700087, "epoch": 1.8131868131868132, "step": 660}, {"loss": 0.6543075561523437, "token_acc": 0.8219584569732937, "grad_norm": 0.6994543075561523, "learning_rate": 3.940806510727364e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700466, "epoch": 1.8269230769230769, "step": 665}, {"loss": 0.9334993362426758, "token_acc": 0.7547169811320755, "grad_norm": 1.1098458766937256, "learning_rate": 3.926075120924919e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700316, "epoch": 1.8406593406593408, "step": 670}, {"loss": 0.7411020755767822, "token_acc": 0.7838785046728972, "grad_norm": 1.6408406496047974, "learning_rate": 3.91126996193208e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700352, "epoch": 1.8543956043956045, "step": 675}, {"loss": 0.9620826721191407, "token_acc": 0.737888198757764, "grad_norm": 1.3704053163528442, "learning_rate": 3.896391799602325e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700339, "epoch": 1.8681318681318682, "step": 680}, {"loss": 0.7884200572967529, "token_acc": 0.7637698898408812, "grad_norm": 1.2542363405227661, "learning_rate": 3.881441403565509e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700474, "epoch": 1.8818681318681318, "step": 685}, {"loss": 0.7316168308258056, "token_acc": 0.7546972860125261, "grad_norm": 1.974985122680664, "learning_rate": 3.866419547188053e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700322, "epoch": 1.8956043956043955, "step": 690}, {"loss": 0.9797502517700195, "token_acc": 0.7334070796460177, "grad_norm": 1.1225577592849731, "learning_rate": 3.851327007532937e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.7001, "epoch": 1.9093406593406592, "step": 695}, {"loss": 0.668210792541504, "token_acc": 0.8072727272727273, "grad_norm": 1.0181888341903687, "learning_rate": 3.836164565319503e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700283, "epoch": 1.9230769230769231, "step": 700}, {"loss": 0.9120686531066895, "token_acc": 0.7470119521912351, "grad_norm": 1.2863972187042236, "learning_rate": 3.8209330048830725e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.700175, "epoch": 1.9368131868131868, "step": 705}, {"loss": 0.9376378059387207, "token_acc": 0.7439664218258132, "grad_norm": 1.27194344997406, "learning_rate": 3.8056331141343704e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699516, "epoch": 1.9505494505494505, "step": 710}, {"loss": 0.8532327651977539, "token_acc": 0.7546798029556651, "grad_norm": 1.3448386192321777, "learning_rate": 3.790265684518767e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699378, "epoch": 1.9642857142857144, "step": 715}, {"loss": 0.7339714050292969, "token_acc": 0.807799442896936, "grad_norm": 1.1430822610855103, "learning_rate": 3.7748315109753402e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699637, "epoch": 1.978021978021978, "step": 720}, {"loss": 0.8687750816345214, "token_acc": 0.7442489851150202, "grad_norm": 2.692081928253174, "learning_rate": 3.7593313918957524e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6997, "epoch": 1.9917582417582418, "step": 725}, {"loss": 0.8246536254882812, "token_acc": 0.7655172413793103, "grad_norm": 1.45960533618927, "learning_rate": 3.7437661290829515e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69995, "epoch": 2.0054945054945055, "step": 730}, {"loss": 0.8179521560668945, "token_acc": 0.7763157894736842, "grad_norm": 1.3606950044631958, "learning_rate": 3.7281365277096937e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699817, "epoch": 2.019230769230769, "step": 735}, {"loss": 0.8888274192810058, "token_acc": 0.7682020802377415, "grad_norm": 1.4421477317810059, "learning_rate": 3.7124433962768935e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699726, "epoch": 2.032967032967033, "step": 740}, {"loss": 0.6941624164581299, "token_acc": 0.7994825355756792, "grad_norm": 1.5517796277999878, "learning_rate": 3.6966875465718015e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699786, "epoch": 2.0467032967032965, "step": 745}, {"loss": 0.6091458320617675, "token_acc": 0.8097014925373134, "grad_norm": 1.5064735412597656, "learning_rate": 3.6808697936260096e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699707, "epoch": 2.0604395604395602, "step": 750}, {"loss": 0.469268274307251, "token_acc": 0.843403205918619, "grad_norm": 1.1867626905441284, "learning_rate": 3.6649909556732925e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699727, "epoch": 2.0741758241758244, "step": 755}, {"loss": 0.6673802852630615, "token_acc": 0.7944572748267898, "grad_norm": 1.5232415199279785, "learning_rate": 3.6490518541072797e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699641, "epoch": 2.087912087912088, "step": 760}, {"loss": 0.7260451793670655, "token_acc": 0.7991266375545851, "grad_norm": 1.912463903427124, "learning_rate": 3.6330533134389663e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69955, "epoch": 2.1016483516483517, "step": 765}, {"loss": 0.48641467094421387, "token_acc": 0.8419452887537994, "grad_norm": 1.6752557754516602, "learning_rate": 3.6169961612540648e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699854, "epoch": 2.1153846153846154, "step": 770}, {"loss": 0.6344562530517578, "token_acc": 0.8093385214007782, "grad_norm": 1.1388593912124634, "learning_rate": 3.60088122817019e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699714, "epoch": 2.129120879120879, "step": 775}, {"loss": 0.687798023223877, "token_acc": 0.8177514792899409, "grad_norm": 1.5920119285583496, "learning_rate": 3.5847093477938955e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699694, "epoch": 2.142857142857143, "step": 780}, {"loss": 0.8120404243469238, "token_acc": 0.7884028484231943, "grad_norm": 1.3422707319259644, "learning_rate": 3.568481356677552e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699488, "epoch": 2.1565934065934065, "step": 785}, {"loss": 0.47385578155517577, "token_acc": 0.8641160949868074, "grad_norm": 1.5092819929122925, "learning_rate": 3.5521980942760727e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699708, "epoch": 2.17032967032967, "step": 790}, {"loss": 0.774027156829834, "token_acc": 0.7857142857142857, "grad_norm": 1.1071751117706299, "learning_rate": 3.5358604029034877e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6996, "epoch": 2.1840659340659343, "step": 795}, {"loss": 0.6861626148223877, "token_acc": 0.791921664626683, "grad_norm": 1.2061758041381836, "learning_rate": 3.5194691276893754e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699688, "epoch": 2.197802197802198, "step": 800}, {"loss": 0.6267460346221924, "token_acc": 0.815347721822542, "grad_norm": 1.4371089935302734, "learning_rate": 3.5030251165351446e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699659, "epoch": 2.2115384615384617, "step": 805}, {"loss": 0.7089279174804688, "token_acc": 0.7895902547065338, "grad_norm": 1.327993392944336, "learning_rate": 3.4865292200701704e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699443, "epoch": 2.2252747252747254, "step": 810}, {"loss": 0.6919046401977539, "token_acc": 0.7879818594104309, "grad_norm": 1.5629117488861084, "learning_rate": 3.4699822916077953e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699403, "epoch": 2.239010989010989, "step": 815}, {"loss": 0.6093659400939941, "token_acc": 0.8172804532577904, "grad_norm": 1.3440501689910889, "learning_rate": 3.4533851871011836e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699598, "epoch": 2.2527472527472527, "step": 820}, {"loss": 0.7140613079071045, "token_acc": 0.794928335170893, "grad_norm": 1.505165457725525, "learning_rate": 3.4367387650990537e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699501, "epoch": 2.2664835164835164, "step": 825}, {"loss": 0.7187569618225098, "token_acc": 0.7827476038338658, "grad_norm": 1.1826272010803223, "learning_rate": 3.4200438867012535e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699311, "epoch": 2.28021978021978, "step": 830}, {"loss": 0.5547841548919678, "token_acc": 0.8176914778856527, "grad_norm": 1.1228759288787842, "learning_rate": 3.403301415514228e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699141, "epoch": 2.293956043956044, "step": 835}, {"loss": 0.5484649181365967, "token_acc": 0.8474341192787794, "grad_norm": 1.7384719848632812, "learning_rate": 3.386512217606339e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69937, "epoch": 2.3076923076923075, "step": 840}, {"loss": 0.7405166625976562, "token_acc": 0.7710843373493976, "grad_norm": 0.9112597703933716, "learning_rate": 3.369677161463068e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699098, "epoch": 2.3214285714285716, "step": 845}, {"loss": 0.8179533958435059, "token_acc": 0.7785467128027682, "grad_norm": 1.2371731996536255, "learning_rate": 3.3527971179420886e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698933, "epoch": 2.3351648351648353, "step": 850}, {"loss": 0.589947509765625, "token_acc": 0.8333333333333334, "grad_norm": 0.9958158135414124, "learning_rate": 3.335872960228217e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.699007, "epoch": 2.348901098901099, "step": 855}, {"loss": 0.6964078903198242, "token_acc": 0.8067226890756303, "grad_norm": 1.9239474534988403, "learning_rate": 3.3189055637882485e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698844, "epoch": 2.3626373626373627, "step": 860}, {"loss": 0.6309514045715332, "token_acc": 0.7895791583166333, "grad_norm": 1.7001653909683228, "learning_rate": 3.3018958063256612e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698562, "epoch": 2.3763736263736264, "step": 865}, {"loss": 0.6451898097991944, "token_acc": 0.8031319910514542, "grad_norm": 1.2390438318252563, "learning_rate": 3.2848445677352253e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698477, "epoch": 2.39010989010989, "step": 870}, {"loss": 0.8042097091674805, "token_acc": 0.7607891491985204, "grad_norm": 1.7843773365020752, "learning_rate": 3.2677527300574772e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698397, "epoch": 2.4038461538461537, "step": 875}, {"loss": 0.6960255622863769, "token_acc": 0.7941176470588235, "grad_norm": 1.345306634902954, "learning_rate": 3.2506211774330976e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698415, "epoch": 2.4175824175824174, "step": 880}, {"loss": 0.7171449661254883, "token_acc": 0.7930660888407367, "grad_norm": 1.0124588012695312, "learning_rate": 3.233450796057175e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698366, "epoch": 2.4313186813186816, "step": 885}, {"loss": 0.6010327816009522, "token_acc": 0.8179453836150845, "grad_norm": 1.1412783861160278, "learning_rate": 3.216242474133362e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698343, "epoch": 2.4450549450549453, "step": 890}, {"loss": 0.5516848564147949, "token_acc": 0.8190364277320799, "grad_norm": 1.0902035236358643, "learning_rate": 3.198997101827934e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6984, "epoch": 2.458791208791209, "step": 895}, {"loss": 0.4752305030822754, "token_acc": 0.8235294117647058, "grad_norm": 1.6695761680603027, "learning_rate": 3.1817155712237347e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698446, "epoch": 2.4725274725274726, "step": 900}, {"loss": 0.6963937759399415, "token_acc": 0.8194805194805195, "grad_norm": 1.3954697847366333, "learning_rate": 3.1643987762740392e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6984, "epoch": 2.4862637362637363, "step": 905}, {"loss": 0.7525602817535401, "token_acc": 0.7664319248826291, "grad_norm": 1.1990108489990234, "learning_rate": 3.147047612756302e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698229, "epoch": 2.5, "step": 910}, {"loss": 0.6445167541503907, "token_acc": 0.8213866039952996, "grad_norm": 2.287008762359619, "learning_rate": 3.1296629782258254e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698216, "epoch": 2.5137362637362637, "step": 915}, {"loss": 0.7967960834503174, "token_acc": 0.772215269086358, "grad_norm": 1.9087955951690674, "learning_rate": 3.1122457719693273e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698228, "epoch": 2.5274725274725274, "step": 920}, {"loss": 0.822537899017334, "token_acc": 0.8038507821901324, "grad_norm": 1.2534189224243164, "learning_rate": 3.094796894958421e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698172, "epoch": 2.541208791208791, "step": 925}, {"loss": 0.795074462890625, "token_acc": 0.782741116751269, "grad_norm": 1.5520009994506836, "learning_rate": 3.0773172498030147e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697882, "epoch": 2.5549450549450547, "step": 930}, {"loss": 0.6062071323394775, "token_acc": 0.8144690781796966, "grad_norm": 1.1234803199768066, "learning_rate": 3.059807740704611e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697868, "epoch": 2.5686813186813184, "step": 935}, {"loss": 0.8094757080078125, "token_acc": 0.7811704834605598, "grad_norm": 1.9743103981018066, "learning_rate": 3.0422692734095437e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69792, "epoch": 2.5824175824175826, "step": 940}, {"loss": 0.6857408046722412, "token_acc": 0.7918263090676884, "grad_norm": 1.363979697227478, "learning_rate": 3.0247027551621187e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697964, "epoch": 2.5961538461538463, "step": 945}, {"loss": 0.7406310558319091, "token_acc": 0.7811791383219955, "grad_norm": 2.3292410373687744, "learning_rate": 3.0071090946576852e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69794, "epoch": 2.60989010989011, "step": 950}, {"loss": 0.7243791103363038, "token_acc": 0.7742718446601942, "grad_norm": 2.064652442932129, "learning_rate": 2.9894892019956284e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697875, "epoch": 2.6236263736263736, "step": 955}, {"loss": 0.6968005180358887, "token_acc": 0.7879901960784313, "grad_norm": 1.8620117902755737, "learning_rate": 2.971843988632292e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697952, "epoch": 2.6373626373626373, "step": 960}, {"loss": 0.6446962833404541, "token_acc": 0.7910798122065728, "grad_norm": 1.5295987129211426, "learning_rate": 2.9541743673338313e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697911, "epoch": 2.651098901098901, "step": 965}, {"loss": 0.4403944492340088, "token_acc": 0.866481223922114, "grad_norm": 1.2723731994628906, "learning_rate": 2.936481252128994e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698139, "epoch": 2.6648351648351647, "step": 970}, {"loss": 0.7428769111633301, "token_acc": 0.7714592274678111, "grad_norm": 1.770825982093811, "learning_rate": 2.9187655582618413e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697973, "epoch": 2.678571428571429, "step": 975}, {"loss": 0.6432096481323242, "token_acc": 0.8032564450474898, "grad_norm": 1.136758804321289, "learning_rate": 2.9010282021444008e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697899, "epoch": 2.6923076923076925, "step": 980}, {"loss": 0.698710298538208, "token_acc": 0.7925, "grad_norm": 1.4689444303512573, "learning_rate": 2.8832701013092634e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697958, "epoch": 2.706043956043956, "step": 985}, {"loss": 0.6994186878204346, "token_acc": 0.7940503432494279, "grad_norm": 1.918386459350586, "learning_rate": 2.865492174362121e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697888, "epoch": 2.71978021978022, "step": 990}, {"loss": 0.5290262222290039, "token_acc": 0.8329238329238329, "grad_norm": 2.749207019805908, "learning_rate": 2.8476953409342438e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697933, "epoch": 2.7335164835164836, "step": 995}, {"loss": 0.42480077743530276, "token_acc": 0.858433734939759, "grad_norm": 2.4319498538970947, "learning_rate": 2.8298805216349166e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698225, "epoch": 2.7472527472527473, "step": 1000}, {"eval_loss": 0.7230262160301208, "eval_token_acc": 0.7583774250440917, "eval_runtime": 1.498, "eval_samples_per_second": 9.346, "eval_steps_per_second": 9.346, "epoch": 2.7472527472527473, "step": 1000}, {"loss": 0.48557252883911134, "token_acc": 0.8053435114503816, "grad_norm": 1.4886480569839478, "learning_rate": 2.812048638003807e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696499, "epoch": 2.760989010989011, "step": 1005}, {"loss": 0.7246733665466308, "token_acc": 0.7943262411347518, "grad_norm": 1.304753303527832, "learning_rate": 2.7942006124633054e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696393, "epoch": 2.7747252747252746, "step": 1010}, {"loss": 0.5912039756774903, "token_acc": 0.8275862068965517, "grad_norm": 1.2594703435897827, "learning_rate": 2.7763373682708e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696493, "epoch": 2.7884615384615383, "step": 1015}, {"loss": 0.5107665061950684, "token_acc": 0.8439716312056738, "grad_norm": 1.7267979383468628, "learning_rate": 2.758459829470925e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696623, "epoch": 2.802197802197802, "step": 1020}, {"loss": 0.37481255531311036, "token_acc": 0.8608815426997245, "grad_norm": 0.041093096137046814, "learning_rate": 2.740568920847758e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696807, "epoch": 2.8159340659340657, "step": 1025}, {"loss": 0.46666836738586426, "token_acc": 0.8635057471264368, "grad_norm": 1.4968184232711792, "learning_rate": 2.722665567876978e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697105, "epoch": 2.82967032967033, "step": 1030}, {"loss": 0.890505027770996, "token_acc": 0.7888402625820569, "grad_norm": 1.0169792175292969, "learning_rate": 2.7047506966780005e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697084, "epoch": 2.8434065934065935, "step": 1035}, {"loss": 0.5500837802886963, "token_acc": 0.8233799237611181, "grad_norm": 1.3491462469100952, "learning_rate": 2.686825233966061e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697011, "epoch": 2.857142857142857, "step": 1040}, {"loss": 0.7450100898742675, "token_acc": 0.7926455566905005, "grad_norm": 1.229517936706543, "learning_rate": 2.6688901070042845e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696777, "epoch": 2.870879120879121, "step": 1045}, {"loss": 0.5462322235107422, "token_acc": 0.8370565045992115, "grad_norm": 1.4643433094024658, "learning_rate": 2.6509462435557155e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696629, "epoch": 2.8846153846153846, "step": 1050}, {"loss": 0.6793186664581299, "token_acc": 0.809102402022756, "grad_norm": 1.5373623371124268, "learning_rate": 2.6329945718353256e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696446, "epoch": 2.8983516483516483, "step": 1055}, {"loss": 0.4931377410888672, "token_acc": 0.8486759142496847, "grad_norm": 1.404907464981079, "learning_rate": 2.6150360204620016e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696518, "epoch": 2.912087912087912, "step": 1060}, {"loss": 0.6155603885650635, "token_acc": 0.8111111111111111, "grad_norm": 1.5749602317810059, "learning_rate": 2.597071518410504e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696569, "epoch": 2.925824175824176, "step": 1065}, {"loss": 0.709464693069458, "token_acc": 0.7854406130268199, "grad_norm": 1.7334703207015991, "learning_rate": 2.579101994963416e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69661, "epoch": 2.9395604395604398, "step": 1070}, {"loss": 0.5182084083557129, "token_acc": 0.8275434243176178, "grad_norm": 1.9642186164855957, "learning_rate": 2.561128379663071e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696688, "epoch": 2.9532967032967035, "step": 1075}, {"loss": 0.6495267868041992, "token_acc": 0.8037904124860646, "grad_norm": 1.9766554832458496, "learning_rate": 2.5431516022634718e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696763, "epoch": 2.967032967032967, "step": 1080}, {"loss": 0.6614314556121826, "token_acc": 0.807372175980975, "grad_norm": 1.3407509326934814, "learning_rate": 2.525172592682189e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696835, "epoch": 2.980769230769231, "step": 1085}, {"loss": 0.671597957611084, "token_acc": 0.7895335608646189, "grad_norm": 1.3663579225540161, "learning_rate": 2.5071922809522644e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696822, "epoch": 2.9945054945054945, "step": 1090}, {"loss": 0.35482230186462405, "token_acc": 0.9024024024024024, "grad_norm": 0.09861937165260315, "learning_rate": 2.4892115971740973e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696949, "epoch": 3.008241758241758, "step": 1095}, {"loss": 0.4004563331604004, "token_acc": 0.8833780160857909, "grad_norm": 1.2783282995224, "learning_rate": 2.4712314714673314e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697035, "epoch": 3.021978021978022, "step": 1100}, {"loss": 0.3937206745147705, "token_acc": 0.86, "grad_norm": 1.23587167263031, "learning_rate": 2.453252833922745e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697128, "epoch": 3.0357142857142856, "step": 1105}, {"loss": 0.5359840869903565, "token_acc": 0.822680412371134, "grad_norm": 1.755439281463623, "learning_rate": 2.4352766145541322e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697028, "epoch": 3.0494505494505493, "step": 1110}, {"loss": 0.48807010650634763, "token_acc": 0.8565891472868217, "grad_norm": 1.8317960500717163, "learning_rate": 2.4173037432502e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697008, "epoch": 3.063186813186813, "step": 1115}, {"loss": 0.44014453887939453, "token_acc": 0.8679906542056075, "grad_norm": 1.7692023515701294, "learning_rate": 2.399335149726463e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69704, "epoch": 3.076923076923077, "step": 1120}, {"loss": 0.45416722297668455, "token_acc": 0.865909090909091, "grad_norm": 2.0252315998077393, "learning_rate": 2.381371763477151e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696982, "epoch": 3.090659340659341, "step": 1125}, {"loss": 0.37242090702056885, "token_acc": 0.8702101359703337, "grad_norm": 1.9108226299285889, "learning_rate": 2.363414513727128e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697043, "epoch": 3.1043956043956045, "step": 1130}, {"loss": 0.4457599639892578, "token_acc": 0.8600269179004038, "grad_norm": 1.2906476259231567, "learning_rate": 2.3454643293838257e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697085, "epoch": 3.118131868131868, "step": 1135}, {"loss": 0.5007736206054687, "token_acc": 0.8460674157303371, "grad_norm": 1.4614734649658203, "learning_rate": 2.3275221389891877e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696975, "epoch": 3.131868131868132, "step": 1140}, {"loss": 0.47045092582702636, "token_acc": 0.8707571801566579, "grad_norm": 1.8342281579971313, "learning_rate": 2.309588870671642e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697116, "epoch": 3.1456043956043955, "step": 1145}, {"loss": 0.4359731197357178, "token_acc": 0.8650793650793651, "grad_norm": 1.2942229509353638, "learning_rate": 2.291665452098087e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697148, "epoch": 3.159340659340659, "step": 1150}, {"loss": 0.3440873622894287, "token_acc": 0.8778735632183908, "grad_norm": 1.4339481592178345, "learning_rate": 2.273752810425906e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697354, "epoch": 3.173076923076923, "step": 1155}, {"loss": 0.45914130210876464, "token_acc": 0.8398268398268398, "grad_norm": 2.220175266265869, "learning_rate": 2.255851872255005e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697376, "epoch": 3.186813186813187, "step": 1160}, {"loss": 0.48340353965759275, "token_acc": 0.8475336322869955, "grad_norm": 1.5141651630401611, "learning_rate": 2.237963563579884e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697343, "epoch": 3.2005494505494507, "step": 1165}, {"loss": 0.5395937919616699, "token_acc": 0.8326226012793176, "grad_norm": 1.7558962106704712, "learning_rate": 2.2200888097417308e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69728, "epoch": 3.2142857142857144, "step": 1170}, {"loss": 0.47968449592590334, "token_acc": 0.8568075117370892, "grad_norm": 1.659224510192871, "learning_rate": 2.20222853538056e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69729, "epoch": 3.228021978021978, "step": 1175}, {"loss": 0.6350018501281738, "token_acc": 0.812004530011325, "grad_norm": 1.1616181135177612, "learning_rate": 2.1843836643873776e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697356, "epoch": 3.241758241758242, "step": 1180}, {"loss": 0.3217312335968018, "token_acc": 0.8981723237597912, "grad_norm": 1.2772021293640137, "learning_rate": 2.166555119856394e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697388, "epoch": 3.2554945054945055, "step": 1185}, {"loss": 0.5992109298706054, "token_acc": 0.8237113402061855, "grad_norm": 1.5570677518844604, "learning_rate": 2.148743824037269e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697191, "epoch": 3.269230769230769, "step": 1190}, {"loss": 0.35326061248779295, "token_acc": 0.879245283018868, "grad_norm": 1.1325979232788086, "learning_rate": 2.130950698287407e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697225, "epoch": 3.282967032967033, "step": 1195}, {"loss": 0.2738677740097046, "token_acc": 0.9041278295605859, "grad_norm": 1.9489840269088745, "learning_rate": 2.113176663024297e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697374, "epoch": 3.2967032967032965, "step": 1200}, {"loss": 0.4687936782836914, "token_acc": 0.8530386740331491, "grad_norm": 1.8618123531341553, "learning_rate": 2.0954226376778993e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697318, "epoch": 3.3104395604395602, "step": 1205}, {"loss": 0.47156786918640137, "token_acc": 0.8378088077336198, "grad_norm": 2.6660876274108887, "learning_rate": 2.077689540643084e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697286, "epoch": 3.3241758241758244, "step": 1210}, {"loss": 0.34909543991088865, "token_acc": 0.889920424403183, "grad_norm": 1.7976572513580322, "learning_rate": 2.059978289232125e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697441, "epoch": 3.337912087912088, "step": 1215}, {"loss": 0.42720975875854494, "token_acc": 0.85375, "grad_norm": 1.3971492052078247, "learning_rate": 2.042289799627247e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697585, "epoch": 3.3516483516483517, "step": 1220}, {"loss": 0.41132469177246095, "token_acc": 0.8757687576875769, "grad_norm": 1.341323733329773, "learning_rate": 2.024624986833234e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697585, "epoch": 3.3653846153846154, "step": 1225}, {"loss": 0.6233702659606933, "token_acc": 0.8154761904761905, "grad_norm": 1.2525335550308228, "learning_rate": 2.0069847646300953e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697519, "epoch": 3.379120879120879, "step": 1230}, {"loss": 0.5028342723846435, "token_acc": 0.8400876232201533, "grad_norm": 1.5868806838989258, "learning_rate": 1.9893700455257996e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697524, "epoch": 3.392857142857143, "step": 1235}, {"loss": 0.5123300552368164, "token_acc": 0.8341232227488151, "grad_norm": 2.0095136165618896, "learning_rate": 1.9717817407090684e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697484, "epoch": 3.4065934065934065, "step": 1240}, {"loss": 0.3871695280075073, "token_acc": 0.8931623931623932, "grad_norm": 1.3658174276351929, "learning_rate": 1.954220760002245e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697682, "epoch": 3.42032967032967, "step": 1245}, {"loss": 0.3464140176773071, "token_acc": 0.8865979381443299, "grad_norm": 0.10438073426485062, "learning_rate": 1.936688011814226e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697696, "epoch": 3.4340659340659343, "step": 1250}, {"loss": 0.37720427513122556, "token_acc": 0.8758169934640523, "grad_norm": 1.8383021354675293, "learning_rate": 1.9191844030934752e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697819, "epoch": 3.447802197802198, "step": 1255}, {"loss": 0.5026661396026612, "token_acc": 0.8375451263537906, "grad_norm": 1.7123395204544067, "learning_rate": 1.9017108392811065e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697738, "epoch": 3.4615384615384617, "step": 1260}, {"loss": 0.558281946182251, "token_acc": 0.8421672555948174, "grad_norm": 2.0483157634735107, "learning_rate": 1.8842682242640424e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697691, "epoch": 3.4752747252747254, "step": 1265}, {"loss": 0.36628284454345705, "token_acc": 0.881578947368421, "grad_norm": 2.614995241165161, "learning_rate": 1.8668574603282652e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697815, "epoch": 3.489010989010989, "step": 1270}, {"loss": 0.5228723049163818, "token_acc": 0.8379396984924623, "grad_norm": 1.1988706588745117, "learning_rate": 1.8494794481121347e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697855, "epoch": 3.5027472527472527, "step": 1275}, {"loss": 0.512328815460205, "token_acc": 0.8560975609756097, "grad_norm": 2.0794899463653564, "learning_rate": 1.8321350865598056e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697868, "epoch": 3.5164835164835164, "step": 1280}, {"loss": 0.40018601417541505, "token_acc": 0.8722415795586528, "grad_norm": 1.2539199590682983, "learning_rate": 1.81482527287472e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697826, "epoch": 3.53021978021978, "step": 1285}, {"loss": 0.4740746974945068, "token_acc": 0.8529062870699882, "grad_norm": 1.4818440675735474, "learning_rate": 1.797550902473202e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697777, "epoch": 3.543956043956044, "step": 1290}, {"loss": 0.43381586074829104, "token_acc": 0.8732394366197183, "grad_norm": 2.228973865509033, "learning_rate": 1.780312868938135e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697873, "epoch": 3.5576923076923075, "step": 1295}, {"loss": 0.38868639469146726, "token_acc": 0.8631436314363143, "grad_norm": 2.671684741973877, "learning_rate": 1.7631120639727396e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697987, "epoch": 3.571428571428571, "step": 1300}, {"loss": 0.41551666259765624, "token_acc": 0.8777239709443099, "grad_norm": 1.918229341506958, "learning_rate": 1.7459493773544466e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69796, "epoch": 3.5851648351648353, "step": 1305}, {"loss": 0.4878699779510498, "token_acc": 0.8404017857142857, "grad_norm": 1.53763747215271, "learning_rate": 1.7288256968888678e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69789, "epoch": 3.598901098901099, "step": 1310}, {"loss": 0.48433427810668944, "token_acc": 0.851335656213705, "grad_norm": 1.8483631610870361, "learning_rate": 1.7117419083638748e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69776, "epoch": 3.6126373626373627, "step": 1315}, {"loss": 0.4723378658294678, "token_acc": 0.8757861635220126, "grad_norm": 3.1122066974639893, "learning_rate": 1.694698895503774e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697897, "epoch": 3.6263736263736264, "step": 1320}, {"loss": 0.401107120513916, "token_acc": 0.8818407960199005, "grad_norm": 1.980137586593628, "learning_rate": 1.677697539923596e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69792, "epoch": 3.64010989010989, "step": 1325}, {"loss": 0.49102087020874025, "token_acc": 0.8561151079136691, "grad_norm": 2.193251848220825, "learning_rate": 1.6607387210834889e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697845, "epoch": 3.6538461538461537, "step": 1330}, {"loss": 0.3615755081176758, "token_acc": 0.8785529715762274, "grad_norm": 2.3348066806793213, "learning_rate": 1.6438233162432235e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697976, "epoch": 3.6675824175824174, "step": 1335}, {"loss": 0.3627203702926636, "token_acc": 0.8697850821744627, "grad_norm": 1.6196231842041016, "learning_rate": 1.6269522004168186e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697991, "epoch": 3.6813186813186816, "step": 1340}, {"loss": 0.5968851089477539, "token_acc": 0.8182640144665461, "grad_norm": 1.4822458028793335, "learning_rate": 1.6101262463272727e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697818, "epoch": 3.6950549450549453, "step": 1345}, {"loss": 0.5488884449005127, "token_acc": 0.8642384105960265, "grad_norm": 2.2698254585266113, "learning_rate": 1.59334632436142e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697987, "epoch": 3.708791208791209, "step": 1350}, {"loss": 0.42398686408996583, "token_acc": 0.8740053050397878, "grad_norm": 1.5112172365188599, "learning_rate": 1.5766133025249078e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698021, "epoch": 3.7225274725274726, "step": 1355}, {"loss": 0.38835606575012205, "token_acc": 0.8753213367609255, "grad_norm": 1.652755856513977, "learning_rate": 1.5599280463972953e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698089, "epoch": 3.7362637362637363, "step": 1360}, {"loss": 0.5492666244506836, "token_acc": 0.8193877551020409, "grad_norm": 2.461613416671753, "learning_rate": 1.5432914190872757e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698041, "epoch": 3.75, "step": 1365}, {"loss": 0.4278124809265137, "token_acc": 0.8379120879120879, "grad_norm": 2.6953976154327393, "learning_rate": 1.5267042811880334e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69817, "epoch": 3.7637362637362637, "step": 1370}, {"loss": 0.37746756076812743, "token_acc": 0.8767605633802817, "grad_norm": 1.978365182876587, "learning_rate": 1.5101674907327224e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698153, "epoch": 3.7774725274725274, "step": 1375}, {"loss": 0.4099893093109131, "token_acc": 0.8742655699177438, "grad_norm": 1.64177668094635, "learning_rate": 1.4936819031500816e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698134, "epoch": 3.791208791208791, "step": 1380}, {"loss": 0.5258070468902588, "token_acc": 0.8335273573923166, "grad_norm": 1.0546879768371582, "learning_rate": 1.4772483712201873e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698163, "epoch": 3.8049450549450547, "step": 1385}, {"loss": 0.37495338916778564, "token_acc": 0.8909090909090909, "grad_norm": 1.6341472864151, "learning_rate": 1.4608677450303363e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698147, "epoch": 3.8186813186813184, "step": 1390}, {"loss": 0.5612953186035157, "token_acc": 0.8373493975903614, "grad_norm": 2.2903056144714355, "learning_rate": 1.444540871931075e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698131, "epoch": 3.8324175824175826, "step": 1395}, {"loss": 0.39422998428344724, "token_acc": 0.8874407582938388, "grad_norm": 1.978366494178772, "learning_rate": 1.4282685964923643e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698139, "epoch": 3.8461538461538463, "step": 1400}, {"loss": 0.48609256744384766, "token_acc": 0.8480176211453745, "grad_norm": 1.706131100654602, "learning_rate": 1.412051760459895e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698095, "epoch": 3.85989010989011, "step": 1405}, {"loss": 0.39134171009063723, "token_acc": 0.8652291105121294, "grad_norm": 1.921596646308899, "learning_rate": 1.3958912027115393e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698227, "epoch": 3.8736263736263736, "step": 1410}, {"loss": 0.5115816116333007, "token_acc": 0.8448484848484848, "grad_norm": 2.355999708175659, "learning_rate": 1.3797877592139602e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698181, "epoch": 3.8873626373626373, "step": 1415}, {"loss": 0.5186955451965332, "token_acc": 0.8486759142496847, "grad_norm": 1.676426887512207, "learning_rate": 1.3637422629793706e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69828, "epoch": 3.901098901098901, "step": 1420}, {"loss": 0.4816575527191162, "token_acc": 0.8467995802728226, "grad_norm": 1.2068877220153809, "learning_rate": 1.3477555440224366e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698198, "epoch": 3.9148351648351647, "step": 1425}, {"loss": 0.35867559909820557, "token_acc": 0.8863361547762999, "grad_norm": 1.1977370977401733, "learning_rate": 1.331828429317345e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698108, "epoch": 3.928571428571429, "step": 1430}, {"loss": 0.5212710857391357, "token_acc": 0.839907192575406, "grad_norm": 1.746261477470398, "learning_rate": 1.315961742755027e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698069, "epoch": 3.9423076923076925, "step": 1435}, {"loss": 0.40613508224487305, "token_acc": 0.8827160493827161, "grad_norm": 1.2156003713607788, "learning_rate": 1.3001563051005348e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698136, "epoch": 3.956043956043956, "step": 1440}, {"loss": 0.4390721321105957, "token_acc": 0.8533333333333334, "grad_norm": 2.0442147254943848, "learning_rate": 1.2844129339505863e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6982, "epoch": 3.96978021978022, "step": 1445}, {"loss": 0.3830387592315674, "token_acc": 0.876803551609323, "grad_norm": 3.2597484588623047, "learning_rate": 1.268732443691274e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698146, "epoch": 3.9835164835164836, "step": 1450}, {"loss": 0.4462493896484375, "token_acc": 0.8792207792207792, "grad_norm": 1.7310538291931152, "learning_rate": 1.2531156454559348e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69823, "epoch": 3.9972527472527473, "step": 1455}, {"loss": 0.4222265243530273, "token_acc": 0.8873873873873874, "grad_norm": 1.8223639726638794, "learning_rate": 1.2375633470831909e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69839, "epoch": 4.010989010989011, "step": 1460}, {"loss": 0.2792137384414673, "token_acc": 0.9170068027210885, "grad_norm": 1.4293131828308105, "learning_rate": 1.2220763530751644e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698502, "epoch": 4.024725274725275, "step": 1465}, {"loss": 0.5511547088623047, "token_acc": 0.8582333696837514, "grad_norm": 1.3567416667938232, "learning_rate": 1.2066554645558578e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698462, "epoch": 4.038461538461538, "step": 1470}, {"loss": 0.24367694854736327, "token_acc": 0.91725768321513, "grad_norm": 1.568238615989685, "learning_rate": 1.1913014792297165e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698605, "epoch": 4.052197802197802, "step": 1475}, {"loss": 0.39019639492034913, "token_acc": 0.8938172043010753, "grad_norm": 1.221495270729065, "learning_rate": 1.1760151913403584e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698612, "epoch": 4.065934065934066, "step": 1480}, {"loss": 0.22362957000732422, "token_acc": 0.9240875912408759, "grad_norm": 2.106675863265991, "learning_rate": 1.160797391629497e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698774, "epoch": 4.079670329670329, "step": 1485}, {"loss": 0.2347257375717163, "token_acc": 0.9196538936959209, "grad_norm": 1.8116954565048218, "learning_rate": 1.1456488672960304e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698746, "epoch": 4.093406593406593, "step": 1490}, {"loss": 0.30254943370819093, "token_acc": 0.88875, "grad_norm": 2.0339195728302, "learning_rate": 1.130570401955322e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698704, "epoch": 4.107142857142857, "step": 1495}, {"loss": 0.25573225021362306, "token_acc": 0.9094292803970223, "grad_norm": 1.5769227743148804, "learning_rate": 1.1155627755986673e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.698766, "epoch": 4.1208791208791204, "step": 1500}, {"eval_loss": 0.836026132106781, "eval_token_acc": 0.7619047619047619, "eval_runtime": 1.5436, "eval_samples_per_second": 9.07, "eval_steps_per_second": 9.07, "epoch": 4.1208791208791204, "step": 1500}, {"loss": 0.30415964126586914, "token_acc": 0.8395234758234057, "grad_norm": 2.223921537399292, "learning_rate": 1.100626764552945e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697384, "epoch": 4.134615384615385, "step": 1505}, {"loss": 0.157644522190094, "token_acc": 0.9344262295081968, "grad_norm": 0.5469372868537903, "learning_rate": 1.0857631414404566e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697479, "epoch": 4.148351648351649, "step": 1510}, {"loss": 0.3265108823776245, "token_acc": 0.9044117647058824, "grad_norm": 1.943001627922058, "learning_rate": 1.07097267513896e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69737, "epoch": 4.162087912087912, "step": 1515}, {"loss": 0.33972864151000975, "token_acc": 0.8875878220140515, "grad_norm": 1.6266953945159912, "learning_rate": 1.0562561307419005e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697298, "epoch": 4.175824175824176, "step": 1520}, {"loss": 0.20384039878845214, "token_acc": 0.933422103861518, "grad_norm": 1.8547080755233765, "learning_rate": 1.0416142695188268e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697339, "epoch": 4.18956043956044, "step": 1525}, {"loss": 0.29585886001586914, "token_acc": 0.9175257731958762, "grad_norm": 3.842930555343628, "learning_rate": 1.027047848876016e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69733, "epoch": 4.2032967032967035, "step": 1530}, {"loss": 0.2825479984283447, "token_acc": 0.9063772048846676, "grad_norm": 2.037091016769409, "learning_rate": 1.0125576223172937e-06, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697322, "epoch": 4.217032967032967, "step": 1535}, {"loss": 0.25504322052001954, "token_acc": 0.9164588528678305, "grad_norm": 1.935422420501709, "learning_rate": 9.981443394050525e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697325, "epoch": 4.230769230769231, "step": 1540}, {"loss": 0.35515942573547366, "token_acc": 0.8826754385964912, "grad_norm": 1.979144811630249, "learning_rate": 9.838087457214839e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697341, "epoch": 4.2445054945054945, "step": 1545}, {"loss": 0.4043862819671631, "token_acc": 0.8743047830923248, "grad_norm": 1.6552166938781738, "learning_rate": 9.695515828300037e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697281, "epoch": 4.258241758241758, "step": 1550}, {"loss": 0.33139400482177733, "token_acc": 0.8976857490864799, "grad_norm": 2.45908260345459, "learning_rate": 9.553735882368974e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697246, "epoch": 4.271978021978022, "step": 1555}, {"loss": 0.297501277923584, "token_acc": 0.9153175591531756, "grad_norm": 2.1049585342407227, "learning_rate": 9.412754953531664e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697285, "epoch": 4.285714285714286, "step": 1560}, {"loss": 0.19864170551300048, "token_acc": 0.9483204134366925, "grad_norm": 1.6959322690963745, "learning_rate": 9.272580334565901e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697374, "epoch": 4.299450549450549, "step": 1565}, {"loss": 0.34610567092895506, "token_acc": 0.8740581270182992, "grad_norm": 1.2937663793563843, "learning_rate": 9.133219276540012e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697356, "epoch": 4.313186813186813, "step": 1570}, {"loss": 0.3416250228881836, "token_acc": 0.8919631093544137, "grad_norm": 2.4898173809051514, "learning_rate": 8.994678988437802e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697375, "epoch": 4.326923076923077, "step": 1575}, {"loss": 0.37772769927978517, "token_acc": 0.8799149840595112, "grad_norm": 1.700718641281128, "learning_rate": 8.856966636785585e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697318, "epoch": 4.34065934065934, "step": 1580}, {"loss": 0.2687091588973999, "token_acc": 0.9094076655052264, "grad_norm": 1.948669195175171, "learning_rate": 8.720089345281491e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697446, "epoch": 4.354395604395604, "step": 1585}, {"loss": 0.43160228729248046, "token_acc": 0.8824188129899216, "grad_norm": 1.5012685060501099, "learning_rate": 8.584054194426999e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697406, "epoch": 4.368131868131869, "step": 1590}, {"loss": 0.3429225444793701, "token_acc": 0.8943820224719101, "grad_norm": 1.9350624084472656, "learning_rate": 8.448868221160616e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69731, "epoch": 4.381868131868131, "step": 1595}, {"loss": 0.2622019052505493, "token_acc": 0.9126794258373205, "grad_norm": 2.5984280109405518, "learning_rate": 8.314538418493892e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697331, "epoch": 4.395604395604396, "step": 1600}, {"loss": 0.24290089607238768, "token_acc": 0.9146067415730337, "grad_norm": 2.0931026935577393, "learning_rate": 8.18107173514969e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697242, "epoch": 4.40934065934066, "step": 1605}, {"loss": 0.1319366693496704, "token_acc": 0.9612625538020086, "grad_norm": 1.9267648458480835, "learning_rate": 8.048475075202727e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697315, "epoch": 4.423076923076923, "step": 1610}, {"loss": 0.2819972515106201, "token_acc": 0.8993576017130621, "grad_norm": 0.33415892720222473, "learning_rate": 7.916755297722417e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69724, "epoch": 4.436813186813187, "step": 1615}, {"loss": 0.27096292972564695, "token_acc": 0.9108910891089109, "grad_norm": 2.3810837268829346, "learning_rate": 7.78591921641807e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697356, "epoch": 4.450549450549451, "step": 1620}, {"loss": 0.2599030017852783, "token_acc": 0.9286640726329443, "grad_norm": 0.8794857263565063, "learning_rate": 7.655973599286459e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697387, "epoch": 4.464285714285714, "step": 1625}, {"loss": 0.2179870367050171, "token_acc": 0.9163636363636364, "grad_norm": 2.581575870513916, "learning_rate": 7.52692516826167e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69745, "epoch": 4.478021978021978, "step": 1630}, {"loss": 0.4197837829589844, "token_acc": 0.8652694610778443, "grad_norm": 1.9582433700561523, "learning_rate": 7.398780598867408e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697318, "epoch": 4.491758241758242, "step": 1635}, {"loss": 0.29237701892852785, "token_acc": 0.9147381242387332, "grad_norm": 2.0082483291625977, "learning_rate": 7.271546519871673e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697276, "epoch": 4.5054945054945055, "step": 1640}, {"loss": 0.27850539684295655, "token_acc": 0.9067599067599068, "grad_norm": 2.4192988872528076, "learning_rate": 7.145229512943886e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697314, "epoch": 4.519230769230769, "step": 1645}, {"loss": 0.27413713932037354, "token_acc": 0.907563025210084, "grad_norm": 1.0696078538894653, "learning_rate": 7.019836112314393e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697338, "epoch": 4.532967032967033, "step": 1650}, {"loss": 0.3711358070373535, "token_acc": 0.9151162790697674, "grad_norm": 5.777904987335205, "learning_rate": 6.895372804436465e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697307, "epoch": 4.5467032967032965, "step": 1655}, {"loss": 0.2756565809249878, "token_acc": 0.9111617312072893, "grad_norm": 2.2050132751464844, "learning_rate": 6.771846027650789e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697321, "epoch": 4.56043956043956, "step": 1660}, {"loss": 0.23112096786499023, "token_acc": 0.9162011173184358, "grad_norm": 2.0634799003601074, "learning_rate": 6.649262171852381e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697346, "epoch": 4.574175824175824, "step": 1665}, {"loss": 0.3961484432220459, "token_acc": 0.8780487804878049, "grad_norm": 1.3355693817138672, "learning_rate": 6.527627578160059e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697296, "epoch": 4.587912087912088, "step": 1670}, {"loss": 0.33908002376556395, "token_acc": 0.8895486935866983, "grad_norm": 2.137972831726074, "learning_rate": 6.406948538588447e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697242, "epoch": 4.601648351648351, "step": 1675}, {"loss": 0.30971436500549315, "token_acc": 0.8967254408060453, "grad_norm": 1.6449965238571167, "learning_rate": 6.28723129572247e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697293, "epoch": 4.615384615384615, "step": 1680}, {"loss": 0.2469715118408203, "token_acc": 0.9243697478991597, "grad_norm": 1.611635446548462, "learning_rate": 6.168482042394433e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697276, "epoch": 4.6291208791208796, "step": 1685}, {"loss": 0.28566684722900393, "token_acc": 0.8959025470653378, "grad_norm": 1.5021792650222778, "learning_rate": 6.050706921363672e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697295, "epoch": 4.642857142857143, "step": 1690}, {"loss": 0.2416912794113159, "token_acc": 0.9236192714453584, "grad_norm": 2.1370890140533447, "learning_rate": 5.933912024998831e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697244, "epoch": 4.656593406593407, "step": 1695}, {"loss": 0.30258884429931643, "token_acc": 0.904639175257732, "grad_norm": 1.463923692703247, "learning_rate": 5.818103394962657e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697332, "epoch": 4.670329670329671, "step": 1700}, {"loss": 0.40164837837219236, "token_acc": 0.8775510204081632, "grad_norm": 1.7493236064910889, "learning_rate": 5.703287021899512e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697214, "epoch": 4.684065934065934, "step": 1705}, {"loss": 0.333776593208313, "token_acc": 0.8937360178970917, "grad_norm": 2.420959711074829, "learning_rate": 5.589468845125459e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697141, "epoch": 4.697802197802198, "step": 1710}, {"loss": 0.2306678533554077, "token_acc": 0.9292389853137517, "grad_norm": 1.4555933475494385, "learning_rate": 5.476654752321065e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697208, "epoch": 4.711538461538462, "step": 1715}, {"loss": 0.2372995376586914, "token_acc": 0.9299516908212561, "grad_norm": 1.9935306310653687, "learning_rate": 5.364850579226783e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697207, "epoch": 4.725274725274725, "step": 1720}, {"loss": 0.358718204498291, "token_acc": 0.8770114942528736, "grad_norm": 1.7949345111846924, "learning_rate": 5.254062109341121e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69723, "epoch": 4.739010989010989, "step": 1725}, {"loss": 0.1651991367340088, "token_acc": 0.9598811292719168, "grad_norm": 3.205730676651001, "learning_rate": 5.144295073621459e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697402, "epoch": 4.752747252747253, "step": 1730}, {"loss": 0.33334076404571533, "token_acc": 0.902291917973462, "grad_norm": 2.170287609100342, "learning_rate": 5.035555150187577e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697446, "epoch": 4.766483516483516, "step": 1735}, {"loss": 0.3361851930618286, "token_acc": 0.8872727272727273, "grad_norm": 1.892345666885376, "learning_rate": 4.92784796402794e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697468, "epoch": 4.78021978021978, "step": 1740}, {"loss": 0.3151719093322754, "token_acc": 0.8886255924170616, "grad_norm": 0.16632875800132751, "learning_rate": 4.821179086708741e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697426, "epoch": 4.793956043956044, "step": 1745}, {"loss": 0.35746278762817385, "token_acc": 0.8859934853420195, "grad_norm": 1.7897694110870361, "learning_rate": 4.715554036085673e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697612, "epoch": 4.8076923076923075, "step": 1750}, {"loss": 0.4400437831878662, "token_acc": 0.8668407310704961, "grad_norm": 2.3536791801452637, "learning_rate": 4.610978276018496e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697664, "epoch": 4.821428571428571, "step": 1755}, {"loss": 0.23283777236938477, "token_acc": 0.9295039164490861, "grad_norm": 2.3902087211608887, "learning_rate": 4.507457216088396e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697674, "epoch": 4.835164835164835, "step": 1760}, {"loss": 0.4139115333557129, "token_acc": 0.8671875, "grad_norm": 1.7184146642684937, "learning_rate": 4.40499621131818e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697684, "epoch": 4.8489010989010985, "step": 1765}, {"loss": 0.35755505561828616, "token_acc": 0.8926553672316384, "grad_norm": 1.97756826877594, "learning_rate": 4.30360056189523e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697641, "epoch": 4.862637362637363, "step": 1770}, {"loss": 0.2290039300918579, "token_acc": 0.9151162790697674, "grad_norm": 1.6024774312973022, "learning_rate": 4.203275512897348e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697642, "epoch": 4.876373626373626, "step": 1775}, {"loss": 0.41649227142333983, "token_acc": 0.8699690402476781, "grad_norm": 2.505302667617798, "learning_rate": 4.1040262540214373e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697579, "epoch": 4.8901098901098905, "step": 1780}, {"loss": 0.1789318561553955, "token_acc": 0.9427168576104746, "grad_norm": 2.046783685684204, "learning_rate": 4.0058579193150537e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697753, "epoch": 4.903846153846154, "step": 1785}, {"loss": 0.3935571193695068, "token_acc": 0.8994708994708994, "grad_norm": 2.9835329055786133, "learning_rate": 3.908775586910804e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697672, "epoch": 4.917582417582418, "step": 1790}, {"loss": 0.3052351474761963, "token_acc": 0.9114391143911439, "grad_norm": 2.1877667903900146, "learning_rate": 3.812784278763662e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697715, "epoch": 4.931318681318682, "step": 1795}, {"loss": 0.32811999320983887, "token_acc": 0.902330743618202, "grad_norm": 2.3266775608062744, "learning_rate": 3.717888960391222e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697689, "epoch": 4.945054945054945, "step": 1800}, {"loss": 0.21903529167175292, "token_acc": 0.9359129383313181, "grad_norm": 1.4030187129974365, "learning_rate": 3.6240945406168015e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697604, "epoch": 4.958791208791209, "step": 1805}, {"loss": 0.26431405544281006, "token_acc": 0.9038461538461539, "grad_norm": 1.2284293174743652, "learning_rate": 3.5314058713155243e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697592, "epoch": 4.972527472527473, "step": 1810}, {"loss": 0.36939258575439454, "token_acc": 0.8903301886792453, "grad_norm": 1.533280372619629, "learning_rate": 3.439827747163343e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697616, "epoch": 4.986263736263736, "step": 1815}, {"loss": 0.2841559171676636, "token_acc": 0.9072532699167658, "grad_norm": 1.7310582399368286, "learning_rate": 3.3493649053890325e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697591, "epoch": 5.0, "step": 1820}, {"loss": 0.22811014652252198, "token_acc": 0.9216374269005848, "grad_norm": 1.6222184896469116, "learning_rate": 3.2600220255290973e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697629, "epoch": 5.013736263736264, "step": 1825}, {"loss": 0.24332840442657472, "token_acc": 0.940677966101695, "grad_norm": 1.0477423667907715, "learning_rate": 3.1718037291857294e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697613, "epoch": 5.027472527472527, "step": 1830}, {"loss": 0.2389969825744629, "token_acc": 0.9273504273504274, "grad_norm": 2.266083240509033, "learning_rate": 3.0847145797877537e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69763, "epoch": 5.041208791208791, "step": 1835}, {"loss": 0.2062220096588135, "token_acc": 0.9438058748403576, "grad_norm": 1.5242705345153809, "learning_rate": 2.998759082354538e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697622, "epoch": 5.054945054945055, "step": 1840}, {"loss": 0.26746487617492676, "token_acc": 0.9232505643340858, "grad_norm": 1.2468478679656982, "learning_rate": 2.913941683262966e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697612, "epoch": 5.068681318681318, "step": 1845}, {"loss": 0.4689470767974854, "token_acc": 0.879392212725546, "grad_norm": 2.3415751457214355, "learning_rate": 2.830266770017431e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697464, "epoch": 5.082417582417582, "step": 1850}, {"loss": 0.2728864669799805, "token_acc": 0.9209486166007905, "grad_norm": 1.5467770099639893, "learning_rate": 2.74773867102289e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697508, "epoch": 5.096153846153846, "step": 1855}, {"loss": 0.21228106021881105, "token_acc": 0.9314903846153846, "grad_norm": 1.6093465089797974, "learning_rate": 2.6663616553609273e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697539, "epoch": 5.1098901098901095, "step": 1860}, {"loss": 0.23147344589233398, "token_acc": 0.9272503082614056, "grad_norm": 0.9178099632263184, "learning_rate": 2.58613993256894e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697496, "epoch": 5.123626373626374, "step": 1865}, {"loss": 0.22773337364196777, "token_acc": 0.9238210399032648, "grad_norm": 0.6227812170982361, "learning_rate": 2.5070776524224046e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697524, "epoch": 5.137362637362638, "step": 1870}, {"loss": 0.20007452964782715, "token_acc": 0.9365284974093264, "grad_norm": 1.2656611204147339, "learning_rate": 2.429178904720167e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697509, "epoch": 5.1510989010989015, "step": 1875}, {"loss": 0.3168258428573608, "token_acc": 0.9112627986348123, "grad_norm": 1.7818413972854614, "learning_rate": 2.3524477190729146e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69753, "epoch": 5.164835164835165, "step": 1880}, {"loss": 0.15562444925308228, "token_acc": 0.9498525073746312, "grad_norm": 0.9595044255256653, "learning_rate": 2.2768880646947268e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697674, "epoch": 5.178571428571429, "step": 1885}, {"loss": 0.29573421478271483, "token_acc": 0.9218390804597701, "grad_norm": 1.6769778728485107, "learning_rate": 2.2025038501977485e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697615, "epoch": 5.1923076923076925, "step": 1890}, {"loss": 0.2613511562347412, "token_acc": 0.9158134243458476, "grad_norm": 1.7595962285995483, "learning_rate": 2.1292989233899886e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697491, "epoch": 5.206043956043956, "step": 1895}, {"loss": 0.2224827527999878, "token_acc": 0.930045871559633, "grad_norm": 0.6806122660636902, "learning_rate": 2.057277071076294e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697601, "epoch": 5.21978021978022, "step": 1900}, {"loss": 0.2554097414016724, "token_acc": 0.9127382146439318, "grad_norm": 2.0549709796905518, "learning_rate": 1.9864420188624721e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697568, "epoch": 5.233516483516484, "step": 1905}, {"loss": 0.2515000104904175, "token_acc": 0.9142053445850914, "grad_norm": 2.4164981842041016, "learning_rate": 1.916797430962536e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697644, "epoch": 5.247252747252747, "step": 1910}, {"loss": 0.18493456840515138, "token_acc": 0.9468390804597702, "grad_norm": 1.1426013708114624, "learning_rate": 1.8483469100091855e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697746, "epoch": 5.260989010989011, "step": 1915}, {"loss": 0.15753387212753295, "token_acc": 0.9400855920114123, "grad_norm": 2.707036256790161, "learning_rate": 1.7810939968674418e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697806, "epoch": 5.274725274725275, "step": 1920}, {"loss": 0.25535221099853517, "token_acc": 0.9289617486338798, "grad_norm": 1.030144453048706, "learning_rate": 1.7150421704514865e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697879, "epoch": 5.288461538461538, "step": 1925}, {"loss": 0.24525759220123292, "token_acc": 0.916767189384801, "grad_norm": 1.53581702709198, "learning_rate": 1.6501948475446867e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697894, "epoch": 5.302197802197802, "step": 1930}, {"loss": 0.20025484561920165, "token_acc": 0.9357231149567367, "grad_norm": 1.6545300483703613, "learning_rate": 1.586555382622859e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697873, "epoch": 5.315934065934066, "step": 1935}, {"loss": 0.3049365520477295, "token_acc": 0.9179775280898876, "grad_norm": 2.234567880630493, "learning_rate": 1.5241270676807558e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697869, "epoch": 5.329670329670329, "step": 1940}, {"loss": 0.17700332403182983, "token_acc": 0.9352112676056338, "grad_norm": 2.2957704067230225, "learning_rate": 1.4629131320617522e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697915, "epoch": 5.343406593406593, "step": 1945}, {"loss": 0.281501841545105, "token_acc": 0.9105882352941177, "grad_norm": 2.1791412830352783, "learning_rate": 1.4029167422908107e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697862, "epoch": 5.357142857142857, "step": 1950}, {"loss": 0.2694819688796997, "token_acc": 0.9040178571428571, "grad_norm": 1.507462978363037, "learning_rate": 1.3441410019106842e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697833, "epoch": 5.3708791208791204, "step": 1955}, {"loss": 0.2721365690231323, "token_acc": 0.9075949367088607, "grad_norm": 2.9926774501800537, "learning_rate": 1.286588951321363e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697846, "epoch": 5.384615384615385, "step": 1960}, {"loss": 0.26634018421173095, "token_acc": 0.9157043879907621, "grad_norm": 2.116102457046509, "learning_rate": 1.230263567622797e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697854, "epoch": 5.398351648351649, "step": 1965}, {"loss": 0.2909420013427734, "token_acc": 0.9095607235142119, "grad_norm": 2.0637905597686768, "learning_rate": 1.175167764460905e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697872, "epoch": 5.412087912087912, "step": 1970}, {"loss": 0.1302196741104126, "token_acc": 0.9511599511599511, "grad_norm": 1.1681110858917236, "learning_rate": 1.1213043918768485e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697926, "epoch": 5.425824175824176, "step": 1975}, {"loss": 0.26112933158874513, "token_acc": 0.925089179548157, "grad_norm": 2.135533571243286, "learning_rate": 1.0686762361596075e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69796, "epoch": 5.43956043956044, "step": 1980}, {"loss": 0.2457991361618042, "token_acc": 0.9222082810539524, "grad_norm": 1.8674345016479492, "learning_rate": 1.0172860197018325e-07, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697972, "epoch": 5.4532967032967035, "step": 1985}, {"loss": 0.26914932727813723, "token_acc": 0.9153498871331829, "grad_norm": 1.384772539138794, "learning_rate": 9.671364008590394e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697891, "epoch": 5.467032967032967, "step": 1990}, {"loss": 0.18164671659469606, "token_acc": 0.9465648854961832, "grad_norm": 2.137681484222412, "learning_rate": 9.182299738120931e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697922, "epoch": 5.480769230769231, "step": 1995}, {"loss": 0.1962236285209656, "token_acc": 0.9463869463869464, "grad_norm": 2.0103373527526855, "learning_rate": 8.70569268432997e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69792, "epoch": 5.4945054945054945, "step": 2000}, {"eval_loss": 0.8692101240158081, "eval_token_acc": 0.7583774250440917, "eval_runtime": 1.5211, "eval_samples_per_second": 9.204, "eval_steps_per_second": 9.204, "epoch": 5.4945054945054945, "step": 2000}, {"loss": 0.30208959579467776, "token_acc": 0.8418640183346066, "grad_norm": 1.0929688215255737, "learning_rate": 8.241567501540343e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697002, "epoch": 5.508241758241758, "step": 2005}, {"loss": 0.08793225884437561, "token_acc": 0.9759547383309759, "grad_norm": 1.428937554359436, "learning_rate": 7.78994819840248e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697035, "epoch": 5.521978021978022, "step": 2010}, {"loss": 0.25782806873321534, "token_acc": 0.9229885057471264, "grad_norm": 2.4272408485412598, "learning_rate": 7.350858136652262e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697004, "epoch": 5.535714285714286, "step": 2015}, {"loss": 0.23661520481109619, "token_acc": 0.925281473899693, "grad_norm": 1.7047100067138672, "learning_rate": 6.924320029902704e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696973, "epoch": 5.549450549450549, "step": 2020}, {"loss": 0.2037534236907959, "token_acc": 0.9387483355525965, "grad_norm": 1.7115215063095093, "learning_rate": 6.510355942468821e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697067, "epoch": 5.563186813186813, "step": 2025}, {"loss": 0.22898285388946532, "token_acc": 0.9353970390309556, "grad_norm": 1.8152024745941162, "learning_rate": 6.108987288226536e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697122, "epoch": 5.576923076923077, "step": 2030}, {"loss": 0.20573675632476807, "token_acc": 0.936969696969697, "grad_norm": 0.9776105284690857, "learning_rate": 5.7202348295046785e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.6971, "epoch": 5.59065934065934, "step": 2035}, {"loss": 0.23036139011383056, "token_acc": 0.9382022471910112, "grad_norm": 2.047407627105713, "learning_rate": 5.344118676011173e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697179, "epoch": 5.604395604395604, "step": 2040}, {"loss": 0.3383758783340454, "token_acc": 0.9171597633136095, "grad_norm": 0.2244083434343338, "learning_rate": 4.9806582837927386e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697177, "epoch": 5.618131868131869, "step": 2045}, {"loss": 0.27690026760101316, "token_acc": 0.9191090269636577, "grad_norm": 2.2931671142578125, "learning_rate": 4.629872454228385e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697193, "epoch": 5.631868131868131, "step": 2050}, {"loss": 0.1721512794494629, "token_acc": 0.9438058748403576, "grad_norm": 1.957794189453125, "learning_rate": 4.291779333056883e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697153, "epoch": 5.645604395604396, "step": 2055}, {"loss": 0.17563153505325318, "token_acc": 0.9345156889495225, "grad_norm": 1.4518625736236572, "learning_rate": 3.966396409438161e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697217, "epoch": 5.65934065934066, "step": 2060}, {"loss": 0.18517240285873413, "token_acc": 0.944047619047619, "grad_norm": 1.7265853881835938, "learning_rate": 3.653740515048576e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697164, "epoch": 5.673076923076923, "step": 2065}, {"loss": 0.1996297597885132, "token_acc": 0.9337899543378996, "grad_norm": 1.334267497062683, "learning_rate": 3.353827823210115e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697178, "epoch": 5.686813186813187, "step": 2070}, {"loss": 0.20821564197540282, "token_acc": 0.9431818181818182, "grad_norm": 1.6399283409118652, "learning_rate": 3.066673848053953e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697238, "epoch": 5.700549450549451, "step": 2075}, {"loss": 0.32121245861053466, "token_acc": 0.8942307692307693, "grad_norm": 1.6734315156936646, "learning_rate": 2.7922934437178695e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697204, "epoch": 5.714285714285714, "step": 2080}, {"loss": 0.20257158279418946, "token_acc": 0.9323308270676691, "grad_norm": 1.8711544275283813, "learning_rate": 2.530700803577729e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697218, "epoch": 5.728021978021978, "step": 2085}, {"loss": 0.2757570743560791, "token_acc": 0.9084577114427861, "grad_norm": 2.4783949851989746, "learning_rate": 2.2819094595134816e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.697122, "epoch": 5.741758241758242, "step": 2090}, {"loss": 0.2596614837646484, "token_acc": 0.9130434782608695, "grad_norm": 1.4253442287445068, "learning_rate": 2.045932281209029e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696992, "epoch": 5.7554945054945055, "step": 2095}, {"loss": 0.26725969314575193, "token_acc": 0.9146722164412071, "grad_norm": 1.5387674570083618, "learning_rate": 1.822781475486507e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696846, "epoch": 5.769230769230769, "step": 2100}, {"loss": 0.41085543632507326, "token_acc": 0.8861480075901328, "grad_norm": 1.5707772970199585, "learning_rate": 1.612468585674931e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696783, "epoch": 5.782967032967033, "step": 2105}, {"loss": 0.31449687480926514, "token_acc": 0.9040948275862069, "grad_norm": 1.656317114830017, "learning_rate": 1.4150044910129224e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696676, "epoch": 5.7967032967032965, "step": 2110}, {"loss": 0.21029274463653563, "token_acc": 0.9346485819975339, "grad_norm": 1.5703673362731934, "learning_rate": 1.2303994060861579e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696662, "epoch": 5.81043956043956, "step": 2115}, {"loss": 0.241666841506958, "token_acc": 0.9266750948166877, "grad_norm": 1.5615642070770264, "learning_rate": 1.058662880298711e-08, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696701, "epoch": 5.824175824175824, "step": 2120}, {"loss": 0.15253102779388428, "token_acc": 0.9504447268106735, "grad_norm": 1.8967766761779785, "learning_rate": 8.99803797379334e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696672, "epoch": 5.837912087912088, "step": 2125}, {"loss": 0.1541007161140442, "token_acc": 0.9511002444987775, "grad_norm": 1.5214357376098633, "learning_rate": 7.538303749216602e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696634, "epoch": 5.851648351648351, "step": 2130}, {"loss": 0.2977911949157715, "token_acc": 0.9228915662650602, "grad_norm": 1.8782485723495483, "learning_rate": 6.207501639593494e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696646, "epoch": 5.865384615384615, "step": 2135}, {"loss": 0.33266847133636473, "token_acc": 0.8969505783385909, "grad_norm": 1.7556397914886475, "learning_rate": 5.005700485753717e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696593, "epoch": 5.8791208791208796, "step": 2140}, {"loss": 0.2219710111618042, "token_acc": 0.9287280701754386, "grad_norm": 2.1318747997283936, "learning_rate": 3.932962455458489e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696581, "epoch": 5.892857142857143, "step": 2145}, {"loss": 0.27832300662994386, "token_acc": 0.9058402860548271, "grad_norm": 1.4725151062011719, "learning_rate": 2.989343040185888e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696613, "epoch": 5.906593406593407, "step": 2150}, {"loss": 0.20171196460723878, "token_acc": 0.9396551724137931, "grad_norm": 1.8062114715576172, "learning_rate": 2.1748910522595423e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696628, "epoch": 5.920329670329671, "step": 2155}, {"loss": 0.20747544765472412, "token_acc": 0.9332460732984293, "grad_norm": 2.3492300510406494, "learning_rate": 1.4896486223239802e-09, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696712, "epoch": 5.934065934065934, "step": 2160}, {"loss": 0.23894970417022704, "token_acc": 0.9275675675675675, "grad_norm": 1.391179084777832, "learning_rate": 9.336511971644312e-10, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.69663, "epoch": 5.947802197802198, "step": 2165}, {"loss": 0.17118480205535888, "token_acc": 0.9406674907292955, "grad_norm": 1.7219605445861816, "learning_rate": 5.069275378746796e-10, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696671, "epoch": 5.961538461538462, "step": 2170}, {"loss": 0.07117170095443726, "token_acc": 0.9793205317577548, "grad_norm": 0.7452352643013, "learning_rate": 2.0949971836853322e-10, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696787, "epoch": 5.975274725274725, "step": 2175}, {"loss": 0.20018203258514405, "token_acc": 0.9352617079889807, "grad_norm": 0.8355745673179626, "learning_rate": 4.138312423712654e-11, "memory(GiB)": 84.6, "train_speed(iter/s)": 0.696798, "epoch": 5.989010989010989, "step": 2180}, {"eval_loss": 0.8686399459838867, "eval_token_acc": 0.7619047619047619, "eval_runtime": 1.508, "eval_samples_per_second": 9.284, "eval_steps_per_second": 9.284, "epoch": 6.0, "step": 2184}, {"train_runtime": 3137.6764, "train_samples_per_second": 2.784, "train_steps_per_second": 0.696, "total_flos": 1.356309584632873e+17, "train_loss": 0.6708391652793892, "epoch": 6.0, "step": 2184}], "memory": 84.59765625}