nvan15 commited on Jan 15

Commit

a89739c

verified ·

1 Parent(s): 1af4760

Batch upload part 10

Browse files

Files changed (50) hide show

nl_tasks/run_all/run_exnr12/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr12/ft/added_tokens.json +3 -0
nl_tasks/run_all/run_exnr12/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exnr12/ft/tokenizer.model +3 -0
nl_tasks/run_all/run_exnr12/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exnr12/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr12/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exnr13/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr13/ft/added_tokens.json +3 -0
nl_tasks/run_all/run_exnr13/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exnr13/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exnr13/ft/tokenizer.model +3 -0
nl_tasks/run_all/run_exnr13/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exnr13/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exnr13/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr13/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exnr13/trainer_state.json +1106 -0
nl_tasks/run_all/run_exps1/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exps1/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exps1/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exps1/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exps1/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exps1/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exps1/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exps1/trainer_state.json +1858 -0
nl_tasks/run_all/run_exps2/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exps2/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exps2/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exps2/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exps2/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exps2/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exps2/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exps2/trainer_state.json +1858 -0
nl_tasks/run_all/run_exps3/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exps3/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exps3/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exps3/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exps3/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exps3/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exps3/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exps3/trainer_state.json +1858 -0
nl_tasks/run_all/run_exps4/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exps4/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exps4/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exps4/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exps4/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exps4/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exps4/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exps4/trainer_state.json +1858 -0
nl_tasks/run_all/run_exps5/trainer_state.json +1858 -0

nl_tasks/run_all/run_exnr12/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 16,
+  "peft_type": "ROTATION",
+  "r": 1,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr12/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/run_all/run_exnr12/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exnr12/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/run_all/run_exnr12/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f45572059226f068f7d7099d155791e95f2fa1267bcde04365a44462bc69490
+size 6481

nl_tasks/run_all/run_exnr12/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 16,
+  "peft_type": "ROTATION",
+  "r": 1,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr12/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae187d1551c544a38ed5541fabb49534794ceeff4e4985fa5abe345f1506ac93
+size 33602659

nl_tasks/run_all/run_exnr13/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr13/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/run_all/run_exnr13/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exnr13/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exnr13/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/run_all/run_exnr13/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exnr13/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:037f8b17117a8b6b8cbdbb85a67bb2636eb8dffaae6ac4b622ba5e37566621a9
+size 6481

nl_tasks/run_all/run_exnr13/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr13/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcdf9e7560726805241e21c9550b6e4de0f6a48a704b8ee52845cbff82771bc2
+size 33602915

nl_tasks/run_all/run_exnr13/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1106 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 50,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.22931261360645294,
+      "learning_rate": 9.836065573770491e-05,
+      "loss": 0.678,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.18445120751857758,
+      "learning_rate": 0.00020081967213114754,
+      "loss": 0.4156,
+      "step": 50
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "eval_loss": 0.3720075786113739,
+      "eval_runtime": 19.7665,
+      "eval_samples_per_second": 50.591,
+      "eval_steps_per_second": 0.809,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.17781366407871246,
+      "learning_rate": 0.0003032786885245902,
+      "loss": 0.3699,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.19237235188484192,
+      "learning_rate": 0.0004057377049180328,
+      "loss": 0.35,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.3287361264228821,
+      "eval_runtime": 19.2993,
+      "eval_samples_per_second": 51.815,
+      "eval_steps_per_second": 0.829,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.1524256020784378,
+      "learning_rate": 0.0005081967213114754,
+      "loss": 0.3296,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.17991341650485992,
+      "learning_rate": 0.000610655737704918,
+      "loss": 0.3139,
+      "step": 150
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "eval_loss": 0.31378939747810364,
+      "eval_runtime": 19.3746,
+      "eval_samples_per_second": 51.614,
+      "eval_steps_per_second": 0.826,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.21170128881931305,
+      "learning_rate": 0.0007131147540983607,
+      "loss": 0.3132,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.25959813594818115,
+      "learning_rate": 0.0008155737704918033,
+      "loss": 0.3198,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.30950409173965454,
+      "eval_runtime": 19.3652,
+      "eval_samples_per_second": 51.639,
+      "eval_steps_per_second": 0.826,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.25062230229377747,
+      "learning_rate": 0.0009180327868852459,
+      "loss": 0.3264,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.28308653831481934,
+      "learning_rate": 0.0009999871854116063,
+      "loss": 0.3204,
+      "step": 250
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "eval_loss": 0.30955788493156433,
+      "eval_runtime": 19.2696,
+      "eval_samples_per_second": 51.895,
+      "eval_steps_per_second": 0.83,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.9601122140884399,
+      "learning_rate": 0.0009995387437838027,
+      "loss": 0.3283,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.306286096572876,
+      "learning_rate": 0.000998450229439693,
+      "loss": 0.3245,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.3065921366214752,
+      "eval_runtime": 19.3494,
+      "eval_samples_per_second": 51.681,
+      "eval_steps_per_second": 0.827,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.2865601181983948,
+      "learning_rate": 0.000996723037122612,
+      "loss": 0.3068,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.2877274453639984,
+      "learning_rate": 0.0009943593799315263,
+      "loss": 0.311,
+      "step": 350
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "eval_loss": 0.2946481704711914,
+      "eval_runtime": 19.3413,
+      "eval_samples_per_second": 51.703,
+      "eval_steps_per_second": 0.827,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.28202855587005615,
+      "learning_rate": 0.0009913622864853324,
+      "loss": 0.2987,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.2914764881134033,
+      "learning_rate": 0.0009877355970422024,
+      "loss": 0.3077,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.284617155790329,
+      "eval_runtime": 19.3313,
+      "eval_samples_per_second": 51.73,
+      "eval_steps_per_second": 0.828,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.21162962913513184,
+      "learning_rate": 0.0009834839585789559,
+      "loss": 0.3021,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.2067781537771225,
+      "learning_rate": 0.000978612818836762,
+      "loss": 0.2991,
+      "step": 450
+    },
+    {
+      "epoch": 0.36915504511895,
+      "eval_loss": 0.279570609331131,
+      "eval_runtime": 19.3677,
+      "eval_samples_per_second": 51.632,
+      "eval_steps_per_second": 0.826,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.21456116437911987,
+      "learning_rate": 0.0009731284193407981,
+      "loss": 0.2948,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.2070964127779007,
+      "learning_rate": 0.0009670377874028117,
+      "loss": 0.2846,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.27043354511260986,
+      "eval_runtime": 19.3777,
+      "eval_samples_per_second": 51.606,
+      "eval_steps_per_second": 0.826,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.2700050175189972,
+      "learning_rate": 0.0009603487271168336,
+      "loss": 0.2884,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.20913958549499512,
+      "learning_rate": 0.0009530698093595781,
+      "loss": 0.2819,
+      "step": 550
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "eval_loss": 0.26538342237472534,
+      "eval_runtime": 19.3572,
+      "eval_samples_per_second": 51.66,
+      "eval_steps_per_second": 0.827,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.2159457504749298,
+      "learning_rate": 0.0009452103608083418,
+      "loss": 0.2708,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.21397002041339874,
+      "learning_rate": 0.0009367804519904775,
+      "loss": 0.2802,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.26951679587364197,
+      "eval_runtime": 19.3658,
+      "eval_samples_per_second": 51.637,
+      "eval_steps_per_second": 0.826,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.17700916528701782,
+      "learning_rate": 0.0009277908843797492,
+      "loss": 0.2683,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.20436996221542358,
+      "learning_rate": 0.0009182531765561084,
+      "loss": 0.2657,
+      "step": 650
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "eval_loss": 0.25960028171539307,
+      "eval_runtime": 19.285,
+      "eval_samples_per_second": 51.854,
+      "eval_steps_per_second": 0.83,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.1906837671995163,
+      "learning_rate": 0.0009081795494466201,
+      "loss": 0.2655,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.17952291667461395,
+      "learning_rate": 0.0008975829106664539,
+      "loss": 0.257,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.2571607530117035,
+      "eval_runtime": 19.3224,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.1855345517396927,
+      "learning_rate": 0.0008864768379800017,
+      "loss": 0.2538,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.16786430776119232,
+      "learning_rate": 0.0008748755619033153,
+      "loss": 0.2634,
+      "step": 750
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "eval_loss": 0.25393542647361755,
+      "eval_runtime": 19.2859,
+      "eval_samples_per_second": 51.851,
+      "eval_steps_per_second": 0.83,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.2089242935180664,
+      "learning_rate": 0.000862793947470155,
+      "loss": 0.2666,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.1806870400905609,
+      "learning_rate": 0.0008502474751850142,
+      "loss": 0.2557,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.24840402603149414,
+      "eval_runtime": 20.0247,
+      "eval_samples_per_second": 49.938,
+      "eval_steps_per_second": 0.799,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.16617436707019806,
+      "learning_rate": 0.0008372522211875224,
+      "loss": 0.2498,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.15508487820625305,
+      "learning_rate": 0.0008238248366536473,
+      "loss": 0.2631,
+      "step": 850
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "eval_loss": 0.24494421482086182,
+      "eval_runtime": 19.2906,
+      "eval_samples_per_second": 51.839,
+      "eval_steps_per_second": 0.829,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.13191890716552734,
+      "learning_rate": 0.0008099825264600842,
+      "loss": 0.2575,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.22435954213142395,
+      "learning_rate": 0.0007957430271391761,
+      "loss": 0.2492,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.24173128604888916,
+      "eval_runtime": 19.2803,
+      "eval_samples_per_second": 51.866,
+      "eval_steps_per_second": 0.83,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.16361841559410095,
+      "learning_rate": 0.0007811245841526062,
+      "loss": 0.252,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.1659049540758133,
+      "learning_rate": 0.0007661459285129879,
+      "loss": 0.2352,
+      "step": 950
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "eval_loss": 0.23935402929782867,
+      "eval_runtime": 19.2861,
+      "eval_samples_per_second": 51.851,
+      "eval_steps_per_second": 0.83,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.1710589975118637,
+      "learning_rate": 0.0007508262527833029,
+      "loss": 0.2475,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.16337169706821442,
+      "learning_rate": 0.000735185186484943,
+      "loss": 0.2496,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.23631958663463593,
+      "eval_runtime": 19.2983,
+      "eval_samples_per_second": 51.818,
+      "eval_steps_per_second": 0.829,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.1336127668619156,
+      "learning_rate": 0.0007192427709458656,
+      "loss": 0.2367,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.1590573489665985,
+      "learning_rate": 0.0007030194336210887,
+      "loss": 0.2415,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "eval_loss": 0.23346620798110962,
+      "eval_runtime": 19.3105,
+      "eval_samples_per_second": 51.785,
+      "eval_steps_per_second": 0.829,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.16918089985847473,
+      "learning_rate": 0.0006865359619184331,
+      "loss": 0.2452,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.14695101976394653,
+      "learning_rate": 0.0006698134765630434,
+      "loss": 0.2386,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.2332371324300766,
+      "eval_runtime": 19.3273,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.12737445533275604,
+      "learning_rate": 0.0006528734045348248,
+      "loss": 0.2374,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.1528356820344925,
+      "learning_rate": 0.0006357374516134643,
+      "loss": 0.2519,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "eval_loss": 0.23056186735630035,
+      "eval_runtime": 19.2927,
+      "eval_samples_per_second": 51.833,
+      "eval_steps_per_second": 0.829,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.1549467146396637,
+      "learning_rate": 0.0006184275745662179,
+      "loss": 0.2396,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.1511608213186264,
+      "learning_rate": 0.0006009659530141031,
+      "loss": 0.2408,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.22885626554489136,
+      "eval_runtime": 19.2756,
+      "eval_samples_per_second": 51.879,
+      "eval_steps_per_second": 0.83,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.14819197356700897,
+      "learning_rate": 0.0005833749610125402,
+      "loss": 0.2362,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.13643483817577362,
+      "learning_rate": 0.0005656771383828602,
+      "loss": 0.2084,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "eval_loss": 0.22903910279273987,
+      "eval_runtime": 19.3112,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.829,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.13602110743522644,
+      "learning_rate": 0.0005478951618314134,
+      "loss": 0.2025,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.1276039481163025,
+      "learning_rate": 0.0005300518158932815,
+      "loss": 0.2045,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.22647729516029358,
+      "eval_runtime": 19.3123,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 0.828,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.1431492418050766,
+      "learning_rate": 0.0005121699637378282,
+      "loss": 0.203,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.15327255427837372,
+      "learning_rate": 0.0004942725178734903,
+      "loss": 0.2076,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "eval_loss": 0.22494623064994812,
+      "eval_runtime": 19.272,
+      "eval_samples_per_second": 51.889,
+      "eval_steps_per_second": 0.83,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.14988966286182404,
+      "learning_rate": 0.00047638241078935324,
+      "loss": 0.2051,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.1339106261730194,
+      "learning_rate": 0.000458522565571121,
+      "loss": 0.2128,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.22338636219501495,
+      "eval_runtime": 19.3087,
+      "eval_samples_per_second": 51.79,
+      "eval_steps_per_second": 0.829,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.1396779716014862,
+      "learning_rate": 0.00044071586652913767,
+      "loss": 0.1965,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.15899169445037842,
+      "learning_rate": 0.0004229851298760915,
+      "loss": 0.2063,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "eval_loss": 0.22318963706493378,
+      "eval_runtime": 19.3444,
+      "eval_samples_per_second": 51.695,
+      "eval_steps_per_second": 0.827,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.13465991616249084,
+      "learning_rate": 0.0004053530744919749,
+      "loss": 0.2055,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.15314656496047974,
+      "learning_rate": 0.0003878422928137597,
+      "loss": 0.2091,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.22200444340705872,
+      "eval_runtime": 19.3449,
+      "eval_samples_per_second": 51.693,
+      "eval_steps_per_second": 0.827,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.16617698967456818,
+      "learning_rate": 0.0003704752218870861,
+      "loss": 0.2132,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.1396445631980896,
+      "learning_rate": 0.00035327411461706025,
+      "loss": 0.1952,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "eval_loss": 0.22176627814769745,
+      "eval_runtime": 19.3568,
+      "eval_samples_per_second": 51.661,
+      "eval_steps_per_second": 0.827,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.14781972765922546,
+      "learning_rate": 0.00033626101125499555,
+      "loss": 0.2058,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.13822010159492493,
+      "learning_rate": 0.0003194577111576333,
+      "loss": 0.2002,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.21868599951267242,
+      "eval_runtime": 19.3967,
+      "eval_samples_per_second": 51.555,
+      "eval_steps_per_second": 0.825,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.12466410547494888,
+      "learning_rate": 0.00030288574485502756,
+      "loss": 0.1991,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.13315178453922272,
+      "learning_rate": 0.00028656634646288565,
+      "loss": 0.1999,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "eval_loss": 0.2176971733570099,
+      "eval_runtime": 19.3868,
+      "eval_samples_per_second": 51.582,
+      "eval_steps_per_second": 0.825,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.16215480864048004,
+      "learning_rate": 0.00027052042647471254,
+      "loss": 0.1899,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.1372925043106079,
+      "learning_rate": 0.0002547685449686206,
+      "loss": 0.1982,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.21591512858867645,
+      "eval_runtime": 19.3868,
+      "eval_samples_per_second": 51.581,
+      "eval_steps_per_second": 0.825,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.15481165051460266,
+      "learning_rate": 0.0002393308852631373,
+      "loss": 0.2096,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.14576007425785065,
+      "learning_rate": 0.0002242272280557645,
+      "loss": 0.2033,
+      "step": 1750
+    },
+    {
+      "epoch": 1.435602953240361,
+      "eval_loss": 0.21569040417671204,
+      "eval_runtime": 19.3745,
+      "eval_samples_per_second": 51.614,
+      "eval_steps_per_second": 0.826,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.14915944635868073,
+      "learning_rate": 0.0002094769260774262,
+      "loss": 0.1988,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.13568426668643951,
+      "learning_rate": 0.00019509887929528458,
+      "loss": 0.2031,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.21403798460960388,
+      "eval_runtime": 19.3655,
+      "eval_samples_per_second": 51.638,
+      "eval_steps_per_second": 0.826,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.15686564147472382,
+      "learning_rate": 0.0001811115106956918,
+      "loss": 0.1939,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.16230961680412292,
+      "learning_rate": 0.00016753274267831115,
+      "loss": 0.2037,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "eval_loss": 0.21287399530410767,
+      "eval_runtime": 19.3395,
+      "eval_samples_per_second": 51.708,
+      "eval_steps_per_second": 0.827,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.1522003710269928,
+      "learning_rate": 0.00015437997409165478,
+      "loss": 0.1934,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.1406460851430893,
+      "learning_rate": 0.00014167005793946035,
+      "loss": 0.193,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.21294145286083221,
+      "eval_runtime": 19.3135,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.150811567902565,
+      "learning_rate": 0.00012941927978647527,
+      "loss": 0.1945,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.12927386164665222,
+      "learning_rate": 0.00011764333689131385,
+      "loss": 0.2009,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "eval_loss": 0.21167391538619995,
+      "eval_runtime": 19.3462,
+      "eval_samples_per_second": 51.69,
+      "eval_steps_per_second": 0.827,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.11802957952022552,
+      "learning_rate": 0.00010635731809312993,
+      "loss": 0.1971,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.1508980095386505,
+      "learning_rate": 9.557568447787201e-05,
+      "loss": 0.1964,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.21123281121253967,
+      "eval_runtime": 19.3419,
+      "eval_samples_per_second": 51.701,
+      "eval_steps_per_second": 0.827,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.13394318521022797,
+      "learning_rate": 8.531225084889654e-05,
+      "loss": 0.1893,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.15524154901504517,
+      "learning_rate": 7.558016802568091e-05,
+      "loss": 0.1938,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "eval_loss": 0.2103249877691269,
+      "eval_runtime": 19.3209,
+      "eval_samples_per_second": 51.758,
+      "eval_steps_per_second": 0.828,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.14961044490337372,
+      "learning_rate": 6.639190599331746e-05,
+      "loss": 0.1936,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.13738760352134705,
+      "learning_rate": 5.775923792437865e-05,
+      "loss": 0.1891,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.20943871140480042,
+      "eval_runtime": 19.3831,
+      "eval_samples_per_second": 51.591,
+      "eval_steps_per_second": 0.825,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.1795763075351715,
+      "learning_rate": 4.9693225093627616e-05,
+      "loss": 0.1914,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.14526569843292236,
+      "learning_rate": 4.220420270490294e-05,
+      "loss": 0.1845,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "eval_loss": 0.20901177823543549,
+      "eval_runtime": 19.3815,
+      "eval_samples_per_second": 51.596,
+      "eval_steps_per_second": 0.826,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.1493556648492813,
+      "learning_rate": 3.530176664833834e-05,
+      "loss": 0.1874,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.1753922700881958,
+      "learning_rate": 2.8994761204884756e-05,
+      "loss": 0.1957,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.20887655019760132,
+      "eval_runtime": 19.3659,
+      "eval_samples_per_second": 51.637,
+      "eval_steps_per_second": 0.826,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.15183115005493164,
+      "learning_rate": 2.329126771388995e-05,
+      "loss": 0.188,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.13431748747825623,
+      "learning_rate": 1.8198594218256815e-05,
+      "loss": 0.1873,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "eval_loss": 0.20877276360988617,
+      "eval_runtime": 19.3708,
+      "eval_samples_per_second": 51.624,
+      "eval_steps_per_second": 0.826,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.14999055862426758,
+      "learning_rate": 1.3723266100447052e-05,
+      "loss": 0.1915,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.1781681329011917,
+      "learning_rate": 9.871017721329201e-06,
+      "loss": 0.1991,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.20860543847084045,
+      "eval_runtime": 19.3513,
+      "eval_samples_per_second": 51.676,
+      "eval_steps_per_second": 0.827,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.158808171749115,
+      "learning_rate": 6.646785072584871e-06,
+      "loss": 0.1937,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.1277729570865631,
+      "learning_rate": 4.054699452086641e-06,
+      "loss": 0.1882,
+      "step": 2350
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "eval_loss": 0.20845511555671692,
+      "eval_runtime": 19.3624,
+      "eval_samples_per_second": 51.646,
+      "eval_steps_per_second": 0.826,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.15287554264068604,
+      "learning_rate": 2.0980821703527886e-06,
+      "loss": 0.2023,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.143690288066864,
+      "learning_rate": 7.794402948607671e-07,
+      "loss": 0.1975,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.20845800638198853,
+      "eval_runtime": 19.3666,
+      "eval_samples_per_second": 51.635,
+      "eval_steps_per_second": 0.826,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.1555429846048355,
+      "learning_rate": 1.0046343767294853e-07,
+      "loss": 0.1874,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.24400284996376945,
+      "train_runtime": 3493.6883,
+      "train_samples_per_second": 22.326,
+      "train_steps_per_second": 0.698
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exps1/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps1/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exps1/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exps1/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exps1/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2dc39220b8bf437e78f744960d44ba676c8fa62c3e03acc06e628cc3c43434c
+size 6481

nl_tasks/run_all/run_exps1/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps1/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac3cbb71308f2b8b30414200d42cdeb373922169820bf76bf91203c905aec46d
+size 33602659

nl_tasks/run_all/run_exps1/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1858 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 20,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016406890894175553,
+      "grad_norm": 0.045311760157346725,
+      "learning_rate": 7.78688524590164e-07,
+      "loss": 0.7464,
+      "step": 20
+    },
+    {
+      "epoch": 0.016406890894175553,
+      "eval_loss": 0.744476854801178,
+      "eval_runtime": 19.903,
+      "eval_samples_per_second": 50.244,
+      "eval_steps_per_second": 0.804,
+      "step": 20
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "grad_norm": 0.06288333982229233,
+      "learning_rate": 1.5983606557377053e-06,
+      "loss": 0.7592,
+      "step": 40
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "eval_loss": 0.7430104613304138,
+      "eval_runtime": 19.321,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 40
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "grad_norm": 0.09129688143730164,
+      "learning_rate": 2.418032786885246e-06,
+      "loss": 0.7476,
+      "step": 60
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "eval_loss": 0.7391518354415894,
+      "eval_runtime": 19.3266,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 60
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "grad_norm": 0.15382955968379974,
+      "learning_rate": 3.2377049180327876e-06,
+      "loss": 0.7378,
+      "step": 80
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "eval_loss": 0.7282525897026062,
+      "eval_runtime": 19.3273,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 80
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.211552694439888,
+      "learning_rate": 4.057377049180329e-06,
+      "loss": 0.7309,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.7028547525405884,
+      "eval_runtime": 19.3319,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 100
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "grad_norm": 0.2945902347564697,
+      "learning_rate": 4.877049180327869e-06,
+      "loss": 0.6809,
+      "step": 120
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "eval_loss": 0.6537977457046509,
+      "eval_runtime": 19.3409,
+      "eval_samples_per_second": 51.704,
+      "eval_steps_per_second": 0.827,
+      "step": 120
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "grad_norm": 0.2522474229335785,
+      "learning_rate": 5.696721311475411e-06,
+      "loss": 0.6215,
+      "step": 140
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "eval_loss": 0.5743948817253113,
+      "eval_runtime": 19.3206,
+      "eval_samples_per_second": 51.758,
+      "eval_steps_per_second": 0.828,
+      "step": 140
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "grad_norm": 0.2089417278766632,
+      "learning_rate": 6.516393442622952e-06,
+      "loss": 0.5423,
+      "step": 160
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "eval_loss": 0.508235514163971,
+      "eval_runtime": 19.3328,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 160
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "grad_norm": 0.15879088640213013,
+      "learning_rate": 7.336065573770492e-06,
+      "loss": 0.497,
+      "step": 180
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "eval_loss": 0.46629706025123596,
+      "eval_runtime": 19.3303,
+      "eval_samples_per_second": 51.732,
+      "eval_steps_per_second": 0.828,
+      "step": 180
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.13250677287578583,
+      "learning_rate": 8.155737704918034e-06,
+      "loss": 0.4643,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.44612953066825867,
+      "eval_runtime": 19.3338,
+      "eval_samples_per_second": 51.723,
+      "eval_steps_per_second": 0.828,
+      "step": 200
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "grad_norm": 0.16223840415477753,
+      "learning_rate": 8.975409836065575e-06,
+      "loss": 0.4557,
+      "step": 220
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "eval_loss": 0.4310664236545563,
+      "eval_runtime": 19.3246,
+      "eval_samples_per_second": 51.748,
+      "eval_steps_per_second": 0.828,
+      "step": 220
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "grad_norm": 0.17253851890563965,
+      "learning_rate": 9.795081967213116e-06,
+      "loss": 0.4395,
+      "step": 240
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "eval_loss": 0.4179575741291046,
+      "eval_runtime": 19.3165,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 240
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "grad_norm": 0.17709316313266754,
+      "learning_rate": 9.99884672645552e-06,
+      "loss": 0.4225,
+      "step": 260
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "eval_loss": 0.40669238567352295,
+      "eval_runtime": 19.3402,
+      "eval_samples_per_second": 51.706,
+      "eval_steps_per_second": 0.827,
+      "step": 260
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "grad_norm": 0.163985013961792,
+      "learning_rate": 9.993722139023359e-06,
+      "loss": 0.4171,
+      "step": 280
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "eval_loss": 0.3979131281375885,
+      "eval_runtime": 19.3591,
+      "eval_samples_per_second": 51.655,
+      "eval_steps_per_second": 0.826,
+      "step": 280
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.21911385655403137,
+      "learning_rate": 9.984502294396932e-06,
+      "loss": 0.4008,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.3902350068092346,
+      "eval_runtime": 19.3359,
+      "eval_samples_per_second": 51.717,
+      "eval_steps_per_second": 0.827,
+      "step": 300
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "grad_norm": 0.18699711561203003,
+      "learning_rate": 9.971194753596649e-06,
+      "loss": 0.3905,
+      "step": 320
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "eval_loss": 0.38398095965385437,
+      "eval_runtime": 19.3371,
+      "eval_samples_per_second": 51.714,
+      "eval_steps_per_second": 0.827,
+      "step": 320
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "grad_norm": 0.20045825839042664,
+      "learning_rate": 9.953810429885345e-06,
+      "loss": 0.3976,
+      "step": 340
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "eval_loss": 0.37802764773368835,
+      "eval_runtime": 19.3296,
+      "eval_samples_per_second": 51.734,
+      "eval_steps_per_second": 0.828,
+      "step": 340
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "grad_norm": 0.21255679428577423,
+      "learning_rate": 9.9323635798185e-06,
+      "loss": 0.3759,
+      "step": 360
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "eval_loss": 0.3733063042163849,
+      "eval_runtime": 19.3481,
+      "eval_samples_per_second": 51.685,
+      "eval_steps_per_second": 0.827,
+      "step": 360
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "grad_norm": 0.24217866361141205,
+      "learning_rate": 9.906871791552722e-06,
+      "loss": 0.3786,
+      "step": 380
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "eval_loss": 0.36885637044906616,
+      "eval_runtime": 19.3455,
+      "eval_samples_per_second": 51.692,
+      "eval_steps_per_second": 0.827,
+      "step": 380
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.22478993237018585,
+      "learning_rate": 9.877355970422024e-06,
+      "loss": 0.3863,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.3649672567844391,
+      "eval_runtime": 19.3226,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 400
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "grad_norm": 0.22086811065673828,
+      "learning_rate": 9.843840321793758e-06,
+      "loss": 0.3787,
+      "step": 420
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "eval_loss": 0.361759215593338,
+      "eval_runtime": 19.3534,
+      "eval_samples_per_second": 51.671,
+      "eval_steps_per_second": 0.827,
+      "step": 420
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "grad_norm": 0.23850491642951965,
+      "learning_rate": 9.806352331218253e-06,
+      "loss": 0.3757,
+      "step": 440
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "eval_loss": 0.35869115591049194,
+      "eval_runtime": 19.3164,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 440
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.1960180103778839,
+      "learning_rate": 9.764922741888425e-06,
+      "loss": 0.3745,
+      "step": 460
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "eval_loss": 0.3557225465774536,
+      "eval_runtime": 19.3265,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 460
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "grad_norm": 0.2612729072570801,
+      "learning_rate": 9.719585529427876e-06,
+      "loss": 0.3649,
+      "step": 480
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "eval_loss": 0.3532167375087738,
+      "eval_runtime": 19.3447,
+      "eval_samples_per_second": 51.694,
+      "eval_steps_per_second": 0.827,
+      "step": 480
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.18914461135864258,
+      "learning_rate": 9.670377874028118e-06,
+      "loss": 0.3584,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.3509090840816498,
+      "eval_runtime": 19.3391,
+      "eval_samples_per_second": 51.709,
+      "eval_steps_per_second": 0.827,
+      "step": 500
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "grad_norm": 0.2655193507671356,
+      "learning_rate": 9.617340129957807e-06,
+      "loss": 0.3663,
+      "step": 520
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "eval_loss": 0.34918835759162903,
+      "eval_runtime": 19.309,
+      "eval_samples_per_second": 51.789,
+      "eval_steps_per_second": 0.829,
+      "step": 520
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "grad_norm": 0.321635365486145,
+      "learning_rate": 9.560515792468967e-06,
+      "loss": 0.3562,
+      "step": 540
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "eval_loss": 0.34672680497169495,
+      "eval_runtime": 19.3063,
+      "eval_samples_per_second": 51.797,
+      "eval_steps_per_second": 0.829,
+      "step": 540
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "grad_norm": 0.25474146008491516,
+      "learning_rate": 9.499951462127354e-06,
+      "loss": 0.3545,
+      "step": 560
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "eval_loss": 0.34476643800735474,
+      "eval_runtime": 19.3046,
+      "eval_samples_per_second": 51.801,
+      "eval_steps_per_second": 0.829,
+      "step": 560
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "grad_norm": 0.2607789933681488,
+      "learning_rate": 9.435696806596215e-06,
+      "loss": 0.3503,
+      "step": 580
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "eval_loss": 0.34293389320373535,
+      "eval_runtime": 19.3434,
+      "eval_samples_per_second": 51.697,
+      "eval_steps_per_second": 0.827,
+      "step": 580
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.26284271478652954,
+      "learning_rate": 9.367804519904775e-06,
+      "loss": 0.3576,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.3416861295700073,
+      "eval_runtime": 19.3158,
+      "eval_samples_per_second": 51.771,
+      "eval_steps_per_second": 0.828,
+      "step": 600
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "grad_norm": 0.2197471708059311,
+      "learning_rate": 9.296330279234855e-06,
+      "loss": 0.3386,
+      "step": 620
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "eval_loss": 0.3401975929737091,
+      "eval_runtime": 19.3391,
+      "eval_samples_per_second": 51.709,
+      "eval_steps_per_second": 0.827,
+      "step": 620
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "grad_norm": 0.27967914938926697,
+      "learning_rate": 9.221332699261074e-06,
+      "loss": 0.3429,
+      "step": 640
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "eval_loss": 0.338499516248703,
+      "eval_runtime": 19.3308,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 640
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "grad_norm": 0.3297106921672821,
+      "learning_rate": 9.142873284082055e-06,
+      "loss": 0.3436,
+      "step": 660
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "eval_loss": 0.3370824158191681,
+      "eval_runtime": 19.3326,
+      "eval_samples_per_second": 51.726,
+      "eval_steps_per_second": 0.828,
+      "step": 660
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "grad_norm": 0.24821262061595917,
+      "learning_rate": 9.061016376782078e-06,
+      "loss": 0.3403,
+      "step": 680
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "eval_loss": 0.3358338177204132,
+      "eval_runtime": 19.3236,
+      "eval_samples_per_second": 51.75,
+      "eval_steps_per_second": 0.828,
+      "step": 680
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.2711612582206726,
+      "learning_rate": 8.97582910666454e-06,
+      "loss": 0.3385,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.33477649092674255,
+      "eval_runtime": 19.335,
+      "eval_samples_per_second": 51.72,
+      "eval_steps_per_second": 0.828,
+      "step": 700
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "grad_norm": 0.27696484327316284,
+      "learning_rate": 8.88738133420046e-06,
+      "loss": 0.3349,
+      "step": 720
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "eval_loss": 0.33330047130584717,
+      "eval_runtime": 19.3293,
+      "eval_samples_per_second": 51.735,
+      "eval_steps_per_second": 0.828,
+      "step": 720
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "grad_norm": 0.24008512496948242,
+      "learning_rate": 8.795745593737254e-06,
+      "loss": 0.3363,
+      "step": 740
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "eval_loss": 0.3324872553348541,
+      "eval_runtime": 19.326,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 740
+    },
+    {
+      "epoch": 0.623461853978671,
+      "grad_norm": 0.3409559726715088,
+      "learning_rate": 8.700997034014665e-06,
+      "loss": 0.3424,
+      "step": 760
+    },
+    {
+      "epoch": 0.623461853978671,
+      "eval_loss": 0.33104297518730164,
+      "eval_runtime": 19.3214,
+      "eval_samples_per_second": 51.756,
+      "eval_steps_per_second": 0.828,
+      "step": 760
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "grad_norm": 0.2893770933151245,
+      "learning_rate": 8.603213356536708e-06,
+      "loss": 0.3394,
+      "step": 780
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "eval_loss": 0.3302854299545288,
+      "eval_runtime": 19.3343,
+      "eval_samples_per_second": 51.722,
+      "eval_steps_per_second": 0.828,
+      "step": 780
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.26910558342933655,
+      "learning_rate": 8.502474751850143e-06,
+      "loss": 0.341,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.3295200765132904,
+      "eval_runtime": 19.322,
+      "eval_samples_per_second": 51.755,
+      "eval_steps_per_second": 0.828,
+      "step": 800
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "grad_norm": 0.2739856541156769,
+      "learning_rate": 8.398863833781707e-06,
+      "loss": 0.3329,
+      "step": 820
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "eval_loss": 0.32813555002212524,
+      "eval_runtime": 19.3474,
+      "eval_samples_per_second": 51.687,
+      "eval_steps_per_second": 0.827,
+      "step": 820
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "grad_norm": 0.26377996802330017,
+      "learning_rate": 8.29246557168809e-06,
+      "loss": 0.345,
+      "step": 840
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "eval_loss": 0.3274153470993042,
+      "eval_runtime": 19.3322,
+      "eval_samples_per_second": 51.727,
+      "eval_steps_per_second": 0.828,
+      "step": 840
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "grad_norm": 0.2864283323287964,
+      "learning_rate": 8.183367220774157e-06,
+      "loss": 0.3496,
+      "step": 860
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "eval_loss": 0.32650744915008545,
+      "eval_runtime": 19.329,
+      "eval_samples_per_second": 51.736,
+      "eval_steps_per_second": 0.828,
+      "step": 860
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "grad_norm": 0.25862371921539307,
+      "learning_rate": 8.071658250536614e-06,
+      "loss": 0.3377,
+      "step": 880
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "eval_loss": 0.3258334994316101,
+      "eval_runtime": 19.3357,
+      "eval_samples_per_second": 51.718,
+      "eval_steps_per_second": 0.827,
+      "step": 880
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.265072226524353,
+      "learning_rate": 7.957430271391762e-06,
+      "loss": 0.3316,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.3248139023780823,
+      "eval_runtime": 19.3321,
+      "eval_samples_per_second": 51.727,
+      "eval_steps_per_second": 0.828,
+      "step": 900
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.29285672307014465,
+      "learning_rate": 7.840776959547512e-06,
+      "loss": 0.3344,
+      "step": 920
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "eval_loss": 0.32421526312828064,
+      "eval_runtime": 19.3164,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 920
+    },
+    {
+      "epoch": 0.771123872026251,
+      "grad_norm": 0.26662516593933105,
+      "learning_rate": 7.72179398018132e-06,
+      "loss": 0.3137,
+      "step": 940
+    },
+    {
+      "epoch": 0.771123872026251,
+      "eval_loss": 0.3238050639629364,
+      "eval_runtime": 19.3416,
+      "eval_samples_per_second": 51.702,
+      "eval_steps_per_second": 0.827,
+      "step": 940
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "grad_norm": 0.29773077368736267,
+      "learning_rate": 7.600578908986962e-06,
+      "loss": 0.3241,
+      "step": 960
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "eval_loss": 0.3228878676891327,
+      "eval_runtime": 19.3347,
+      "eval_samples_per_second": 51.72,
+      "eval_steps_per_second": 0.828,
+      "step": 960
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "grad_norm": 0.3109775483608246,
+      "learning_rate": 7.477231152154557e-06,
+      "loss": 0.3352,
+      "step": 980
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "eval_loss": 0.3221863806247711,
+      "eval_runtime": 19.3226,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 980
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.3013681471347809,
+      "learning_rate": 7.351851864849431e-06,
+      "loss": 0.3338,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.32160434126853943,
+      "eval_runtime": 19.3388,
+      "eval_samples_per_second": 51.709,
+      "eval_steps_per_second": 0.827,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "grad_norm": 0.32970356941223145,
+      "learning_rate": 7.224543868256673e-06,
+      "loss": 0.3292,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "eval_loss": 0.32090088725090027,
+      "eval_runtime": 19.3413,
+      "eval_samples_per_second": 51.703,
+      "eval_steps_per_second": 0.827,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "grad_norm": 0.30748239159584045,
+      "learning_rate": 7.095411565259434e-06,
+      "loss": 0.3236,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "eval_loss": 0.3199499547481537,
+      "eval_runtime": 19.3101,
+      "eval_samples_per_second": 51.786,
+      "eval_steps_per_second": 0.829,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.3342198133468628,
+      "learning_rate": 6.964560854820072e-06,
+      "loss": 0.3258,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_loss": 0.3197961449623108,
+      "eval_runtime": 19.3347,
+      "eval_samples_per_second": 51.72,
+      "eval_steps_per_second": 0.828,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "grad_norm": 0.2627074420452118,
+      "learning_rate": 6.832099045134437e-06,
+      "loss": 0.3327,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "eval_loss": 0.31915849447250366,
+      "eval_runtime": 19.3445,
+      "eval_samples_per_second": 51.694,
+      "eval_steps_per_second": 0.827,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.2862927317619324,
+      "learning_rate": 6.698134765630434e-06,
+      "loss": 0.3227,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.3186987042427063,
+      "eval_runtime": 19.3343,
+      "eval_samples_per_second": 51.722,
+      "eval_steps_per_second": 0.828,
+      "step": 1100
+    },
+    {
+      "epoch": 0.918785890073831,
+      "grad_norm": 0.30319395661354065,
+      "learning_rate": 6.562777877883086e-06,
+      "loss": 0.323,
+      "step": 1120
+    },
+    {
+      "epoch": 0.918785890073831,
+      "eval_loss": 0.31824254989624023,
+      "eval_runtime": 19.3189,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "grad_norm": 0.32216838002204895,
+      "learning_rate": 6.4261393855191255e-06,
+      "loss": 0.3327,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "eval_loss": 0.31814008951187134,
+      "eval_runtime": 19.3285,
+      "eval_samples_per_second": 51.737,
+      "eval_steps_per_second": 0.828,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "grad_norm": 0.2896561622619629,
+      "learning_rate": 6.288331343185028e-06,
+      "loss": 0.3418,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "eval_loss": 0.3173450529575348,
+      "eval_runtime": 19.3156,
+      "eval_samples_per_second": 51.772,
+      "eval_steps_per_second": 0.828,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "grad_norm": 0.3283473551273346,
+      "learning_rate": 6.1494667646531e-06,
+      "loss": 0.3216,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "eval_loss": 0.3168336749076843,
+      "eval_runtime": 19.3336,
+      "eval_samples_per_second": 51.723,
+      "eval_steps_per_second": 0.828,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.26251649856567383,
+      "learning_rate": 6.0096595301410324e-06,
+      "loss": 0.3296,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.31627118587493896,
+      "eval_runtime": 19.3399,
+      "eval_samples_per_second": 51.707,
+      "eval_steps_per_second": 0.827,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "grad_norm": 0.2938898503780365,
+      "learning_rate": 5.869024292920871e-06,
+      "loss": 0.3348,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "eval_loss": 0.3160431385040283,
+      "eval_runtime": 19.2726,
+      "eval_samples_per_second": 51.887,
+      "eval_steps_per_second": 0.83,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "grad_norm": 0.27582621574401855,
+      "learning_rate": 5.727676385294048e-06,
+      "loss": 0.3155,
+      "step": 1240
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "eval_loss": 0.3154791295528412,
+      "eval_runtime": 19.2866,
+      "eval_samples_per_second": 51.85,
+      "eval_steps_per_second": 0.83,
+      "step": 1240
+    },
+    {
+      "epoch": 1.03363412633306,
+      "grad_norm": 0.3005710542201996,
+      "learning_rate": 5.58573172400953e-06,
+      "loss": 0.3243,
+      "step": 1260
+    },
+    {
+      "epoch": 1.03363412633306,
+      "eval_loss": 0.3151017725467682,
+      "eval_runtime": 19.3053,
+      "eval_samples_per_second": 51.799,
+      "eval_steps_per_second": 0.829,
+      "step": 1260
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "grad_norm": 0.3207043409347534,
+      "learning_rate": 5.443306715202686e-06,
+      "loss": 0.3228,
+      "step": 1280
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "eval_loss": 0.3146088719367981,
+      "eval_runtime": 19.317,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 1280
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.27647730708122253,
+      "learning_rate": 5.300518158932815e-06,
+      "loss": 0.3156,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.31434598565101624,
+      "eval_runtime": 19.3417,
+      "eval_samples_per_second": 51.702,
+      "eval_steps_per_second": 0.827,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "grad_norm": 0.34843432903289795,
+      "learning_rate": 5.157483153397626e-06,
+      "loss": 0.3125,
+      "step": 1320
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "eval_loss": 0.31402087211608887,
+      "eval_runtime": 19.3303,
+      "eval_samples_per_second": 51.732,
+      "eval_steps_per_second": 0.828,
+      "step": 1320
+    },
+    {
+      "epoch": 1.099261689909762,
+      "grad_norm": 0.29794737696647644,
+      "learning_rate": 5.014318998903207e-06,
+      "loss": 0.3234,
+      "step": 1340
+    },
+    {
+      "epoch": 1.099261689909762,
+      "eval_loss": 0.31365808844566345,
+      "eval_runtime": 19.324,
+      "eval_samples_per_second": 51.749,
+      "eval_steps_per_second": 0.828,
+      "step": 1340
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "grad_norm": 0.3145115077495575,
+      "learning_rate": 4.871143101668276e-06,
+      "loss": 0.3254,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "eval_loss": 0.3132895827293396,
+      "eval_runtime": 19.3427,
+      "eval_samples_per_second": 51.699,
+      "eval_steps_per_second": 0.827,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.3209640085697174,
+      "learning_rate": 4.728072877541545e-06,
+      "loss": 0.3162,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "eval_loss": 0.3130640983581543,
+      "eval_runtime": 19.3451,
+      "eval_samples_per_second": 51.693,
+      "eval_steps_per_second": 0.827,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.2869022488594055,
+      "learning_rate": 4.5852256557112105e-06,
+      "loss": 0.328,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.3126784563064575,
+      "eval_runtime": 19.3541,
+      "eval_samples_per_second": 51.669,
+      "eval_steps_per_second": 0.827,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "grad_norm": 0.27980753779411316,
+      "learning_rate": 4.442718582485495e-06,
+      "loss": 0.3176,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "eval_loss": 0.3125167191028595,
+      "eval_runtime": 19.3258,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "grad_norm": 0.317171186208725,
+      "learning_rate": 4.300668525223178e-06,
+      "loss": 0.3057,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "eval_loss": 0.31224748492240906,
+      "eval_runtime": 19.3354,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.827,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "grad_norm": 0.29117709398269653,
+      "learning_rate": 4.1591919764928805e-06,
+      "loss": 0.3256,
+      "step": 1460
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "eval_loss": 0.3119552433490753,
+      "eval_runtime": 19.3392,
+      "eval_samples_per_second": 51.708,
+      "eval_steps_per_second": 0.827,
+      "step": 1460
+    },
+    {
+      "epoch": 1.214109926168991,
+      "grad_norm": 0.27612075209617615,
+      "learning_rate": 4.018404958539706e-06,
+      "loss": 0.3235,
+      "step": 1480
+    },
+    {
+      "epoch": 1.214109926168991,
+      "eval_loss": 0.3116450905799866,
+      "eval_runtime": 19.3362,
+      "eval_samples_per_second": 51.716,
+      "eval_steps_per_second": 0.827,
+      "step": 1480
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.3429708778858185,
+      "learning_rate": 3.8784229281375964e-06,
+      "loss": 0.3209,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.3114907145500183,
+      "eval_runtime": 19.3439,
+      "eval_samples_per_second": 51.696,
+      "eval_steps_per_second": 0.827,
+      "step": 1500
+    },
+    {
+      "epoch": 1.246923707957342,
+      "grad_norm": 0.33991965651512146,
+      "learning_rate": 3.7393606819054123e-06,
+      "loss": 0.3265,
+      "step": 1520
+    },
+    {
+      "epoch": 1.246923707957342,
+      "eval_loss": 0.31118032336235046,
+      "eval_runtime": 19.3512,
+      "eval_samples_per_second": 51.676,
+      "eval_steps_per_second": 0.827,
+      "step": 1520
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "grad_norm": 0.2624008059501648,
+      "learning_rate": 3.6013322621643855e-06,
+      "loss": 0.312,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "eval_loss": 0.31103944778442383,
+      "eval_runtime": 19.319,
+      "eval_samples_per_second": 51.762,
+      "eval_steps_per_second": 0.828,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "grad_norm": 0.28790125250816345,
+      "learning_rate": 3.4644508634141756e-06,
+      "loss": 0.3219,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "eval_loss": 0.3108413815498352,
+      "eval_runtime": 19.3152,
+      "eval_samples_per_second": 51.773,
+      "eval_steps_per_second": 0.828,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "grad_norm": 0.32741355895996094,
+      "learning_rate": 3.32882873950419e-06,
+      "loss": 0.3185,
+      "step": 1580
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "eval_loss": 0.3106067478656769,
+      "eval_runtime": 19.318,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 1580
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.2802814245223999,
+      "learning_rate": 3.1945771115763335e-06,
+      "loss": 0.3157,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.31043756008148193,
+      "eval_runtime": 19.3353,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.828,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "grad_norm": 0.30865079164505005,
+      "learning_rate": 3.0618060768546445e-06,
+      "loss": 0.3162,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "eval_loss": 0.31036943197250366,
+      "eval_runtime": 19.3296,
+      "eval_samples_per_second": 51.734,
+      "eval_steps_per_second": 0.828,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "grad_norm": 0.3288448452949524,
+      "learning_rate": 2.930624518356633e-06,
+      "loss": 0.3182,
+      "step": 1640
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "eval_loss": 0.3100779056549072,
+      "eval_runtime": 19.3281,
+      "eval_samples_per_second": 51.738,
+      "eval_steps_per_second": 0.828,
+      "step": 1640
+    },
+    {
+      "epoch": 1.361771944216571,
+      "grad_norm": 0.3578881621360779,
+      "learning_rate": 2.801140015600392e-06,
+      "loss": 0.3052,
+      "step": 1660
+    },
+    {
+      "epoch": 1.361771944216571,
+      "eval_loss": 0.310004323720932,
+      "eval_runtime": 19.3388,
+      "eval_samples_per_second": 51.709,
+      "eval_steps_per_second": 0.827,
+      "step": 1660
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "grad_norm": 0.2946149706840515,
+      "learning_rate": 2.6734587563806615e-06,
+      "loss": 0.3126,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "eval_loss": 0.3097366690635681,
+      "eval_runtime": 19.3245,
+      "eval_samples_per_second": 51.748,
+      "eval_steps_per_second": 0.828,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.29855024814605713,
+      "learning_rate": 2.5476854496862058e-06,
+      "loss": 0.3168,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.3095654249191284,
+      "eval_runtime": 19.3409,
+      "eval_samples_per_second": 51.704,
+      "eval_steps_per_second": 0.827,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "grad_norm": 0.3168609142303467,
+      "learning_rate": 2.4239232398299804e-06,
+      "loss": 0.3304,
+      "step": 1720
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "eval_loss": 0.3095927834510803,
+      "eval_runtime": 19.3354,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.827,
+      "step": 1720
+    },
+    {
+      "epoch": 1.427399507793273,
+      "grad_norm": 0.32232147455215454,
+      "learning_rate": 2.3022736218624048e-06,
+      "loss": 0.3297,
+      "step": 1740
+    },
+    {
+      "epoch": 1.427399507793273,
+      "eval_loss": 0.3092802166938782,
+      "eval_runtime": 19.338,
+      "eval_samples_per_second": 51.712,
+      "eval_steps_per_second": 0.827,
+      "step": 1740
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "grad_norm": 0.2926480770111084,
+      "learning_rate": 2.1828363583371975e-06,
+      "loss": 0.3219,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "eval_loss": 0.30907222628593445,
+      "eval_runtime": 19.3488,
+      "eval_samples_per_second": 51.683,
+      "eval_steps_per_second": 0.827,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "grad_norm": 0.3070685565471649,
+      "learning_rate": 2.0657093974979995e-06,
+      "loss": 0.3129,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "eval_loss": 0.30910417437553406,
+      "eval_runtime": 19.3537,
+      "eval_samples_per_second": 51.67,
+      "eval_steps_per_second": 0.827,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.3446504771709442,
+      "learning_rate": 1.950988792952846e-06,
+      "loss": 0.3255,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.30904003977775574,
+      "eval_runtime": 19.3161,
+      "eval_samples_per_second": 51.77,
+      "eval_steps_per_second": 0.828,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "grad_norm": 0.3230670094490051,
+      "learning_rate": 1.8387686249024456e-06,
+      "loss": 0.3065,
+      "step": 1820
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "eval_loss": 0.3087674677371979,
+      "eval_runtime": 19.3247,
+      "eval_samples_per_second": 51.747,
+      "eval_steps_per_second": 0.828,
+      "step": 1820
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.30200743675231934,
+      "learning_rate": 1.729140922986764e-06,
+      "loss": 0.3267,
+      "step": 1840
+    },
+    {
+      "epoch": 1.509433962264151,
+      "eval_loss": 0.308708131313324,
+      "eval_runtime": 19.3207,
+      "eval_samples_per_second": 51.758,
+      "eval_steps_per_second": 0.828,
+      "step": 1840
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "grad_norm": 0.28980085253715515,
+      "learning_rate": 1.622195590813261e-06,
+      "loss": 0.3194,
+      "step": 1860
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "eval_loss": 0.3086763918399811,
+      "eval_runtime": 19.3342,
+      "eval_samples_per_second": 51.722,
+      "eval_steps_per_second": 0.828,
+      "step": 1860
+    },
+    {
+      "epoch": 1.542247744052502,
+      "grad_norm": 0.34729528427124023,
+      "learning_rate": 1.5180203322286468e-06,
+      "loss": 0.3124,
+      "step": 1880
+    },
+    {
+      "epoch": 1.542247744052502,
+      "eval_loss": 0.3084729015827179,
+      "eval_runtime": 19.338,
+      "eval_samples_per_second": 51.712,
+      "eval_steps_per_second": 0.827,
+      "step": 1880
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.2892967164516449,
+      "learning_rate": 1.4167005793946036e-06,
+      "loss": 0.3162,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.30849403142929077,
+      "eval_runtime": 19.3372,
+      "eval_samples_per_second": 51.714,
+      "eval_steps_per_second": 0.827,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "grad_norm": 0.33552056550979614,
+      "learning_rate": 1.3183194227264894e-06,
+      "loss": 0.3203,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "eval_loss": 0.3084371089935303,
+      "eval_runtime": 19.326,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "grad_norm": 0.29354310035705566,
+      "learning_rate": 1.2229575427524576e-06,
+      "loss": 0.319,
+      "step": 1940
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "eval_loss": 0.30841460824012756,
+      "eval_runtime": 19.3405,
+      "eval_samples_per_second": 51.705,
+      "eval_steps_per_second": 0.827,
+      "step": 1940
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "grad_norm": 0.3153488039970398,
+      "learning_rate": 1.1306931439488777e-06,
+      "loss": 0.3194,
+      "step": 1960
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "eval_loss": 0.3082321882247925,
+      "eval_runtime": 19.3386,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 1960
+    },
+    {
+      "epoch": 1.62428219852338,
+      "grad_norm": 0.3409827947616577,
+      "learning_rate": 1.0416018906063235e-06,
+      "loss": 0.3189,
+      "step": 1980
+    },
+    {
+      "epoch": 1.62428219852338,
+      "eval_loss": 0.3081977069377899,
+      "eval_runtime": 19.3239,
+      "eval_samples_per_second": 51.749,
+      "eval_steps_per_second": 0.828,
+      "step": 1980
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.3304727375507355,
+      "learning_rate": 9.557568447787201e-07,
+      "loss": 0.3237,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.30818596482276917,
+      "eval_runtime": 19.322,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "grad_norm": 0.29918399453163147,
+      "learning_rate": 8.732284063665281e-07,
+      "loss": 0.3077,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "eval_loss": 0.3081939220428467,
+      "eval_runtime": 19.2847,
+      "eval_samples_per_second": 51.854,
+      "eval_steps_per_second": 0.83,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "grad_norm": 0.3122715651988983,
+      "learning_rate": 7.940842553831168e-07,
+      "loss": 0.3085,
+      "step": 2040
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "eval_loss": 0.3080688416957855,
+      "eval_runtime": 19.3041,
+      "eval_samples_per_second": 51.803,
+      "eval_steps_per_second": 0.829,
+      "step": 2040
+    },
+    {
+      "epoch": 1.689909762100082,
+      "grad_norm": 0.3880915641784668,
+      "learning_rate": 7.183892964516697e-07,
+      "loss": 0.3234,
+      "step": 2060
+    },
+    {
+      "epoch": 1.689909762100082,
+      "eval_loss": 0.308072566986084,
+      "eval_runtime": 19.3261,
+      "eval_samples_per_second": 51.743,
+      "eval_steps_per_second": 0.828,
+      "step": 2060
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "grad_norm": 0.32489344477653503,
+      "learning_rate": 6.462056055781157e-07,
+      "loss": 0.3119,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "eval_loss": 0.30802538990974426,
+      "eval_runtime": 19.3351,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.828,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.3166012167930603,
+      "learning_rate": 5.775923792437865e-07,
+      "loss": 0.3094,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.30788859724998474,
+      "eval_runtime": 19.3268,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.3155883252620697,
+      "learning_rate": 5.126058858594856e-07,
+      "loss": 0.3094,
+      "step": 2120
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_loss": 0.3079642355442047,
+      "eval_runtime": 19.3377,
+      "eval_samples_per_second": 51.712,
+      "eval_steps_per_second": 0.827,
+      "step": 2120
+    },
+    {
+      "epoch": 1.755537325676784,
+      "grad_norm": 0.31531599164009094,
+      "learning_rate": 4.512994196208359e-07,
+      "loss": 0.307,
+      "step": 2140
+    },
+    {
+      "epoch": 1.755537325676784,
+      "eval_loss": 0.3078817129135132,
+      "eval_runtime": 19.3385,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 2140
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "grad_norm": 0.3274330496788025,
+      "learning_rate": 3.937232568027166e-07,
+      "loss": 0.3089,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "eval_loss": 0.30784398317337036,
+      "eval_runtime": 19.3101,
+      "eval_samples_per_second": 51.786,
+      "eval_steps_per_second": 0.829,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "grad_norm": 0.2670111358165741,
+      "learning_rate": 3.3992461452863056e-07,
+      "loss": 0.3109,
+      "step": 2180
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "eval_loss": 0.30787619948387146,
+      "eval_runtime": 19.3456,
+      "eval_samples_per_second": 51.691,
+      "eval_steps_per_second": 0.827,
+      "step": 2180
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.4188634753227234,
+      "learning_rate": 2.899476120488476e-07,
+      "loss": 0.3188,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.30780228972435,
+      "eval_runtime": 19.3361,
+      "eval_samples_per_second": 51.717,
+      "eval_steps_per_second": 0.827,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "grad_norm": 0.36053863167762756,
+      "learning_rate": 2.4383323455902995e-07,
+      "loss": 0.3052,
+      "step": 2220
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "eval_loss": 0.30786797404289246,
+      "eval_runtime": 19.3329,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 2220
+    },
+    {
+      "epoch": 1.837571780147662,
+      "grad_norm": 0.3387124240398407,
+      "learning_rate": 2.0161929958905146e-07,
+      "loss": 0.3166,
+      "step": 2240
+    },
+    {
+      "epoch": 1.837571780147662,
+      "eval_loss": 0.30779576301574707,
+      "eval_runtime": 19.3241,
+      "eval_samples_per_second": 51.749,
+      "eval_steps_per_second": 0.828,
+      "step": 2240
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "grad_norm": 0.29246774315834045,
+      "learning_rate": 1.633404259895538e-07,
+      "loss": 0.308,
+      "step": 2260
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "eval_loss": 0.30778998136520386,
+      "eval_runtime": 19.3245,
+      "eval_samples_per_second": 51.748,
+      "eval_steps_per_second": 0.828,
+      "step": 2260
+    },
+    {
+      "epoch": 1.870385561936013,
+      "grad_norm": 0.3102712333202362,
+      "learning_rate": 1.290280055416865e-07,
+      "loss": 0.3155,
+      "step": 2280
+    },
+    {
+      "epoch": 1.870385561936013,
+      "eval_loss": 0.30781853199005127,
+      "eval_runtime": 19.3385,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 2280
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.3679887354373932,
+      "learning_rate": 9.871017721329201e-08,
+      "loss": 0.3253,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.3077756464481354,
+      "eval_runtime": 19.322,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 2300
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "grad_norm": 0.2970399558544159,
+      "learning_rate": 7.241180408267545e-08,
+      "loss": 0.3181,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "eval_loss": 0.307772696018219,
+      "eval_runtime": 19.3529,
+      "eval_samples_per_second": 51.672,
+      "eval_steps_per_second": 0.827,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "grad_norm": 0.30068063735961914,
+      "learning_rate": 5.015445294886234e-08,
+      "loss": 0.3124,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "eval_loss": 0.30776679515838623,
+      "eval_runtime": 19.3314,
+      "eval_samples_per_second": 51.729,
+      "eval_steps_per_second": 0.828,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "grad_norm": 0.34388095140457153,
+      "learning_rate": 3.195637664507367e-08,
+      "loss": 0.3147,
+      "step": 2360
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "eval_loss": 0.30780360102653503,
+      "eval_runtime": 19.3202,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 2360
+    },
+    {
+      "epoch": 1.952420016406891,
+      "grad_norm": 0.3172294497489929,
+      "learning_rate": 1.7832499069923014e-08,
+      "loss": 0.329,
+      "step": 2380
+    },
+    {
+      "epoch": 1.952420016406891,
+      "eval_loss": 0.30772775411605835,
+      "eval_runtime": 19.3329,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 2380
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.3001149892807007,
+      "learning_rate": 7.794402948607672e-09,
+      "loss": 0.3248,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.30774176120758057,
+      "eval_runtime": 19.3388,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 2400
+    },
+    {
+      "epoch": 1.985233798195242,
+      "grad_norm": 0.3115482032299042,
+      "learning_rate": 1.8503203341363463e-09,
+      "loss": 0.3069,
+      "step": 2420
+    },
+    {
+      "epoch": 1.985233798195242,
+      "eval_loss": 0.30776721239089966,
+      "eval_runtime": 19.3383,
+      "eval_samples_per_second": 51.711,
+      "eval_steps_per_second": 0.827,
+      "step": 2420
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.36021078112088234,
+      "train_runtime": 4858.8972,
+      "train_samples_per_second": 16.053,
+      "train_steps_per_second": 0.502
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exps2/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps2/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exps2/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exps2/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exps2/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a700b89db6a2e6d387af73dfd853aab66bde44288aa5d8141708f03f9d466f4
+size 6481

nl_tasks/run_all/run_exps2/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps2/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3384d5f1702c1e7eef4f367342ea9424cb6356dfa35784810e7e8db0eda1aad
+size 33602659

nl_tasks/run_all/run_exps2/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1858 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 20,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016406890894175553,
+      "grad_norm": 0.05100574344396591,
+      "learning_rate": 1.557377049180328e-06,
+      "loss": 0.7463,
+      "step": 20
+    },
+    {
+      "epoch": 0.016406890894175553,
+      "eval_loss": 0.7439825534820557,
+      "eval_runtime": 19.7893,
+      "eval_samples_per_second": 50.532,
+      "eval_steps_per_second": 0.809,
+      "step": 20
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "grad_norm": 0.08355569839477539,
+      "learning_rate": 3.1967213114754105e-06,
+      "loss": 0.758,
+      "step": 40
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "eval_loss": 0.740388035774231,
+      "eval_runtime": 19.272,
+      "eval_samples_per_second": 51.889,
+      "eval_steps_per_second": 0.83,
+      "step": 40
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "grad_norm": 0.15142929553985596,
+      "learning_rate": 4.836065573770492e-06,
+      "loss": 0.7412,
+      "step": 60
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "eval_loss": 0.7260333299636841,
+      "eval_runtime": 19.3339,
+      "eval_samples_per_second": 51.723,
+      "eval_steps_per_second": 0.828,
+      "step": 60
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "grad_norm": 0.2455596625804901,
+      "learning_rate": 6.475409836065575e-06,
+      "loss": 0.713,
+      "step": 80
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "eval_loss": 0.6844377517700195,
+      "eval_runtime": 19.3182,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 80
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.29648932814598083,
+      "learning_rate": 8.114754098360657e-06,
+      "loss": 0.6573,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.5912646651268005,
+      "eval_runtime": 19.3104,
+      "eval_samples_per_second": 51.786,
+      "eval_steps_per_second": 0.829,
+      "step": 100
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "grad_norm": 0.2266065627336502,
+      "learning_rate": 9.754098360655738e-06,
+      "loss": 0.5493,
+      "step": 120
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "eval_loss": 0.5015877485275269,
+      "eval_runtime": 19.3245,
+      "eval_samples_per_second": 51.748,
+      "eval_steps_per_second": 0.828,
+      "step": 120
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "grad_norm": 0.18106642365455627,
+      "learning_rate": 1.1393442622950821e-05,
+      "loss": 0.4788,
+      "step": 140
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "eval_loss": 0.4532758295536041,
+      "eval_runtime": 19.327,
+      "eval_samples_per_second": 51.741,
+      "eval_steps_per_second": 0.828,
+      "step": 140
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "grad_norm": 0.1644924432039261,
+      "learning_rate": 1.3032786885245904e-05,
+      "loss": 0.4416,
+      "step": 160
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "eval_loss": 0.43009692430496216,
+      "eval_runtime": 19.3273,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 160
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "grad_norm": 0.16431841254234314,
+      "learning_rate": 1.4672131147540984e-05,
+      "loss": 0.4309,
+      "step": 180
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "eval_loss": 0.41236767172813416,
+      "eval_runtime": 19.3211,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 180
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.1948602944612503,
+      "learning_rate": 1.6311475409836068e-05,
+      "loss": 0.4149,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.39788001775741577,
+      "eval_runtime": 19.3156,
+      "eval_samples_per_second": 51.772,
+      "eval_steps_per_second": 0.828,
+      "step": 200
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "grad_norm": 0.2017097920179367,
+      "learning_rate": 1.795081967213115e-05,
+      "loss": 0.4121,
+      "step": 220
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "eval_loss": 0.38638782501220703,
+      "eval_runtime": 19.3233,
+      "eval_samples_per_second": 51.751,
+      "eval_steps_per_second": 0.828,
+      "step": 220
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "grad_norm": 0.20454800128936768,
+      "learning_rate": 1.9590163934426232e-05,
+      "loss": 0.3946,
+      "step": 240
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "eval_loss": 0.376147985458374,
+      "eval_runtime": 19.3187,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 240
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "grad_norm": 0.2339833378791809,
+      "learning_rate": 1.999769345291104e-05,
+      "loss": 0.3825,
+      "step": 260
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "eval_loss": 0.3673856854438782,
+      "eval_runtime": 19.3273,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 260
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "grad_norm": 0.19959838688373566,
+      "learning_rate": 1.9987444278046718e-05,
+      "loss": 0.3799,
+      "step": 280
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "eval_loss": 0.3609837293624878,
+      "eval_runtime": 19.3276,
+      "eval_samples_per_second": 51.739,
+      "eval_steps_per_second": 0.828,
+      "step": 280
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.2362460196018219,
+      "learning_rate": 1.9969004588793865e-05,
+      "loss": 0.3644,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.35560137033462524,
+      "eval_runtime": 19.3284,
+      "eval_samples_per_second": 51.737,
+      "eval_steps_per_second": 0.828,
+      "step": 300
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "grad_norm": 0.21437275409698486,
+      "learning_rate": 1.9942389507193297e-05,
+      "loss": 0.3543,
+      "step": 320
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "eval_loss": 0.35107719898223877,
+      "eval_runtime": 19.3428,
+      "eval_samples_per_second": 51.699,
+      "eval_steps_per_second": 0.827,
+      "step": 320
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "grad_norm": 0.2086835503578186,
+      "learning_rate": 1.990762085977069e-05,
+      "loss": 0.3661,
+      "step": 340
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "eval_loss": 0.3464248478412628,
+      "eval_runtime": 19.327,
+      "eval_samples_per_second": 51.741,
+      "eval_steps_per_second": 0.828,
+      "step": 340
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "grad_norm": 0.2647511959075928,
+      "learning_rate": 1.9864727159637e-05,
+      "loss": 0.3441,
+      "step": 360
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "eval_loss": 0.3429518938064575,
+      "eval_runtime": 19.3341,
+      "eval_samples_per_second": 51.722,
+      "eval_steps_per_second": 0.828,
+      "step": 360
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "grad_norm": 0.2909955382347107,
+      "learning_rate": 1.9813743583105444e-05,
+      "loss": 0.349,
+      "step": 380
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "eval_loss": 0.3390914797782898,
+      "eval_runtime": 19.3218,
+      "eval_samples_per_second": 51.755,
+      "eval_steps_per_second": 0.828,
+      "step": 380
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.3091684579849243,
+      "learning_rate": 1.9754711940844048e-05,
+      "loss": 0.358,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.3364439010620117,
+      "eval_runtime": 19.2984,
+      "eval_samples_per_second": 51.818,
+      "eval_steps_per_second": 0.829,
+      "step": 400
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "grad_norm": 0.2638132870197296,
+      "learning_rate": 1.9687680643587515e-05,
+      "loss": 0.3504,
+      "step": 420
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "eval_loss": 0.33499646186828613,
+      "eval_runtime": 19.3252,
+      "eval_samples_per_second": 51.746,
+      "eval_steps_per_second": 0.828,
+      "step": 420
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "grad_norm": 0.2888047397136688,
+      "learning_rate": 1.9612704662436506e-05,
+      "loss": 0.3491,
+      "step": 440
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "eval_loss": 0.33223557472229004,
+      "eval_runtime": 19.3423,
+      "eval_samples_per_second": 51.7,
+      "eval_steps_per_second": 0.827,
+      "step": 440
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.20659048855304718,
+      "learning_rate": 1.952984548377685e-05,
+      "loss": 0.3492,
+      "step": 460
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "eval_loss": 0.33008918166160583,
+      "eval_runtime": 19.3021,
+      "eval_samples_per_second": 51.808,
+      "eval_steps_per_second": 0.829,
+      "step": 460
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "grad_norm": 0.2820521295070648,
+      "learning_rate": 1.943917105885575e-05,
+      "loss": 0.339,
+      "step": 480
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "eval_loss": 0.3275497257709503,
+      "eval_runtime": 19.3336,
+      "eval_samples_per_second": 51.723,
+      "eval_steps_per_second": 0.828,
+      "step": 480
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.24061936140060425,
+      "learning_rate": 1.9340755748056236e-05,
+      "loss": 0.3337,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.3265324831008911,
+      "eval_runtime": 19.3321,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 500
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "grad_norm": 0.3097938299179077,
+      "learning_rate": 1.9234680259915613e-05,
+      "loss": 0.3414,
+      "step": 520
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "eval_loss": 0.3249492049217224,
+      "eval_runtime": 19.3003,
+      "eval_samples_per_second": 51.813,
+      "eval_steps_per_second": 0.829,
+      "step": 520
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "grad_norm": 0.3457156717777252,
+      "learning_rate": 1.9121031584937935e-05,
+      "loss": 0.3324,
+      "step": 540
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "eval_loss": 0.323433518409729,
+      "eval_runtime": 19.3078,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 540
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "grad_norm": 0.2805982232093811,
+      "learning_rate": 1.8999902924254708e-05,
+      "loss": 0.3307,
+      "step": 560
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "eval_loss": 0.3207704722881317,
+      "eval_runtime": 19.317,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 560
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "grad_norm": 0.28764742612838745,
+      "learning_rate": 1.887139361319243e-05,
+      "loss": 0.3264,
+      "step": 580
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "eval_loss": 0.31976696848869324,
+      "eval_runtime": 19.3171,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 580
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.29856017231941223,
+      "learning_rate": 1.873560903980955e-05,
+      "loss": 0.333,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.3188488483428955,
+      "eval_runtime": 19.3294,
+      "eval_samples_per_second": 51.735,
+      "eval_steps_per_second": 0.828,
+      "step": 600
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "grad_norm": 0.2475677728652954,
+      "learning_rate": 1.859266055846971e-05,
+      "loss": 0.3162,
+      "step": 620
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "eval_loss": 0.3177519142627716,
+      "eval_runtime": 19.3138,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 620
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "grad_norm": 0.31477370858192444,
+      "learning_rate": 1.8442665398522147e-05,
+      "loss": 0.3206,
+      "step": 640
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "eval_loss": 0.31575125455856323,
+      "eval_runtime": 19.3257,
+      "eval_samples_per_second": 51.745,
+      "eval_steps_per_second": 0.828,
+      "step": 640
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "grad_norm": 0.3218989074230194,
+      "learning_rate": 1.828574656816411e-05,
+      "loss": 0.3212,
+      "step": 660
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "eval_loss": 0.3145419657230377,
+      "eval_runtime": 19.3204,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 660
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "grad_norm": 0.2936188280582428,
+      "learning_rate": 1.8122032753564157e-05,
+      "loss": 0.3181,
+      "step": 680
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "eval_loss": 0.3138105273246765,
+      "eval_runtime": 19.317,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 680
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.3014962077140808,
+      "learning_rate": 1.795165821332908e-05,
+      "loss": 0.3159,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.31264302134513855,
+      "eval_runtime": 19.3247,
+      "eval_samples_per_second": 51.747,
+      "eval_steps_per_second": 0.828,
+      "step": 700
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "grad_norm": 0.31352338194847107,
+      "learning_rate": 1.777476266840092e-05,
+      "loss": 0.3124,
+      "step": 720
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "eval_loss": 0.31203383207321167,
+      "eval_runtime": 19.321,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 720
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "grad_norm": 0.27813902497291565,
+      "learning_rate": 1.7591491187474508e-05,
+      "loss": 0.3151,
+      "step": 740
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "eval_loss": 0.31110283732414246,
+      "eval_runtime": 19.307,
+      "eval_samples_per_second": 51.795,
+      "eval_steps_per_second": 0.829,
+      "step": 740
+    },
+    {
+      "epoch": 0.623461853978671,
+      "grad_norm": 0.3086440861225128,
+      "learning_rate": 1.740199406802933e-05,
+      "loss": 0.3222,
+      "step": 760
+    },
+    {
+      "epoch": 0.623461853978671,
+      "eval_loss": 0.3100873827934265,
+      "eval_runtime": 19.3301,
+      "eval_samples_per_second": 51.733,
+      "eval_steps_per_second": 0.828,
+      "step": 760
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "grad_norm": 0.32539573311805725,
+      "learning_rate": 1.7206426713073416e-05,
+      "loss": 0.3194,
+      "step": 780
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "eval_loss": 0.3095526397228241,
+      "eval_runtime": 19.3423,
+      "eval_samples_per_second": 51.7,
+      "eval_steps_per_second": 0.827,
+      "step": 780
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.31149205565452576,
+      "learning_rate": 1.7004949503700286e-05,
+      "loss": 0.3198,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.30877068638801575,
+      "eval_runtime": 19.3218,
+      "eval_samples_per_second": 51.755,
+      "eval_steps_per_second": 0.828,
+      "step": 800
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "grad_norm": 0.29149356484413147,
+      "learning_rate": 1.6797727667563414e-05,
+      "loss": 0.3108,
+      "step": 820
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "eval_loss": 0.30757883191108704,
+      "eval_runtime": 19.3266,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 820
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "grad_norm": 0.2758270800113678,
+      "learning_rate": 1.658493114337618e-05,
+      "loss": 0.3236,
+      "step": 840
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "eval_loss": 0.3069859743118286,
+      "eval_runtime": 19.3214,
+      "eval_samples_per_second": 51.756,
+      "eval_steps_per_second": 0.828,
+      "step": 840
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "grad_norm": 0.30308738350868225,
+      "learning_rate": 1.6366734441548314e-05,
+      "loss": 0.3286,
+      "step": 860
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "eval_loss": 0.30621635913848877,
+      "eval_runtime": 19.3452,
+      "eval_samples_per_second": 51.692,
+      "eval_steps_per_second": 0.827,
+      "step": 860
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "grad_norm": 0.27197226881980896,
+      "learning_rate": 1.6143316501073228e-05,
+      "loss": 0.318,
+      "step": 880
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "eval_loss": 0.3056408762931824,
+      "eval_runtime": 19.3268,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 880
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.3094601035118103,
+      "learning_rate": 1.5914860542783523e-05,
+      "loss": 0.3109,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.30550602078437805,
+      "eval_runtime": 19.3088,
+      "eval_samples_per_second": 51.79,
+      "eval_steps_per_second": 0.829,
+      "step": 900
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.29856327176094055,
+      "learning_rate": 1.5681553919095025e-05,
+      "loss": 0.3149,
+      "step": 920
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "eval_loss": 0.30412110686302185,
+      "eval_runtime": 19.3166,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 920
+    },
+    {
+      "epoch": 0.771123872026251,
+      "grad_norm": 0.3012203276157379,
+      "learning_rate": 1.544358796036264e-05,
+      "loss": 0.295,
+      "step": 940
+    },
+    {
+      "epoch": 0.771123872026251,
+      "eval_loss": 0.30357825756073,
+      "eval_runtime": 19.339,
+      "eval_samples_per_second": 51.709,
+      "eval_steps_per_second": 0.827,
+      "step": 940
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "grad_norm": 0.32613876461982727,
+      "learning_rate": 1.5201157817973924e-05,
+      "loss": 0.3049,
+      "step": 960
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "eval_loss": 0.30287426710128784,
+      "eval_runtime": 19.3353,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.828,
+      "step": 960
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "grad_norm": 0.30854496359825134,
+      "learning_rate": 1.4954462304309114e-05,
+      "loss": 0.3154,
+      "step": 980
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "eval_loss": 0.30233636498451233,
+      "eval_runtime": 19.3322,
+      "eval_samples_per_second": 51.727,
+      "eval_steps_per_second": 0.828,
+      "step": 980
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.3212120532989502,
+      "learning_rate": 1.4703703729698861e-05,
+      "loss": 0.314,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.3019111454486847,
+      "eval_runtime": 19.3219,
+      "eval_samples_per_second": 51.755,
+      "eval_steps_per_second": 0.828,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "grad_norm": 0.3536788821220398,
+      "learning_rate": 1.4449087736513347e-05,
+      "loss": 0.3083,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "eval_loss": 0.30134984850883484,
+      "eval_runtime": 19.2784,
+      "eval_samples_per_second": 51.872,
+      "eval_steps_per_second": 0.83,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "grad_norm": 0.2920973300933838,
+      "learning_rate": 1.4190823130518867e-05,
+      "loss": 0.3031,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "eval_loss": 0.30034327507019043,
+      "eval_runtime": 19.2824,
+      "eval_samples_per_second": 51.861,
+      "eval_steps_per_second": 0.83,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.3366055190563202,
+      "learning_rate": 1.3929121709640144e-05,
+      "loss": 0.3061,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_loss": 0.3006821274757385,
+      "eval_runtime": 19.3095,
+      "eval_samples_per_second": 51.788,
+      "eval_steps_per_second": 0.829,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "grad_norm": 0.278680682182312,
+      "learning_rate": 1.3664198090268874e-05,
+      "loss": 0.3148,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "eval_loss": 0.3001416027545929,
+      "eval_runtime": 19.3334,
+      "eval_samples_per_second": 51.724,
+      "eval_steps_per_second": 0.828,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.304365336894989,
+      "learning_rate": 1.3396269531260868e-05,
+      "loss": 0.3034,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.29926252365112305,
+      "eval_runtime": 19.3347,
+      "eval_samples_per_second": 51.72,
+      "eval_steps_per_second": 0.828,
+      "step": 1100
+    },
+    {
+      "epoch": 0.918785890073831,
+      "grad_norm": 0.36314526200294495,
+      "learning_rate": 1.3125555755766173e-05,
+      "loss": 0.3033,
+      "step": 1120
+    },
+    {
+      "epoch": 0.918785890073831,
+      "eval_loss": 0.29901349544525146,
+      "eval_runtime": 19.3128,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "grad_norm": 0.3262890875339508,
+      "learning_rate": 1.2852278771038251e-05,
+      "loss": 0.3122,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "eval_loss": 0.29868951439857483,
+      "eval_runtime": 19.3329,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "grad_norm": 0.3285571336746216,
+      "learning_rate": 1.2576662686370056e-05,
+      "loss": 0.3222,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "eval_loss": 0.29814422130584717,
+      "eval_runtime": 19.3295,
+      "eval_samples_per_second": 51.734,
+      "eval_steps_per_second": 0.828,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "grad_norm": 0.35593438148498535,
+      "learning_rate": 1.22989335293062e-05,
+      "loss": 0.3022,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "eval_loss": 0.29777586460113525,
+      "eval_runtime": 19.3277,
+      "eval_samples_per_second": 51.739,
+      "eval_steps_per_second": 0.828,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.2741255462169647,
+      "learning_rate": 1.2019319060282065e-05,
+      "loss": 0.3111,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.29723304510116577,
+      "eval_runtime": 19.3222,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "grad_norm": 0.3063313961029053,
+      "learning_rate": 1.1738048585841742e-05,
+      "loss": 0.316,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "eval_loss": 0.2970496714115143,
+      "eval_runtime": 19.2701,
+      "eval_samples_per_second": 51.894,
+      "eval_steps_per_second": 0.83,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "grad_norm": 0.2891760766506195,
+      "learning_rate": 1.1455352770588096e-05,
+      "loss": 0.2946,
+      "step": 1240
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "eval_loss": 0.2964462637901306,
+      "eval_runtime": 19.3209,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 1240
+    },
+    {
+      "epoch": 1.03363412633306,
+      "grad_norm": 0.3218066096305847,
+      "learning_rate": 1.117146344801906e-05,
+      "loss": 0.3042,
+      "step": 1260
+    },
+    {
+      "epoch": 1.03363412633306,
+      "eval_loss": 0.29618626832962036,
+      "eval_runtime": 19.3158,
+      "eval_samples_per_second": 51.771,
+      "eval_steps_per_second": 0.828,
+      "step": 1260
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "grad_norm": 0.3612477481365204,
+      "learning_rate": 1.0886613430405371e-05,
+      "loss": 0.3016,
+      "step": 1280
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "eval_loss": 0.2955453395843506,
+      "eval_runtime": 19.3306,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 1280
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.3261948227882385,
+      "learning_rate": 1.060103631786563e-05,
+      "loss": 0.2961,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.2949953079223633,
+      "eval_runtime": 19.3501,
+      "eval_samples_per_second": 51.679,
+      "eval_steps_per_second": 0.827,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "grad_norm": 0.3773254454135895,
+      "learning_rate": 1.0314966306795251e-05,
+      "loss": 0.2926,
+      "step": 1320
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "eval_loss": 0.29533928632736206,
+      "eval_runtime": 19.3223,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 1320
+    },
+    {
+      "epoch": 1.099261689909762,
+      "grad_norm": 0.33832401037216187,
+      "learning_rate": 1.0028637997806415e-05,
+      "loss": 0.3034,
+      "step": 1340
+    },
+    {
+      "epoch": 1.099261689909762,
+      "eval_loss": 0.2946665585041046,
+      "eval_runtime": 19.3351,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.828,
+      "step": 1340
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "grad_norm": 0.33615320920944214,
+      "learning_rate": 9.742286203336552e-06,
+      "loss": 0.3049,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "eval_loss": 0.294543981552124,
+      "eval_runtime": 19.3314,
+      "eval_samples_per_second": 51.729,
+      "eval_steps_per_second": 0.828,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.3433164060115814,
+      "learning_rate": 9.45614575508309e-06,
+      "loss": 0.2964,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "eval_loss": 0.29447877407073975,
+      "eval_runtime": 19.3213,
+      "eval_samples_per_second": 51.756,
+      "eval_steps_per_second": 0.828,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.2896648645401001,
+      "learning_rate": 9.170451311422421e-06,
+      "loss": 0.3079,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.29404282569885254,
+      "eval_runtime": 19.3311,
+      "eval_samples_per_second": 51.73,
+      "eval_steps_per_second": 0.828,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "grad_norm": 0.29077446460723877,
+      "learning_rate": 8.88543716497099e-06,
+      "loss": 0.2964,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "eval_loss": 0.2939617931842804,
+      "eval_runtime": 19.3333,
+      "eval_samples_per_second": 51.724,
+      "eval_steps_per_second": 0.828,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "grad_norm": 0.3333583474159241,
+      "learning_rate": 8.601337050446356e-06,
+      "loss": 0.2858,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "eval_loss": 0.29347431659698486,
+      "eval_runtime": 19.3153,
+      "eval_samples_per_second": 51.772,
+      "eval_steps_per_second": 0.828,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "grad_norm": 0.3010202646255493,
+      "learning_rate": 8.318383952985761e-06,
+      "loss": 0.3053,
+      "step": 1460
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "eval_loss": 0.293270081281662,
+      "eval_runtime": 19.3493,
+      "eval_samples_per_second": 51.681,
+      "eval_steps_per_second": 0.827,
+      "step": 1460
+    },
+    {
+      "epoch": 1.214109926168991,
+      "grad_norm": 0.3123159408569336,
+      "learning_rate": 8.036809917079411e-06,
+      "loss": 0.3038,
+      "step": 1480
+    },
+    {
+      "epoch": 1.214109926168991,
+      "eval_loss": 0.293189138174057,
+      "eval_runtime": 19.3274,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 1480
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.36915215849876404,
+      "learning_rate": 7.756845856275193e-06,
+      "loss": 0.3006,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.2929602265357971,
+      "eval_runtime": 19.332,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 1500
+    },
+    {
+      "epoch": 1.246923707957342,
+      "grad_norm": 0.38524895906448364,
+      "learning_rate": 7.4787213638108246e-06,
+      "loss": 0.3051,
+      "step": 1520
+    },
+    {
+      "epoch": 1.246923707957342,
+      "eval_loss": 0.29255110025405884,
+      "eval_runtime": 19.3216,
+      "eval_samples_per_second": 51.756,
+      "eval_steps_per_second": 0.828,
+      "step": 1520
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "grad_norm": 0.28708815574645996,
+      "learning_rate": 7.202664524328771e-06,
+      "loss": 0.2923,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "eval_loss": 0.2923203408718109,
+      "eval_runtime": 19.3047,
+      "eval_samples_per_second": 51.801,
+      "eval_steps_per_second": 0.829,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "grad_norm": 0.32109561562538147,
+      "learning_rate": 6.928901726828351e-06,
+      "loss": 0.3018,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "eval_loss": 0.29232391715049744,
+      "eval_runtime": 19.3188,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "grad_norm": 0.34937840700149536,
+      "learning_rate": 6.65765747900838e-06,
+      "loss": 0.2982,
+      "step": 1580
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "eval_loss": 0.29210370779037476,
+      "eval_runtime": 19.33,
+      "eval_samples_per_second": 51.733,
+      "eval_steps_per_second": 0.828,
+      "step": 1580
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.3151737153530121,
+      "learning_rate": 6.389154223152667e-06,
+      "loss": 0.2964,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.2919021546840668,
+      "eval_runtime": 19.3268,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "grad_norm": 0.34189173579216003,
+      "learning_rate": 6.123612153709289e-06,
+      "loss": 0.2955,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "eval_loss": 0.29170525074005127,
+      "eval_runtime": 19.3259,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "grad_norm": 0.35429632663726807,
+      "learning_rate": 5.861249036713266e-06,
+      "loss": 0.2976,
+      "step": 1640
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "eval_loss": 0.29148247838020325,
+      "eval_runtime": 19.3225,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 1640
+    },
+    {
+      "epoch": 1.361771944216571,
+      "grad_norm": 0.3811974823474884,
+      "learning_rate": 5.602280031200784e-06,
+      "loss": 0.2859,
+      "step": 1660
+    },
+    {
+      "epoch": 1.361771944216571,
+      "eval_loss": 0.2912766635417938,
+      "eval_runtime": 19.3358,
+      "eval_samples_per_second": 51.718,
+      "eval_steps_per_second": 0.827,
+      "step": 1660
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "grad_norm": 0.30380526185035706,
+      "learning_rate": 5.346917512761323e-06,
+      "loss": 0.2921,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "eval_loss": 0.29110220074653625,
+      "eval_runtime": 19.3205,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.316942423582077,
+      "learning_rate": 5.0953708993724115e-06,
+      "loss": 0.2964,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.2907075881958008,
+      "eval_runtime": 19.3166,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "grad_norm": 0.3441399335861206,
+      "learning_rate": 4.847846479659961e-06,
+      "loss": 0.3098,
+      "step": 1720
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "eval_loss": 0.2906677722930908,
+      "eval_runtime": 19.3333,
+      "eval_samples_per_second": 51.724,
+      "eval_steps_per_second": 0.828,
+      "step": 1720
+    },
+    {
+      "epoch": 1.427399507793273,
+      "grad_norm": 0.33759692311286926,
+      "learning_rate": 4.6045472437248096e-06,
+      "loss": 0.3088,
+      "step": 1740
+    },
+    {
+      "epoch": 1.427399507793273,
+      "eval_loss": 0.2904299795627594,
+      "eval_runtime": 19.3386,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 1740
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "grad_norm": 0.3211503028869629,
+      "learning_rate": 4.365672716674395e-06,
+      "loss": 0.3014,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "eval_loss": 0.29022130370140076,
+      "eval_runtime": 19.3252,
+      "eval_samples_per_second": 51.746,
+      "eval_steps_per_second": 0.828,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "grad_norm": 0.3411578834056854,
+      "learning_rate": 4.131418794995999e-06,
+      "loss": 0.2932,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "eval_loss": 0.2903834283351898,
+      "eval_runtime": 19.3225,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.3540644943714142,
+      "learning_rate": 3.901977585905692e-06,
+      "loss": 0.3052,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.29012495279312134,
+      "eval_runtime": 19.3397,
+      "eval_samples_per_second": 51.707,
+      "eval_steps_per_second": 0.827,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "grad_norm": 0.34099695086479187,
+      "learning_rate": 3.6775372498048912e-06,
+      "loss": 0.2875,
+      "step": 1820
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "eval_loss": 0.28988543152809143,
+      "eval_runtime": 19.3381,
+      "eval_samples_per_second": 51.711,
+      "eval_steps_per_second": 0.827,
+      "step": 1820
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.32933956384658813,
+      "learning_rate": 3.458281845973528e-06,
+      "loss": 0.3053,
+      "step": 1840
+    },
+    {
+      "epoch": 1.509433962264151,
+      "eval_loss": 0.2898189127445221,
+      "eval_runtime": 19.3309,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 1840
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "grad_norm": 0.30174052715301514,
+      "learning_rate": 3.244391181626522e-06,
+      "loss": 0.2988,
+      "step": 1860
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "eval_loss": 0.28971782326698303,
+      "eval_runtime": 19.3408,
+      "eval_samples_per_second": 51.704,
+      "eval_steps_per_second": 0.827,
+      "step": 1860
+    },
+    {
+      "epoch": 1.542247744052502,
+      "grad_norm": 0.3678150177001953,
+      "learning_rate": 3.0360406644572935e-06,
+      "loss": 0.2923,
+      "step": 1880
+    },
+    {
+      "epoch": 1.542247744052502,
+      "eval_loss": 0.28958600759506226,
+      "eval_runtime": 19.3299,
+      "eval_samples_per_second": 51.733,
+      "eval_steps_per_second": 0.828,
+      "step": 1880
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.31850239634513855,
+      "learning_rate": 2.8334011587892073e-06,
+      "loss": 0.2956,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.2897399961948395,
+      "eval_runtime": 19.3388,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "grad_norm": 0.3421303927898407,
+      "learning_rate": 2.636638845452979e-06,
+      "loss": 0.3,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "eval_loss": 0.2895210087299347,
+      "eval_runtime": 19.3352,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.828,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "grad_norm": 0.32379043102264404,
+      "learning_rate": 2.4459150855049152e-06,
+      "loss": 0.2991,
+      "step": 1940
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "eval_loss": 0.28945392370224,
+      "eval_runtime": 19.3341,
+      "eval_samples_per_second": 51.722,
+      "eval_steps_per_second": 0.828,
+      "step": 1940
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "grad_norm": 0.3421061038970947,
+      "learning_rate": 2.2613862878977554e-06,
+      "loss": 0.2992,
+      "step": 1960
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "eval_loss": 0.2892807722091675,
+      "eval_runtime": 19.3293,
+      "eval_samples_per_second": 51.735,
+      "eval_steps_per_second": 0.828,
+      "step": 1960
+    },
+    {
+      "epoch": 1.62428219852338,
+      "grad_norm": 0.3523494303226471,
+      "learning_rate": 2.083203781212647e-06,
+      "loss": 0.2987,
+      "step": 1980
+    },
+    {
+      "epoch": 1.62428219852338,
+      "eval_loss": 0.28924793004989624,
+      "eval_runtime": 19.3139,
+      "eval_samples_per_second": 51.776,
+      "eval_steps_per_second": 0.828,
+      "step": 1980
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.3594619333744049,
+      "learning_rate": 1.9115136895574403e-06,
+      "loss": 0.3028,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.2891727387905121,
+      "eval_runtime": 19.3202,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "grad_norm": 0.32979699969291687,
+      "learning_rate": 1.7464568127330562e-06,
+      "loss": 0.2879,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "eval_loss": 0.2892407774925232,
+      "eval_runtime": 19.2847,
+      "eval_samples_per_second": 51.855,
+      "eval_steps_per_second": 0.83,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "grad_norm": 0.32581305503845215,
+      "learning_rate": 1.5881685107662336e-06,
+      "loss": 0.2887,
+      "step": 2040
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "eval_loss": 0.289132684469223,
+      "eval_runtime": 19.3167,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 2040
+    },
+    {
+      "epoch": 1.689909762100082,
+      "grad_norm": 0.4018111824989319,
+      "learning_rate": 1.4367785929033395e-06,
+      "loss": 0.3037,
+      "step": 2060
+    },
+    {
+      "epoch": 1.689909762100082,
+      "eval_loss": 0.2891572117805481,
+      "eval_runtime": 19.3154,
+      "eval_samples_per_second": 51.772,
+      "eval_steps_per_second": 0.828,
+      "step": 2060
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "grad_norm": 0.34754762053489685,
+      "learning_rate": 1.2924112111562314e-06,
+      "loss": 0.2921,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "eval_loss": 0.2889350950717926,
+      "eval_runtime": 19.303,
+      "eval_samples_per_second": 51.806,
+      "eval_steps_per_second": 0.829,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.33574923872947693,
+      "learning_rate": 1.155184758487573e-06,
+      "loss": 0.2894,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.28887927532196045,
+      "eval_runtime": 19.3488,
+      "eval_samples_per_second": 51.683,
+      "eval_steps_per_second": 0.827,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.31638723611831665,
+      "learning_rate": 1.0252117717189713e-06,
+      "loss": 0.2892,
+      "step": 2120
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_loss": 0.28898754715919495,
+      "eval_runtime": 19.3213,
+      "eval_samples_per_second": 51.756,
+      "eval_steps_per_second": 0.828,
+      "step": 2120
+    },
+    {
+      "epoch": 1.755537325676784,
+      "grad_norm": 0.3385666012763977,
+      "learning_rate": 9.025988392416718e-07,
+      "loss": 0.2865,
+      "step": 2140
+    },
+    {
+      "epoch": 1.755537325676784,
+      "eval_loss": 0.28879979252815247,
+      "eval_runtime": 19.3292,
+      "eval_samples_per_second": 51.735,
+      "eval_steps_per_second": 0.828,
+      "step": 2140
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "grad_norm": 0.35082417726516724,
+      "learning_rate": 7.874465136054332e-07,
+      "loss": 0.2886,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "eval_loss": 0.28894442319869995,
+      "eval_runtime": 19.3371,
+      "eval_samples_per_second": 51.714,
+      "eval_steps_per_second": 0.827,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "grad_norm": 0.28936704993247986,
+      "learning_rate": 6.798492290572611e-07,
+      "loss": 0.2908,
+      "step": 2180
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "eval_loss": 0.288817435503006,
+      "eval_runtime": 19.3316,
+      "eval_samples_per_second": 51.729,
+      "eval_steps_per_second": 0.828,
+      "step": 2180
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.3725113272666931,
+      "learning_rate": 5.798952240976952e-07,
+      "loss": 0.2982,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.2887531518936157,
+      "eval_runtime": 19.3355,
+      "eval_samples_per_second": 51.718,
+      "eval_steps_per_second": 0.827,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "grad_norm": 0.3677207827568054,
+      "learning_rate": 4.876664691180599e-07,
+      "loss": 0.2849,
+      "step": 2220
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "eval_loss": 0.2887623906135559,
+      "eval_runtime": 19.3212,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 2220
+    },
+    {
+      "epoch": 1.837571780147662,
+      "grad_norm": 0.36475974321365356,
+      "learning_rate": 4.032385991781029e-07,
+      "loss": 0.2962,
+      "step": 2240
+    },
+    {
+      "epoch": 1.837571780147662,
+      "eval_loss": 0.28872615098953247,
+      "eval_runtime": 19.3232,
+      "eval_samples_per_second": 51.751,
+      "eval_steps_per_second": 0.828,
+      "step": 2240
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "grad_norm": 0.32117658853530884,
+      "learning_rate": 3.266808519791076e-07,
+      "loss": 0.2885,
+      "step": 2260
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "eval_loss": 0.28867271542549133,
+      "eval_runtime": 19.3343,
+      "eval_samples_per_second": 51.722,
+      "eval_steps_per_second": 0.828,
+      "step": 2260
+    },
+    {
+      "epoch": 1.870385561936013,
+      "grad_norm": 0.3309364318847656,
+      "learning_rate": 2.58056011083373e-07,
+      "loss": 0.2952,
+      "step": 2280
+    },
+    {
+      "epoch": 1.870385561936013,
+      "eval_loss": 0.28868669271469116,
+      "eval_runtime": 19.3187,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 2280
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.39098307490348816,
+      "learning_rate": 1.9742035442658402e-07,
+      "loss": 0.3053,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.28870368003845215,
+      "eval_runtime": 19.3209,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 2300
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "grad_norm": 0.3185991644859314,
+      "learning_rate": 1.448236081653509e-07,
+      "loss": 0.2979,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "eval_loss": 0.288663387298584,
+      "eval_runtime": 19.3251,
+      "eval_samples_per_second": 51.746,
+      "eval_steps_per_second": 0.828,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "grad_norm": 0.3167499899864197,
+      "learning_rate": 1.0030890589772468e-07,
+      "loss": 0.2926,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "eval_loss": 0.28869006037712097,
+      "eval_runtime": 19.3272,
+      "eval_samples_per_second": 51.741,
+      "eval_steps_per_second": 0.828,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "grad_norm": 0.35239729285240173,
+      "learning_rate": 6.391275329014734e-08,
+      "loss": 0.2948,
+      "step": 2360
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "eval_loss": 0.28865668177604675,
+      "eval_runtime": 19.3327,
+      "eval_samples_per_second": 51.726,
+      "eval_steps_per_second": 0.828,
+      "step": 2360
+    },
+    {
+      "epoch": 1.952420016406891,
+      "grad_norm": 0.3485466539859772,
+      "learning_rate": 3.566499813984603e-08,
+      "loss": 0.3083,
+      "step": 2380
+    },
+    {
+      "epoch": 1.952420016406891,
+      "eval_loss": 0.2886667251586914,
+      "eval_runtime": 19.336,
+      "eval_samples_per_second": 51.717,
+      "eval_steps_per_second": 0.827,
+      "step": 2380
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.32429105043411255,
+      "learning_rate": 1.5588805897215344e-08,
+      "loss": 0.3034,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.28866520524024963,
+      "eval_runtime": 19.327,
+      "eval_samples_per_second": 51.741,
+      "eval_steps_per_second": 0.828,
+      "step": 2400
+    },
+    {
+      "epoch": 1.985233798195242,
+      "grad_norm": 0.3192400336265564,
+      "learning_rate": 3.7006406682726927e-09,
+      "loss": 0.2862,
+      "step": 2420
+    },
+    {
+      "epoch": 1.985233798195242,
+      "eval_loss": 0.28866344690322876,
+      "eval_runtime": 19.3203,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 2420
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.33499454004633517,
+      "train_runtime": 4698.1162,
+      "train_samples_per_second": 16.602,
+      "train_steps_per_second": 0.519
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exps3/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps3/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exps3/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exps3/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exps3/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a26eab11acb98f0acd95e0d9119808866cc65ecac779688f2c7419a77826e61
+size 6481

nl_tasks/run_all/run_exps3/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps3/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0ed46558a5446f8863c7f6599e0b271b3415d50013ffee75934b492e9768e45
+size 33602659

nl_tasks/run_all/run_exps3/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1858 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 20,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016406890894175553,
+      "grad_norm": 0.05860578641295433,
+      "learning_rate": 3.89344262295082e-06,
+      "loss": 0.746,
+      "step": 20
+    },
+    {
+      "epoch": 0.016406890894175553,
+      "eval_loss": 0.7427030205726624,
+      "eval_runtime": 19.8106,
+      "eval_samples_per_second": 50.478,
+      "eval_steps_per_second": 0.808,
+      "step": 20
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "grad_norm": 0.1488150805234909,
+      "learning_rate": 7.991803278688526e-06,
+      "loss": 0.7525,
+      "step": 40
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "eval_loss": 0.7261132597923279,
+      "eval_runtime": 19.2875,
+      "eval_samples_per_second": 51.847,
+      "eval_steps_per_second": 0.83,
+      "step": 40
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "grad_norm": 0.28110650181770325,
+      "learning_rate": 1.209016393442623e-05,
+      "loss": 0.703,
+      "step": 60
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "eval_loss": 0.6480915546417236,
+      "eval_runtime": 19.3032,
+      "eval_samples_per_second": 51.805,
+      "eval_steps_per_second": 0.829,
+      "step": 60
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "grad_norm": 0.20089583098888397,
+      "learning_rate": 1.6188524590163936e-05,
+      "loss": 0.5856,
+      "step": 80
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "eval_loss": 0.5077388286590576,
+      "eval_runtime": 19.3009,
+      "eval_samples_per_second": 51.811,
+      "eval_steps_per_second": 0.829,
+      "step": 80
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.15508203208446503,
+      "learning_rate": 2.028688524590164e-05,
+      "loss": 0.4828,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.44249895215034485,
+      "eval_runtime": 19.331,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 100
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "grad_norm": 0.16930700838565826,
+      "learning_rate": 2.4385245901639343e-05,
+      "loss": 0.4341,
+      "step": 120
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "eval_loss": 0.4118768870830536,
+      "eval_runtime": 19.3095,
+      "eval_samples_per_second": 51.788,
+      "eval_steps_per_second": 0.829,
+      "step": 120
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "grad_norm": 0.23524542152881622,
+      "learning_rate": 2.848360655737705e-05,
+      "loss": 0.4019,
+      "step": 140
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "eval_loss": 0.3899981677532196,
+      "eval_runtime": 19.3319,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 140
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "grad_norm": 0.20420299470424652,
+      "learning_rate": 3.2581967213114754e-05,
+      "loss": 0.3836,
+      "step": 160
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "eval_loss": 0.3749648332595825,
+      "eval_runtime": 19.3132,
+      "eval_samples_per_second": 51.778,
+      "eval_steps_per_second": 0.828,
+      "step": 160
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "grad_norm": 0.20580491423606873,
+      "learning_rate": 3.668032786885246e-05,
+      "loss": 0.3773,
+      "step": 180
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "eval_loss": 0.3625333905220032,
+      "eval_runtime": 19.3238,
+      "eval_samples_per_second": 51.75,
+      "eval_steps_per_second": 0.828,
+      "step": 180
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.2624441087245941,
+      "learning_rate": 4.077868852459016e-05,
+      "loss": 0.3678,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.35312020778656006,
+      "eval_runtime": 19.3256,
+      "eval_samples_per_second": 51.745,
+      "eval_steps_per_second": 0.828,
+      "step": 200
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "grad_norm": 0.2771821618080139,
+      "learning_rate": 4.487704918032787e-05,
+      "loss": 0.371,
+      "step": 220
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "eval_loss": 0.345496267080307,
+      "eval_runtime": 19.2949,
+      "eval_samples_per_second": 51.827,
+      "eval_steps_per_second": 0.829,
+      "step": 220
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "grad_norm": 0.2438289374113083,
+      "learning_rate": 4.8975409836065575e-05,
+      "loss": 0.3552,
+      "step": 240
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "eval_loss": 0.3394674062728882,
+      "eval_runtime": 19.3273,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 240
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "grad_norm": 0.2446252554655075,
+      "learning_rate": 4.9994233632277596e-05,
+      "loss": 0.3487,
+      "step": 260
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "eval_loss": 0.3342157006263733,
+      "eval_runtime": 19.3079,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 260
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "grad_norm": 0.22413121163845062,
+      "learning_rate": 4.99686106951168e-05,
+      "loss": 0.3482,
+      "step": 280
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "eval_loss": 0.3296491205692291,
+      "eval_runtime": 19.3306,
+      "eval_samples_per_second": 51.732,
+      "eval_steps_per_second": 0.828,
+      "step": 280
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.2740541398525238,
+      "learning_rate": 4.992251147198466e-05,
+      "loss": 0.3344,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.32672810554504395,
+      "eval_runtime": 19.3105,
+      "eval_samples_per_second": 51.785,
+      "eval_steps_per_second": 0.829,
+      "step": 300
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "grad_norm": 0.22817863523960114,
+      "learning_rate": 4.985597376798324e-05,
+      "loss": 0.3252,
+      "step": 320
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "eval_loss": 0.3222906291484833,
+      "eval_runtime": 19.3039,
+      "eval_samples_per_second": 51.803,
+      "eval_steps_per_second": 0.829,
+      "step": 320
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "grad_norm": 0.23338018357753754,
+      "learning_rate": 4.976905214942672e-05,
+      "loss": 0.3389,
+      "step": 340
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "eval_loss": 0.3193089962005615,
+      "eval_runtime": 19.3464,
+      "eval_samples_per_second": 51.689,
+      "eval_steps_per_second": 0.827,
+      "step": 340
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "grad_norm": 0.287139892578125,
+      "learning_rate": 4.966181789909249e-05,
+      "loss": 0.3175,
+      "step": 360
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "eval_loss": 0.31686943769454956,
+      "eval_runtime": 19.3265,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 360
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "grad_norm": 0.32575851678848267,
+      "learning_rate": 4.95343589577636e-05,
+      "loss": 0.3231,
+      "step": 380
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "eval_loss": 0.3144107758998871,
+      "eval_runtime": 19.298,
+      "eval_samples_per_second": 51.819,
+      "eval_steps_per_second": 0.829,
+      "step": 380
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.28842759132385254,
+      "learning_rate": 4.938677985211011e-05,
+      "loss": 0.3345,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.3121042549610138,
+      "eval_runtime": 19.3325,
+      "eval_samples_per_second": 51.726,
+      "eval_steps_per_second": 0.828,
+      "step": 400
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "grad_norm": 0.24486076831817627,
+      "learning_rate": 4.921920160896879e-05,
+      "loss": 0.3266,
+      "step": 420
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "eval_loss": 0.3106197118759155,
+      "eval_runtime": 19.322,
+      "eval_samples_per_second": 51.755,
+      "eval_steps_per_second": 0.828,
+      "step": 420
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "grad_norm": 0.2711906433105469,
+      "learning_rate": 4.9031761656091264e-05,
+      "loss": 0.326,
+      "step": 440
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "eval_loss": 0.3084668517112732,
+      "eval_runtime": 19.316,
+      "eval_samples_per_second": 51.77,
+      "eval_steps_per_second": 0.828,
+      "step": 440
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.21624377369880676,
+      "learning_rate": 4.8824613709442124e-05,
+      "loss": 0.3268,
+      "step": 460
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "eval_loss": 0.3072848618030548,
+      "eval_runtime": 19.3229,
+      "eval_samples_per_second": 51.752,
+      "eval_steps_per_second": 0.828,
+      "step": 460
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "grad_norm": 0.25868281722068787,
+      "learning_rate": 4.859792764713938e-05,
+      "loss": 0.316,
+      "step": 480
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "eval_loss": 0.3052523136138916,
+      "eval_runtime": 19.3193,
+      "eval_samples_per_second": 51.762,
+      "eval_steps_per_second": 0.828,
+      "step": 480
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.22380059957504272,
+      "learning_rate": 4.835188937014059e-05,
+      "loss": 0.311,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.3041682839393616,
+      "eval_runtime": 19.3139,
+      "eval_samples_per_second": 51.776,
+      "eval_steps_per_second": 0.828,
+      "step": 500
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "grad_norm": 0.3189392685890198,
+      "learning_rate": 4.808670064978903e-05,
+      "loss": 0.3199,
+      "step": 520
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "eval_loss": 0.3025827407836914,
+      "eval_runtime": 19.3135,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 520
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "grad_norm": 0.30145472288131714,
+      "learning_rate": 4.7802578962344836e-05,
+      "loss": 0.3116,
+      "step": 540
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "eval_loss": 0.3007499575614929,
+      "eval_runtime": 19.2845,
+      "eval_samples_per_second": 51.855,
+      "eval_steps_per_second": 0.83,
+      "step": 540
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "grad_norm": 0.24671076238155365,
+      "learning_rate": 4.7499757310636775e-05,
+      "loss": 0.3079,
+      "step": 560
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "eval_loss": 0.2989128530025482,
+      "eval_runtime": 19.2966,
+      "eval_samples_per_second": 51.823,
+      "eval_steps_per_second": 0.829,
+      "step": 560
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "grad_norm": 0.28683486580848694,
+      "learning_rate": 4.7178484032981076e-05,
+      "loss": 0.3031,
+      "step": 580
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "eval_loss": 0.299227237701416,
+      "eval_runtime": 19.3123,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 0.828,
+      "step": 580
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.298780232667923,
+      "learning_rate": 4.683902259952387e-05,
+      "loss": 0.3101,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.29782021045684814,
+      "eval_runtime": 19.3297,
+      "eval_samples_per_second": 51.734,
+      "eval_steps_per_second": 0.828,
+      "step": 600
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "grad_norm": 0.24450340867042542,
+      "learning_rate": 4.6481651396174276e-05,
+      "loss": 0.2957,
+      "step": 620
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "eval_loss": 0.2967863082885742,
+      "eval_runtime": 19.3079,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 620
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "grad_norm": 0.2989029884338379,
+      "learning_rate": 4.610666349630537e-05,
+      "loss": 0.3002,
+      "step": 640
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "eval_loss": 0.2944621443748474,
+      "eval_runtime": 19.3168,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 640
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "grad_norm": 0.2885053753852844,
+      "learning_rate": 4.571436642041027e-05,
+      "loss": 0.3003,
+      "step": 660
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "eval_loss": 0.29386863112449646,
+      "eval_runtime": 19.3201,
+      "eval_samples_per_second": 51.76,
+      "eval_steps_per_second": 0.828,
+      "step": 660
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "grad_norm": 0.2574157416820526,
+      "learning_rate": 4.530508188391039e-05,
+      "loss": 0.297,
+      "step": 680
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "eval_loss": 0.29420995712280273,
+      "eval_runtime": 19.2774,
+      "eval_samples_per_second": 51.874,
+      "eval_steps_per_second": 0.83,
+      "step": 680
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.2774631977081299,
+      "learning_rate": 4.48791455333227e-05,
+      "loss": 0.2943,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.2925710380077362,
+      "eval_runtime": 19.2886,
+      "eval_samples_per_second": 51.844,
+      "eval_steps_per_second": 0.83,
+      "step": 700
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "grad_norm": 0.2841639518737793,
+      "learning_rate": 4.44369066710023e-05,
+      "loss": 0.2913,
+      "step": 720
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "eval_loss": 0.29260045289993286,
+      "eval_runtime": 19.3101,
+      "eval_samples_per_second": 51.786,
+      "eval_steps_per_second": 0.829,
+      "step": 720
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "grad_norm": 0.25801992416381836,
+      "learning_rate": 4.397872796868627e-05,
+      "loss": 0.296,
+      "step": 740
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "eval_loss": 0.29102346301078796,
+      "eval_runtime": 19.3041,
+      "eval_samples_per_second": 51.803,
+      "eval_steps_per_second": 0.829,
+      "step": 740
+    },
+    {
+      "epoch": 0.623461853978671,
+      "grad_norm": 0.2615717351436615,
+      "learning_rate": 4.350498517007332e-05,
+      "loss": 0.3025,
+      "step": 760
+    },
+    {
+      "epoch": 0.623461853978671,
+      "eval_loss": 0.29038307070732117,
+      "eval_runtime": 19.3107,
+      "eval_samples_per_second": 51.785,
+      "eval_steps_per_second": 0.829,
+      "step": 760
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "grad_norm": 0.32346561551094055,
+      "learning_rate": 4.301606678268354e-05,
+      "loss": 0.2993,
+      "step": 780
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "eval_loss": 0.289517343044281,
+      "eval_runtime": 19.3376,
+      "eval_samples_per_second": 51.713,
+      "eval_steps_per_second": 0.827,
+      "step": 780
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.28268206119537354,
+      "learning_rate": 4.251237375925071e-05,
+      "loss": 0.2991,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.28874993324279785,
+      "eval_runtime": 19.306,
+      "eval_samples_per_second": 51.798,
+      "eval_steps_per_second": 0.829,
+      "step": 800
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "grad_norm": 0.28216883540153503,
+      "learning_rate": 4.199431916890854e-05,
+      "loss": 0.2896,
+      "step": 820
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "eval_loss": 0.28805309534072876,
+      "eval_runtime": 19.3332,
+      "eval_samples_per_second": 51.724,
+      "eval_steps_per_second": 0.828,
+      "step": 820
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "grad_norm": 0.2768368422985077,
+      "learning_rate": 4.146232785844044e-05,
+      "loss": 0.3025,
+      "step": 840
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "eval_loss": 0.2869604527950287,
+      "eval_runtime": 19.3055,
+      "eval_samples_per_second": 51.799,
+      "eval_steps_per_second": 0.829,
+      "step": 840
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "grad_norm": 0.27127188444137573,
+      "learning_rate": 4.091683610387078e-05,
+      "loss": 0.3069,
+      "step": 860
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "eval_loss": 0.286374568939209,
+      "eval_runtime": 19.3049,
+      "eval_samples_per_second": 51.8,
+      "eval_steps_per_second": 0.829,
+      "step": 860
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "grad_norm": 0.23589690029621124,
+      "learning_rate": 4.035829125268307e-05,
+      "loss": 0.2977,
+      "step": 880
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "eval_loss": 0.2856175899505615,
+      "eval_runtime": 19.3199,
+      "eval_samples_per_second": 51.76,
+      "eval_steps_per_second": 0.828,
+      "step": 880
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.3201812207698822,
+      "learning_rate": 3.978715135695881e-05,
+      "loss": 0.2904,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.2852262854576111,
+      "eval_runtime": 19.3109,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.829,
+      "step": 900
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.2653954327106476,
+      "learning_rate": 3.920388479773756e-05,
+      "loss": 0.2952,
+      "step": 920
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "eval_loss": 0.2845345437526703,
+      "eval_runtime": 19.3179,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 920
+    },
+    {
+      "epoch": 0.771123872026251,
+      "grad_norm": 0.2647739350795746,
+      "learning_rate": 3.86089699009066e-05,
+      "loss": 0.2763,
+      "step": 940
+    },
+    {
+      "epoch": 0.771123872026251,
+      "eval_loss": 0.28321462869644165,
+      "eval_runtime": 19.3187,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 940
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "grad_norm": 0.28675034642219543,
+      "learning_rate": 3.800289454493481e-05,
+      "loss": 0.2859,
+      "step": 960
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "eval_loss": 0.282760351896286,
+      "eval_runtime": 19.3112,
+      "eval_samples_per_second": 51.783,
+      "eval_steps_per_second": 0.829,
+      "step": 960
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "grad_norm": 0.26485058665275574,
+      "learning_rate": 3.738615576077279e-05,
+      "loss": 0.2951,
+      "step": 980
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "eval_loss": 0.28242456912994385,
+      "eval_runtime": 19.3082,
+      "eval_samples_per_second": 51.791,
+      "eval_steps_per_second": 0.829,
+      "step": 980
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.28419816493988037,
+      "learning_rate": 3.675925932424715e-05,
+      "loss": 0.2939,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.28157588839530945,
+      "eval_runtime": 19.3181,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "grad_norm": 0.2731083929538727,
+      "learning_rate": 3.612271934128337e-05,
+      "loss": 0.2875,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "eval_loss": 0.28066861629486084,
+      "eval_runtime": 19.2504,
+      "eval_samples_per_second": 51.947,
+      "eval_steps_per_second": 0.831,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "grad_norm": 0.2515132427215576,
+      "learning_rate": 3.547705782629717e-05,
+      "loss": 0.2819,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "eval_loss": 0.2809597849845886,
+      "eval_runtime": 19.3064,
+      "eval_samples_per_second": 51.796,
+      "eval_steps_per_second": 0.829,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.2833218276500702,
+      "learning_rate": 3.4822804274100355e-05,
+      "loss": 0.2859,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_loss": 0.28050196170806885,
+      "eval_runtime": 19.3166,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "grad_norm": 0.24503149092197418,
+      "learning_rate": 3.416049522567218e-05,
+      "loss": 0.2953,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "eval_loss": 0.2801743745803833,
+      "eval_runtime": 19.3198,
+      "eval_samples_per_second": 51.76,
+      "eval_steps_per_second": 0.828,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.26533713936805725,
+      "learning_rate": 3.349067382815217e-05,
+      "loss": 0.2834,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.2789291739463806,
+      "eval_runtime": 19.3156,
+      "eval_samples_per_second": 51.772,
+      "eval_steps_per_second": 0.828,
+      "step": 1100
+    },
+    {
+      "epoch": 0.918785890073831,
+      "grad_norm": 0.2972276508808136,
+      "learning_rate": 3.281388938941543e-05,
+      "loss": 0.2828,
+      "step": 1120
+    },
+    {
+      "epoch": 0.918785890073831,
+      "eval_loss": 0.27879536151885986,
+      "eval_runtime": 19.2998,
+      "eval_samples_per_second": 51.814,
+      "eval_steps_per_second": 0.829,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "grad_norm": 0.2797587215900421,
+      "learning_rate": 3.213069692759563e-05,
+      "loss": 0.2904,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "eval_loss": 0.27857306599617004,
+      "eval_runtime": 19.3281,
+      "eval_samples_per_second": 51.738,
+      "eval_steps_per_second": 0.828,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "grad_norm": 0.27988341450691223,
+      "learning_rate": 3.1441656715925136e-05,
+      "loss": 0.302,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "eval_loss": 0.27816376090049744,
+      "eval_runtime": 19.3057,
+      "eval_samples_per_second": 51.798,
+      "eval_steps_per_second": 0.829,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "grad_norm": 0.3127523362636566,
+      "learning_rate": 3.07473338232655e-05,
+      "loss": 0.2814,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "eval_loss": 0.27769869565963745,
+      "eval_runtime": 19.3204,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.25187912583351135,
+      "learning_rate": 3.004829765070516e-05,
+      "loss": 0.2905,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.276981383562088,
+      "eval_runtime": 19.3121,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 0.828,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "grad_norm": 0.27703630924224854,
+      "learning_rate": 2.9345121464604353e-05,
+      "loss": 0.2958,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "eval_loss": 0.2769216299057007,
+      "eval_runtime": 19.2849,
+      "eval_samples_per_second": 51.854,
+      "eval_steps_per_second": 0.83,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "grad_norm": 0.2569476068019867,
+      "learning_rate": 2.8638381926470236e-05,
+      "loss": 0.2704,
+      "step": 1240
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "eval_loss": 0.27616381645202637,
+      "eval_runtime": 19.3362,
+      "eval_samples_per_second": 51.716,
+      "eval_steps_per_second": 0.827,
+      "step": 1240
+    },
+    {
+      "epoch": 1.03363412633306,
+      "grad_norm": 0.2954521179199219,
+      "learning_rate": 2.7928658620047647e-05,
+      "loss": 0.2816,
+      "step": 1260
+    },
+    {
+      "epoch": 1.03363412633306,
+      "eval_loss": 0.2756293714046478,
+      "eval_runtime": 19.2869,
+      "eval_samples_per_second": 51.849,
+      "eval_steps_per_second": 0.83,
+      "step": 1260
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "grad_norm": 0.31093183159828186,
+      "learning_rate": 2.7216533576013426e-05,
+      "loss": 0.278,
+      "step": 1280
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "eval_loss": 0.2751014530658722,
+      "eval_runtime": 19.292,
+      "eval_samples_per_second": 51.835,
+      "eval_steps_per_second": 0.829,
+      "step": 1280
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.2663869261741638,
+      "learning_rate": 2.6502590794664073e-05,
+      "loss": 0.2742,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.27440693974494934,
+      "eval_runtime": 19.3285,
+      "eval_samples_per_second": 51.737,
+      "eval_steps_per_second": 0.828,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "grad_norm": 0.3329567015171051,
+      "learning_rate": 2.5787415766988128e-05,
+      "loss": 0.2691,
+      "step": 1320
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "eval_loss": 0.27447032928466797,
+      "eval_runtime": 19.3182,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 1320
+    },
+    {
+      "epoch": 1.099261689909762,
+      "grad_norm": 0.2891082167625427,
+      "learning_rate": 2.5071594994516033e-05,
+      "loss": 0.2804,
+      "step": 1340
+    },
+    {
+      "epoch": 1.099261689909762,
+      "eval_loss": 0.2739960849285126,
+      "eval_runtime": 19.3331,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 1340
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "grad_norm": 0.308324933052063,
+      "learning_rate": 2.4355715508341378e-05,
+      "loss": 0.2813,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "eval_loss": 0.27399778366088867,
+      "eval_runtime": 19.3455,
+      "eval_samples_per_second": 51.692,
+      "eval_steps_per_second": 0.827,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.29660311341285706,
+      "learning_rate": 2.3640364387707725e-05,
+      "loss": 0.2742,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "eval_loss": 0.27386149764060974,
+      "eval_runtime": 19.326,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.27859780192375183,
+      "learning_rate": 2.2926128278556052e-05,
+      "loss": 0.2843,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.27325138449668884,
+      "eval_runtime": 19.3447,
+      "eval_samples_per_second": 51.694,
+      "eval_steps_per_second": 0.827,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "grad_norm": 0.25910985469818115,
+      "learning_rate": 2.2213592912427474e-05,
+      "loss": 0.2722,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "eval_loss": 0.2735229730606079,
+      "eval_runtime": 19.3303,
+      "eval_samples_per_second": 51.732,
+      "eval_steps_per_second": 0.828,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "grad_norm": 0.2874094247817993,
+      "learning_rate": 2.150334262611589e-05,
+      "loss": 0.263,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "eval_loss": 0.2728740870952606,
+      "eval_runtime": 19.3045,
+      "eval_samples_per_second": 51.801,
+      "eval_steps_per_second": 0.829,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "grad_norm": 0.27428507804870605,
+      "learning_rate": 2.07959598824644e-05,
+      "loss": 0.2819,
+      "step": 1460
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "eval_loss": 0.2725715637207031,
+      "eval_runtime": 19.3247,
+      "eval_samples_per_second": 51.747,
+      "eval_steps_per_second": 0.828,
+      "step": 1460
+    },
+    {
+      "epoch": 1.214109926168991,
+      "grad_norm": 0.2841712236404419,
+      "learning_rate": 2.0092024792698527e-05,
+      "loss": 0.2809,
+      "step": 1480
+    },
+    {
+      "epoch": 1.214109926168991,
+      "eval_loss": 0.27222681045532227,
+      "eval_runtime": 19.3107,
+      "eval_samples_per_second": 51.785,
+      "eval_steps_per_second": 0.829,
+      "step": 1480
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.32081517577171326,
+      "learning_rate": 1.9392114640687985e-05,
+      "loss": 0.2776,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.27228766679763794,
+      "eval_runtime": 19.3356,
+      "eval_samples_per_second": 51.718,
+      "eval_steps_per_second": 0.827,
+      "step": 1500
+    },
+    {
+      "epoch": 1.246923707957342,
+      "grad_norm": 0.31806743144989014,
+      "learning_rate": 1.8696803409527062e-05,
+      "loss": 0.281,
+      "step": 1520
+    },
+    {
+      "epoch": 1.246923707957342,
+      "eval_loss": 0.2718179225921631,
+      "eval_runtime": 19.3051,
+      "eval_samples_per_second": 51.8,
+      "eval_steps_per_second": 0.829,
+      "step": 1520
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "grad_norm": 0.267499178647995,
+      "learning_rate": 1.8006661310821926e-05,
+      "loss": 0.269,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "eval_loss": 0.2716826796531677,
+      "eval_runtime": 19.2781,
+      "eval_samples_per_second": 51.872,
+      "eval_steps_per_second": 0.83,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "grad_norm": 0.2933109700679779,
+      "learning_rate": 1.7322254317070876e-05,
+      "loss": 0.2781,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "eval_loss": 0.27161359786987305,
+      "eval_runtime": 19.3284,
+      "eval_samples_per_second": 51.737,
+      "eval_steps_per_second": 0.828,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "grad_norm": 0.3219626247882843,
+      "learning_rate": 1.664414369752095e-05,
+      "loss": 0.2742,
+      "step": 1580
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "eval_loss": 0.2712157070636749,
+      "eval_runtime": 19.3194,
+      "eval_samples_per_second": 51.761,
+      "eval_steps_per_second": 0.828,
+      "step": 1580
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.2988798916339874,
+      "learning_rate": 1.5972885557881666e-05,
+      "loss": 0.2736,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.27080392837524414,
+      "eval_runtime": 19.2959,
+      "eval_samples_per_second": 51.824,
+      "eval_steps_per_second": 0.829,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "grad_norm": 0.2971179783344269,
+      "learning_rate": 1.530903038427322e-05,
+      "loss": 0.2709,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "eval_loss": 0.2705814838409424,
+      "eval_runtime": 19.29,
+      "eval_samples_per_second": 51.84,
+      "eval_steps_per_second": 0.829,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "grad_norm": 0.3339160680770874,
+      "learning_rate": 1.4653122591783164e-05,
+      "loss": 0.2738,
+      "step": 1640
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "eval_loss": 0.27005913853645325,
+      "eval_runtime": 19.2838,
+      "eval_samples_per_second": 51.857,
+      "eval_steps_per_second": 0.83,
+      "step": 1640
+    },
+    {
+      "epoch": 1.361771944216571,
+      "grad_norm": 0.3250068128108978,
+      "learning_rate": 1.400570007800196e-05,
+      "loss": 0.2621,
+      "step": 1660
+    },
+    {
+      "epoch": 1.361771944216571,
+      "eval_loss": 0.269867479801178,
+      "eval_runtime": 19.3111,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.829,
+      "step": 1660
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "grad_norm": 0.28547146916389465,
+      "learning_rate": 1.3367293781903306e-05,
+      "loss": 0.2674,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "eval_loss": 0.2695818245410919,
+      "eval_runtime": 19.308,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.29051050543785095,
+      "learning_rate": 1.2738427248431028e-05,
+      "loss": 0.2729,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.2692498564720154,
+      "eval_runtime": 19.3168,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "grad_norm": 0.37129437923431396,
+      "learning_rate": 1.2119616199149903e-05,
+      "loss": 0.2848,
+      "step": 1720
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "eval_loss": 0.2692253291606903,
+      "eval_runtime": 19.3149,
+      "eval_samples_per_second": 51.773,
+      "eval_steps_per_second": 0.828,
+      "step": 1720
+    },
+    {
+      "epoch": 1.427399507793273,
+      "grad_norm": 0.29549741744995117,
+      "learning_rate": 1.1511368109312023e-05,
+      "loss": 0.284,
+      "step": 1740
+    },
+    {
+      "epoch": 1.427399507793273,
+      "eval_loss": 0.2688217759132385,
+      "eval_runtime": 19.3124,
+      "eval_samples_per_second": 51.78,
+      "eval_steps_per_second": 0.828,
+      "step": 1740
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "grad_norm": 0.29102256894111633,
+      "learning_rate": 1.0914181791685988e-05,
+      "loss": 0.2766,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "eval_loss": 0.2683846354484558,
+      "eval_runtime": 19.2865,
+      "eval_samples_per_second": 51.85,
+      "eval_steps_per_second": 0.83,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "grad_norm": 0.325428307056427,
+      "learning_rate": 1.0328546987489999e-05,
+      "loss": 0.2693,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "eval_loss": 0.26858580112457275,
+      "eval_runtime": 19.3168,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.31247812509536743,
+      "learning_rate": 9.75494396476423e-06,
+      "loss": 0.281,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.2685295641422272,
+      "eval_runtime": 19.3134,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "grad_norm": 0.30578482151031494,
+      "learning_rate": 9.193843124512228e-06,
+      "loss": 0.2652,
+      "step": 1820
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "eval_loss": 0.26810023188591003,
+      "eval_runtime": 19.3179,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 1820
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.29188328981399536,
+      "learning_rate": 8.64570461493382e-06,
+      "loss": 0.2787,
+      "step": 1840
+    },
+    {
+      "epoch": 1.509433962264151,
+      "eval_loss": 0.26806536316871643,
+      "eval_runtime": 19.3129,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 1840
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "grad_norm": 0.28083163499832153,
+      "learning_rate": 8.110977954066303e-06,
+      "loss": 0.2745,
+      "step": 1860
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "eval_loss": 0.2678322494029999,
+      "eval_runtime": 19.305,
+      "eval_samples_per_second": 51.8,
+      "eval_steps_per_second": 0.829,
+      "step": 1860
+    },
+    {
+      "epoch": 1.542247744052502,
+      "grad_norm": 0.325198769569397,
+      "learning_rate": 7.590101661143234e-06,
+      "loss": 0.2681,
+      "step": 1880
+    },
+    {
+      "epoch": 1.542247744052502,
+      "eval_loss": 0.26767855882644653,
+      "eval_runtime": 19.3108,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.829,
+      "step": 1880
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.2920818328857422,
+      "learning_rate": 7.0835028969730185e-06,
+      "loss": 0.271,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.2676710784435272,
+      "eval_runtime": 19.306,
+      "eval_samples_per_second": 51.797,
+      "eval_steps_per_second": 0.829,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "grad_norm": 0.2953170835971832,
+      "learning_rate": 6.591597113632447e-06,
+      "loss": 0.2751,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "eval_loss": 0.2673129141330719,
+      "eval_runtime": 19.3224,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "grad_norm": 0.306307315826416,
+      "learning_rate": 6.114787713762287e-06,
+      "loss": 0.2748,
+      "step": 1940
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "eval_loss": 0.26730725169181824,
+      "eval_runtime": 19.3249,
+      "eval_samples_per_second": 51.747,
+      "eval_steps_per_second": 0.828,
+      "step": 1940
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "grad_norm": 0.31414565443992615,
+      "learning_rate": 5.653465719744389e-06,
+      "loss": 0.2746,
+      "step": 1960
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "eval_loss": 0.2670857608318329,
+      "eval_runtime": 19.3144,
+      "eval_samples_per_second": 51.775,
+      "eval_steps_per_second": 0.828,
+      "step": 1960
+    },
+    {
+      "epoch": 1.62428219852338,
+      "grad_norm": 0.3204467296600342,
+      "learning_rate": 5.2080094530316174e-06,
+      "loss": 0.2739,
+      "step": 1980
+    },
+    {
+      "epoch": 1.62428219852338,
+      "eval_loss": 0.26702049374580383,
+      "eval_runtime": 19.2991,
+      "eval_samples_per_second": 51.816,
+      "eval_steps_per_second": 0.829,
+      "step": 1980
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.33073121309280396,
+      "learning_rate": 4.778784223893601e-06,
+      "loss": 0.2767,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.2670028805732727,
+      "eval_runtime": 19.3233,
+      "eval_samples_per_second": 51.751,
+      "eval_steps_per_second": 0.828,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "grad_norm": 0.3207637071609497,
+      "learning_rate": 4.36614203183264e-06,
+      "loss": 0.2638,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "eval_loss": 0.2668777406215668,
+      "eval_runtime": 19.3222,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "grad_norm": 0.2821946442127228,
+      "learning_rate": 3.970421276915584e-06,
+      "loss": 0.2646,
+      "step": 2040
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "eval_loss": 0.2667301893234253,
+      "eval_runtime": 19.2968,
+      "eval_samples_per_second": 51.822,
+      "eval_steps_per_second": 0.829,
+      "step": 2040
+    },
+    {
+      "epoch": 1.689909762100082,
+      "grad_norm": 0.34934374690055847,
+      "learning_rate": 3.5919464822583486e-06,
+      "loss": 0.2797,
+      "step": 2060
+    },
+    {
+      "epoch": 1.689909762100082,
+      "eval_loss": 0.2666707932949066,
+      "eval_runtime": 19.2974,
+      "eval_samples_per_second": 51.82,
+      "eval_steps_per_second": 0.829,
+      "step": 2060
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "grad_norm": 0.31770169734954834,
+      "learning_rate": 3.2310280278905787e-06,
+      "loss": 0.268,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "eval_loss": 0.266598641872406,
+      "eval_runtime": 19.3129,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.3003862798213959,
+      "learning_rate": 2.8879618962189326e-06,
+      "loss": 0.2659,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.2664910852909088,
+      "eval_runtime": 19.3078,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.30080583691596985,
+      "learning_rate": 2.563029429297428e-06,
+      "loss": 0.265,
+      "step": 2120
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_loss": 0.26655587553977966,
+      "eval_runtime": 19.3166,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 2120
+    },
+    {
+      "epoch": 1.755537325676784,
+      "grad_norm": 0.3040551543235779,
+      "learning_rate": 2.2564970981041793e-06,
+      "loss": 0.2621,
+      "step": 2140
+    },
+    {
+      "epoch": 1.755537325676784,
+      "eval_loss": 0.26629871129989624,
+      "eval_runtime": 19.3143,
+      "eval_samples_per_second": 51.775,
+      "eval_steps_per_second": 0.828,
+      "step": 2140
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "grad_norm": 0.31465449929237366,
+      "learning_rate": 1.968616284013583e-06,
+      "loss": 0.2644,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "eval_loss": 0.26641103625297546,
+      "eval_runtime": 19.3318,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "grad_norm": 0.2679118812084198,
+      "learning_rate": 1.6996230726431528e-06,
+      "loss": 0.2663,
+      "step": 2180
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "eval_loss": 0.266239196062088,
+      "eval_runtime": 19.3186,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 2180
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.33543169498443604,
+      "learning_rate": 1.4497380602442378e-06,
+      "loss": 0.2728,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.2662188708782196,
+      "eval_runtime": 19.3307,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "grad_norm": 0.32849323749542236,
+      "learning_rate": 1.2191661727951499e-06,
+      "loss": 0.2598,
+      "step": 2220
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "eval_loss": 0.26628053188323975,
+      "eval_runtime": 19.3167,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 2220
+    },
+    {
+      "epoch": 1.837571780147662,
+      "grad_norm": 0.32713988423347473,
+      "learning_rate": 1.0080964979452572e-06,
+      "loss": 0.2714,
+      "step": 2240
+    },
+    {
+      "epoch": 1.837571780147662,
+      "eval_loss": 0.26624441146850586,
+      "eval_runtime": 19.2915,
+      "eval_samples_per_second": 51.836,
+      "eval_steps_per_second": 0.829,
+      "step": 2240
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "grad_norm": 0.29280194640159607,
+      "learning_rate": 8.167021299477689e-07,
+      "loss": 0.2645,
+      "step": 2260
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "eval_loss": 0.2662700116634369,
+      "eval_runtime": 19.3179,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 2260
+    },
+    {
+      "epoch": 1.870385561936013,
+      "grad_norm": 0.30739790201187134,
+      "learning_rate": 6.451400277084324e-07,
+      "loss": 0.2707,
+      "step": 2280
+    },
+    {
+      "epoch": 1.870385561936013,
+      "eval_loss": 0.2661494314670563,
+      "eval_runtime": 19.3129,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 2280
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.35433024168014526,
+      "learning_rate": 4.935508860664601e-07,
+      "loss": 0.2803,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.2661677896976471,
+      "eval_runtime": 19.2985,
+      "eval_samples_per_second": 51.818,
+      "eval_steps_per_second": 0.829,
+      "step": 2300
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "grad_norm": 0.28700560331344604,
+      "learning_rate": 3.6205902041337727e-07,
+      "loss": 0.2739,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "eval_loss": 0.26615363359451294,
+      "eval_runtime": 19.3259,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "grad_norm": 0.2813996970653534,
+      "learning_rate": 2.507722647443117e-07,
+      "loss": 0.2683,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "eval_loss": 0.2661629915237427,
+      "eval_runtime": 19.2987,
+      "eval_samples_per_second": 51.817,
+      "eval_steps_per_second": 0.829,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "grad_norm": 0.33076563477516174,
+      "learning_rate": 1.5978188322536836e-07,
+      "loss": 0.2708,
+      "step": 2360
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "eval_loss": 0.26614558696746826,
+      "eval_runtime": 19.3189,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 2360
+    },
+    {
+      "epoch": 1.952420016406891,
+      "grad_norm": 0.3153195381164551,
+      "learning_rate": 8.916249534961507e-08,
+      "loss": 0.2824,
+      "step": 2380
+    },
+    {
+      "epoch": 1.952420016406891,
+      "eval_loss": 0.26614320278167725,
+      "eval_runtime": 19.3201,
+      "eval_samples_per_second": 51.76,
+      "eval_steps_per_second": 0.828,
+      "step": 2380
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.30070924758911133,
+      "learning_rate": 3.8972014743038356e-08,
+      "loss": 0.2778,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.26609641313552856,
+      "eval_runtime": 19.3387,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 2400
+    },
+    {
+      "epoch": 1.985233798195242,
+      "grad_norm": 0.2762475311756134,
+      "learning_rate": 9.25160167068173e-09,
+      "loss": 0.2607,
+      "step": 2420
+    },
+    {
+      "epoch": 1.985233798195242,
+      "eval_loss": 0.2661292254924774,
+      "eval_runtime": 19.3179,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 2420
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.30763408138284537,
+      "train_runtime": 4680.0314,
+      "train_samples_per_second": 16.667,
+      "train_steps_per_second": 0.521
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exps4/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps4/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exps4/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exps4/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exps4/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af2d541e09f63bb2770f195dc44c2dcb64e9f5cfb5e6cefc2f76470b7b11ebb4
+size 6481

nl_tasks/run_all/run_exps4/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exps4/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c7e302310df8ca95e9b1c8512c14e6e8afc6114dc37de5c28102f04d3f605dd
+size 33602659

nl_tasks/run_all/run_exps4/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1858 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 20,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016406890894175553,
+      "grad_norm": 0.07573527842760086,
+      "learning_rate": 7.78688524590164e-06,
+      "loss": 0.7453,
+      "step": 20
+    },
+    {
+      "epoch": 0.016406890894175553,
+      "eval_loss": 0.7396451234817505,
+      "eval_runtime": 19.811,
+      "eval_samples_per_second": 50.477,
+      "eval_steps_per_second": 0.808,
+      "step": 20
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "grad_norm": 0.23986372351646423,
+      "learning_rate": 1.598360655737705e-05,
+      "loss": 0.736,
+      "step": 40
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "eval_loss": 0.6820931434631348,
+      "eval_runtime": 19.2756,
+      "eval_samples_per_second": 51.879,
+      "eval_steps_per_second": 0.83,
+      "step": 40
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "grad_norm": 0.2244514673948288,
+      "learning_rate": 2.418032786885246e-05,
+      "loss": 0.6054,
+      "step": 60
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "eval_loss": 0.5053430795669556,
+      "eval_runtime": 19.2941,
+      "eval_samples_per_second": 51.829,
+      "eval_steps_per_second": 0.829,
+      "step": 60
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "grad_norm": 0.15720054507255554,
+      "learning_rate": 3.237704918032787e-05,
+      "loss": 0.4734,
+      "step": 80
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "eval_loss": 0.43087294697761536,
+      "eval_runtime": 19.3034,
+      "eval_samples_per_second": 51.804,
+      "eval_steps_per_second": 0.829,
+      "step": 80
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.1743963211774826,
+      "learning_rate": 4.057377049180328e-05,
+      "loss": 0.4262,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.39660337567329407,
+      "eval_runtime": 19.2766,
+      "eval_samples_per_second": 51.876,
+      "eval_steps_per_second": 0.83,
+      "step": 100
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "grad_norm": 0.18875327706336975,
+      "learning_rate": 4.8770491803278687e-05,
+      "loss": 0.3936,
+      "step": 120
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "eval_loss": 0.3746892511844635,
+      "eval_runtime": 19.305,
+      "eval_samples_per_second": 51.8,
+      "eval_steps_per_second": 0.829,
+      "step": 120
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "grad_norm": 0.23781315982341766,
+      "learning_rate": 5.69672131147541e-05,
+      "loss": 0.3655,
+      "step": 140
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "eval_loss": 0.35906875133514404,
+      "eval_runtime": 19.3235,
+      "eval_samples_per_second": 51.75,
+      "eval_steps_per_second": 0.828,
+      "step": 140
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "grad_norm": 0.2293011099100113,
+      "learning_rate": 6.516393442622951e-05,
+      "loss": 0.3566,
+      "step": 160
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "eval_loss": 0.34795984625816345,
+      "eval_runtime": 19.3394,
+      "eval_samples_per_second": 51.708,
+      "eval_steps_per_second": 0.827,
+      "step": 160
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "grad_norm": 0.21834053099155426,
+      "learning_rate": 7.336065573770491e-05,
+      "loss": 0.3521,
+      "step": 180
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "eval_loss": 0.34054890275001526,
+      "eval_runtime": 19.3222,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 180
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.24652570486068726,
+      "learning_rate": 8.155737704918032e-05,
+      "loss": 0.3472,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.33308225870132446,
+      "eval_runtime": 19.3179,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 200
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "grad_norm": 0.29633331298828125,
+      "learning_rate": 8.975409836065574e-05,
+      "loss": 0.3518,
+      "step": 220
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "eval_loss": 0.3273587226867676,
+      "eval_runtime": 19.3044,
+      "eval_samples_per_second": 51.802,
+      "eval_steps_per_second": 0.829,
+      "step": 220
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "grad_norm": 0.22757525742053986,
+      "learning_rate": 9.795081967213115e-05,
+      "loss": 0.3385,
+      "step": 240
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "eval_loss": 0.32346010208129883,
+      "eval_runtime": 19.3032,
+      "eval_samples_per_second": 51.805,
+      "eval_steps_per_second": 0.829,
+      "step": 240
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "grad_norm": 0.22391946613788605,
+      "learning_rate": 9.998846726455519e-05,
+      "loss": 0.3327,
+      "step": 260
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "eval_loss": 0.31933942437171936,
+      "eval_runtime": 19.3136,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 260
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "grad_norm": 0.2190631777048111,
+      "learning_rate": 9.99372213902336e-05,
+      "loss": 0.3333,
+      "step": 280
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "eval_loss": 0.31619322299957275,
+      "eval_runtime": 19.3126,
+      "eval_samples_per_second": 51.78,
+      "eval_steps_per_second": 0.828,
+      "step": 280
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.26894959807395935,
+      "learning_rate": 9.984502294396932e-05,
+      "loss": 0.3206,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.31452640891075134,
+      "eval_runtime": 19.3063,
+      "eval_samples_per_second": 51.796,
+      "eval_steps_per_second": 0.829,
+      "step": 300
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "grad_norm": 0.21208558976650238,
+      "learning_rate": 9.971194753596649e-05,
+      "loss": 0.3118,
+      "step": 320
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "eval_loss": 0.3100018799304962,
+      "eval_runtime": 19.3052,
+      "eval_samples_per_second": 51.8,
+      "eval_steps_per_second": 0.829,
+      "step": 320
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "grad_norm": 0.2156500667333603,
+      "learning_rate": 9.953810429885344e-05,
+      "loss": 0.3254,
+      "step": 340
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "eval_loss": 0.3061407208442688,
+      "eval_runtime": 19.3161,
+      "eval_samples_per_second": 51.77,
+      "eval_steps_per_second": 0.828,
+      "step": 340
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "grad_norm": 0.24295839667320251,
+      "learning_rate": 9.932363579818499e-05,
+      "loss": 0.3042,
+      "step": 360
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "eval_loss": 0.30404046177864075,
+      "eval_runtime": 19.3366,
+      "eval_samples_per_second": 51.715,
+      "eval_steps_per_second": 0.827,
+      "step": 360
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "grad_norm": 0.27939218282699585,
+      "learning_rate": 9.90687179155272e-05,
+      "loss": 0.3111,
+      "step": 380
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "eval_loss": 0.3018529415130615,
+      "eval_runtime": 19.3009,
+      "eval_samples_per_second": 51.811,
+      "eval_steps_per_second": 0.829,
+      "step": 380
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.2700340449810028,
+      "learning_rate": 9.877355970422022e-05,
+      "loss": 0.3218,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.2997327446937561,
+      "eval_runtime": 19.3159,
+      "eval_samples_per_second": 51.771,
+      "eval_steps_per_second": 0.828,
+      "step": 400
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "grad_norm": 0.22255544364452362,
+      "learning_rate": 9.843840321793758e-05,
+      "loss": 0.3138,
+      "step": 420
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "eval_loss": 0.2985646724700928,
+      "eval_runtime": 19.3227,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 420
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "grad_norm": 0.22309252619743347,
+      "learning_rate": 9.806352331218253e-05,
+      "loss": 0.3133,
+      "step": 440
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "eval_loss": 0.2964664399623871,
+      "eval_runtime": 19.3056,
+      "eval_samples_per_second": 51.799,
+      "eval_steps_per_second": 0.829,
+      "step": 440
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.1800866723060608,
+      "learning_rate": 9.764922741888425e-05,
+      "loss": 0.3146,
+      "step": 460
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "eval_loss": 0.2952148914337158,
+      "eval_runtime": 19.3129,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 460
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "grad_norm": 0.21533121168613434,
+      "learning_rate": 9.719585529427875e-05,
+      "loss": 0.3031,
+      "step": 480
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "eval_loss": 0.2931912839412689,
+      "eval_runtime": 19.301,
+      "eval_samples_per_second": 51.811,
+      "eval_steps_per_second": 0.829,
+      "step": 480
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.18714798986911774,
+      "learning_rate": 9.670377874028118e-05,
+      "loss": 0.2983,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.2921317517757416,
+      "eval_runtime": 19.3184,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 500
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "grad_norm": 0.25875231623649597,
+      "learning_rate": 9.617340129957806e-05,
+      "loss": 0.3068,
+      "step": 520
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "eval_loss": 0.28973841667175293,
+      "eval_runtime": 19.2887,
+      "eval_samples_per_second": 51.844,
+      "eval_steps_per_second": 0.83,
+      "step": 520
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "grad_norm": 0.24124988913536072,
+      "learning_rate": 9.560515792468967e-05,
+      "loss": 0.2998,
+      "step": 540
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "eval_loss": 0.28842461109161377,
+      "eval_runtime": 19.303,
+      "eval_samples_per_second": 51.806,
+      "eval_steps_per_second": 0.829,
+      "step": 540
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "grad_norm": 0.19618099927902222,
+      "learning_rate": 9.499951462127355e-05,
+      "loss": 0.2948,
+      "step": 560
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "eval_loss": 0.2861073613166809,
+      "eval_runtime": 19.297,
+      "eval_samples_per_second": 51.822,
+      "eval_steps_per_second": 0.829,
+      "step": 560
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "grad_norm": 0.23357711732387543,
+      "learning_rate": 9.435696806596215e-05,
+      "loss": 0.2899,
+      "step": 580
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "eval_loss": 0.286967933177948,
+      "eval_runtime": 19.3122,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 0.828,
+      "step": 580
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.25024715065956116,
+      "learning_rate": 9.367804519904774e-05,
+      "loss": 0.2965,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.28561797738075256,
+      "eval_runtime": 19.3145,
+      "eval_samples_per_second": 51.775,
+      "eval_steps_per_second": 0.828,
+      "step": 600
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "grad_norm": 0.1980004608631134,
+      "learning_rate": 9.296330279234855e-05,
+      "loss": 0.2839,
+      "step": 620
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "eval_loss": 0.2841115891933441,
+      "eval_runtime": 19.3071,
+      "eval_samples_per_second": 51.794,
+      "eval_steps_per_second": 0.829,
+      "step": 620
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "grad_norm": 0.23671481013298035,
+      "learning_rate": 9.221332699261074e-05,
+      "loss": 0.2876,
+      "step": 640
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "eval_loss": 0.28222420811653137,
+      "eval_runtime": 19.3124,
+      "eval_samples_per_second": 51.78,
+      "eval_steps_per_second": 0.828,
+      "step": 640
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "grad_norm": 0.2384444773197174,
+      "learning_rate": 9.142873284082055e-05,
+      "loss": 0.2869,
+      "step": 660
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "eval_loss": 0.28106391429901123,
+      "eval_runtime": 19.3044,
+      "eval_samples_per_second": 51.802,
+      "eval_steps_per_second": 0.829,
+      "step": 660
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "grad_norm": 0.20951734483242035,
+      "learning_rate": 9.061016376782078e-05,
+      "loss": 0.2842,
+      "step": 680
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "eval_loss": 0.2815721929073334,
+      "eval_runtime": 19.3084,
+      "eval_samples_per_second": 51.791,
+      "eval_steps_per_second": 0.829,
+      "step": 680
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.219334676861763,
+      "learning_rate": 8.97582910666454e-05,
+      "loss": 0.2816,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.27998918294906616,
+      "eval_runtime": 19.286,
+      "eval_samples_per_second": 51.851,
+      "eval_steps_per_second": 0.83,
+      "step": 700
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "grad_norm": 0.22159552574157715,
+      "learning_rate": 8.88738133420046e-05,
+      "loss": 0.2779,
+      "step": 720
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "eval_loss": 0.2796504497528076,
+      "eval_runtime": 19.2993,
+      "eval_samples_per_second": 51.815,
+      "eval_steps_per_second": 0.829,
+      "step": 720
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "grad_norm": 0.19857856631278992,
+      "learning_rate": 8.795745593737254e-05,
+      "loss": 0.2833,
+      "step": 740
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "eval_loss": 0.27776020765304565,
+      "eval_runtime": 19.3146,
+      "eval_samples_per_second": 51.774,
+      "eval_steps_per_second": 0.828,
+      "step": 740
+    },
+    {
+      "epoch": 0.623461853978671,
+      "grad_norm": 0.2122536450624466,
+      "learning_rate": 8.700997034014665e-05,
+      "loss": 0.2891,
+      "step": 760
+    },
+    {
+      "epoch": 0.623461853978671,
+      "eval_loss": 0.27741900086402893,
+      "eval_runtime": 19.3038,
+      "eval_samples_per_second": 51.803,
+      "eval_steps_per_second": 0.829,
+      "step": 760
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "grad_norm": 0.2515348494052887,
+      "learning_rate": 8.603213356536708e-05,
+      "loss": 0.2857,
+      "step": 780
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "eval_loss": 0.2762429118156433,
+      "eval_runtime": 19.2907,
+      "eval_samples_per_second": 51.838,
+      "eval_steps_per_second": 0.829,
+      "step": 780
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.22974173724651337,
+      "learning_rate": 8.502474751850142e-05,
+      "loss": 0.2853,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.2753770649433136,
+      "eval_runtime": 19.3213,
+      "eval_samples_per_second": 51.756,
+      "eval_steps_per_second": 0.828,
+      "step": 800
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "grad_norm": 0.21828721463680267,
+      "learning_rate": 8.398863833781708e-05,
+      "loss": 0.2756,
+      "step": 820
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "eval_loss": 0.2743964195251465,
+      "eval_runtime": 19.3088,
+      "eval_samples_per_second": 51.79,
+      "eval_steps_per_second": 0.829,
+      "step": 820
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "grad_norm": 0.2040812075138092,
+      "learning_rate": 8.292465571688088e-05,
+      "loss": 0.2878,
+      "step": 840
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "eval_loss": 0.27319151163101196,
+      "eval_runtime": 19.3286,
+      "eval_samples_per_second": 51.737,
+      "eval_steps_per_second": 0.828,
+      "step": 840
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "grad_norm": 0.21715234220027924,
+      "learning_rate": 8.183367220774156e-05,
+      "loss": 0.2923,
+      "step": 860
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "eval_loss": 0.2724905014038086,
+      "eval_runtime": 19.2993,
+      "eval_samples_per_second": 51.815,
+      "eval_steps_per_second": 0.829,
+      "step": 860
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "grad_norm": 0.1924750655889511,
+      "learning_rate": 8.071658250536614e-05,
+      "loss": 0.2838,
+      "step": 880
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "eval_loss": 0.2721441090106964,
+      "eval_runtime": 19.3119,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 0.829,
+      "step": 880
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.23901104927062988,
+      "learning_rate": 7.957430271391762e-05,
+      "loss": 0.2768,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.271420955657959,
+      "eval_runtime": 19.2914,
+      "eval_samples_per_second": 51.837,
+      "eval_steps_per_second": 0.829,
+      "step": 900
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.210943803191185,
+      "learning_rate": 7.840776959547513e-05,
+      "loss": 0.2808,
+      "step": 920
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "eval_loss": 0.27048394083976746,
+      "eval_runtime": 19.3054,
+      "eval_samples_per_second": 51.799,
+      "eval_steps_per_second": 0.829,
+      "step": 920
+    },
+    {
+      "epoch": 0.771123872026251,
+      "grad_norm": 0.2066313624382019,
+      "learning_rate": 7.72179398018132e-05,
+      "loss": 0.2633,
+      "step": 940
+    },
+    {
+      "epoch": 0.771123872026251,
+      "eval_loss": 0.2691468596458435,
+      "eval_runtime": 19.3075,
+      "eval_samples_per_second": 51.793,
+      "eval_steps_per_second": 0.829,
+      "step": 940
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "grad_norm": 0.2224680632352829,
+      "learning_rate": 7.600578908986962e-05,
+      "loss": 0.2722,
+      "step": 960
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "eval_loss": 0.26857373118400574,
+      "eval_runtime": 19.3038,
+      "eval_samples_per_second": 51.803,
+      "eval_steps_per_second": 0.829,
+      "step": 960
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "grad_norm": 0.20683647692203522,
+      "learning_rate": 7.477231152154557e-05,
+      "loss": 0.2809,
+      "step": 980
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "eval_loss": 0.2680775821208954,
+      "eval_runtime": 19.294,
+      "eval_samples_per_second": 51.83,
+      "eval_steps_per_second": 0.829,
+      "step": 980
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.22218932211399078,
+      "learning_rate": 7.35185186484943e-05,
+      "loss": 0.2802,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.26717033982276917,
+      "eval_runtime": 19.3196,
+      "eval_samples_per_second": 51.761,
+      "eval_steps_per_second": 0.828,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "grad_norm": 0.234444260597229,
+      "learning_rate": 7.224543868256674e-05,
+      "loss": 0.2732,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "eval_loss": 0.26637884974479675,
+      "eval_runtime": 19.2847,
+      "eval_samples_per_second": 51.854,
+      "eval_steps_per_second": 0.83,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "grad_norm": 0.20181532204151154,
+      "learning_rate": 7.095411565259434e-05,
+      "loss": 0.2684,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "eval_loss": 0.2665154039859772,
+      "eval_runtime": 19.3002,
+      "eval_samples_per_second": 51.813,
+      "eval_steps_per_second": 0.829,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.2278612107038498,
+      "learning_rate": 6.964560854820071e-05,
+      "loss": 0.2718,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_loss": 0.2659507989883423,
+      "eval_runtime": 19.2914,
+      "eval_samples_per_second": 51.836,
+      "eval_steps_per_second": 0.829,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "grad_norm": 0.19423191249370575,
+      "learning_rate": 6.832099045134436e-05,
+      "loss": 0.2815,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "eval_loss": 0.26532241702079773,
+      "eval_runtime": 19.3027,
+      "eval_samples_per_second": 51.806,
+      "eval_steps_per_second": 0.829,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.21753184497356415,
+      "learning_rate": 6.698134765630434e-05,
+      "loss": 0.2688,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.26458197832107544,
+      "eval_runtime": 19.2826,
+      "eval_samples_per_second": 51.86,
+      "eval_steps_per_second": 0.83,
+      "step": 1100
+    },
+    {
+      "epoch": 0.918785890073831,
+      "grad_norm": 0.21422693133354187,
+      "learning_rate": 6.562777877883087e-05,
+      "loss": 0.268,
+      "step": 1120
+    },
+    {
+      "epoch": 0.918785890073831,
+      "eval_loss": 0.2640591859817505,
+      "eval_runtime": 19.2864,
+      "eval_samples_per_second": 51.85,
+      "eval_steps_per_second": 0.83,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "grad_norm": 0.21295098960399628,
+      "learning_rate": 6.426139385519126e-05,
+      "loss": 0.2755,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "eval_loss": 0.26378899812698364,
+      "eval_runtime": 19.2944,
+      "eval_samples_per_second": 51.828,
+      "eval_steps_per_second": 0.829,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "grad_norm": 0.21974827349185944,
+      "learning_rate": 6.288331343185027e-05,
+      "loss": 0.2869,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "eval_loss": 0.2632799446582794,
+      "eval_runtime": 19.286,
+      "eval_samples_per_second": 51.851,
+      "eval_steps_per_second": 0.83,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "grad_norm": 0.2579718828201294,
+      "learning_rate": 6.1494667646531e-05,
+      "loss": 0.2669,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "eval_loss": 0.26267749071121216,
+      "eval_runtime": 19.3118,
+      "eval_samples_per_second": 51.782,
+      "eval_steps_per_second": 0.829,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.19952872395515442,
+      "learning_rate": 6.009659530141032e-05,
+      "loss": 0.2757,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.2614596486091614,
+      "eval_runtime": 19.3043,
+      "eval_samples_per_second": 51.802,
+      "eval_steps_per_second": 0.829,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "grad_norm": 0.2142801284790039,
+      "learning_rate": 5.869024292920871e-05,
+      "loss": 0.281,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "eval_loss": 0.2614995539188385,
+      "eval_runtime": 19.2801,
+      "eval_samples_per_second": 51.867,
+      "eval_steps_per_second": 0.83,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "grad_norm": 0.20783104002475739,
+      "learning_rate": 5.727676385294047e-05,
+      "loss": 0.2521,
+      "step": 1240
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "eval_loss": 0.2610865533351898,
+      "eval_runtime": 19.3018,
+      "eval_samples_per_second": 51.809,
+      "eval_steps_per_second": 0.829,
+      "step": 1240
+    },
+    {
+      "epoch": 1.03363412633306,
+      "grad_norm": 0.23703888058662415,
+      "learning_rate": 5.5857317240095295e-05,
+      "loss": 0.2623,
+      "step": 1260
+    },
+    {
+      "epoch": 1.03363412633306,
+      "eval_loss": 0.2600626051425934,
+      "eval_runtime": 19.3318,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 1260
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "grad_norm": 0.22795985639095306,
+      "learning_rate": 5.443306715202685e-05,
+      "loss": 0.2605,
+      "step": 1280
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "eval_loss": 0.2595843970775604,
+      "eval_runtime": 19.3059,
+      "eval_samples_per_second": 51.798,
+      "eval_steps_per_second": 0.829,
+      "step": 1280
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.22183609008789062,
+      "learning_rate": 5.300518158932815e-05,
+      "loss": 0.2555,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.25863635540008545,
+      "eval_runtime": 19.3004,
+      "eval_samples_per_second": 51.812,
+      "eval_steps_per_second": 0.829,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "grad_norm": 0.2546403408050537,
+      "learning_rate": 5.1574831533976256e-05,
+      "loss": 0.2507,
+      "step": 1320
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "eval_loss": 0.25881943106651306,
+      "eval_runtime": 19.3151,
+      "eval_samples_per_second": 51.773,
+      "eval_steps_per_second": 0.828,
+      "step": 1320
+    },
+    {
+      "epoch": 1.099261689909762,
+      "grad_norm": 0.22737851738929749,
+      "learning_rate": 5.0143189989032066e-05,
+      "loss": 0.2615,
+      "step": 1340
+    },
+    {
+      "epoch": 1.099261689909762,
+      "eval_loss": 0.25874659419059753,
+      "eval_runtime": 19.2986,
+      "eval_samples_per_second": 51.817,
+      "eval_steps_per_second": 0.829,
+      "step": 1340
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "grad_norm": 0.2325291633605957,
+      "learning_rate": 4.8711431016682755e-05,
+      "loss": 0.2621,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "eval_loss": 0.25852787494659424,
+      "eval_runtime": 19.2891,
+      "eval_samples_per_second": 51.843,
+      "eval_steps_per_second": 0.829,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.23844651877880096,
+      "learning_rate": 4.728072877541545e-05,
+      "loss": 0.2568,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "eval_loss": 0.25813454389572144,
+      "eval_runtime": 19.3045,
+      "eval_samples_per_second": 51.801,
+      "eval_steps_per_second": 0.829,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.2242225557565689,
+      "learning_rate": 4.5852256557112104e-05,
+      "loss": 0.265,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.2577033042907715,
+      "eval_runtime": 19.319,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "grad_norm": 0.2129354625940323,
+      "learning_rate": 4.442718582485495e-05,
+      "loss": 0.253,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "eval_loss": 0.2583049237728119,
+      "eval_runtime": 19.332,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "grad_norm": 0.24126175045967102,
+      "learning_rate": 4.300668525223178e-05,
+      "loss": 0.2459,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "eval_loss": 0.25727447867393494,
+      "eval_runtime": 19.3071,
+      "eval_samples_per_second": 51.794,
+      "eval_steps_per_second": 0.829,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "grad_norm": 0.22602707147598267,
+      "learning_rate": 4.15919197649288e-05,
+      "loss": 0.2634,
+      "step": 1460
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "eval_loss": 0.256967157125473,
+      "eval_runtime": 19.3123,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 0.828,
+      "step": 1460
+    },
+    {
+      "epoch": 1.214109926168991,
+      "grad_norm": 0.22526364028453827,
+      "learning_rate": 4.0184049585397054e-05,
+      "loss": 0.2624,
+      "step": 1480
+    },
+    {
+      "epoch": 1.214109926168991,
+      "eval_loss": 0.2564084231853485,
+      "eval_runtime": 19.2954,
+      "eval_samples_per_second": 51.826,
+      "eval_steps_per_second": 0.829,
+      "step": 1480
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.25452113151550293,
+      "learning_rate": 3.878422928137597e-05,
+      "loss": 0.2594,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.2563713788986206,
+      "eval_runtime": 19.326,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 1500
+    },
+    {
+      "epoch": 1.246923707957342,
+      "grad_norm": 0.24358659982681274,
+      "learning_rate": 3.7393606819054125e-05,
+      "loss": 0.262,
+      "step": 1520
+    },
+    {
+      "epoch": 1.246923707957342,
+      "eval_loss": 0.25621649622917175,
+      "eval_runtime": 19.3211,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 1520
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "grad_norm": 0.21525828540325165,
+      "learning_rate": 3.601332262164385e-05,
+      "loss": 0.2506,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "eval_loss": 0.2554308772087097,
+      "eval_runtime": 19.2963,
+      "eval_samples_per_second": 51.824,
+      "eval_steps_per_second": 0.829,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "grad_norm": 0.23919980227947235,
+      "learning_rate": 3.464450863414175e-05,
+      "loss": 0.2591,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "eval_loss": 0.255275696516037,
+      "eval_runtime": 19.3258,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "grad_norm": 0.2609453499317169,
+      "learning_rate": 3.32882873950419e-05,
+      "loss": 0.2537,
+      "step": 1580
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "eval_loss": 0.2548302114009857,
+      "eval_runtime": 19.3128,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 1580
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.2392556518316269,
+      "learning_rate": 3.194577111576333e-05,
+      "loss": 0.255,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.2544667720794678,
+      "eval_runtime": 19.3061,
+      "eval_samples_per_second": 51.797,
+      "eval_steps_per_second": 0.829,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "grad_norm": 0.245096355676651,
+      "learning_rate": 3.061806076854644e-05,
+      "loss": 0.2511,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "eval_loss": 0.25414392352104187,
+      "eval_runtime": 19.3189,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "grad_norm": 0.2578522861003876,
+      "learning_rate": 2.9306245183566328e-05,
+      "loss": 0.2544,
+      "step": 1640
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "eval_loss": 0.2534123361110687,
+      "eval_runtime": 19.2928,
+      "eval_samples_per_second": 51.833,
+      "eval_steps_per_second": 0.829,
+      "step": 1640
+    },
+    {
+      "epoch": 1.361771944216571,
+      "grad_norm": 0.254104346036911,
+      "learning_rate": 2.801140015600392e-05,
+      "loss": 0.2433,
+      "step": 1660
+    },
+    {
+      "epoch": 1.361771944216571,
+      "eval_loss": 0.2531507909297943,
+      "eval_runtime": 19.3043,
+      "eval_samples_per_second": 51.802,
+      "eval_steps_per_second": 0.829,
+      "step": 1660
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "grad_norm": 0.23047301173210144,
+      "learning_rate": 2.673458756380661e-05,
+      "loss": 0.2481,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "eval_loss": 0.25285908579826355,
+      "eval_runtime": 19.3071,
+      "eval_samples_per_second": 51.794,
+      "eval_steps_per_second": 0.829,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.23477159440517426,
+      "learning_rate": 2.5476854496862057e-05,
+      "loss": 0.2537,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.2525946795940399,
+      "eval_runtime": 19.3203,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "grad_norm": 0.2652125954627991,
+      "learning_rate": 2.4239232398299806e-05,
+      "loss": 0.2641,
+      "step": 1720
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "eval_loss": 0.252573698759079,
+      "eval_runtime": 19.2988,
+      "eval_samples_per_second": 51.817,
+      "eval_steps_per_second": 0.829,
+      "step": 1720
+    },
+    {
+      "epoch": 1.427399507793273,
+      "grad_norm": 0.2332567572593689,
+      "learning_rate": 2.3022736218624046e-05,
+      "loss": 0.2639,
+      "step": 1740
+    },
+    {
+      "epoch": 1.427399507793273,
+      "eval_loss": 0.2521530091762543,
+      "eval_runtime": 19.3012,
+      "eval_samples_per_second": 51.81,
+      "eval_steps_per_second": 0.829,
+      "step": 1740
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "grad_norm": 0.23365820944309235,
+      "learning_rate": 2.1828363583371975e-05,
+      "loss": 0.2566,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "eval_loss": 0.2516710162162781,
+      "eval_runtime": 19.3143,
+      "eval_samples_per_second": 51.775,
+      "eval_steps_per_second": 0.828,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "grad_norm": 0.2693063020706177,
+      "learning_rate": 2.0657093974979998e-05,
+      "loss": 0.2505,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "eval_loss": 0.25175613164901733,
+      "eval_runtime": 19.2942,
+      "eval_samples_per_second": 51.829,
+      "eval_steps_per_second": 0.829,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.23359094560146332,
+      "learning_rate": 1.950988792952846e-05,
+      "loss": 0.2618,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.25175967812538147,
+      "eval_runtime": 19.3127,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "grad_norm": 0.2708717882633209,
+      "learning_rate": 1.8387686249024456e-05,
+      "loss": 0.2468,
+      "step": 1820
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "eval_loss": 0.25105661153793335,
+      "eval_runtime": 19.3107,
+      "eval_samples_per_second": 51.785,
+      "eval_steps_per_second": 0.829,
+      "step": 1820
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.23433652520179749,
+      "learning_rate": 1.729140922986764e-05,
+      "loss": 0.2584,
+      "step": 1840
+    },
+    {
+      "epoch": 1.509433962264151,
+      "eval_loss": 0.2507409155368805,
+      "eval_runtime": 19.3083,
+      "eval_samples_per_second": 51.791,
+      "eval_steps_per_second": 0.829,
+      "step": 1840
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "grad_norm": 0.23181897401809692,
+      "learning_rate": 1.6221955908132607e-05,
+      "loss": 0.2547,
+      "step": 1860
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "eval_loss": 0.25062525272369385,
+      "eval_runtime": 19.282,
+      "eval_samples_per_second": 51.862,
+      "eval_steps_per_second": 0.83,
+      "step": 1860
+    },
+    {
+      "epoch": 1.542247744052502,
+      "grad_norm": 0.2638116478919983,
+      "learning_rate": 1.5180203322286467e-05,
+      "loss": 0.2483,
+      "step": 1880
+    },
+    {
+      "epoch": 1.542247744052502,
+      "eval_loss": 0.2504216432571411,
+      "eval_runtime": 19.3305,
+      "eval_samples_per_second": 51.732,
+      "eval_steps_per_second": 0.828,
+      "step": 1880
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.23512820899486542,
+      "learning_rate": 1.4167005793946037e-05,
+      "loss": 0.251,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.2505086064338684,
+      "eval_runtime": 19.3179,
+      "eval_samples_per_second": 51.765,
+      "eval_steps_per_second": 0.828,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "grad_norm": 0.24093784391880035,
+      "learning_rate": 1.3183194227264894e-05,
+      "loss": 0.2544,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "eval_loss": 0.25002437829971313,
+      "eval_runtime": 19.3193,
+      "eval_samples_per_second": 51.762,
+      "eval_steps_per_second": 0.828,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "grad_norm": 0.24928167462348938,
+      "learning_rate": 1.2229575427524575e-05,
+      "loss": 0.2552,
+      "step": 1940
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "eval_loss": 0.25014835596084595,
+      "eval_runtime": 19.309,
+      "eval_samples_per_second": 51.789,
+      "eval_steps_per_second": 0.829,
+      "step": 1940
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "grad_norm": 0.25821226835250854,
+      "learning_rate": 1.1306931439488777e-05,
+      "loss": 0.2548,
+      "step": 1960
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "eval_loss": 0.2500286400318146,
+      "eval_runtime": 19.3186,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 1960
+    },
+    {
+      "epoch": 1.62428219852338,
+      "grad_norm": 0.25347480177879333,
+      "learning_rate": 1.0416018906063235e-05,
+      "loss": 0.2529,
+      "step": 1980
+    },
+    {
+      "epoch": 1.62428219852338,
+      "eval_loss": 0.2498283088207245,
+      "eval_runtime": 19.2979,
+      "eval_samples_per_second": 51.819,
+      "eval_steps_per_second": 0.829,
+      "step": 1980
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.2708413004875183,
+      "learning_rate": 9.557568447787202e-06,
+      "loss": 0.2552,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.2497609555721283,
+      "eval_runtime": 19.2953,
+      "eval_samples_per_second": 51.826,
+      "eval_steps_per_second": 0.829,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "grad_norm": 0.27011674642562866,
+      "learning_rate": 8.73228406366528e-06,
+      "loss": 0.2438,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "eval_loss": 0.24960409104824066,
+      "eval_runtime": 19.2529,
+      "eval_samples_per_second": 51.94,
+      "eval_steps_per_second": 0.831,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "grad_norm": 0.231898233294487,
+      "learning_rate": 7.940842553831168e-06,
+      "loss": 0.2449,
+      "step": 2040
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "eval_loss": 0.24940046668052673,
+      "eval_runtime": 19.2876,
+      "eval_samples_per_second": 51.847,
+      "eval_steps_per_second": 0.83,
+      "step": 2040
+    },
+    {
+      "epoch": 1.689909762100082,
+      "grad_norm": 0.26983538269996643,
+      "learning_rate": 7.183892964516697e-06,
+      "loss": 0.2595,
+      "step": 2060
+    },
+    {
+      "epoch": 1.689909762100082,
+      "eval_loss": 0.24934378266334534,
+      "eval_runtime": 19.3091,
+      "eval_samples_per_second": 51.789,
+      "eval_steps_per_second": 0.829,
+      "step": 2060
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "grad_norm": 0.2576409876346588,
+      "learning_rate": 6.462056055781157e-06,
+      "loss": 0.2477,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "eval_loss": 0.24922724068164825,
+      "eval_runtime": 19.2951,
+      "eval_samples_per_second": 51.827,
+      "eval_steps_per_second": 0.829,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.24653151631355286,
+      "learning_rate": 5.775923792437865e-06,
+      "loss": 0.2466,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.24906830489635468,
+      "eval_runtime": 19.3203,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.2507191300392151,
+      "learning_rate": 5.126058858594856e-06,
+      "loss": 0.2455,
+      "step": 2120
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_loss": 0.24905811250209808,
+      "eval_runtime": 19.3136,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 2120
+    },
+    {
+      "epoch": 1.755537325676784,
+      "grad_norm": 0.2599128782749176,
+      "learning_rate": 4.512994196208359e-06,
+      "loss": 0.2414,
+      "step": 2140
+    },
+    {
+      "epoch": 1.755537325676784,
+      "eval_loss": 0.24877455830574036,
+      "eval_runtime": 19.3141,
+      "eval_samples_per_second": 51.776,
+      "eval_steps_per_second": 0.828,
+      "step": 2140
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "grad_norm": 0.24992236495018005,
+      "learning_rate": 3.937232568027166e-06,
+      "loss": 0.2445,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "eval_loss": 0.24876806139945984,
+      "eval_runtime": 19.3211,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "grad_norm": 0.21700158715248108,
+      "learning_rate": 3.3992461452863056e-06,
+      "loss": 0.2464,
+      "step": 2180
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "eval_loss": 0.2487395703792572,
+      "eval_runtime": 19.2849,
+      "eval_samples_per_second": 51.854,
+      "eval_steps_per_second": 0.83,
+      "step": 2180
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.27604594826698303,
+      "learning_rate": 2.8994761204884756e-06,
+      "loss": 0.2527,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.2487618327140808,
+      "eval_runtime": 19.3159,
+      "eval_samples_per_second": 51.771,
+      "eval_steps_per_second": 0.828,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "grad_norm": 0.26943638920783997,
+      "learning_rate": 2.4383323455902997e-06,
+      "loss": 0.24,
+      "step": 2220
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "eval_loss": 0.24872750043869019,
+      "eval_runtime": 19.3062,
+      "eval_samples_per_second": 51.797,
+      "eval_steps_per_second": 0.829,
+      "step": 2220
+    },
+    {
+      "epoch": 1.837571780147662,
+      "grad_norm": 0.2658500373363495,
+      "learning_rate": 2.0161929958905145e-06,
+      "loss": 0.2514,
+      "step": 2240
+    },
+    {
+      "epoch": 1.837571780147662,
+      "eval_loss": 0.24868498742580414,
+      "eval_runtime": 19.3043,
+      "eval_samples_per_second": 51.802,
+      "eval_steps_per_second": 0.829,
+      "step": 2240
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "grad_norm": 0.2387407273054123,
+      "learning_rate": 1.6334042598955379e-06,
+      "loss": 0.2454,
+      "step": 2260
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "eval_loss": 0.24864910542964935,
+      "eval_runtime": 19.3178,
+      "eval_samples_per_second": 51.766,
+      "eval_steps_per_second": 0.828,
+      "step": 2260
+    },
+    {
+      "epoch": 1.870385561936013,
+      "grad_norm": 0.2613567113876343,
+      "learning_rate": 1.2902800554168649e-06,
+      "loss": 0.2503,
+      "step": 2280
+    },
+    {
+      "epoch": 1.870385561936013,
+      "eval_loss": 0.2486574351787567,
+      "eval_runtime": 19.3078,
+      "eval_samples_per_second": 51.793,
+      "eval_steps_per_second": 0.829,
+      "step": 2280
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.285758376121521,
+      "learning_rate": 9.871017721329201e-07,
+      "loss": 0.2598,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.24857309460639954,
+      "eval_runtime": 19.297,
+      "eval_samples_per_second": 51.821,
+      "eval_steps_per_second": 0.829,
+      "step": 2300
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "grad_norm": 0.23689517378807068,
+      "learning_rate": 7.241180408267545e-07,
+      "loss": 0.2539,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "eval_loss": 0.24856111407279968,
+      "eval_runtime": 19.3155,
+      "eval_samples_per_second": 51.772,
+      "eval_steps_per_second": 0.828,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "grad_norm": 0.23107603192329407,
+      "learning_rate": 5.015445294886234e-07,
+      "loss": 0.2479,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "eval_loss": 0.24852712452411652,
+      "eval_runtime": 19.3164,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "grad_norm": 0.26831313967704773,
+      "learning_rate": 3.195637664507367e-07,
+      "loss": 0.2508,
+      "step": 2360
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "eval_loss": 0.24849362671375275,
+      "eval_runtime": 19.3248,
+      "eval_samples_per_second": 51.747,
+      "eval_steps_per_second": 0.828,
+      "step": 2360
+    },
+    {
+      "epoch": 1.952420016406891,
+      "grad_norm": 0.2591889500617981,
+      "learning_rate": 1.7832499069923014e-07,
+      "loss": 0.262,
+      "step": 2380
+    },
+    {
+      "epoch": 1.952420016406891,
+      "eval_loss": 0.24852906167507172,
+      "eval_runtime": 19.3174,
+      "eval_samples_per_second": 51.767,
+      "eval_steps_per_second": 0.828,
+      "step": 2380
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.25030118227005005,
+      "learning_rate": 7.794402948607671e-08,
+      "loss": 0.257,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.24847978353500366,
+      "eval_runtime": 19.3044,
+      "eval_samples_per_second": 51.802,
+      "eval_steps_per_second": 0.829,
+      "step": 2400
+    },
+    {
+      "epoch": 1.985233798195242,
+      "grad_norm": 0.2138320505619049,
+      "learning_rate": 1.850320334136346e-08,
+      "loss": 0.2407,
+      "step": 2420
+    },
+    {
+      "epoch": 1.985233798195242,
+      "eval_loss": 0.24846026301383972,
+      "eval_runtime": 19.3185,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 2420
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.2885599858062594,
+      "train_runtime": 4675.7614,
+      "train_samples_per_second": 16.682,
+      "train_steps_per_second": 0.521
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exps5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1858 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 20,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016406890894175553,
+      "grad_norm": 0.11380166560411453,
+      "learning_rate": 1.557377049180328e-05,
+      "loss": 0.7435,
+      "step": 20
+    },
+    {
+      "epoch": 0.016406890894175553,
+      "eval_loss": 0.7304632067680359,
+      "eval_runtime": 19.8202,
+      "eval_samples_per_second": 50.453,
+      "eval_steps_per_second": 0.807,
+      "step": 20
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "grad_norm": 0.25147441029548645,
+      "learning_rate": 3.19672131147541e-05,
+      "loss": 0.6829,
+      "step": 40
+    },
+    {
+      "epoch": 0.03281378178835111,
+      "eval_loss": 0.5602980852127075,
+      "eval_runtime": 19.2612,
+      "eval_samples_per_second": 51.918,
+      "eval_steps_per_second": 0.831,
+      "step": 40
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "grad_norm": 0.14670787751674652,
+      "learning_rate": 4.836065573770492e-05,
+      "loss": 0.4875,
+      "step": 60
+    },
+    {
+      "epoch": 0.04922067268252666,
+      "eval_loss": 0.4308978021144867,
+      "eval_runtime": 19.3049,
+      "eval_samples_per_second": 51.8,
+      "eval_steps_per_second": 0.829,
+      "step": 60
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "grad_norm": 0.1724623739719391,
+      "learning_rate": 6.475409836065574e-05,
+      "loss": 0.4219,
+      "step": 80
+    },
+    {
+      "epoch": 0.06562756357670221,
+      "eval_loss": 0.3885975778102875,
+      "eval_runtime": 19.3057,
+      "eval_samples_per_second": 51.798,
+      "eval_steps_per_second": 0.829,
+      "step": 80
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.24202755093574524,
+      "learning_rate": 8.114754098360656e-05,
+      "loss": 0.3895,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.365479439496994,
+      "eval_runtime": 19.2994,
+      "eval_samples_per_second": 51.815,
+      "eval_steps_per_second": 0.829,
+      "step": 100
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "grad_norm": 0.21835799515247345,
+      "learning_rate": 9.754098360655737e-05,
+      "loss": 0.3638,
+      "step": 120
+    },
+    {
+      "epoch": 0.09844134536505332,
+      "eval_loss": 0.3488895893096924,
+      "eval_runtime": 19.2809,
+      "eval_samples_per_second": 51.865,
+      "eval_steps_per_second": 0.83,
+      "step": 120
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "grad_norm": 0.2230556756258011,
+      "learning_rate": 0.0001139344262295082,
+      "loss": 0.3405,
+      "step": 140
+    },
+    {
+      "epoch": 0.11484823625922888,
+      "eval_loss": 0.3406926989555359,
+      "eval_runtime": 19.2861,
+      "eval_samples_per_second": 51.851,
+      "eval_steps_per_second": 0.83,
+      "step": 140
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "grad_norm": 0.24213728308677673,
+      "learning_rate": 0.00013032786885245902,
+      "loss": 0.3382,
+      "step": 160
+    },
+    {
+      "epoch": 0.13125512715340443,
+      "eval_loss": 0.3313358426094055,
+      "eval_runtime": 19.3454,
+      "eval_samples_per_second": 51.692,
+      "eval_steps_per_second": 0.827,
+      "step": 160
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "grad_norm": 0.21106292307376862,
+      "learning_rate": 0.00014672131147540983,
+      "loss": 0.3362,
+      "step": 180
+    },
+    {
+      "epoch": 0.14766201804757997,
+      "eval_loss": 0.3270183801651001,
+      "eval_runtime": 19.3128,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 180
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.19206179678440094,
+      "learning_rate": 0.00016311475409836064,
+      "loss": 0.3333,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.3220973610877991,
+      "eval_runtime": 19.3269,
+      "eval_samples_per_second": 51.741,
+      "eval_steps_per_second": 0.828,
+      "step": 200
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "grad_norm": 0.23427358269691467,
+      "learning_rate": 0.00017950819672131149,
+      "loss": 0.3384,
+      "step": 220
+    },
+    {
+      "epoch": 0.1804757998359311,
+      "eval_loss": 0.315133661031723,
+      "eval_runtime": 19.3062,
+      "eval_samples_per_second": 51.797,
+      "eval_steps_per_second": 0.829,
+      "step": 220
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "grad_norm": 0.2133898138999939,
+      "learning_rate": 0.0001959016393442623,
+      "loss": 0.3267,
+      "step": 240
+    },
+    {
+      "epoch": 0.19688269073010664,
+      "eval_loss": 0.31321343779563904,
+      "eval_runtime": 19.3447,
+      "eval_samples_per_second": 51.694,
+      "eval_steps_per_second": 0.827,
+      "step": 240
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "grad_norm": 0.17936132848262787,
+      "learning_rate": 0.00019997693452911039,
+      "loss": 0.3209,
+      "step": 260
+    },
+    {
+      "epoch": 0.2132895816242822,
+      "eval_loss": 0.30857598781585693,
+      "eval_runtime": 19.322,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 260
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "grad_norm": 0.17790672183036804,
+      "learning_rate": 0.0001998744427804672,
+      "loss": 0.3226,
+      "step": 280
+    },
+    {
+      "epoch": 0.22969647251845776,
+      "eval_loss": 0.30542299151420593,
+      "eval_runtime": 19.3079,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 280
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.24569754302501678,
+      "learning_rate": 0.00019969004588793864,
+      "loss": 0.3095,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.30299249291419983,
+      "eval_runtime": 19.311,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.829,
+      "step": 300
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "grad_norm": 0.18036572635173798,
+      "learning_rate": 0.00019942389507193297,
+      "loss": 0.3003,
+      "step": 320
+    },
+    {
+      "epoch": 0.26251025430680885,
+      "eval_loss": 0.29782596230506897,
+      "eval_runtime": 19.3098,
+      "eval_samples_per_second": 51.787,
+      "eval_steps_per_second": 0.829,
+      "step": 320
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "grad_norm": 0.16709011793136597,
+      "learning_rate": 0.0001990762085977069,
+      "loss": 0.3133,
+      "step": 340
+    },
+    {
+      "epoch": 0.27891714520098443,
+      "eval_loss": 0.29489508271217346,
+      "eval_runtime": 19.3201,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 340
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "grad_norm": 0.18404647707939148,
+      "learning_rate": 0.00019864727159636997,
+      "loss": 0.2933,
+      "step": 360
+    },
+    {
+      "epoch": 0.29532403609515995,
+      "eval_loss": 0.2923511564731598,
+      "eval_runtime": 19.3263,
+      "eval_samples_per_second": 51.743,
+      "eval_steps_per_second": 0.828,
+      "step": 360
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "grad_norm": 0.212888702750206,
+      "learning_rate": 0.0001981374358310544,
+      "loss": 0.2996,
+      "step": 380
+    },
+    {
+      "epoch": 0.3117309269893355,
+      "eval_loss": 0.29031240940093994,
+      "eval_runtime": 19.3114,
+      "eval_samples_per_second": 51.783,
+      "eval_steps_per_second": 0.829,
+      "step": 380
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.21747799217700958,
+      "learning_rate": 0.00019754711940844045,
+      "loss": 0.3099,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.2885620594024658,
+      "eval_runtime": 19.315,
+      "eval_samples_per_second": 51.773,
+      "eval_steps_per_second": 0.828,
+      "step": 400
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "grad_norm": 0.1852598935365677,
+      "learning_rate": 0.00019687680643587515,
+      "loss": 0.3021,
+      "step": 420
+    },
+    {
+      "epoch": 0.3445447087776866,
+      "eval_loss": 0.28671303391456604,
+      "eval_runtime": 19.3235,
+      "eval_samples_per_second": 51.75,
+      "eval_steps_per_second": 0.828,
+      "step": 420
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "grad_norm": 0.18169638514518738,
+      "learning_rate": 0.00019612704662436506,
+      "loss": 0.3015,
+      "step": 440
+    },
+    {
+      "epoch": 0.3609515996718622,
+      "eval_loss": 0.283815860748291,
+      "eval_runtime": 19.3303,
+      "eval_samples_per_second": 51.732,
+      "eval_steps_per_second": 0.828,
+      "step": 440
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.15063416957855225,
+      "learning_rate": 0.0001952984548377685,
+      "loss": 0.3021,
+      "step": 460
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "eval_loss": 0.2832798957824707,
+      "eval_runtime": 19.3186,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 460
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "grad_norm": 0.1891593188047409,
+      "learning_rate": 0.0001943917105885575,
+      "loss": 0.291,
+      "step": 480
+    },
+    {
+      "epoch": 0.3937653814602133,
+      "eval_loss": 0.28229087591171265,
+      "eval_runtime": 19.3112,
+      "eval_samples_per_second": 51.783,
+      "eval_steps_per_second": 0.829,
+      "step": 480
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.15703819692134857,
+      "learning_rate": 0.00019340755748056235,
+      "loss": 0.2864,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.27941229939460754,
+      "eval_runtime": 19.3309,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 500
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "grad_norm": 0.20838674902915955,
+      "learning_rate": 0.0001923468025991561,
+      "loss": 0.2941,
+      "step": 520
+    },
+    {
+      "epoch": 0.4265791632485644,
+      "eval_loss": 0.27715691924095154,
+      "eval_runtime": 19.2863,
+      "eval_samples_per_second": 51.85,
+      "eval_steps_per_second": 0.83,
+      "step": 520
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "grad_norm": 0.20151035487651825,
+      "learning_rate": 0.00019121031584937935,
+      "loss": 0.288,
+      "step": 540
+    },
+    {
+      "epoch": 0.44298605414273995,
+      "eval_loss": 0.2766241729259491,
+      "eval_runtime": 19.3153,
+      "eval_samples_per_second": 51.773,
+      "eval_steps_per_second": 0.828,
+      "step": 540
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "grad_norm": 0.1652340292930603,
+      "learning_rate": 0.0001899990292425471,
+      "loss": 0.2831,
+      "step": 560
+    },
+    {
+      "epoch": 0.4593929450369155,
+      "eval_loss": 0.273937463760376,
+      "eval_runtime": 19.308,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 560
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "grad_norm": 0.1996350735425949,
+      "learning_rate": 0.0001887139361319243,
+      "loss": 0.278,
+      "step": 580
+    },
+    {
+      "epoch": 0.47579983593109104,
+      "eval_loss": 0.27432310581207275,
+      "eval_runtime": 19.3126,
+      "eval_samples_per_second": 51.78,
+      "eval_steps_per_second": 0.828,
+      "step": 580
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.21539440751075745,
+      "learning_rate": 0.0001873560903980955,
+      "loss": 0.2835,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2731659412384033,
+      "eval_runtime": 19.3354,
+      "eval_samples_per_second": 51.719,
+      "eval_steps_per_second": 0.827,
+      "step": 600
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "grad_norm": 0.17816652357578278,
+      "learning_rate": 0.0001859266055846971,
+      "loss": 0.272,
+      "step": 620
+    },
+    {
+      "epoch": 0.5086136177194421,
+      "eval_loss": 0.27160513401031494,
+      "eval_runtime": 19.324,
+      "eval_samples_per_second": 51.749,
+      "eval_steps_per_second": 0.828,
+      "step": 620
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "grad_norm": 0.2001989185810089,
+      "learning_rate": 0.00018442665398522149,
+      "loss": 0.2744,
+      "step": 640
+    },
+    {
+      "epoch": 0.5250205086136177,
+      "eval_loss": 0.2692422568798065,
+      "eval_runtime": 19.3251,
+      "eval_samples_per_second": 51.746,
+      "eval_steps_per_second": 0.828,
+      "step": 640
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "grad_norm": 0.21018487215042114,
+      "learning_rate": 0.0001828574656816411,
+      "loss": 0.2736,
+      "step": 660
+    },
+    {
+      "epoch": 0.5414273995077933,
+      "eval_loss": 0.2677000164985657,
+      "eval_runtime": 19.3297,
+      "eval_samples_per_second": 51.734,
+      "eval_steps_per_second": 0.828,
+      "step": 660
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "grad_norm": 0.21279104053974152,
+      "learning_rate": 0.00018122032753564157,
+      "loss": 0.2718,
+      "step": 680
+    },
+    {
+      "epoch": 0.5578342904019689,
+      "eval_loss": 0.26908594369888306,
+      "eval_runtime": 19.3302,
+      "eval_samples_per_second": 51.733,
+      "eval_steps_per_second": 0.828,
+      "step": 680
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.1887700855731964,
+      "learning_rate": 0.0001795165821332908,
+      "loss": 0.2678,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.26670950651168823,
+      "eval_runtime": 19.3168,
+      "eval_samples_per_second": 51.768,
+      "eval_steps_per_second": 0.828,
+      "step": 700
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "grad_norm": 0.19008482992649078,
+      "learning_rate": 0.0001777476266840092,
+      "loss": 0.2646,
+      "step": 720
+    },
+    {
+      "epoch": 0.5906480721903199,
+      "eval_loss": 0.265604168176651,
+      "eval_runtime": 19.3108,
+      "eval_samples_per_second": 51.785,
+      "eval_steps_per_second": 0.829,
+      "step": 720
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "grad_norm": 0.16397179663181305,
+      "learning_rate": 0.0001759149118747451,
+      "loss": 0.2701,
+      "step": 740
+    },
+    {
+      "epoch": 0.6070549630844955,
+      "eval_loss": 0.2638825476169586,
+      "eval_runtime": 19.3328,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 740
+    },
+    {
+      "epoch": 0.623461853978671,
+      "grad_norm": 0.1907324194908142,
+      "learning_rate": 0.0001740199406802933,
+      "loss": 0.2761,
+      "step": 760
+    },
+    {
+      "epoch": 0.623461853978671,
+      "eval_loss": 0.2637205719947815,
+      "eval_runtime": 19.3301,
+      "eval_samples_per_second": 51.733,
+      "eval_steps_per_second": 0.828,
+      "step": 760
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "grad_norm": 0.21579375863075256,
+      "learning_rate": 0.00017206426713073416,
+      "loss": 0.2721,
+      "step": 780
+    },
+    {
+      "epoch": 0.6398687448728466,
+      "eval_loss": 0.26291656494140625,
+      "eval_runtime": 19.3095,
+      "eval_samples_per_second": 51.788,
+      "eval_steps_per_second": 0.829,
+      "step": 780
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.20866331458091736,
+      "learning_rate": 0.00017004949503700284,
+      "loss": 0.2729,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.2615169584751129,
+      "eval_runtime": 19.319,
+      "eval_samples_per_second": 51.762,
+      "eval_steps_per_second": 0.828,
+      "step": 800
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "grad_norm": 0.18404333293437958,
+      "learning_rate": 0.00016797727667563415,
+      "loss": 0.2617,
+      "step": 820
+    },
+    {
+      "epoch": 0.6726825266611977,
+      "eval_loss": 0.25983768701553345,
+      "eval_runtime": 19.3291,
+      "eval_samples_per_second": 51.736,
+      "eval_steps_per_second": 0.828,
+      "step": 820
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "grad_norm": 0.17301003634929657,
+      "learning_rate": 0.00016584931143376176,
+      "loss": 0.2737,
+      "step": 840
+    },
+    {
+      "epoch": 0.6890894175553732,
+      "eval_loss": 0.2589709460735321,
+      "eval_runtime": 19.3364,
+      "eval_samples_per_second": 51.716,
+      "eval_steps_per_second": 0.827,
+      "step": 840
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "grad_norm": 0.18135105073451996,
+      "learning_rate": 0.00016366734441548313,
+      "loss": 0.2778,
+      "step": 860
+    },
+    {
+      "epoch": 0.7054963084495488,
+      "eval_loss": 0.2588275671005249,
+      "eval_runtime": 19.3258,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 860
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "grad_norm": 0.1769489347934723,
+      "learning_rate": 0.0001614331650107323,
+      "loss": 0.2699,
+      "step": 880
+    },
+    {
+      "epoch": 0.7219031993437244,
+      "eval_loss": 0.2579975426197052,
+      "eval_runtime": 19.3349,
+      "eval_samples_per_second": 51.72,
+      "eval_steps_per_second": 0.828,
+      "step": 880
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.18334627151489258,
+      "learning_rate": 0.00015914860542783524,
+      "loss": 0.2621,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.2564004957675934,
+      "eval_runtime": 19.3217,
+      "eval_samples_per_second": 51.755,
+      "eval_steps_per_second": 0.828,
+      "step": 900
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.17185646295547485,
+      "learning_rate": 0.00015681553919095025,
+      "loss": 0.2661,
+      "step": 920
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "eval_loss": 0.2558245062828064,
+      "eval_runtime": 19.3184,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 920
+    },
+    {
+      "epoch": 0.771123872026251,
+      "grad_norm": 0.17241282761096954,
+      "learning_rate": 0.0001544358796036264,
+      "loss": 0.25,
+      "step": 940
+    },
+    {
+      "epoch": 0.771123872026251,
+      "eval_loss": 0.254745215177536,
+      "eval_runtime": 19.3361,
+      "eval_samples_per_second": 51.717,
+      "eval_steps_per_second": 0.827,
+      "step": 940
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "grad_norm": 0.19575953483581543,
+      "learning_rate": 0.00015201157817973924,
+      "loss": 0.2583,
+      "step": 960
+    },
+    {
+      "epoch": 0.7875307629204266,
+      "eval_loss": 0.2538128197193146,
+      "eval_runtime": 19.3314,
+      "eval_samples_per_second": 51.729,
+      "eval_steps_per_second": 0.828,
+      "step": 960
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "grad_norm": 0.18103253841400146,
+      "learning_rate": 0.00014954462304309115,
+      "loss": 0.2662,
+      "step": 980
+    },
+    {
+      "epoch": 0.8039376538146021,
+      "eval_loss": 0.25316470861434937,
+      "eval_runtime": 19.3326,
+      "eval_samples_per_second": 51.726,
+      "eval_steps_per_second": 0.828,
+      "step": 980
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.20527029037475586,
+      "learning_rate": 0.0001470370372969886,
+      "loss": 0.2657,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.2526797652244568,
+      "eval_runtime": 19.3278,
+      "eval_samples_per_second": 51.739,
+      "eval_steps_per_second": 0.828,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "grad_norm": 0.18703380227088928,
+      "learning_rate": 0.00014449087736513347,
+      "loss": 0.2581,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8367514356029533,
+      "eval_loss": 0.2514651119709015,
+      "eval_runtime": 19.2682,
+      "eval_samples_per_second": 51.899,
+      "eval_steps_per_second": 0.83,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "grad_norm": 0.17955496907234192,
+      "learning_rate": 0.00014190823130518868,
+      "loss": 0.2546,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8531583264971287,
+      "eval_loss": 0.25145697593688965,
+      "eval_runtime": 19.2884,
+      "eval_samples_per_second": 51.845,
+      "eval_steps_per_second": 0.83,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.19111481308937073,
+      "learning_rate": 0.00013929121709640142,
+      "loss": 0.2571,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_loss": 0.250641793012619,
+      "eval_runtime": 19.311,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.829,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "grad_norm": 0.1683422178030014,
+      "learning_rate": 0.00013664198090268873,
+      "loss": 0.2668,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8859721082854799,
+      "eval_loss": 0.2503809928894043,
+      "eval_runtime": 19.3082,
+      "eval_samples_per_second": 51.791,
+      "eval_steps_per_second": 0.829,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.1857733279466629,
+      "learning_rate": 0.00013396269531260868,
+      "loss": 0.254,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.2492498904466629,
+      "eval_runtime": 19.3165,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 1100
+    },
+    {
+      "epoch": 0.918785890073831,
+      "grad_norm": 0.18497365713119507,
+      "learning_rate": 0.00013125555755766173,
+      "loss": 0.2526,
+      "step": 1120
+    },
+    {
+      "epoch": 0.918785890073831,
+      "eval_loss": 0.248539000749588,
+      "eval_runtime": 19.3245,
+      "eval_samples_per_second": 51.748,
+      "eval_steps_per_second": 0.828,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "grad_norm": 0.18615785241127014,
+      "learning_rate": 0.00012852278771038252,
+      "loss": 0.2598,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9351927809680065,
+      "eval_loss": 0.24817132949829102,
+      "eval_runtime": 19.3102,
+      "eval_samples_per_second": 51.786,
+      "eval_steps_per_second": 0.829,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "grad_norm": 0.19807547330856323,
+      "learning_rate": 0.00012576662686370054,
+      "loss": 0.2714,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9515996718621821,
+      "eval_loss": 0.24792517721652985,
+      "eval_runtime": 19.3192,
+      "eval_samples_per_second": 51.762,
+      "eval_steps_per_second": 0.828,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "grad_norm": 0.2258663922548294,
+      "learning_rate": 0.000122989335293062,
+      "loss": 0.2518,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9680065627563577,
+      "eval_loss": 0.2466147094964981,
+      "eval_runtime": 19.3075,
+      "eval_samples_per_second": 51.793,
+      "eval_steps_per_second": 0.829,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.1830626130104065,
+      "learning_rate": 0.00012019319060282064,
+      "loss": 0.2598,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.24613501131534576,
+      "eval_runtime": 19.3331,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "grad_norm": 0.19599111378192902,
+      "learning_rate": 0.00011738048585841741,
+      "loss": 0.2659,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0008203445447088,
+      "eval_loss": 0.24604985117912292,
+      "eval_runtime": 19.2705,
+      "eval_samples_per_second": 51.893,
+      "eval_steps_per_second": 0.83,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "grad_norm": 0.17713318765163422,
+      "learning_rate": 0.00011455352770588094,
+      "loss": 0.2321,
+      "step": 1240
+    },
+    {
+      "epoch": 1.0172272354388843,
+      "eval_loss": 0.24518859386444092,
+      "eval_runtime": 19.3371,
+      "eval_samples_per_second": 51.714,
+      "eval_steps_per_second": 0.827,
+      "step": 1240
+    },
+    {
+      "epoch": 1.03363412633306,
+      "grad_norm": 0.19879887998104095,
+      "learning_rate": 0.00011171463448019059,
+      "loss": 0.2403,
+      "step": 1260
+    },
+    {
+      "epoch": 1.03363412633306,
+      "eval_loss": 0.24396194517612457,
+      "eval_runtime": 19.3373,
+      "eval_samples_per_second": 51.713,
+      "eval_steps_per_second": 0.827,
+      "step": 1260
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "grad_norm": 0.20000441372394562,
+      "learning_rate": 0.0001088661343040537,
+      "loss": 0.24,
+      "step": 1280
+    },
+    {
+      "epoch": 1.0500410172272354,
+      "eval_loss": 0.24362273514270782,
+      "eval_runtime": 19.3082,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.829,
+      "step": 1280
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.1881808638572693,
+      "learning_rate": 0.0001060103631786563,
+      "loss": 0.234,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.2430313378572464,
+      "eval_runtime": 19.3284,
+      "eval_samples_per_second": 51.737,
+      "eval_steps_per_second": 0.828,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "grad_norm": 0.22585070133209229,
+      "learning_rate": 0.00010314966306795251,
+      "loss": 0.2299,
+      "step": 1320
+    },
+    {
+      "epoch": 1.0828547990155866,
+      "eval_loss": 0.24361206591129303,
+      "eval_runtime": 19.3229,
+      "eval_samples_per_second": 51.752,
+      "eval_steps_per_second": 0.828,
+      "step": 1320
+    },
+    {
+      "epoch": 1.099261689909762,
+      "grad_norm": 0.18805377185344696,
+      "learning_rate": 0.00010028637997806413,
+      "loss": 0.2396,
+      "step": 1340
+    },
+    {
+      "epoch": 1.099261689909762,
+      "eval_loss": 0.24354341626167297,
+      "eval_runtime": 19.3136,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 1340
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "grad_norm": 0.18671385943889618,
+      "learning_rate": 9.742286203336551e-05,
+      "loss": 0.2404,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1156685808039377,
+      "eval_loss": 0.24287469685077667,
+      "eval_runtime": 19.3223,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.20467591285705566,
+      "learning_rate": 9.45614575508309e-05,
+      "loss": 0.2371,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "eval_loss": 0.2421674132347107,
+      "eval_runtime": 19.3152,
+      "eval_samples_per_second": 51.773,
+      "eval_steps_per_second": 0.828,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.1996966153383255,
+      "learning_rate": 9.170451311422421e-05,
+      "loss": 0.2435,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.24120301008224487,
+      "eval_runtime": 19.3108,
+      "eval_samples_per_second": 51.785,
+      "eval_steps_per_second": 0.829,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "grad_norm": 0.17993618547916412,
+      "learning_rate": 8.88543716497099e-05,
+      "loss": 0.2319,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1648892534864643,
+      "eval_loss": 0.2416684776544571,
+      "eval_runtime": 19.3207,
+      "eval_samples_per_second": 51.758,
+      "eval_steps_per_second": 0.828,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "grad_norm": 0.20344999432563782,
+      "learning_rate": 8.601337050446355e-05,
+      "loss": 0.2263,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1812961443806398,
+      "eval_loss": 0.2408376783132553,
+      "eval_runtime": 19.316,
+      "eval_samples_per_second": 51.77,
+      "eval_steps_per_second": 0.828,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "grad_norm": 0.19167408347129822,
+      "learning_rate": 8.31838395298576e-05,
+      "loss": 0.2415,
+      "step": 1460
+    },
+    {
+      "epoch": 1.1977030352748155,
+      "eval_loss": 0.24088580906391144,
+      "eval_runtime": 19.3158,
+      "eval_samples_per_second": 51.771,
+      "eval_steps_per_second": 0.828,
+      "step": 1460
+    },
+    {
+      "epoch": 1.214109926168991,
+      "grad_norm": 0.1993206888437271,
+      "learning_rate": 8.036809917079411e-05,
+      "loss": 0.2409,
+      "step": 1480
+    },
+    {
+      "epoch": 1.214109926168991,
+      "eval_loss": 0.23997968435287476,
+      "eval_runtime": 19.3306,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 1480
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.22202400863170624,
+      "learning_rate": 7.756845856275194e-05,
+      "loss": 0.2375,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.24000239372253418,
+      "eval_runtime": 19.3092,
+      "eval_samples_per_second": 51.789,
+      "eval_steps_per_second": 0.829,
+      "step": 1500
+    },
+    {
+      "epoch": 1.246923707957342,
+      "grad_norm": 0.21304291486740112,
+      "learning_rate": 7.478721363810825e-05,
+      "loss": 0.2405,
+      "step": 1520
+    },
+    {
+      "epoch": 1.246923707957342,
+      "eval_loss": 0.23960961401462555,
+      "eval_runtime": 19.2639,
+      "eval_samples_per_second": 51.911,
+      "eval_steps_per_second": 0.831,
+      "step": 1520
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "grad_norm": 0.19039390981197357,
+      "learning_rate": 7.20266452432877e-05,
+      "loss": 0.2297,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2633305988515175,
+      "eval_loss": 0.23886562883853912,
+      "eval_runtime": 19.3147,
+      "eval_samples_per_second": 51.774,
+      "eval_steps_per_second": 0.828,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "grad_norm": 0.22386115789413452,
+      "learning_rate": 6.92890172682835e-05,
+      "loss": 0.2369,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2797374897456932,
+      "eval_loss": 0.2387980967760086,
+      "eval_runtime": 19.3174,
+      "eval_samples_per_second": 51.767,
+      "eval_steps_per_second": 0.828,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "grad_norm": 0.2163139134645462,
+      "learning_rate": 6.65765747900838e-05,
+      "loss": 0.2315,
+      "step": 1580
+    },
+    {
+      "epoch": 1.2961443806398687,
+      "eval_loss": 0.23805563151836395,
+      "eval_runtime": 19.3198,
+      "eval_samples_per_second": 51.76,
+      "eval_steps_per_second": 0.828,
+      "step": 1580
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.19729720056056976,
+      "learning_rate": 6.389154223152666e-05,
+      "loss": 0.2337,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.23739255964756012,
+      "eval_runtime": 19.2969,
+      "eval_samples_per_second": 51.822,
+      "eval_steps_per_second": 0.829,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "grad_norm": 0.2069961577653885,
+      "learning_rate": 6.123612153709288e-05,
+      "loss": 0.2284,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3289581624282198,
+      "eval_loss": 0.2374027967453003,
+      "eval_runtime": 19.3195,
+      "eval_samples_per_second": 51.761,
+      "eval_steps_per_second": 0.828,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "grad_norm": 0.22076573967933655,
+      "learning_rate": 5.8612490367132656e-05,
+      "loss": 0.2319,
+      "step": 1640
+    },
+    {
+      "epoch": 1.3453650533223955,
+      "eval_loss": 0.23642553389072418,
+      "eval_runtime": 19.3294,
+      "eval_samples_per_second": 51.735,
+      "eval_steps_per_second": 0.828,
+      "step": 1640
+    },
+    {
+      "epoch": 1.361771944216571,
+      "grad_norm": 0.21753518283367157,
+      "learning_rate": 5.602280031200784e-05,
+      "loss": 0.2216,
+      "step": 1660
+    },
+    {
+      "epoch": 1.361771944216571,
+      "eval_loss": 0.2362075001001358,
+      "eval_runtime": 19.3212,
+      "eval_samples_per_second": 51.757,
+      "eval_steps_per_second": 0.828,
+      "step": 1660
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "grad_norm": 0.19170460104942322,
+      "learning_rate": 5.346917512761322e-05,
+      "loss": 0.2265,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3781788351107465,
+      "eval_loss": 0.23582229018211365,
+      "eval_runtime": 19.3226,
+      "eval_samples_per_second": 51.753,
+      "eval_steps_per_second": 0.828,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.20841749012470245,
+      "learning_rate": 5.0953708993724114e-05,
+      "loss": 0.2314,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.23545880615711212,
+      "eval_runtime": 19.3033,
+      "eval_samples_per_second": 51.805,
+      "eval_steps_per_second": 0.829,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "grad_norm": 0.23843340575695038,
+      "learning_rate": 4.847846479659961e-05,
+      "loss": 0.2413,
+      "step": 1720
+    },
+    {
+      "epoch": 1.4109926168990976,
+      "eval_loss": 0.23550079762935638,
+      "eval_runtime": 19.3112,
+      "eval_samples_per_second": 51.783,
+      "eval_steps_per_second": 0.829,
+      "step": 1720
+    },
+    {
+      "epoch": 1.427399507793273,
+      "grad_norm": 0.20170091092586517,
+      "learning_rate": 4.604547243724809e-05,
+      "loss": 0.2412,
+      "step": 1740
+    },
+    {
+      "epoch": 1.427399507793273,
+      "eval_loss": 0.23475277423858643,
+      "eval_runtime": 19.3177,
+      "eval_samples_per_second": 51.766,
+      "eval_steps_per_second": 0.828,
+      "step": 1740
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "grad_norm": 0.20738761126995087,
+      "learning_rate": 4.365672716674395e-05,
+      "loss": 0.2346,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4438063986874488,
+      "eval_loss": 0.2345096319913864,
+      "eval_runtime": 19.3258,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 1760
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "grad_norm": 0.23127228021621704,
+      "learning_rate": 4.1314187949959996e-05,
+      "loss": 0.229,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4602132895816242,
+      "eval_loss": 0.23429767787456512,
+      "eval_runtime": 19.3185,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.20418289303779602,
+      "learning_rate": 3.901977585905692e-05,
+      "loss": 0.239,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.23406723141670227,
+      "eval_runtime": 19.3265,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "grad_norm": 0.2218182235956192,
+      "learning_rate": 3.677537249804891e-05,
+      "loss": 0.2253,
+      "step": 1820
+    },
+    {
+      "epoch": 1.4930270713699754,
+      "eval_loss": 0.23370110988616943,
+      "eval_runtime": 19.3173,
+      "eval_samples_per_second": 51.767,
+      "eval_steps_per_second": 0.828,
+      "step": 1820
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.2059129923582077,
+      "learning_rate": 3.458281845973528e-05,
+      "loss": 0.2355,
+      "step": 1840
+    },
+    {
+      "epoch": 1.509433962264151,
+      "eval_loss": 0.23322786390781403,
+      "eval_runtime": 19.3204,
+      "eval_samples_per_second": 51.759,
+      "eval_steps_per_second": 0.828,
+      "step": 1840
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "grad_norm": 0.19780805706977844,
+      "learning_rate": 3.2443911816265214e-05,
+      "loss": 0.2327,
+      "step": 1860
+    },
+    {
+      "epoch": 1.5258408531583265,
+      "eval_loss": 0.23293595016002655,
+      "eval_runtime": 19.3265,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 1860
+    },
+    {
+      "epoch": 1.542247744052502,
+      "grad_norm": 0.22608228027820587,
+      "learning_rate": 3.0360406644572935e-05,
+      "loss": 0.2259,
+      "step": 1880
+    },
+    {
+      "epoch": 1.542247744052502,
+      "eval_loss": 0.23265497386455536,
+      "eval_runtime": 19.3159,
+      "eval_samples_per_second": 51.771,
+      "eval_steps_per_second": 0.828,
+      "step": 1880
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.20242735743522644,
+      "learning_rate": 2.8334011587892074e-05,
+      "loss": 0.2277,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.2327563762664795,
+      "eval_runtime": 19.3493,
+      "eval_samples_per_second": 51.681,
+      "eval_steps_per_second": 0.827,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "grad_norm": 0.2113717496395111,
+      "learning_rate": 2.6366388454529788e-05,
+      "loss": 0.2312,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5750615258408531,
+      "eval_loss": 0.23235367238521576,
+      "eval_runtime": 19.3377,
+      "eval_samples_per_second": 51.712,
+      "eval_steps_per_second": 0.827,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "grad_norm": 0.21388964354991913,
+      "learning_rate": 2.445915085504915e-05,
+      "loss": 0.2332,
+      "step": 1940
+    },
+    {
+      "epoch": 1.5914684167350286,
+      "eval_loss": 0.23235748708248138,
+      "eval_runtime": 19.3154,
+      "eval_samples_per_second": 51.772,
+      "eval_steps_per_second": 0.828,
+      "step": 1940
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "grad_norm": 0.21950435638427734,
+      "learning_rate": 2.2613862878977555e-05,
+      "loss": 0.2329,
+      "step": 1960
+    },
+    {
+      "epoch": 1.6078753076292043,
+      "eval_loss": 0.2320047914981842,
+      "eval_runtime": 19.3131,
+      "eval_samples_per_second": 51.778,
+      "eval_steps_per_second": 0.828,
+      "step": 1960
+    },
+    {
+      "epoch": 1.62428219852338,
+      "grad_norm": 0.21539780497550964,
+      "learning_rate": 2.083203781212647e-05,
+      "loss": 0.2299,
+      "step": 1980
+    },
+    {
+      "epoch": 1.62428219852338,
+      "eval_loss": 0.23193301260471344,
+      "eval_runtime": 19.2995,
+      "eval_samples_per_second": 51.815,
+      "eval_steps_per_second": 0.829,
+      "step": 1980
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.2272278517484665,
+      "learning_rate": 1.9115136895574404e-05,
+      "loss": 0.2311,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.23183076083660126,
+      "eval_runtime": 19.3108,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.829,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "grad_norm": 0.24351078271865845,
+      "learning_rate": 1.746456812733056e-05,
+      "loss": 0.2215,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6570959803117309,
+      "eval_loss": 0.23151956498622894,
+      "eval_runtime": 19.3258,
+      "eval_samples_per_second": 51.744,
+      "eval_steps_per_second": 0.828,
+      "step": 2020
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "grad_norm": 0.19060897827148438,
+      "learning_rate": 1.5881685107662336e-05,
+      "loss": 0.2221,
+      "step": 2040
+    },
+    {
+      "epoch": 1.6735028712059066,
+      "eval_loss": 0.23138311505317688,
+      "eval_runtime": 19.2846,
+      "eval_samples_per_second": 51.855,
+      "eval_steps_per_second": 0.83,
+      "step": 2040
+    },
+    {
+      "epoch": 1.689909762100082,
+      "grad_norm": 0.23018501698970795,
+      "learning_rate": 1.4367785929033394e-05,
+      "loss": 0.2355,
+      "step": 2060
+    },
+    {
+      "epoch": 1.689909762100082,
+      "eval_loss": 0.2313683182001114,
+      "eval_runtime": 19.3234,
+      "eval_samples_per_second": 51.751,
+      "eval_steps_per_second": 0.828,
+      "step": 2060
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "grad_norm": 0.23208950459957123,
+      "learning_rate": 1.2924112111562315e-05,
+      "loss": 0.2242,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7063166529942575,
+      "eval_loss": 0.23121151328086853,
+      "eval_runtime": 19.3229,
+      "eval_samples_per_second": 51.752,
+      "eval_steps_per_second": 0.828,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.20929782092571259,
+      "learning_rate": 1.155184758487573e-05,
+      "loss": 0.2236,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.2309342622756958,
+      "eval_runtime": 19.3276,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.2145085632801056,
+      "learning_rate": 1.0252117717189713e-05,
+      "loss": 0.2231,
+      "step": 2120
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_loss": 0.2309054434299469,
+      "eval_runtime": 19.3244,
+      "eval_samples_per_second": 51.748,
+      "eval_steps_per_second": 0.828,
+      "step": 2120
+    },
+    {
+      "epoch": 1.755537325676784,
+      "grad_norm": 0.22081588208675385,
+      "learning_rate": 9.025988392416717e-06,
+      "loss": 0.2194,
+      "step": 2140
+    },
+    {
+      "epoch": 1.755537325676784,
+      "eval_loss": 0.23062872886657715,
+      "eval_runtime": 19.3231,
+      "eval_samples_per_second": 51.752,
+      "eval_steps_per_second": 0.828,
+      "step": 2140
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "grad_norm": 0.21650107204914093,
+      "learning_rate": 7.874465136054332e-06,
+      "loss": 0.2208,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7719442165709598,
+      "eval_loss": 0.2306279093027115,
+      "eval_runtime": 19.3223,
+      "eval_samples_per_second": 51.754,
+      "eval_steps_per_second": 0.828,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "grad_norm": 0.1942278891801834,
+      "learning_rate": 6.798492290572611e-06,
+      "loss": 0.2241,
+      "step": 2180
+    },
+    {
+      "epoch": 1.7883511074651355,
+      "eval_loss": 0.2306579053401947,
+      "eval_runtime": 19.333,
+      "eval_samples_per_second": 51.725,
+      "eval_steps_per_second": 0.828,
+      "step": 2180
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.2526184916496277,
+      "learning_rate": 5.798952240976951e-06,
+      "loss": 0.2305,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.23054717481136322,
+      "eval_runtime": 19.3308,
+      "eval_samples_per_second": 51.731,
+      "eval_steps_per_second": 0.828,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "grad_norm": 0.23644739389419556,
+      "learning_rate": 4.8766646911805995e-06,
+      "loss": 0.2182,
+      "step": 2220
+    },
+    {
+      "epoch": 1.8211648892534864,
+      "eval_loss": 0.23052726686000824,
+      "eval_runtime": 19.3237,
+      "eval_samples_per_second": 51.75,
+      "eval_steps_per_second": 0.828,
+      "step": 2220
+    },
+    {
+      "epoch": 1.837571780147662,
+      "grad_norm": 0.24224869906902313,
+      "learning_rate": 4.032385991781029e-06,
+      "loss": 0.2281,
+      "step": 2240
+    },
+    {
+      "epoch": 1.837571780147662,
+      "eval_loss": 0.23048415780067444,
+      "eval_runtime": 19.3078,
+      "eval_samples_per_second": 51.793,
+      "eval_steps_per_second": 0.829,
+      "step": 2240
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "grad_norm": 0.20227192342281342,
+      "learning_rate": 3.2668085197910757e-06,
+      "loss": 0.2221,
+      "step": 2260
+    },
+    {
+      "epoch": 1.8539786710418376,
+      "eval_loss": 0.2304566353559494,
+      "eval_runtime": 19.3092,
+      "eval_samples_per_second": 51.789,
+      "eval_steps_per_second": 0.829,
+      "step": 2260
+    },
+    {
+      "epoch": 1.870385561936013,
+      "grad_norm": 0.21336953341960907,
+      "learning_rate": 2.5805601108337297e-06,
+      "loss": 0.2269,
+      "step": 2280
+    },
+    {
+      "epoch": 1.870385561936013,
+      "eval_loss": 0.2304052710533142,
+      "eval_runtime": 19.346,
+      "eval_samples_per_second": 51.69,
+      "eval_steps_per_second": 0.827,
+      "step": 2280
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.2497740089893341,
+      "learning_rate": 1.9742035442658403e-06,
+      "loss": 0.2359,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.23032720386981964,
+      "eval_runtime": 19.3272,
+      "eval_samples_per_second": 51.74,
+      "eval_steps_per_second": 0.828,
+      "step": 2300
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "grad_norm": 0.19928687810897827,
+      "learning_rate": 1.448236081653509e-06,
+      "loss": 0.2305,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9031993437243644,
+      "eval_loss": 0.23034411668777466,
+      "eval_runtime": 19.3378,
+      "eval_samples_per_second": 51.712,
+      "eval_steps_per_second": 0.827,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "grad_norm": 0.19296622276306152,
+      "learning_rate": 1.0030890589772468e-06,
+      "loss": 0.2239,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9196062346185396,
+      "eval_loss": 0.23032715916633606,
+      "eval_runtime": 19.3474,
+      "eval_samples_per_second": 51.687,
+      "eval_steps_per_second": 0.827,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "grad_norm": 0.22955958545207977,
+      "learning_rate": 6.391275329014734e-07,
+      "loss": 0.2283,
+      "step": 2360
+    },
+    {
+      "epoch": 1.9360131255127153,
+      "eval_loss": 0.23028050363063812,
+      "eval_runtime": 19.3344,
+      "eval_samples_per_second": 51.721,
+      "eval_steps_per_second": 0.828,
+      "step": 2360
+    },
+    {
+      "epoch": 1.952420016406891,
+      "grad_norm": 0.21419735252857208,
+      "learning_rate": 3.566499813984603e-07,
+      "loss": 0.2382,
+      "step": 2380
+    },
+    {
+      "epoch": 1.952420016406891,
+      "eval_loss": 0.23030652105808258,
+      "eval_runtime": 19.3163,
+      "eval_samples_per_second": 51.77,
+      "eval_steps_per_second": 0.828,
+      "step": 2380
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.21221666038036346,
+      "learning_rate": 1.5588805897215342e-07,
+      "loss": 0.2326,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.2303100824356079,
+      "eval_runtime": 19.3186,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 2400
+    },
+    {
+      "epoch": 1.985233798195242,
+      "grad_norm": 0.185977041721344,
+      "learning_rate": 3.700640668272692e-08,
+      "loss": 0.2186,
+      "step": 2420
+    },
+    {
+      "epoch": 1.985233798195242,
+      "eval_loss": 0.23031620681285858,
+      "eval_runtime": 19.3172,
+      "eval_samples_per_second": 51.767,
+      "eval_steps_per_second": 0.828,
+      "step": 2420
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.2688869493138702,
+      "train_runtime": 4683.6469,
+      "train_samples_per_second": 16.654,
+      "train_steps_per_second": 0.521
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}