nvan15 commited on Jan 15

Commit

1af4760

verified ·

1 Parent(s): ade215c

Batch upload part 9

Browse files

Files changed (50) hide show

nl_tasks/exps/run_ex34/ft/adapter_config.json +18 -0
nl_tasks/exps/run_ex34/ft/special_tokens_map.json +24 -0
nl_tasks/exps/run_ex34/ft/tokenizer.json +0 -0
nl_tasks/exps/run_ex34/ft/tokenizer.model +3 -0
nl_tasks/exps/run_ex34/ft/tokenizer_config.json +43 -0
nl_tasks/exps/run_ex34/ft2/adapter_config.json +18 -0
nl_tasks/exps/run_ex34/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/exnr14/ft/adapter_config.json +18 -0
nl_tasks/run_all/exnr14/ft/added_tokens.json +3 -0
nl_tasks/run_all/exnr14/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/exnr14/ft/tokenizer.json +0 -0
nl_tasks/run_all/exnr14/ft/tokenizer.model +3 -0
nl_tasks/run_all/exnr14/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/exnr14/ft/training_args.bin +3 -0
nl_tasks/run_all/exnr14/ft2/adapter_config.json +18 -0
nl_tasks/run_all/exnr14/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/exnr14/trainer_state.json +1106 -0
nl_tasks/run_all/exnr15/ft/adapter_config.json +18 -0
nl_tasks/run_all/exnr15/ft/added_tokens.json +3 -0
nl_tasks/run_all/exnr15/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/exnr15/ft/tokenizer.json +0 -0
nl_tasks/run_all/exnr15/ft/tokenizer.model +3 -0
nl_tasks/run_all/exnr15/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/exnr15/ft/training_args.bin +3 -0
nl_tasks/run_all/exnr15/ft2/adapter_config.json +18 -0
nl_tasks/run_all/exnr15/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/exnr15/trainer_state.json +135 -0
nl_tasks/run_all/run_exnr10/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr10/ft/added_tokens.json +3 -0
nl_tasks/run_all/run_exnr10/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exnr10/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exnr10/ft/tokenizer.model +3 -0
nl_tasks/run_all/run_exnr10/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exnr10/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exnr10/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr10/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exnr10/trainer_state.json +1106 -0
nl_tasks/run_all/run_exnr11/ft/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr11/ft/added_tokens.json +3 -0
nl_tasks/run_all/run_exnr11/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exnr11/ft/tokenizer.json +0 -0
nl_tasks/run_all/run_exnr11/ft/tokenizer.model +3 -0
nl_tasks/run_all/run_exnr11/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exnr11/ft/training_args.bin +3 -0
nl_tasks/run_all/run_exnr11/ft2/adapter_config.json +18 -0
nl_tasks/run_all/run_exnr11/ft2/adapter_model.bin +3 -0
nl_tasks/run_all/run_exnr11/trainer_state.json +1106 -0
nl_tasks/run_all/run_exnr12/ft/special_tokens_map.json +30 -0
nl_tasks/run_all/run_exnr12/ft/tokenizer_config.json +51 -0
nl_tasks/run_all/run_exnr12/trainer_state.json +1106 -0

nl_tasks/exps/run_ex34/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex34/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exps/run_ex34/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exps/run_ex34/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exps/run_ex34/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exps/run_ex34/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex34/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d263a69315b36f2b766405381d1a2c89d10e2377e9d5f50e9ff5f74bfa0c189
+size 33602915

nl_tasks/run_all/exnr14/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/exnr14/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/run_all/exnr14/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/exnr14/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/exnr14/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/run_all/exnr14/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/exnr14/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba427f2d53ed75e43f98a703940afe9017468efadf9a60725d88bde4c1c2c303
+size 6545

nl_tasks/run_all/exnr14/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/exnr14/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29b2d1c56e46e1472d61486ef0f7c4570c1678d2f3ea6b0c9652a5e9a979117e
+size 33602915

nl_tasks/run_all/exnr14/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1106 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 50,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.16105684638023376,
+      "learning_rate": 0.00019672131147540983,
+      "loss": 0.6249,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.19086705148220062,
+      "learning_rate": 0.00040163934426229507,
+      "loss": 0.3842,
+      "step": 50
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "eval_loss": 0.3523162603378296,
+      "eval_runtime": 19.5722,
+      "eval_samples_per_second": 51.093,
+      "eval_steps_per_second": 0.817,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.40827786922454834,
+      "learning_rate": 0.0006065573770491804,
+      "loss": 0.3562,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.2028273344039917,
+      "learning_rate": 0.0008114754098360656,
+      "loss": 0.3428,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.32449883222579956,
+      "eval_runtime": 19.5267,
+      "eval_samples_per_second": 51.212,
+      "eval_steps_per_second": 0.819,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.2950042188167572,
+      "learning_rate": 0.0010163934426229509,
+      "loss": 0.3332,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 2.916337013244629,
+      "learning_rate": 0.001221311475409836,
+      "loss": 0.5147,
+      "step": 150
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "eval_loss": 0.410254567861557,
+      "eval_runtime": 19.5194,
+      "eval_samples_per_second": 51.231,
+      "eval_steps_per_second": 0.82,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.40234318375587463,
+      "learning_rate": 0.0014262295081967215,
+      "loss": 0.3616,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.5344768762588501,
+      "learning_rate": 0.0016311475409836065,
+      "loss": 0.3605,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.3446679413318634,
+      "eval_runtime": 19.5174,
+      "eval_samples_per_second": 51.236,
+      "eval_steps_per_second": 0.82,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 392.2628173828125,
+      "learning_rate": 0.0018360655737704918,
+      "loss": 0.4885,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.4538051187992096,
+      "learning_rate": 0.0019999743708232127,
+      "loss": 0.4975,
+      "step": 250
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "eval_loss": 0.3520921468734741,
+      "eval_runtime": 19.5139,
+      "eval_samples_per_second": 51.245,
+      "eval_steps_per_second": 0.82,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.6222809553146362,
+      "learning_rate": 0.0019990774875676054,
+      "loss": 0.3541,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.44931286573410034,
+      "learning_rate": 0.001996900458879386,
+      "loss": 0.3521,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.3311863839626312,
+      "eval_runtime": 19.5345,
+      "eval_samples_per_second": 51.192,
+      "eval_steps_per_second": 0.819,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.23350577056407928,
+      "learning_rate": 0.001993446074245224,
+      "loss": 0.3325,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.21402505040168762,
+      "learning_rate": 0.0019887187598630527,
+      "loss": 0.3221,
+      "step": 350
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "eval_loss": 0.2994612455368042,
+      "eval_runtime": 19.5154,
+      "eval_samples_per_second": 51.242,
+      "eval_steps_per_second": 0.82,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.17019234597682953,
+      "learning_rate": 0.0019827245729706648,
+      "loss": 0.3031,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.17441657185554504,
+      "learning_rate": 0.0019754711940844047,
+      "loss": 0.3047,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.28233733773231506,
+      "eval_runtime": 19.5238,
+      "eval_samples_per_second": 51.22,
+      "eval_steps_per_second": 0.82,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.12981465458869934,
+      "learning_rate": 0.0019669679171579117,
+      "loss": 0.2964,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.14443928003311157,
+      "learning_rate": 0.001957225637673524,
+      "loss": 0.2879,
+      "step": 450
+    },
+    {
+      "epoch": 0.36915504511895,
+      "eval_loss": 0.27039000391960144,
+      "eval_runtime": 19.544,
+      "eval_samples_per_second": 51.167,
+      "eval_steps_per_second": 0.819,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.1316242665052414,
+      "learning_rate": 0.0019462568386815961,
+      "loss": 0.2839,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.12701553106307983,
+      "learning_rate": 0.0019340755748056234,
+      "loss": 0.2759,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.2636236250400543,
+      "eval_runtime": 19.5187,
+      "eval_samples_per_second": 51.233,
+      "eval_steps_per_second": 0.82,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.1544770896434784,
+      "learning_rate": 0.0019206974542336672,
+      "loss": 0.2795,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.11463268101215363,
+      "learning_rate": 0.0019061396187191563,
+      "loss": 0.2735,
+      "step": 550
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "eval_loss": 0.2576003074645996,
+      "eval_runtime": 19.5029,
+      "eval_samples_per_second": 51.274,
+      "eval_steps_per_second": 0.82,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.12292572110891342,
+      "learning_rate": 0.0018904207216166836,
+      "loss": 0.2611,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.11286451667547226,
+      "learning_rate": 0.001873560903980955,
+      "loss": 0.2699,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2554730474948883,
+      "eval_runtime": 19.529,
+      "eval_samples_per_second": 51.206,
+      "eval_steps_per_second": 0.819,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.09815208613872528,
+      "learning_rate": 0.0018555817687594984,
+      "loss": 0.2573,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.10865656286478043,
+      "learning_rate": 0.0018365063531122169,
+      "loss": 0.2564,
+      "step": 650
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "eval_loss": 0.25100600719451904,
+      "eval_runtime": 19.5294,
+      "eval_samples_per_second": 51.205,
+      "eval_steps_per_second": 0.819,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.11892469227313995,
+      "learning_rate": 0.0018163590988932402,
+      "loss": 0.2556,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.08931335061788559,
+      "learning_rate": 0.0017951658213329078,
+      "loss": 0.2507,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.2487325370311737,
+      "eval_runtime": 19.5503,
+      "eval_samples_per_second": 51.15,
+      "eval_steps_per_second": 0.818,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.09335417300462723,
+      "learning_rate": 0.0017729536759600033,
+      "loss": 0.2479,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.08527883887290955,
+      "learning_rate": 0.0017497511238066307,
+      "loss": 0.2571,
+      "step": 750
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "eval_loss": 0.24877095222473145,
+      "eval_runtime": 19.5122,
+      "eval_samples_per_second": 51.25,
+      "eval_steps_per_second": 0.82,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.10340578854084015,
+      "learning_rate": 0.00172558789494031,
+      "loss": 0.2621,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.10272800922393799,
+      "learning_rate": 0.0017004949503700284,
+      "loss": 0.2519,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.24430014193058014,
+      "eval_runtime": 19.5231,
+      "eval_samples_per_second": 51.221,
+      "eval_steps_per_second": 0.82,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.11489123106002808,
+      "learning_rate": 0.0016745044423750449,
+      "loss": 0.2472,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.07966622710227966,
+      "learning_rate": 0.0016476496733072946,
+      "loss": 0.261,
+      "step": 850
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "eval_loss": 0.24359455704689026,
+      "eval_runtime": 19.5061,
+      "eval_samples_per_second": 51.266,
+      "eval_steps_per_second": 0.82,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.07211313396692276,
+      "learning_rate": 0.0016199650529201684,
+      "loss": 0.2548,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.08206778764724731,
+      "learning_rate": 0.0015914860542783522,
+      "loss": 0.2479,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.24049904942512512,
+      "eval_runtime": 19.5237,
+      "eval_samples_per_second": 51.22,
+      "eval_steps_per_second": 0.82,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.08992116898298264,
+      "learning_rate": 0.0015622491683052124,
+      "loss": 0.2502,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.08781281113624573,
+      "learning_rate": 0.0015322918570259759,
+      "loss": 0.2341,
+      "step": 950
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "eval_loss": 0.23792409896850586,
+      "eval_runtime": 19.5338,
+      "eval_samples_per_second": 51.193,
+      "eval_steps_per_second": 0.819,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.08975056558847427,
+      "learning_rate": 0.0015016525055666057,
+      "loss": 0.2471,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.08536435663700104,
+      "learning_rate": 0.001470370372969886,
+      "loss": 0.2501,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.23709805309772491,
+      "eval_runtime": 19.5182,
+      "eval_samples_per_second": 51.234,
+      "eval_steps_per_second": 0.82,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.07575884461402893,
+      "learning_rate": 0.0014384855418917311,
+      "loss": 0.2366,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.08482314646244049,
+      "learning_rate": 0.0014060388672421775,
+      "loss": 0.2432,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "eval_loss": 0.23468729853630066,
+      "eval_runtime": 19.4897,
+      "eval_samples_per_second": 51.309,
+      "eval_steps_per_second": 0.821,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.08808961510658264,
+      "learning_rate": 0.0013730719238368662,
+      "loss": 0.248,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.0849333256483078,
+      "learning_rate": 0.0013396269531260867,
+      "loss": 0.24,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.23305058479309082,
+      "eval_runtime": 19.5254,
+      "eval_samples_per_second": 51.215,
+      "eval_steps_per_second": 0.819,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.13481223583221436,
+      "learning_rate": 0.0013057468090696496,
+      "loss": 0.2376,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.07862788438796997,
+      "learning_rate": 0.0012714749032269287,
+      "loss": 0.2511,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "eval_loss": 0.23162627220153809,
+      "eval_runtime": 19.5241,
+      "eval_samples_per_second": 51.219,
+      "eval_steps_per_second": 0.819,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.08472246676683426,
+      "learning_rate": 0.0012368551491324358,
+      "loss": 0.2415,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.07140998542308807,
+      "learning_rate": 0.0012019319060282063,
+      "loss": 0.2432,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.22965233027935028,
+      "eval_runtime": 19.5217,
+      "eval_samples_per_second": 51.225,
+      "eval_steps_per_second": 0.82,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.09055250138044357,
+      "learning_rate": 0.0011667499220250803,
+      "loss": 0.2404,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.08059660345315933,
+      "learning_rate": 0.0011313542767657204,
+      "loss": 0.2058,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "eval_loss": 0.23091378808021545,
+      "eval_runtime": 19.5068,
+      "eval_samples_per_second": 51.264,
+      "eval_steps_per_second": 0.82,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.08628836274147034,
+      "learning_rate": 0.0010957903236628267,
+      "loss": 0.2037,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.08117768913507462,
+      "learning_rate": 0.001060103631786563,
+      "loss": 0.2115,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.22918300330638885,
+      "eval_runtime": 19.5375,
+      "eval_samples_per_second": 51.184,
+      "eval_steps_per_second": 0.819,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.0947440043091774,
+      "learning_rate": 0.0010243399274756564,
+      "loss": 0.2192,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.09542486071586609,
+      "learning_rate": 0.0009885450357469806,
+      "loss": 0.2086,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "eval_loss": 0.2292700856924057,
+      "eval_runtime": 19.5283,
+      "eval_samples_per_second": 51.208,
+      "eval_steps_per_second": 0.819,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.0885721817612648,
+      "learning_rate": 0.0009527648215787065,
+      "loss": 0.2072,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.10220566391944885,
+      "learning_rate": 0.000917045131142242,
+      "loss": 0.2056,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.2266603708267212,
+      "eval_runtime": 19.5243,
+      "eval_samples_per_second": 51.218,
+      "eval_steps_per_second": 0.819,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.08700072765350342,
+      "learning_rate": 0.0008814317330582753,
+      "loss": 0.2087,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.09305619448423386,
+      "learning_rate": 0.000845970259752183,
+      "loss": 0.2154,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "eval_loss": 0.225525364279747,
+      "eval_runtime": 19.536,
+      "eval_samples_per_second": 51.188,
+      "eval_steps_per_second": 0.819,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.08418343216180801,
+      "learning_rate": 0.0008107061489839498,
+      "loss": 0.2074,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.08762308210134506,
+      "learning_rate": 0.0007756845856275194,
+      "loss": 0.2142,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.2249392718076706,
+      "eval_runtime": 19.5325,
+      "eval_samples_per_second": 51.197,
+      "eval_steps_per_second": 0.819,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.08624199777841568,
+      "learning_rate": 0.0007409504437741722,
+      "loss": 0.2036,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.10422079265117645,
+      "learning_rate": 0.0007065482292341205,
+      "loss": 0.2064,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "eval_loss": 0.22372664511203766,
+      "eval_runtime": 19.4993,
+      "eval_samples_per_second": 51.284,
+      "eval_steps_per_second": 0.821,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.10072669386863708,
+      "learning_rate": 0.0006725220225099911,
+      "loss": 0.2026,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.08004007488489151,
+      "learning_rate": 0.0006389154223152666,
+      "loss": 0.1966,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.22237621247768402,
+      "eval_runtime": 19.5461,
+      "eval_samples_per_second": 51.161,
+      "eval_steps_per_second": 0.819,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.08824878185987473,
+      "learning_rate": 0.0006057714897100551,
+      "loss": 0.2107,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.09968467056751251,
+      "learning_rate": 0.0005731326929257713,
+      "loss": 0.2025,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "eval_loss": 0.22190262377262115,
+      "eval_runtime": 19.5253,
+      "eval_samples_per_second": 51.215,
+      "eval_steps_per_second": 0.819,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.08944033086299896,
+      "learning_rate": 0.0005410408529494251,
+      "loss": 0.2009,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.10983427613973618,
+      "learning_rate": 0.0005095370899372412,
+      "loss": 0.2047,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.2195666879415512,
+      "eval_runtime": 19.5298,
+      "eval_samples_per_second": 51.204,
+      "eval_steps_per_second": 0.819,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.0977800264954567,
+      "learning_rate": 0.0004786617705262746,
+      "loss": 0.1974,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.09195175021886826,
+      "learning_rate": 0.000448454456111529,
+      "loss": 0.2108,
+      "step": 1750
+    },
+    {
+      "epoch": 1.435602953240361,
+      "eval_loss": 0.21818041801452637,
+      "eval_runtime": 19.4982,
+      "eval_samples_per_second": 51.287,
+      "eval_steps_per_second": 0.821,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.07893190532922745,
+      "learning_rate": 0.0004189538521548524,
+      "loss": 0.2039,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.08887404948472977,
+      "learning_rate": 0.00039019775859056916,
+      "loss": 0.2013,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.21688690781593323,
+      "eval_runtime": 19.5295,
+      "eval_samples_per_second": 51.205,
+      "eval_steps_per_second": 0.819,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.10588109493255615,
+      "learning_rate": 0.0003622230213913836,
+      "loss": 0.1978,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.09462971240282059,
+      "learning_rate": 0.0003350654853566223,
+      "loss": 0.2083,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "eval_loss": 0.21524257957935333,
+      "eval_runtime": 19.5333,
+      "eval_samples_per_second": 51.195,
+      "eval_steps_per_second": 0.819,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.092497818171978,
+      "learning_rate": 0.00030875994818330957,
+      "loss": 0.1978,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.0886370837688446,
+      "learning_rate": 0.0002833401158789207,
+      "loss": 0.2083,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.21452394127845764,
+      "eval_runtime": 19.5059,
+      "eval_samples_per_second": 51.266,
+      "eval_steps_per_second": 0.82,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.09655001759529114,
+      "learning_rate": 0.00025883855957295053,
+      "loss": 0.192,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.08523295074701309,
+      "learning_rate": 0.0002352866737826277,
+      "loss": 0.2012,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "eval_loss": 0.21258948743343353,
+      "eval_runtime": 19.4933,
+      "eval_samples_per_second": 51.3,
+      "eval_steps_per_second": 0.821,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.09865439683198929,
+      "learning_rate": 0.00021271463618625986,
+      "loss": 0.1998,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.10992613434791565,
+      "learning_rate": 0.00019115136895574402,
+      "loss": 0.1974,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.21244320273399353,
+      "eval_runtime": 19.5047,
+      "eval_samples_per_second": 51.27,
+      "eval_steps_per_second": 0.82,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.09869453310966492,
+      "learning_rate": 0.0001706245016977931,
+      "loss": 0.1984,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.08547994494438171,
+      "learning_rate": 0.00015116033605136182,
+      "loss": 0.2059,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "eval_loss": 0.2115185409784317,
+      "eval_runtime": 19.4906,
+      "eval_samples_per_second": 51.307,
+      "eval_steps_per_second": 0.821,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.09922394901514053,
+      "learning_rate": 0.00013278381198663492,
+      "loss": 0.194,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.09176763892173767,
+      "learning_rate": 0.0001155184758487573,
+      "loss": 0.1929,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.21128395199775696,
+      "eval_runtime": 19.5212,
+      "eval_samples_per_second": 51.226,
+      "eval_steps_per_second": 0.82,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.10438892245292664,
+      "learning_rate": 9.938645018725523e-05,
+      "loss": 0.1987,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.10125499963760376,
+      "learning_rate": 8.440840540980587e-05,
+      "loss": 0.192,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "eval_loss": 0.21018683910369873,
+      "eval_runtime": 19.5296,
+      "eval_samples_per_second": 51.204,
+      "eval_steps_per_second": 0.819,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.1060590147972107,
+      "learning_rate": 7.060353329667668e-05,
+      "loss": 0.205,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.09252982586622238,
+      "learning_rate": 5.798952240976951e-05,
+      "loss": 0.197,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.2095346748828888,
+      "eval_runtime": 19.5291,
+      "eval_samples_per_second": 51.206,
+      "eval_steps_per_second": 0.819,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.08407966792583466,
+      "learning_rate": 4.65825354277799e-05,
+      "loss": 0.1919,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.10161825269460678,
+      "learning_rate": 3.639718843651363e-05,
+      "loss": 0.1963,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "eval_loss": 0.20933018624782562,
+      "eval_runtime": 19.5415,
+      "eval_samples_per_second": 51.173,
+      "eval_steps_per_second": 0.819,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.09280096739530563,
+      "learning_rate": 2.7446532200894104e-05,
+      "loss": 0.1916,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.11424104869365692,
+      "learning_rate": 1.9742035442658403e-05,
+      "loss": 0.2008,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.20905601978302002,
+      "eval_runtime": 19.5492,
+      "eval_samples_per_second": 51.153,
+      "eval_steps_per_second": 0.818,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.08300191909074783,
+      "learning_rate": 1.3293570145169742e-05,
+      "loss": 0.1947,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.08883219957351685,
+      "learning_rate": 8.109398904173282e-06,
+      "loss": 0.1932,
+      "step": 2350
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "eval_loss": 0.20888373255729675,
+      "eval_runtime": 19.541,
+      "eval_samples_per_second": 51.174,
+      "eval_steps_per_second": 0.819,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.08763596415519714,
+      "learning_rate": 4.196164340705577e-06,
+      "loss": 0.1902,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.07976502925157547,
+      "learning_rate": 1.5588805897215342e-06,
+      "loss": 0.1963,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.2088588923215866,
+      "eval_runtime": 19.5331,
+      "eval_samples_per_second": 51.195,
+      "eval_steps_per_second": 0.819,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.08866149187088013,
+      "learning_rate": 2.0092687534589705e-07,
+      "loss": 0.1948,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.25077993895207595,
+      "train_runtime": 3357.8107,
+      "train_samples_per_second": 23.229,
+      "train_steps_per_second": 0.726
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/exnr15/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/exnr15/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/run_all/exnr15/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/exnr15/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/exnr15/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/run_all/exnr15/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/exnr15/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e78d8cf553e1bd2f18138af07f897785457fbcd326b6f0026cb8b64209a2ab44
+size 6545

nl_tasks/run_all/exnr15/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 4,
+  "peft_type": "ROTATION",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/exnr15/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80a7fb292572659a561e65a657b939feb3d3203477c08f5e6ace0852fb4af627
+size 33602659

nl_tasks/run_all/exnr15/trainer_state.json ADDED Viewed

	@@ -0,0 +1,135 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.16406890894175555,
+  "eval_steps": 50,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.0006118718883953989,
+      "learning_rate": 0.0009987820251299122,
+      "loss": 0.7714,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.0006668232963420451,
+      "learning_rate": 0.0009373098535696979,
+      "loss": 0.7596,
+      "step": 50
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "eval_loss": 0.7446768283843994,
+      "eval_model_preparation_time": 0.009,
+      "eval_runtime": 53.4492,
+      "eval_samples_per_second": 18.709,
+      "eval_steps_per_second": 0.299,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.0006718848599120975,
+      "learning_rate": 0.0007938926261462366,
+      "loss": 0.7554,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.0006972206756472588,
+      "learning_rate": 0.0005954044976882724,
+      "loss": 0.7346,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.7248194813728333,
+      "eval_model_preparation_time": 0.009,
+      "eval_runtime": 19.7467,
+      "eval_samples_per_second": 50.641,
+      "eval_steps_per_second": 0.81,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.0006274359184317291,
+      "learning_rate": 0.0003790390522001662,
+      "loss": 0.7366,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.0005907765007577837,
+      "learning_rate": 0.00018533980447508135,
+      "loss": 0.7368,
+      "step": 150
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "eval_loss": 0.7148993015289307,
+      "eval_model_preparation_time": 0.009,
+      "eval_runtime": 19.6656,
+      "eval_samples_per_second": 50.85,
+      "eval_steps_per_second": 0.814,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.0007314748945645988,
+      "learning_rate": 5.060297685041659e-05,
+      "loss": 0.7228,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.0006935550482012331,
+      "learning_rate": 7.615242180436521e-08,
+      "loss": 0.7275,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.7132272720336914,
+      "eval_model_preparation_time": 0.009,
+      "eval_runtime": 19.665,
+      "eval_samples_per_second": 50.852,
+      "eval_steps_per_second": 0.814,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "step": 200,
+      "total_flos": 1.30070668640256e+17,
+      "train_loss": 0.7430903720855713,
+      "train_runtime": 454.6042,
+      "train_samples_per_second": 14.078,
+      "train_steps_per_second": 0.44
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.30070668640256e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exnr10/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 8,
+  "peft_type": "ROTATION",
+  "r": 2,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr10/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/run_all/run_exnr10/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exnr10/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exnr10/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/run_all/run_exnr10/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exnr10/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80200b92f1eba2aa222a8b5e89fb435709191eb6ae0eb5fad588e902f3ef01b1
+size 6481

nl_tasks/run_all/run_exnr10/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 8,
+  "peft_type": "ROTATION",
+  "r": 2,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr10/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:373029eeee0417e9247131c310db05bcef947e17ea80622d6498c15ab27e173e
+size 33602659

nl_tasks/run_all/run_exnr10/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1106 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 50,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.23067046701908112,
+      "learning_rate": 9.836065573770491e-05,
+      "loss": 0.6777,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.18888919055461884,
+      "learning_rate": 0.00020081967213114754,
+      "loss": 0.4155,
+      "step": 50
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "eval_loss": 0.37254372239112854,
+      "eval_runtime": 21.1288,
+      "eval_samples_per_second": 47.329,
+      "eval_steps_per_second": 0.757,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.18046127259731293,
+      "learning_rate": 0.0003032786885245902,
+      "loss": 0.3704,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.19047358632087708,
+      "learning_rate": 0.0004057377049180328,
+      "loss": 0.3503,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.32894426584243774,
+      "eval_runtime": 20.8119,
+      "eval_samples_per_second": 48.049,
+      "eval_steps_per_second": 0.769,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.1786128282546997,
+      "learning_rate": 0.0005081967213114754,
+      "loss": 0.3301,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.17241524159908295,
+      "learning_rate": 0.000610655737704918,
+      "loss": 0.3158,
+      "step": 150
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "eval_loss": 0.31440791487693787,
+      "eval_runtime": 20.778,
+      "eval_samples_per_second": 48.128,
+      "eval_steps_per_second": 0.77,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.18751497566699982,
+      "learning_rate": 0.0007131147540983607,
+      "loss": 0.313,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.24119554460048676,
+      "learning_rate": 0.0008155737704918033,
+      "loss": 0.3209,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.30967944860458374,
+      "eval_runtime": 20.8466,
+      "eval_samples_per_second": 47.969,
+      "eval_steps_per_second": 0.768,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.28959155082702637,
+      "learning_rate": 0.0009180327868852459,
+      "loss": 0.3282,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.2528744637966156,
+      "learning_rate": 0.0009999871854116063,
+      "loss": 0.3229,
+      "step": 250
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "eval_loss": 0.30937159061431885,
+      "eval_runtime": 20.8274,
+      "eval_samples_per_second": 48.014,
+      "eval_steps_per_second": 0.768,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.5322397351264954,
+      "learning_rate": 0.0009995387437838027,
+      "loss": 0.3225,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 13.223990440368652,
+      "learning_rate": 0.000998450229439693,
+      "loss": 0.354,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.3210923969745636,
+      "eval_runtime": 20.8168,
+      "eval_samples_per_second": 48.038,
+      "eval_steps_per_second": 0.769,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.3021000325679779,
+      "learning_rate": 0.000996723037122612,
+      "loss": 0.3151,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.21538248658180237,
+      "learning_rate": 0.0009943593799315263,
+      "loss": 0.3059,
+      "step": 350
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "eval_loss": 0.29110386967658997,
+      "eval_runtime": 20.8154,
+      "eval_samples_per_second": 48.041,
+      "eval_steps_per_second": 0.769,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.2078874111175537,
+      "learning_rate": 0.0009913622864853324,
+      "loss": 0.2942,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.2866668105125427,
+      "learning_rate": 0.0009877355970422024,
+      "loss": 0.3038,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.28084269165992737,
+      "eval_runtime": 20.8237,
+      "eval_samples_per_second": 48.022,
+      "eval_steps_per_second": 0.768,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.16703106462955475,
+      "learning_rate": 0.0009834839585789559,
+      "loss": 0.2962,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.18550001084804535,
+      "learning_rate": 0.000978612818836762,
+      "loss": 0.292,
+      "step": 450
+    },
+    {
+      "epoch": 0.36915504511895,
+      "eval_loss": 0.2726050913333893,
+      "eval_runtime": 20.8143,
+      "eval_samples_per_second": 48.044,
+      "eval_steps_per_second": 0.769,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.18142051994800568,
+      "learning_rate": 0.0009731284193407981,
+      "loss": 0.287,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.15791696310043335,
+      "learning_rate": 0.0009670377874028117,
+      "loss": 0.2788,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.2660056948661804,
+      "eval_runtime": 20.7894,
+      "eval_samples_per_second": 48.101,
+      "eval_steps_per_second": 0.77,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.17865672707557678,
+      "learning_rate": 0.0009603487271168336,
+      "loss": 0.2818,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.1716611534357071,
+      "learning_rate": 0.0009530698093595781,
+      "loss": 0.2754,
+      "step": 550
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "eval_loss": 0.25951725244522095,
+      "eval_runtime": 20.6867,
+      "eval_samples_per_second": 48.34,
+      "eval_steps_per_second": 0.773,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.15952439606189728,
+      "learning_rate": 0.0009452103608083418,
+      "loss": 0.2624,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.15508660674095154,
+      "learning_rate": 0.0009367804519904775,
+      "loss": 0.2707,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2577713131904602,
+      "eval_runtime": 20.8355,
+      "eval_samples_per_second": 47.995,
+      "eval_steps_per_second": 0.768,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.14390869438648224,
+      "learning_rate": 0.0009277908843797492,
+      "loss": 0.258,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.15374627709388733,
+      "learning_rate": 0.0009182531765561084,
+      "loss": 0.2575,
+      "step": 650
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "eval_loss": 0.25287148356437683,
+      "eval_runtime": 20.8679,
+      "eval_samples_per_second": 47.921,
+      "eval_steps_per_second": 0.767,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.13985492289066315,
+      "learning_rate": 0.0009081795494466201,
+      "loss": 0.2589,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.11946714669466019,
+      "learning_rate": 0.0008975829106664539,
+      "loss": 0.2502,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.24979238212108612,
+      "eval_runtime": 20.8494,
+      "eval_samples_per_second": 47.963,
+      "eval_steps_per_second": 0.767,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.11909514665603638,
+      "learning_rate": 0.0008864768379800017,
+      "loss": 0.2475,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.12616503238677979,
+      "learning_rate": 0.0008748755619033153,
+      "loss": 0.257,
+      "step": 750
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "eval_loss": 0.24706576764583588,
+      "eval_runtime": 20.8598,
+      "eval_samples_per_second": 47.939,
+      "eval_steps_per_second": 0.767,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.1338769644498825,
+      "learning_rate": 0.000862793947470155,
+      "loss": 0.262,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.1327950358390808,
+      "learning_rate": 0.0008502474751850142,
+      "loss": 0.2512,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.24406881630420685,
+      "eval_runtime": 20.8661,
+      "eval_samples_per_second": 47.925,
+      "eval_steps_per_second": 0.767,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.11789478361606598,
+      "learning_rate": 0.0008372522211875224,
+      "loss": 0.2468,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.114653080701828,
+      "learning_rate": 0.0008238248366536473,
+      "loss": 0.2593,
+      "step": 850
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "eval_loss": 0.24199624359607697,
+      "eval_runtime": 20.8571,
+      "eval_samples_per_second": 47.945,
+      "eval_steps_per_second": 0.767,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.11074954271316528,
+      "learning_rate": 0.0008099825264600842,
+      "loss": 0.2541,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.16259630024433136,
+      "learning_rate": 0.0007957430271391761,
+      "loss": 0.2466,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.23889920115470886,
+      "eval_runtime": 20.8704,
+      "eval_samples_per_second": 47.915,
+      "eval_steps_per_second": 0.767,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.11665979772806168,
+      "learning_rate": 0.0007811245841526062,
+      "loss": 0.2499,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.12356989085674286,
+      "learning_rate": 0.0007661459285129879,
+      "loss": 0.233,
+      "step": 950
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "eval_loss": 0.23713098466396332,
+      "eval_runtime": 20.8545,
+      "eval_samples_per_second": 47.951,
+      "eval_steps_per_second": 0.767,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.10465991497039795,
+      "learning_rate": 0.0007508262527833029,
+      "loss": 0.2465,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.10666616261005402,
+      "learning_rate": 0.000735185186484943,
+      "loss": 0.2486,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.23608271777629852,
+      "eval_runtime": 20.8714,
+      "eval_samples_per_second": 47.912,
+      "eval_steps_per_second": 0.767,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.10759830474853516,
+      "learning_rate": 0.0007192427709458656,
+      "loss": 0.2363,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.11578875035047531,
+      "learning_rate": 0.0007030194336210887,
+      "loss": 0.2407,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "eval_loss": 0.23380084335803986,
+      "eval_runtime": 20.8115,
+      "eval_samples_per_second": 48.05,
+      "eval_steps_per_second": 0.769,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.11421164870262146,
+      "learning_rate": 0.0006865359619184331,
+      "loss": 0.2464,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.1076551228761673,
+      "learning_rate": 0.0006698134765630434,
+      "loss": 0.2387,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.23312732577323914,
+      "eval_runtime": 20.8233,
+      "eval_samples_per_second": 48.023,
+      "eval_steps_per_second": 0.768,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.10048159211874008,
+      "learning_rate": 0.0006528734045348248,
+      "loss": 0.2361,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.1083035096526146,
+      "learning_rate": 0.0006357374516134643,
+      "loss": 0.2506,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "eval_loss": 0.2312103807926178,
+      "eval_runtime": 20.7981,
+      "eval_samples_per_second": 48.081,
+      "eval_steps_per_second": 0.769,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.11083986610174179,
+      "learning_rate": 0.0006184275745662179,
+      "loss": 0.2401,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.10034681111574173,
+      "learning_rate": 0.0006009659530141031,
+      "loss": 0.2428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.22971327602863312,
+      "eval_runtime": 20.7973,
+      "eval_samples_per_second": 48.083,
+      "eval_steps_per_second": 0.769,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.10005165636539459,
+      "learning_rate": 0.0005833749610125402,
+      "loss": 0.2395,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.10959237813949585,
+      "learning_rate": 0.0005656771383828602,
+      "loss": 0.2135,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "eval_loss": 0.23102633655071259,
+      "eval_runtime": 20.7627,
+      "eval_samples_per_second": 48.163,
+      "eval_steps_per_second": 0.771,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.103731170296669,
+      "learning_rate": 0.0005478951618314134,
+      "loss": 0.2094,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.11381426453590393,
+      "learning_rate": 0.0005300518158932815,
+      "loss": 0.2108,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.2284233421087265,
+      "eval_runtime": 20.7865,
+      "eval_samples_per_second": 48.108,
+      "eval_steps_per_second": 0.77,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.10289537161588669,
+      "learning_rate": 0.0005121699637378282,
+      "loss": 0.2098,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.11907949298620224,
+      "learning_rate": 0.0004942725178734903,
+      "loss": 0.2152,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "eval_loss": 0.22748351097106934,
+      "eval_runtime": 20.7803,
+      "eval_samples_per_second": 48.123,
+      "eval_steps_per_second": 0.77,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.11696625500917435,
+      "learning_rate": 0.00047638241078935324,
+      "loss": 0.2121,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.10638347268104553,
+      "learning_rate": 0.000458522565571121,
+      "loss": 0.2201,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.22692248225212097,
+      "eval_runtime": 20.7646,
+      "eval_samples_per_second": 48.159,
+      "eval_steps_per_second": 0.771,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.10754355788230896,
+      "learning_rate": 0.00044071586652913767,
+      "loss": 0.2035,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.11690429598093033,
+      "learning_rate": 0.0004229851298760915,
+      "loss": 0.2135,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "eval_loss": 0.2264111191034317,
+      "eval_runtime": 20.7449,
+      "eval_samples_per_second": 48.205,
+      "eval_steps_per_second": 0.771,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.105661541223526,
+      "learning_rate": 0.0004053530744919749,
+      "loss": 0.2125,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.11686920374631882,
+      "learning_rate": 0.0003878422928137597,
+      "loss": 0.2158,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.22509609162807465,
+      "eval_runtime": 20.7795,
+      "eval_samples_per_second": 48.124,
+      "eval_steps_per_second": 0.77,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.11210618168115616,
+      "learning_rate": 0.0003704752218870861,
+      "loss": 0.2205,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.10161525756120682,
+      "learning_rate": 0.00035327411461706025,
+      "loss": 0.203,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "eval_loss": 0.22456735372543335,
+      "eval_runtime": 20.7538,
+      "eval_samples_per_second": 48.184,
+      "eval_steps_per_second": 0.771,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.11276591569185257,
+      "learning_rate": 0.00033626101125499555,
+      "loss": 0.2126,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.10445020347833633,
+      "learning_rate": 0.0003194577111576333,
+      "loss": 0.2081,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.22300216555595398,
+      "eval_runtime": 20.7911,
+      "eval_samples_per_second": 48.098,
+      "eval_steps_per_second": 0.77,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.09758764505386353,
+      "learning_rate": 0.00030288574485502756,
+      "loss": 0.2076,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.10864421725273132,
+      "learning_rate": 0.00028656634646288565,
+      "loss": 0.2085,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "eval_loss": 0.2210860252380371,
+      "eval_runtime": 20.7702,
+      "eval_samples_per_second": 48.146,
+      "eval_steps_per_second": 0.77,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.12502917647361755,
+      "learning_rate": 0.00027052042647471254,
+      "loss": 0.1977,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.10719209909439087,
+      "learning_rate": 0.0002547685449686206,
+      "loss": 0.206,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.21972452104091644,
+      "eval_runtime": 20.7618,
+      "eval_samples_per_second": 48.165,
+      "eval_steps_per_second": 0.771,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.13277575373649597,
+      "learning_rate": 0.0002393308852631373,
+      "loss": 0.2175,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.10963447391986847,
+      "learning_rate": 0.0002242272280557645,
+      "loss": 0.2119,
+      "step": 1750
+    },
+    {
+      "epoch": 1.435602953240361,
+      "eval_loss": 0.21942101418972015,
+      "eval_runtime": 20.8,
+      "eval_samples_per_second": 48.077,
+      "eval_steps_per_second": 0.769,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.1101914569735527,
+      "learning_rate": 0.0002094769260774262,
+      "loss": 0.2077,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.1031966507434845,
+      "learning_rate": 0.00019509887929528458,
+      "loss": 0.2116,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.21845056116580963,
+      "eval_runtime": 20.795,
+      "eval_samples_per_second": 48.089,
+      "eval_steps_per_second": 0.769,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.13558058440685272,
+      "learning_rate": 0.0001811115106956918,
+      "loss": 0.2028,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.11538273841142654,
+      "learning_rate": 0.00016753274267831115,
+      "loss": 0.2119,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "eval_loss": 0.21733731031417847,
+      "eval_runtime": 20.7805,
+      "eval_samples_per_second": 48.122,
+      "eval_steps_per_second": 0.77,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.13104985654354095,
+      "learning_rate": 0.00015437997409165478,
+      "loss": 0.2022,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.11488507688045502,
+      "learning_rate": 0.00014167005793946035,
+      "loss": 0.2015,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.21705850958824158,
+      "eval_runtime": 20.7621,
+      "eval_samples_per_second": 48.165,
+      "eval_steps_per_second": 0.771,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.11999308317899704,
+      "learning_rate": 0.00012941927978647527,
+      "loss": 0.2038,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.1013152152299881,
+      "learning_rate": 0.00011764333689131385,
+      "loss": 0.2095,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "eval_loss": 0.2159809172153473,
+      "eval_runtime": 20.8631,
+      "eval_samples_per_second": 47.932,
+      "eval_steps_per_second": 0.767,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.10026060789823532,
+      "learning_rate": 0.00010635731809312993,
+      "loss": 0.2058,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.11767016351222992,
+      "learning_rate": 9.557568447787201e-05,
+      "loss": 0.2056,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.2152351588010788,
+      "eval_runtime": 20.9101,
+      "eval_samples_per_second": 47.824,
+      "eval_steps_per_second": 0.765,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.10698919743299484,
+      "learning_rate": 8.531225084889654e-05,
+      "loss": 0.1993,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.13556532561779022,
+      "learning_rate": 7.558016802568091e-05,
+      "loss": 0.2021,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "eval_loss": 0.21463391184806824,
+      "eval_runtime": 20.821,
+      "eval_samples_per_second": 48.029,
+      "eval_steps_per_second": 0.768,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.1280520260334015,
+      "learning_rate": 6.639190599331746e-05,
+      "loss": 0.2029,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.11126288026571274,
+      "learning_rate": 5.775923792437865e-05,
+      "loss": 0.1991,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.21391206979751587,
+      "eval_runtime": 20.7954,
+      "eval_samples_per_second": 48.088,
+      "eval_steps_per_second": 0.769,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.11311797052621841,
+      "learning_rate": 4.9693225093627616e-05,
+      "loss": 0.1992,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.11362408846616745,
+      "learning_rate": 4.220420270490294e-05,
+      "loss": 0.1932,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "eval_loss": 0.21360714733600616,
+      "eval_runtime": 20.7865,
+      "eval_samples_per_second": 48.108,
+      "eval_steps_per_second": 0.77,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.1285392940044403,
+      "learning_rate": 3.530176664833834e-05,
+      "loss": 0.196,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.12596482038497925,
+      "learning_rate": 2.8994761204884756e-05,
+      "loss": 0.2048,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.21343722939491272,
+      "eval_runtime": 20.8106,
+      "eval_samples_per_second": 48.052,
+      "eval_steps_per_second": 0.769,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.12076670676469803,
+      "learning_rate": 2.329126771388995e-05,
+      "loss": 0.1957,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.10855985432863235,
+      "learning_rate": 1.8198594218256815e-05,
+      "loss": 0.1971,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "eval_loss": 0.21339941024780273,
+      "eval_runtime": 20.7802,
+      "eval_samples_per_second": 48.123,
+      "eval_steps_per_second": 0.77,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.12243843078613281,
+      "learning_rate": 1.3723266100447052e-05,
+      "loss": 0.2006,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.14360643923282623,
+      "learning_rate": 9.871017721329201e-06,
+      "loss": 0.2083,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.2131664752960205,
+      "eval_runtime": 20.7557,
+      "eval_samples_per_second": 48.18,
+      "eval_steps_per_second": 0.771,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.11693233996629715,
+      "learning_rate": 6.646785072584871e-06,
+      "loss": 0.2031,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.10460177809000015,
+      "learning_rate": 4.054699452086641e-06,
+      "loss": 0.1966,
+      "step": 2350
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "eval_loss": 0.21305271983146667,
+      "eval_runtime": 20.8057,
+      "eval_samples_per_second": 48.064,
+      "eval_steps_per_second": 0.769,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.1053781509399414,
+      "learning_rate": 2.0980821703527886e-06,
+      "loss": 0.211,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.1103985607624054,
+      "learning_rate": 7.794402948607671e-07,
+      "loss": 0.2071,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.21304111182689667,
+      "eval_runtime": 20.8063,
+      "eval_samples_per_second": 48.062,
+      "eval_steps_per_second": 0.769,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.13697576522827148,
+      "learning_rate": 1.0046343767294853e-07,
+      "loss": 0.1965,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.24706831303065288,
+      "train_runtime": 3792.5555,
+      "train_samples_per_second": 20.567,
+      "train_steps_per_second": 0.643
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exnr11/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 2,
+  "peft_type": "ROTATION",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr11/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/run_all/run_exnr11/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exnr11/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/run_all/run_exnr11/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/run_all/run_exnr11/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exnr11/ft/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3569eea58fa21482a4bc85e514a16f90ed59354c7c0b80262bb053b7c12c9c
+size 6481

nl_tasks/run_all/run_exnr11/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 2,
+  "peft_type": "ROTATION",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/run_all/run_exnr11/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a354ea299786492a94c791601240dfb633666078b15a8ebdf0181221f18adb01
+size 33602659

nl_tasks/run_all/run_exnr11/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1106 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 50,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.22536601126194,
+      "learning_rate": 9.836065573770491e-05,
+      "loss": 0.6776,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.18631383776664734,
+      "learning_rate": 0.00020081967213114754,
+      "loss": 0.4154,
+      "step": 50
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "eval_loss": 0.3722397983074188,
+      "eval_runtime": 19.8213,
+      "eval_samples_per_second": 50.451,
+      "eval_steps_per_second": 0.807,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.17987015843391418,
+      "learning_rate": 0.0003032786885245902,
+      "loss": 0.3704,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.19490021467208862,
+      "learning_rate": 0.0004057377049180328,
+      "loss": 0.3506,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.3291980028152466,
+      "eval_runtime": 19.4889,
+      "eval_samples_per_second": 51.311,
+      "eval_steps_per_second": 0.821,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 1.9897618293762207,
+      "learning_rate": 0.0005081967213114754,
+      "loss": 0.3309,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.17177057266235352,
+      "learning_rate": 0.000610655737704918,
+      "loss": 0.3153,
+      "step": 150
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "eval_loss": 0.31367334723472595,
+      "eval_runtime": 19.4853,
+      "eval_samples_per_second": 51.321,
+      "eval_steps_per_second": 0.821,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.22781579196453094,
+      "learning_rate": 0.0007131147540983607,
+      "loss": 0.314,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.3163987994194031,
+      "learning_rate": 0.0008155737704918033,
+      "loss": 0.3208,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.31177034974098206,
+      "eval_runtime": 19.4994,
+      "eval_samples_per_second": 51.284,
+      "eval_steps_per_second": 0.821,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.32001861929893494,
+      "learning_rate": 0.0009180327868852459,
+      "loss": 0.3285,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.2669612169265747,
+      "learning_rate": 0.0009999871854116063,
+      "loss": 0.3195,
+      "step": 250
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "eval_loss": 0.30614417791366577,
+      "eval_runtime": 19.4864,
+      "eval_samples_per_second": 51.318,
+      "eval_steps_per_second": 0.821,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.35766294598579407,
+      "learning_rate": 0.0009995387437838027,
+      "loss": 0.3164,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.2564176619052887,
+      "learning_rate": 0.000998450229439693,
+      "loss": 0.3137,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.3005053699016571,
+      "eval_runtime": 19.4856,
+      "eval_samples_per_second": 51.32,
+      "eval_steps_per_second": 0.821,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.21307945251464844,
+      "learning_rate": 0.000996723037122612,
+      "loss": 0.2997,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.24557501077651978,
+      "learning_rate": 0.0009943593799315263,
+      "loss": 0.3067,
+      "step": 350
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "eval_loss": 0.29183846712112427,
+      "eval_runtime": 19.4754,
+      "eval_samples_per_second": 51.347,
+      "eval_steps_per_second": 0.822,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.22399385273456573,
+      "learning_rate": 0.0009913622864853324,
+      "loss": 0.2946,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.28306031227111816,
+      "learning_rate": 0.0009877355970422024,
+      "loss": 0.3047,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.2847941815853119,
+      "eval_runtime": 19.4709,
+      "eval_samples_per_second": 51.359,
+      "eval_steps_per_second": 0.822,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.18770238757133484,
+      "learning_rate": 0.0009834839585789559,
+      "loss": 0.2983,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.2074132114648819,
+      "learning_rate": 0.000978612818836762,
+      "loss": 0.2957,
+      "step": 450
+    },
+    {
+      "epoch": 0.36915504511895,
+      "eval_loss": 0.2784390449523926,
+      "eval_runtime": 19.4671,
+      "eval_samples_per_second": 51.369,
+      "eval_steps_per_second": 0.822,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.1998339742422104,
+      "learning_rate": 0.0009731284193407981,
+      "loss": 0.2922,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.19609296321868896,
+      "learning_rate": 0.0009670377874028117,
+      "loss": 0.2838,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.2710179090499878,
+      "eval_runtime": 19.4596,
+      "eval_samples_per_second": 51.389,
+      "eval_steps_per_second": 0.822,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.22822904586791992,
+      "learning_rate": 0.0009603487271168336,
+      "loss": 0.2859,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.21479056775569916,
+      "learning_rate": 0.0009530698093595781,
+      "loss": 0.2805,
+      "step": 550
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "eval_loss": 0.2640228867530823,
+      "eval_runtime": 19.4506,
+      "eval_samples_per_second": 51.412,
+      "eval_steps_per_second": 0.823,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.21766699850559235,
+      "learning_rate": 0.0009452103608083418,
+      "loss": 0.2659,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.21340589225292206,
+      "learning_rate": 0.0009367804519904775,
+      "loss": 0.2761,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.26190468668937683,
+      "eval_runtime": 19.4654,
+      "eval_samples_per_second": 51.373,
+      "eval_steps_per_second": 0.822,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.1762474924325943,
+      "learning_rate": 0.0009277908843797492,
+      "loss": 0.2622,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.19957980513572693,
+      "learning_rate": 0.0009182531765561084,
+      "loss": 0.2618,
+      "step": 650
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "eval_loss": 0.2553676664829254,
+      "eval_runtime": 19.4847,
+      "eval_samples_per_second": 51.322,
+      "eval_steps_per_second": 0.821,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.1787998378276825,
+      "learning_rate": 0.0009081795494466201,
+      "loss": 0.261,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.1660076081752777,
+      "learning_rate": 0.0008975829106664539,
+      "loss": 0.2534,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.2539336383342743,
+      "eval_runtime": 19.4661,
+      "eval_samples_per_second": 51.371,
+      "eval_steps_per_second": 0.822,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.1471703201532364,
+      "learning_rate": 0.0008864768379800017,
+      "loss": 0.2508,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.16628079116344452,
+      "learning_rate": 0.0008748755619033153,
+      "loss": 0.2608,
+      "step": 750
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "eval_loss": 0.25101426243782043,
+      "eval_runtime": 19.4998,
+      "eval_samples_per_second": 51.283,
+      "eval_steps_per_second": 0.821,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.180254727602005,
+      "learning_rate": 0.000862793947470155,
+      "loss": 0.2647,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.16186201572418213,
+      "learning_rate": 0.0008502474751850142,
+      "loss": 0.2538,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.24444915354251862,
+      "eval_runtime": 19.4781,
+      "eval_samples_per_second": 51.34,
+      "eval_steps_per_second": 0.821,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.1586069017648697,
+      "learning_rate": 0.0008372522211875224,
+      "loss": 0.248,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.1476527601480484,
+      "learning_rate": 0.0008238248366536473,
+      "loss": 0.2611,
+      "step": 850
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "eval_loss": 0.24326753616333008,
+      "eval_runtime": 19.4366,
+      "eval_samples_per_second": 51.449,
+      "eval_steps_per_second": 0.823,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.11883819103240967,
+      "learning_rate": 0.0008099825264600842,
+      "loss": 0.255,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.1317686289548874,
+      "learning_rate": 0.0007957430271391761,
+      "loss": 0.2468,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.2392330914735794,
+      "eval_runtime": 19.493,
+      "eval_samples_per_second": 51.301,
+      "eval_steps_per_second": 0.821,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.1467055082321167,
+      "learning_rate": 0.0007811245841526062,
+      "loss": 0.25,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.15291206538677216,
+      "learning_rate": 0.0007661459285129879,
+      "loss": 0.2334,
+      "step": 950
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "eval_loss": 0.2371567040681839,
+      "eval_runtime": 19.4844,
+      "eval_samples_per_second": 51.323,
+      "eval_steps_per_second": 0.821,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.1438579112291336,
+      "learning_rate": 0.0007508262527833029,
+      "loss": 0.2458,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.1307683140039444,
+      "learning_rate": 0.000735185186484943,
+      "loss": 0.2478,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.23642279207706451,
+      "eval_runtime": 19.474,
+      "eval_samples_per_second": 51.35,
+      "eval_steps_per_second": 0.822,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.12361195683479309,
+      "learning_rate": 0.0007192427709458656,
+      "loss": 0.2358,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.12630796432495117,
+      "learning_rate": 0.0007030194336210887,
+      "loss": 0.2409,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "eval_loss": 0.23247265815734863,
+      "eval_runtime": 19.4414,
+      "eval_samples_per_second": 51.437,
+      "eval_steps_per_second": 0.823,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.13411730527877808,
+      "learning_rate": 0.0006865359619184331,
+      "loss": 0.2447,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.12585557997226715,
+      "learning_rate": 0.0006698134765630434,
+      "loss": 0.2379,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.2312391996383667,
+      "eval_runtime": 19.4906,
+      "eval_samples_per_second": 51.307,
+      "eval_steps_per_second": 0.821,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.10996991395950317,
+      "learning_rate": 0.0006528734045348248,
+      "loss": 0.2347,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.1385001838207245,
+      "learning_rate": 0.0006357374516134643,
+      "loss": 0.2489,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "eval_loss": 0.2296425998210907,
+      "eval_runtime": 19.4676,
+      "eval_samples_per_second": 51.367,
+      "eval_steps_per_second": 0.822,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.1425400674343109,
+      "learning_rate": 0.0006184275745662179,
+      "loss": 0.2376,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.12151045352220535,
+      "learning_rate": 0.0006009659530141031,
+      "loss": 0.2408,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.22871758043766022,
+      "eval_runtime": 19.4794,
+      "eval_samples_per_second": 51.336,
+      "eval_steps_per_second": 0.821,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.1182444617152214,
+      "learning_rate": 0.0005833749610125402,
+      "loss": 0.237,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.11846429109573364,
+      "learning_rate": 0.0005656771383828602,
+      "loss": 0.2092,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "eval_loss": 0.22994151711463928,
+      "eval_runtime": 19.4266,
+      "eval_samples_per_second": 51.476,
+      "eval_steps_per_second": 0.824,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.12247344851493835,
+      "learning_rate": 0.0005478951618314134,
+      "loss": 0.2043,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.11501295119524002,
+      "learning_rate": 0.0005300518158932815,
+      "loss": 0.2051,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.22652946412563324,
+      "eval_runtime": 19.4689,
+      "eval_samples_per_second": 51.364,
+      "eval_steps_per_second": 0.822,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.12041299045085907,
+      "learning_rate": 0.0005121699637378282,
+      "loss": 0.2046,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.13483497500419617,
+      "learning_rate": 0.0004942725178734903,
+      "loss": 0.2088,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "eval_loss": 0.22511404752731323,
+      "eval_runtime": 19.4668,
+      "eval_samples_per_second": 51.37,
+      "eval_steps_per_second": 0.822,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.12721161544322968,
+      "learning_rate": 0.00047638241078935324,
+      "loss": 0.2069,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.1224995031952858,
+      "learning_rate": 0.000458522565571121,
+      "loss": 0.2145,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.2244964987039566,
+      "eval_runtime": 19.4669,
+      "eval_samples_per_second": 51.369,
+      "eval_steps_per_second": 0.822,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.11426686495542526,
+      "learning_rate": 0.00044071586652913767,
+      "loss": 0.1983,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.13497664034366608,
+      "learning_rate": 0.0004229851298760915,
+      "loss": 0.2079,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "eval_loss": 0.22429363429546356,
+      "eval_runtime": 19.4906,
+      "eval_samples_per_second": 51.307,
+      "eval_steps_per_second": 0.821,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.11498471349477768,
+      "learning_rate": 0.0004053530744919749,
+      "loss": 0.2069,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.13178111612796783,
+      "learning_rate": 0.0003878422928137597,
+      "loss": 0.2103,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.22244225442409515,
+      "eval_runtime": 19.4709,
+      "eval_samples_per_second": 51.359,
+      "eval_steps_per_second": 0.822,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.1308068484067917,
+      "learning_rate": 0.0003704752218870861,
+      "loss": 0.2151,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.11254964768886566,
+      "learning_rate": 0.00035327411461706025,
+      "loss": 0.1971,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "eval_loss": 0.22179578244686127,
+      "eval_runtime": 19.4274,
+      "eval_samples_per_second": 51.474,
+      "eval_steps_per_second": 0.824,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.13904231786727905,
+      "learning_rate": 0.00033626101125499555,
+      "loss": 0.2065,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.11037751287221909,
+      "learning_rate": 0.0003194577111576333,
+      "loss": 0.2013,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.21995632350444794,
+      "eval_runtime": 19.4997,
+      "eval_samples_per_second": 51.283,
+      "eval_steps_per_second": 0.821,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.10675220936536789,
+      "learning_rate": 0.00030288574485502756,
+      "loss": 0.2017,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.11563979089260101,
+      "learning_rate": 0.00028656634646288565,
+      "loss": 0.2033,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "eval_loss": 0.21779730916023254,
+      "eval_runtime": 19.4741,
+      "eval_samples_per_second": 51.35,
+      "eval_steps_per_second": 0.822,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.13573266565799713,
+      "learning_rate": 0.00027052042647471254,
+      "loss": 0.1916,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.12692494690418243,
+      "learning_rate": 0.0002547685449686206,
+      "loss": 0.1999,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.21664589643478394,
+      "eval_runtime": 19.4774,
+      "eval_samples_per_second": 51.341,
+      "eval_steps_per_second": 0.821,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.14164209365844727,
+      "learning_rate": 0.0002393308852631373,
+      "loss": 0.2108,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.12433931976556778,
+      "learning_rate": 0.0002242272280557645,
+      "loss": 0.2056,
+      "step": 1750
+    },
+    {
+      "epoch": 1.435602953240361,
+      "eval_loss": 0.2161126285791397,
+      "eval_runtime": 19.4746,
+      "eval_samples_per_second": 51.349,
+      "eval_steps_per_second": 0.822,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.1255362182855606,
+      "learning_rate": 0.0002094769260774262,
+      "loss": 0.2021,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.12211991846561432,
+      "learning_rate": 0.00019509887929528458,
+      "loss": 0.2056,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.21495358645915985,
+      "eval_runtime": 19.4956,
+      "eval_samples_per_second": 51.294,
+      "eval_steps_per_second": 0.821,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.13951410353183746,
+      "learning_rate": 0.0001811115106956918,
+      "loss": 0.1964,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.13265341520309448,
+      "learning_rate": 0.00016753274267831115,
+      "loss": 0.206,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "eval_loss": 0.21398000419139862,
+      "eval_runtime": 19.4829,
+      "eval_samples_per_second": 51.327,
+      "eval_steps_per_second": 0.821,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.13726522028446198,
+      "learning_rate": 0.00015437997409165478,
+      "loss": 0.1964,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.11551380902528763,
+      "learning_rate": 0.00014167005793946035,
+      "loss": 0.1952,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.2141638696193695,
+      "eval_runtime": 19.4999,
+      "eval_samples_per_second": 51.282,
+      "eval_steps_per_second": 0.821,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.13091330230236053,
+      "learning_rate": 0.00012941927978647527,
+      "loss": 0.1976,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.11574764549732208,
+      "learning_rate": 0.00011764333689131385,
+      "loss": 0.2036,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "eval_loss": 0.2131749391555786,
+      "eval_runtime": 19.4949,
+      "eval_samples_per_second": 51.295,
+      "eval_steps_per_second": 0.821,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.11186928302049637,
+      "learning_rate": 0.00010635731809312993,
+      "loss": 0.1993,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.13052970170974731,
+      "learning_rate": 9.557568447787201e-05,
+      "loss": 0.1989,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.21262580156326294,
+      "eval_runtime": 19.4819,
+      "eval_samples_per_second": 51.33,
+      "eval_steps_per_second": 0.821,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.11890964955091476,
+      "learning_rate": 8.531225084889654e-05,
+      "loss": 0.1925,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.13581904768943787,
+      "learning_rate": 7.558016802568091e-05,
+      "loss": 0.1966,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "eval_loss": 0.21162261068820953,
+      "eval_runtime": 19.4663,
+      "eval_samples_per_second": 51.371,
+      "eval_steps_per_second": 0.822,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.12677335739135742,
+      "learning_rate": 6.639190599331746e-05,
+      "loss": 0.1964,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.13097846508026123,
+      "learning_rate": 5.775923792437865e-05,
+      "loss": 0.1918,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.2108549326658249,
+      "eval_runtime": 19.5146,
+      "eval_samples_per_second": 51.244,
+      "eval_steps_per_second": 0.82,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.12936541438102722,
+      "learning_rate": 4.9693225093627616e-05,
+      "loss": 0.1931,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.12237502634525299,
+      "learning_rate": 4.220420270490294e-05,
+      "loss": 0.1874,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "eval_loss": 0.2103663980960846,
+      "eval_runtime": 19.4878,
+      "eval_samples_per_second": 51.314,
+      "eval_steps_per_second": 0.821,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.13166476786136627,
+      "learning_rate": 3.530176664833834e-05,
+      "loss": 0.1901,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.14463044703006744,
+      "learning_rate": 2.8994761204884756e-05,
+      "loss": 0.1986,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.2102488875389099,
+      "eval_runtime": 19.4852,
+      "eval_samples_per_second": 51.321,
+      "eval_steps_per_second": 0.821,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.1415223479270935,
+      "learning_rate": 2.329126771388995e-05,
+      "loss": 0.1903,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.11420800536870956,
+      "learning_rate": 1.8198594218256815e-05,
+      "loss": 0.1901,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "eval_loss": 0.2102055698633194,
+      "eval_runtime": 19.4587,
+      "eval_samples_per_second": 51.391,
+      "eval_steps_per_second": 0.822,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.1356535106897354,
+      "learning_rate": 1.3723266100447052e-05,
+      "loss": 0.1943,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.15679548680782318,
+      "learning_rate": 9.871017721329201e-06,
+      "loss": 0.2016,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.2100086808204651,
+      "eval_runtime": 19.461,
+      "eval_samples_per_second": 51.385,
+      "eval_steps_per_second": 0.822,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.13155241310596466,
+      "learning_rate": 6.646785072584871e-06,
+      "loss": 0.1959,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.11297722160816193,
+      "learning_rate": 4.054699452086641e-06,
+      "loss": 0.1904,
+      "step": 2350
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "eval_loss": 0.2098853588104248,
+      "eval_runtime": 19.4561,
+      "eval_samples_per_second": 51.398,
+      "eval_steps_per_second": 0.822,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.13836362957954407,
+      "learning_rate": 2.0980821703527886e-06,
+      "loss": 0.2049,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.12997499108314514,
+      "learning_rate": 7.794402948607671e-07,
+      "loss": 0.1999,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.2098313570022583,
+      "eval_runtime": 19.5038,
+      "eval_samples_per_second": 51.272,
+      "eval_steps_per_second": 0.82,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.14497987926006317,
+      "learning_rate": 1.0046343767294853e-07,
+      "loss": 0.1901,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.24394705248622253,
+      "train_runtime": 3518.0931,
+      "train_samples_per_second": 22.171,
+      "train_steps_per_second": 0.693
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/run_all/run_exnr12/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/run_all/run_exnr12/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/run_all/run_exnr12/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1106 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 50,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.22555650770664215,
+      "learning_rate": 9.836065573770491e-05,
+      "loss": 0.6774,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.18577826023101807,
+      "learning_rate": 0.00020081967213114754,
+      "loss": 0.4155,
+      "step": 50
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "eval_loss": 0.37306666374206543,
+      "eval_runtime": 22.912,
+      "eval_samples_per_second": 43.645,
+      "eval_steps_per_second": 0.698,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.17923958599567413,
+      "learning_rate": 0.0003032786885245902,
+      "loss": 0.3703,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.18290868401527405,
+      "learning_rate": 0.0004057377049180328,
+      "loss": 0.3501,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.3294435441493988,
+      "eval_runtime": 22.6287,
+      "eval_samples_per_second": 44.192,
+      "eval_steps_per_second": 0.707,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.1609077900648117,
+      "learning_rate": 0.0005081967213114754,
+      "loss": 0.3305,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.1902703195810318,
+      "learning_rate": 0.000610655737704918,
+      "loss": 0.3159,
+      "step": 150
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "eval_loss": 0.31451696157455444,
+      "eval_runtime": 22.6178,
+      "eval_samples_per_second": 44.213,
+      "eval_steps_per_second": 0.707,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.2086164802312851,
+      "learning_rate": 0.0007131147540983607,
+      "loss": 0.3135,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.22159546613693237,
+      "learning_rate": 0.0008155737704918033,
+      "loss": 0.3193,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.30913859605789185,
+      "eval_runtime": 22.6205,
+      "eval_samples_per_second": 44.208,
+      "eval_steps_per_second": 0.707,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 2.3699522018432617,
+      "learning_rate": 0.0009180327868852459,
+      "loss": 0.4187,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.542046070098877,
+      "learning_rate": 0.0009999871854116063,
+      "loss": 0.4345,
+      "step": 250
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "eval_loss": 0.3142073452472687,
+      "eval_runtime": 22.564,
+      "eval_samples_per_second": 44.318,
+      "eval_steps_per_second": 0.709,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.3608435392379761,
+      "learning_rate": 0.0009995387437838027,
+      "loss": 0.3233,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.28521400690078735,
+      "learning_rate": 0.000998450229439693,
+      "loss": 0.3179,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.30236080288887024,
+      "eval_runtime": 22.6232,
+      "eval_samples_per_second": 44.202,
+      "eval_steps_per_second": 0.707,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.22246453166007996,
+      "learning_rate": 0.000996723037122612,
+      "loss": 0.3011,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.24288132786750793,
+      "learning_rate": 0.0009943593799315263,
+      "loss": 0.3078,
+      "step": 350
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "eval_loss": 0.2915167212486267,
+      "eval_runtime": 22.6232,
+      "eval_samples_per_second": 44.202,
+      "eval_steps_per_second": 0.707,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.21969842910766602,
+      "learning_rate": 0.0009913622864853324,
+      "loss": 0.2936,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.2624405026435852,
+      "learning_rate": 0.0009877355970422024,
+      "loss": 0.3019,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.2813864052295685,
+      "eval_runtime": 22.6144,
+      "eval_samples_per_second": 44.22,
+      "eval_steps_per_second": 0.708,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.18397915363311768,
+      "learning_rate": 0.0009834839585789559,
+      "loss": 0.2951,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.1632954329252243,
+      "learning_rate": 0.000978612818836762,
+      "loss": 0.2885,
+      "step": 450
+    },
+    {
+      "epoch": 0.36915504511895,
+      "eval_loss": 0.26967909932136536,
+      "eval_runtime": 22.5519,
+      "eval_samples_per_second": 44.342,
+      "eval_steps_per_second": 0.709,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.17423078417778015,
+      "learning_rate": 0.0009731284193407981,
+      "loss": 0.2864,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.15992988646030426,
+      "learning_rate": 0.0009670377874028117,
+      "loss": 0.2763,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.2657691538333893,
+      "eval_runtime": 22.5303,
+      "eval_samples_per_second": 44.385,
+      "eval_steps_per_second": 0.71,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.17642049491405487,
+      "learning_rate": 0.0009603487271168336,
+      "loss": 0.2804,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.15310442447662354,
+      "learning_rate": 0.0009530698093595781,
+      "loss": 0.2738,
+      "step": 550
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "eval_loss": 0.25949400663375854,
+      "eval_runtime": 22.5573,
+      "eval_samples_per_second": 44.332,
+      "eval_steps_per_second": 0.709,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.16352593898773193,
+      "learning_rate": 0.0009452103608083418,
+      "loss": 0.2605,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.16357450187206268,
+      "learning_rate": 0.0009367804519904775,
+      "loss": 0.2695,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2563272714614868,
+      "eval_runtime": 22.5256,
+      "eval_samples_per_second": 44.394,
+      "eval_steps_per_second": 0.71,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.26224130392074585,
+      "learning_rate": 0.0009277908843797492,
+      "loss": 0.2572,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.15522083640098572,
+      "learning_rate": 0.0009182531765561084,
+      "loss": 0.2557,
+      "step": 650
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "eval_loss": 0.25189048051834106,
+      "eval_runtime": 22.5857,
+      "eval_samples_per_second": 44.276,
+      "eval_steps_per_second": 0.708,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.1434183418750763,
+      "learning_rate": 0.0009081795494466201,
+      "loss": 0.2577,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.1259659081697464,
+      "learning_rate": 0.0008975829106664539,
+      "loss": 0.251,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.25064969062805176,
+      "eval_runtime": 22.5416,
+      "eval_samples_per_second": 44.362,
+      "eval_steps_per_second": 0.71,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.11997288465499878,
+      "learning_rate": 0.0008864768379800017,
+      "loss": 0.2478,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.130789652466774,
+      "learning_rate": 0.0008748755619033153,
+      "loss": 0.2566,
+      "step": 750
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "eval_loss": 0.24806569516658783,
+      "eval_runtime": 22.5742,
+      "eval_samples_per_second": 44.298,
+      "eval_steps_per_second": 0.709,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.14199994504451752,
+      "learning_rate": 0.000862793947470155,
+      "loss": 0.2606,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.1386088728904724,
+      "learning_rate": 0.0008502474751850142,
+      "loss": 0.251,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.24411910772323608,
+      "eval_runtime": 22.5531,
+      "eval_samples_per_second": 44.34,
+      "eval_steps_per_second": 0.709,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.12433658540248871,
+      "learning_rate": 0.0008372522211875224,
+      "loss": 0.2469,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.13002005219459534,
+      "learning_rate": 0.0008238248366536473,
+      "loss": 0.2591,
+      "step": 850
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "eval_loss": 0.24230404198169708,
+      "eval_runtime": 22.5724,
+      "eval_samples_per_second": 44.302,
+      "eval_steps_per_second": 0.709,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.10630059987306595,
+      "learning_rate": 0.0008099825264600842,
+      "loss": 0.253,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.11450506001710892,
+      "learning_rate": 0.0007957430271391761,
+      "loss": 0.2467,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.2398349493741989,
+      "eval_runtime": 22.5769,
+      "eval_samples_per_second": 44.293,
+      "eval_steps_per_second": 0.709,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.11560004949569702,
+      "learning_rate": 0.0007811245841526062,
+      "loss": 0.2506,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.129349485039711,
+      "learning_rate": 0.0007661459285129879,
+      "loss": 0.234,
+      "step": 950
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "eval_loss": 0.2383035570383072,
+      "eval_runtime": 22.5608,
+      "eval_samples_per_second": 44.325,
+      "eval_steps_per_second": 0.709,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.11788657307624817,
+      "learning_rate": 0.0007508262527833029,
+      "loss": 0.2461,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.11253403127193451,
+      "learning_rate": 0.000735185186484943,
+      "loss": 0.2495,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.23681500554084778,
+      "eval_runtime": 22.5792,
+      "eval_samples_per_second": 44.288,
+      "eval_steps_per_second": 0.709,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.1057242602109909,
+      "learning_rate": 0.0007192427709458656,
+      "loss": 0.2366,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.12001299113035202,
+      "learning_rate": 0.0007030194336210887,
+      "loss": 0.2426,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "eval_loss": 0.23558472096920013,
+      "eval_runtime": 22.572,
+      "eval_samples_per_second": 44.303,
+      "eval_steps_per_second": 0.709,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.13502635061740875,
+      "learning_rate": 0.0006865359619184331,
+      "loss": 0.2471,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.10965543240308762,
+      "learning_rate": 0.0006698134765630434,
+      "loss": 0.2397,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.2340947687625885,
+      "eval_runtime": 22.599,
+      "eval_samples_per_second": 44.25,
+      "eval_steps_per_second": 0.708,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.09839494526386261,
+      "learning_rate": 0.0006528734045348248,
+      "loss": 0.2376,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.11483541131019592,
+      "learning_rate": 0.0006357374516134643,
+      "loss": 0.2516,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "eval_loss": 0.23218606412410736,
+      "eval_runtime": 22.5646,
+      "eval_samples_per_second": 44.317,
+      "eval_steps_per_second": 0.709,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.11629696935415268,
+      "learning_rate": 0.0006184275745662179,
+      "loss": 0.2405,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.10627080500125885,
+      "learning_rate": 0.0006009659530141031,
+      "loss": 0.2434,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.2307899445295334,
+      "eval_runtime": 22.5891,
+      "eval_samples_per_second": 44.269,
+      "eval_steps_per_second": 0.708,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.10291340202093124,
+      "learning_rate": 0.0005833749610125402,
+      "loss": 0.2417,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.1100890040397644,
+      "learning_rate": 0.0005656771383828602,
+      "loss": 0.2157,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "eval_loss": 0.23217763006687164,
+      "eval_runtime": 22.572,
+      "eval_samples_per_second": 44.303,
+      "eval_steps_per_second": 0.709,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.10660576075315475,
+      "learning_rate": 0.0005478951618314134,
+      "loss": 0.2115,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.10155736654996872,
+      "learning_rate": 0.0005300518158932815,
+      "loss": 0.2131,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.2298276424407959,
+      "eval_runtime": 22.5487,
+      "eval_samples_per_second": 44.348,
+      "eval_steps_per_second": 0.71,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.10922397673130035,
+      "learning_rate": 0.0005121699637378282,
+      "loss": 0.2115,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.11864089965820312,
+      "learning_rate": 0.0004942725178734903,
+      "loss": 0.2172,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "eval_loss": 0.22882254421710968,
+      "eval_runtime": 22.5984,
+      "eval_samples_per_second": 44.251,
+      "eval_steps_per_second": 0.708,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.11816546320915222,
+      "learning_rate": 0.00047638241078935324,
+      "loss": 0.2144,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.115484818816185,
+      "learning_rate": 0.000458522565571121,
+      "loss": 0.2225,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.22774316370487213,
+      "eval_runtime": 22.573,
+      "eval_samples_per_second": 44.301,
+      "eval_steps_per_second": 0.709,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.10250715166330338,
+      "learning_rate": 0.00044071586652913767,
+      "loss": 0.206,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.11922137439250946,
+      "learning_rate": 0.0004229851298760915,
+      "loss": 0.2158,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "eval_loss": 0.22773854434490204,
+      "eval_runtime": 22.5992,
+      "eval_samples_per_second": 44.249,
+      "eval_steps_per_second": 0.708,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.10833777487277985,
+      "learning_rate": 0.0004053530744919749,
+      "loss": 0.2158,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.11317677795886993,
+      "learning_rate": 0.0003878422928137597,
+      "loss": 0.2187,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.2261391282081604,
+      "eval_runtime": 22.6015,
+      "eval_samples_per_second": 44.245,
+      "eval_steps_per_second": 0.708,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.11307208985090256,
+      "learning_rate": 0.0003704752218870861,
+      "loss": 0.2236,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.10417971014976501,
+      "learning_rate": 0.00035327411461706025,
+      "loss": 0.2054,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "eval_loss": 0.2259172946214676,
+      "eval_runtime": 22.5368,
+      "eval_samples_per_second": 44.372,
+      "eval_steps_per_second": 0.71,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.11175528168678284,
+      "learning_rate": 0.00033626101125499555,
+      "loss": 0.2151,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.10208392888307571,
+      "learning_rate": 0.0003194577111576333,
+      "loss": 0.2113,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.2242567092180252,
+      "eval_runtime": 22.5352,
+      "eval_samples_per_second": 44.375,
+      "eval_steps_per_second": 0.71,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.10389668494462967,
+      "learning_rate": 0.00030288574485502756,
+      "loss": 0.2107,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.10494068264961243,
+      "learning_rate": 0.00028656634646288565,
+      "loss": 0.2119,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "eval_loss": 0.22249621152877808,
+      "eval_runtime": 22.5187,
+      "eval_samples_per_second": 44.408,
+      "eval_steps_per_second": 0.711,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.11896856129169464,
+      "learning_rate": 0.00027052042647471254,
+      "loss": 0.2009,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.10503373295068741,
+      "learning_rate": 0.0002547685449686206,
+      "loss": 0.2095,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.22149282693862915,
+      "eval_runtime": 22.5508,
+      "eval_samples_per_second": 44.344,
+      "eval_steps_per_second": 0.71,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.11639218777418137,
+      "learning_rate": 0.0002393308852631373,
+      "loss": 0.2215,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.11435659229755402,
+      "learning_rate": 0.0002242272280557645,
+      "loss": 0.2155,
+      "step": 1750
+    },
+    {
+      "epoch": 1.435602953240361,
+      "eval_loss": 0.2211078256368637,
+      "eval_runtime": 22.5499,
+      "eval_samples_per_second": 44.346,
+      "eval_steps_per_second": 0.71,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.11285687983036041,
+      "learning_rate": 0.0002094769260774262,
+      "loss": 0.2113,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.10831128060817719,
+      "learning_rate": 0.00019509887929528458,
+      "loss": 0.2154,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.22003982961177826,
+      "eval_runtime": 22.5404,
+      "eval_samples_per_second": 44.365,
+      "eval_steps_per_second": 0.71,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.13930928707122803,
+      "learning_rate": 0.0001811115106956918,
+      "loss": 0.2061,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.11574142426252365,
+      "learning_rate": 0.00016753274267831115,
+      "loss": 0.2158,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "eval_loss": 0.21911242604255676,
+      "eval_runtime": 22.62,
+      "eval_samples_per_second": 44.209,
+      "eval_steps_per_second": 0.707,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.1241801530122757,
+      "learning_rate": 0.00015437997409165478,
+      "loss": 0.2061,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.10792222619056702,
+      "learning_rate": 0.00014167005793946035,
+      "loss": 0.2055,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.21896851062774658,
+      "eval_runtime": 22.5247,
+      "eval_samples_per_second": 44.396,
+      "eval_steps_per_second": 0.71,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.12615908682346344,
+      "learning_rate": 0.00012941927978647527,
+      "loss": 0.2078,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.0955195277929306,
+      "learning_rate": 0.00011764333689131385,
+      "loss": 0.2135,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "eval_loss": 0.21795088052749634,
+      "eval_runtime": 22.5428,
+      "eval_samples_per_second": 44.36,
+      "eval_steps_per_second": 0.71,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.09828197956085205,
+      "learning_rate": 0.00010635731809312993,
+      "loss": 0.2098,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.11805617809295654,
+      "learning_rate": 9.557568447787201e-05,
+      "loss": 0.2099,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.21716704964637756,
+      "eval_runtime": 22.5329,
+      "eval_samples_per_second": 44.38,
+      "eval_steps_per_second": 0.71,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.11299672722816467,
+      "learning_rate": 8.531225084889654e-05,
+      "loss": 0.2026,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.11950846761465073,
+      "learning_rate": 7.558016802568091e-05,
+      "loss": 0.2062,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "eval_loss": 0.21671602129936218,
+      "eval_runtime": 22.5667,
+      "eval_samples_per_second": 44.313,
+      "eval_steps_per_second": 0.709,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.11061406135559082,
+      "learning_rate": 6.639190599331746e-05,
+      "loss": 0.2073,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.10908389836549759,
+      "learning_rate": 5.775923792437865e-05,
+      "loss": 0.2016,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.2159593254327774,
+      "eval_runtime": 22.5289,
+      "eval_samples_per_second": 44.387,
+      "eval_steps_per_second": 0.71,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.11665470898151398,
+      "learning_rate": 4.9693225093627616e-05,
+      "loss": 0.2029,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.11755326390266418,
+      "learning_rate": 4.220420270490294e-05,
+      "loss": 0.1974,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "eval_loss": 0.21538600325584412,
+      "eval_runtime": 22.6212,
+      "eval_samples_per_second": 44.206,
+      "eval_steps_per_second": 0.707,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.12463412433862686,
+      "learning_rate": 3.530176664833834e-05,
+      "loss": 0.1999,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.13732177019119263,
+      "learning_rate": 2.8994761204884756e-05,
+      "loss": 0.2084,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.2153223305940628,
+      "eval_runtime": 22.5592,
+      "eval_samples_per_second": 44.328,
+      "eval_steps_per_second": 0.709,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.125973179936409,
+      "learning_rate": 2.329126771388995e-05,
+      "loss": 0.1998,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.10488861054182053,
+      "learning_rate": 1.8198594218256815e-05,
+      "loss": 0.2009,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "eval_loss": 0.2151503562927246,
+      "eval_runtime": 22.5499,
+      "eval_samples_per_second": 44.346,
+      "eval_steps_per_second": 0.71,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.11978505551815033,
+      "learning_rate": 1.3723266100447052e-05,
+      "loss": 0.204,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.1408199667930603,
+      "learning_rate": 9.871017721329201e-06,
+      "loss": 0.2122,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.21504977345466614,
+      "eval_runtime": 22.618,
+      "eval_samples_per_second": 44.213,
+      "eval_steps_per_second": 0.707,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.11792837083339691,
+      "learning_rate": 6.646785072584871e-06,
+      "loss": 0.2068,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.0992947518825531,
+      "learning_rate": 4.054699452086641e-06,
+      "loss": 0.2006,
+      "step": 2350
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "eval_loss": 0.21499131619930267,
+      "eval_runtime": 22.5655,
+      "eval_samples_per_second": 44.315,
+      "eval_steps_per_second": 0.709,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.1237172856926918,
+      "learning_rate": 2.0980821703527886e-06,
+      "loss": 0.2153,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.11623578518629074,
+      "learning_rate": 7.794402948607671e-07,
+      "loss": 0.2113,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.21487931907176971,
+      "eval_runtime": 22.5687,
+      "eval_samples_per_second": 44.309,
+      "eval_steps_per_second": 0.709,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.14077042043209076,
+      "learning_rate": 1.0046343767294853e-07,
+      "loss": 0.2009,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.2502285066053846,
+      "train_runtime": 4294.1547,
+      "train_samples_per_second": 18.164,
+      "train_steps_per_second": 0.568
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}