nvan15 commited on Jan 15

Commit

e6dd826

verified ·

1 Parent(s): b3ccc92

Batch upload part 16

Browse files

Files changed (50) hide show

nl_tasks/exp100/run_ex01/all_results.json +17 -0
nl_tasks/exp100/run_ex01/eval_results.json +9 -0
nl_tasks/exp100/run_ex01/ft/adapter_config.json +22 -0
nl_tasks/exp100/run_ex01/ft/added_tokens.json +3 -0
nl_tasks/exp100/run_ex01/ft/special_tokens_map.json +15 -0
nl_tasks/exp100/run_ex01/ft/spm.model +3 -0
nl_tasks/exp100/run_ex01/ft/tokenizer.json +0 -0
nl_tasks/exp100/run_ex01/ft/tokenizer.model +3 -0
nl_tasks/exp100/run_ex01/ft/tokenizer_config.json +60 -0
nl_tasks/exp100/run_ex01/ft2/adapter_config.json +22 -0
nl_tasks/exp100/run_ex01/ft2/adapter_model.bin +3 -0
nl_tasks/exp100/run_ex01/predict_results_cola.txt +301 -0
nl_tasks/exp100/run_ex01/predict_results_mnli-mm.txt +0 -0
nl_tasks/exp100/run_ex01/predict_results_mnli.txt +301 -0
nl_tasks/exp100/run_ex01/trainer_state.json +43 -0
nl_tasks/exp100/run_ex02/trainer_state.json +260 -0
nl_tasks/exp395/run_ex09/ft/adapter_config.json +18 -0
nl_tasks/exp395/run_ex09/ft/special_tokens_map.json +24 -0
nl_tasks/exp395/run_ex09/ft/tokenizer.json +0 -0
nl_tasks/exp395/run_ex09/ft/tokenizer.model +3 -0
nl_tasks/exp395/run_ex09/ft/tokenizer_config.json +43 -0
nl_tasks/exp395/run_ex09/ft2/adapter_config.json +18 -0
nl_tasks/exp395/run_ex09/ft2/adapter_model.bin +3 -0
nl_tasks/exp395/run_ex09/trainer_state.json +509 -0
nl_tasks/exp395/run_ex10/ft/adapter_config.json +18 -0
nl_tasks/exp395/run_ex10/ft/special_tokens_map.json +24 -0
nl_tasks/exp395/run_ex10/ft/tokenizer.json +0 -0
nl_tasks/exp395/run_ex10/ft/tokenizer.model +3 -0
nl_tasks/exp395/run_ex10/ft/tokenizer_config.json +43 -0
nl_tasks/exp395/run_ex10/ft2/adapter_config.json +18 -0
nl_tasks/exp395/run_ex10/ft2/adapter_model.bin +3 -0
nl_tasks/exp395/run_ex10/trainer_state.json +356 -0
nl_tasks/exp_init/run_ex01/ft/adapter_config.json +18 -0
nl_tasks/exp_init/run_ex01/ft/added_tokens.json +3 -0
nl_tasks/exp_init/run_ex01/ft/special_tokens_map.json +30 -0
nl_tasks/exp_init/run_ex01/ft/tokenizer.json +0 -0
nl_tasks/exp_init/run_ex01/ft/tokenizer.model +3 -0
nl_tasks/exp_init/run_ex01/ft/tokenizer_config.json +51 -0
nl_tasks/exp_init/run_ex01/ft2/adapter_config.json +18 -0
nl_tasks/exp_init/run_ex01/ft2/adapter_model.bin +3 -0
nl_tasks/exp_init/run_ex01/trainer_state.json +928 -0
nl_tasks/exp_init/run_ex02/ft/adapter_config.json +18 -0
nl_tasks/exp_init/run_ex02/ft/added_tokens.json +3 -0
nl_tasks/exp_init/run_ex02/ft/special_tokens_map.json +30 -0
nl_tasks/exp_init/run_ex02/ft/tokenizer.json +0 -0
nl_tasks/exp_init/run_ex02/ft/tokenizer.model +3 -0
nl_tasks/exp_init/run_ex02/ft/tokenizer_config.json +51 -0
nl_tasks/exp_init/run_ex02/ft2/adapter_config.json +18 -0
nl_tasks/exp_init/run_ex02/ft2/adapter_model.bin +3 -0
nl_tasks/exp_init/run_ex02/trainer_state.json +914 -0

nl_tasks/exp100/run_ex01/all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 2.0,
+    "epoch_mm": 2.0,
+    "eval_accuracy": 0.3273560876209883,
+    "eval_accuracy_mm": 0.3273560876209883,
+    "eval_loss": 0.5474581718444824,
+    "eval_loss_mm": 1.1032307147979736,
+    "eval_matthews_correlation": 0.10385466804655791,
+    "eval_runtime": 5.1907,
+    "eval_runtime_mm": 45.7755,
+    "eval_samples": 1043,
+    "eval_samples_mm": 9832,
+    "eval_samples_per_second": 200.936,
+    "eval_samples_per_second_mm": 214.416,
+    "eval_steps_per_second": 3.275,
+    "eval_steps_per_second_mm": 3.364
+}

nl_tasks/exp100/run_ex01/eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.0,
+    "eval_loss": 0.5474581718444824,
+    "eval_matthews_correlation": 0.10385466804655791,
+    "eval_runtime": 5.1907,
+    "eval_samples": 1043,
+    "eval_samples_per_second": 200.936,
+    "eval_steps_per_second": 3.275
+}

nl_tasks/exp100/run_ex01/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 5,
+  "revision": null,
+  "target_modules": [
+    "query_proj",
+    "attention.output.dense",
+    "output.dense",
+    "value_proj",
+    "intermediate.dense",
+    "key_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "SEQ_CLS"
+}

nl_tasks/exp100/run_ex01/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

nl_tasks/exp100/run_ex01/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp100/run_ex01/ft/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

nl_tasks/exp100/run_ex01/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex01/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp100/run_ex01/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

nl_tasks/exp100/run_ex01/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 5,
+  "revision": null,
+  "target_modules": [
+    "query_proj",
+    "attention.output.dense",
+    "output.dense",
+    "value_proj",
+    "intermediate.dense",
+    "key_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "SEQ_CLS"
+}

nl_tasks/exp100/run_ex01/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de19a85f9671833d9995e7405021a6fa84f03b7b2108e4224f853c11f3caa47c
+size 3380395

nl_tasks/exp100/run_ex01/predict_results_cola.txt ADDED Viewed

	@@ -0,0 +1,301 @@

+index	prediction
+0	acceptable
+1	acceptable
+2	acceptable
+3	acceptable
+4	acceptable
+5	acceptable
+6	acceptable
+7	acceptable
+8	acceptable
+9	acceptable
+10	acceptable
+11	acceptable
+12	acceptable
+13	acceptable
+14	acceptable
+15	acceptable
+16	acceptable
+17	acceptable
+18	unacceptable
+19	acceptable
+20	acceptable
+21	acceptable
+22	acceptable
+23	acceptable
+24	acceptable
+25	acceptable
+26	acceptable
+27	acceptable
+28	acceptable
+29	acceptable
+30	acceptable
+31	acceptable
+32	acceptable
+33	acceptable
+34	acceptable
+35	acceptable
+36	acceptable
+37	acceptable
+38	acceptable
+39	acceptable
+40	acceptable
+41	acceptable
+42	acceptable
+43	acceptable
+44	acceptable
+45	acceptable
+46	acceptable
+47	acceptable
+48	acceptable
+49	acceptable
+50	acceptable
+51	acceptable
+52	acceptable
+53	acceptable
+54	acceptable
+55	acceptable
+56	acceptable
+57	acceptable
+58	acceptable
+59	acceptable
+60	acceptable
+61	acceptable
+62	acceptable
+63	acceptable
+64	acceptable
+65	acceptable
+66	acceptable
+67	acceptable
+68	acceptable
+69	acceptable
+70	acceptable
+71	acceptable
+72	acceptable
+73	acceptable
+74	acceptable
+75	acceptable
+76	acceptable
+77	acceptable
+78	acceptable
+79	acceptable
+80	acceptable
+81	acceptable
+82	acceptable
+83	acceptable
+84	acceptable
+85	acceptable
+86	acceptable
+87	acceptable
+88	acceptable
+89	acceptable
+90	acceptable
+91	acceptable
+92	acceptable
+93	acceptable
+94	acceptable
+95	acceptable
+96	acceptable
+97	acceptable
+98	acceptable
+99	acceptable
+100	acceptable
+101	acceptable
+102	acceptable
+103	acceptable
+104	acceptable
+105	acceptable
+106	acceptable
+107	acceptable
+108	acceptable
+109	acceptable
+110	acceptable
+111	acceptable
+112	acceptable
+113	acceptable
+114	acceptable
+115	acceptable
+116	acceptable
+117	acceptable
+118	acceptable
+119	acceptable
+120	acceptable
+121	acceptable
+122	acceptable
+123	acceptable
+124	acceptable
+125	acceptable
+126	acceptable
+127	acceptable
+128	acceptable
+129	acceptable
+130	acceptable
+131	acceptable
+132	acceptable
+133	acceptable
+134	acceptable
+135	acceptable
+136	acceptable
+137	acceptable
+138	acceptable
+139	acceptable
+140	acceptable
+141	acceptable
+142	acceptable
+143	acceptable
+144	acceptable
+145	acceptable
+146	acceptable
+147	acceptable
+148	acceptable
+149	acceptable
+150	acceptable
+151	acceptable
+152	acceptable
+153	acceptable
+154	acceptable
+155	acceptable
+156	acceptable
+157	acceptable
+158	acceptable
+159	acceptable
+160	acceptable
+161	acceptable
+162	acceptable
+163	acceptable
+164	acceptable
+165	acceptable
+166	acceptable
+167	acceptable
+168	acceptable
+169	acceptable
+170	acceptable
+171	acceptable
+172	acceptable
+173	acceptable
+174	acceptable
+175	acceptable
+176	acceptable
+177	acceptable
+178	acceptable
+179	acceptable
+180	acceptable
+181	acceptable
+182	acceptable
+183	acceptable
+184	acceptable
+185	acceptable
+186	acceptable
+187	acceptable
+188	acceptable
+189	acceptable
+190	acceptable
+191	acceptable
+192	acceptable
+193	acceptable
+194	acceptable
+195	acceptable
+196	acceptable
+197	acceptable
+198	acceptable
+199	acceptable
+200	acceptable
+201	acceptable
+202	acceptable
+203	acceptable
+204	acceptable
+205	acceptable
+206	acceptable
+207	acceptable
+208	acceptable
+209	acceptable
+210	acceptable
+211	acceptable
+212	acceptable
+213	acceptable
+214	acceptable
+215	acceptable
+216	acceptable
+217	acceptable
+218	acceptable
+219	acceptable
+220	acceptable
+221	acceptable
+222	acceptable
+223	acceptable
+224	acceptable
+225	acceptable
+226	acceptable
+227	acceptable
+228	acceptable
+229	acceptable
+230	acceptable
+231	acceptable
+232	acceptable
+233	acceptable
+234	acceptable
+235	acceptable
+236	acceptable
+237	acceptable
+238	acceptable
+239	acceptable
+240	acceptable
+241	acceptable
+242	acceptable
+243	acceptable
+244	acceptable
+245	acceptable
+246	acceptable
+247	acceptable
+248	acceptable
+249	acceptable
+250	acceptable
+251	acceptable
+252	acceptable
+253	acceptable
+254	acceptable
+255	acceptable
+256	acceptable
+257	acceptable
+258	acceptable
+259	acceptable
+260	acceptable
+261	acceptable
+262	acceptable
+263	acceptable
+264	acceptable
+265	acceptable
+266	acceptable
+267	acceptable
+268	acceptable
+269	acceptable
+270	acceptable
+271	acceptable
+272	acceptable
+273	acceptable
+274	acceptable
+275	acceptable
+276	acceptable
+277	acceptable
+278	acceptable
+279	acceptable
+280	acceptable
+281	acceptable
+282	acceptable
+283	acceptable
+284	acceptable
+285	acceptable
+286	acceptable
+287	acceptable
+288	acceptable
+289	acceptable
+290	acceptable
+291	acceptable
+292	acceptable
+293	acceptable
+294	acceptable
+295	acceptable
+296	acceptable
+297	acceptable
+298	acceptable
+299	acceptable

nl_tasks/exp100/run_ex01/predict_results_mnli-mm.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp100/run_ex01/predict_results_mnli.txt ADDED Viewed

	@@ -0,0 +1,301 @@

+index	prediction
+0	contradiction
+1	contradiction
+2	contradiction
+3	contradiction
+4	contradiction
+5	contradiction
+6	contradiction
+7	contradiction
+8	contradiction
+9	contradiction
+10	contradiction
+11	contradiction
+12	contradiction
+13	contradiction
+14	contradiction
+15	contradiction
+16	contradiction
+17	contradiction
+18	contradiction
+19	contradiction
+20	contradiction
+21	contradiction
+22	contradiction
+23	contradiction
+24	contradiction
+25	contradiction
+26	contradiction
+27	contradiction
+28	contradiction
+29	contradiction
+30	contradiction
+31	contradiction
+32	contradiction
+33	contradiction
+34	contradiction
+35	contradiction
+36	contradiction
+37	contradiction
+38	contradiction
+39	contradiction
+40	contradiction
+41	contradiction
+42	contradiction
+43	contradiction
+44	contradiction
+45	contradiction
+46	contradiction
+47	contradiction
+48	contradiction
+49	contradiction
+50	contradiction
+51	contradiction
+52	contradiction
+53	contradiction
+54	contradiction
+55	contradiction
+56	contradiction
+57	contradiction
+58	contradiction
+59	contradiction
+60	contradiction
+61	contradiction
+62	contradiction
+63	contradiction
+64	contradiction
+65	contradiction
+66	contradiction
+67	contradiction
+68	contradiction
+69	contradiction
+70	contradiction
+71	contradiction
+72	contradiction
+73	contradiction
+74	contradiction
+75	contradiction
+76	contradiction
+77	contradiction
+78	contradiction
+79	contradiction
+80	contradiction
+81	contradiction
+82	contradiction
+83	contradiction
+84	contradiction
+85	contradiction
+86	contradiction
+87	contradiction
+88	contradiction
+89	contradiction
+90	contradiction
+91	contradiction
+92	contradiction
+93	contradiction
+94	contradiction
+95	contradiction
+96	contradiction
+97	contradiction
+98	contradiction
+99	contradiction
+100	contradiction
+101	contradiction
+102	contradiction
+103	contradiction
+104	contradiction
+105	contradiction
+106	contradiction
+107	contradiction
+108	contradiction
+109	contradiction
+110	contradiction
+111	contradiction
+112	contradiction
+113	contradiction
+114	contradiction
+115	contradiction
+116	contradiction
+117	contradiction
+118	contradiction
+119	contradiction
+120	contradiction
+121	contradiction
+122	contradiction
+123	contradiction
+124	contradiction
+125	contradiction
+126	contradiction
+127	contradiction
+128	contradiction
+129	contradiction
+130	contradiction
+131	contradiction
+132	contradiction
+133	contradiction
+134	contradiction
+135	contradiction
+136	contradiction
+137	contradiction
+138	contradiction
+139	contradiction
+140	contradiction
+141	contradiction
+142	contradiction
+143	contradiction
+144	contradiction
+145	contradiction
+146	contradiction
+147	contradiction
+148	contradiction
+149	contradiction
+150	contradiction
+151	contradiction
+152	contradiction
+153	contradiction
+154	contradiction
+155	contradiction
+156	contradiction
+157	contradiction
+158	contradiction
+159	contradiction
+160	contradiction
+161	contradiction
+162	contradiction
+163	contradiction
+164	contradiction
+165	contradiction
+166	contradiction
+167	contradiction
+168	contradiction
+169	contradiction
+170	contradiction
+171	contradiction
+172	contradiction
+173	contradiction
+174	contradiction
+175	contradiction
+176	contradiction
+177	contradiction
+178	contradiction
+179	contradiction
+180	contradiction
+181	contradiction
+182	contradiction
+183	contradiction
+184	contradiction
+185	contradiction
+186	contradiction
+187	contradiction
+188	contradiction
+189	contradiction
+190	contradiction
+191	contradiction
+192	contradiction
+193	contradiction
+194	contradiction
+195	contradiction
+196	contradiction
+197	contradiction
+198	contradiction
+199	contradiction
+200	contradiction
+201	contradiction
+202	contradiction
+203	contradiction
+204	contradiction
+205	contradiction
+206	contradiction
+207	contradiction
+208	contradiction
+209	contradiction
+210	contradiction
+211	contradiction
+212	contradiction
+213	contradiction
+214	contradiction
+215	contradiction
+216	contradiction
+217	contradiction
+218	contradiction
+219	contradiction
+220	contradiction
+221	contradiction
+222	contradiction
+223	contradiction
+224	contradiction
+225	contradiction
+226	contradiction
+227	contradiction
+228	contradiction
+229	contradiction
+230	contradiction
+231	contradiction
+232	contradiction
+233	contradiction
+234	contradiction
+235	contradiction
+236	contradiction
+237	contradiction
+238	contradiction
+239	contradiction
+240	contradiction
+241	contradiction
+242	contradiction
+243	contradiction
+244	contradiction
+245	contradiction
+246	contradiction
+247	contradiction
+248	contradiction
+249	contradiction
+250	contradiction
+251	contradiction
+252	contradiction
+253	contradiction
+254	contradiction
+255	contradiction
+256	contradiction
+257	contradiction
+258	contradiction
+259	contradiction
+260	contradiction
+261	contradiction
+262	contradiction
+263	contradiction
+264	contradiction
+265	contradiction
+266	contradiction
+267	contradiction
+268	contradiction
+269	contradiction
+270	contradiction
+271	contradiction
+272	contradiction
+273	contradiction
+274	contradiction
+275	contradiction
+276	contradiction
+277	contradiction
+278	contradiction
+279	contradiction
+280	contradiction
+281	contradiction
+282	contradiction
+283	contradiction
+284	contradiction
+285	contradiction
+286	contradiction
+287	contradiction
+288	contradiction
+289	contradiction
+290	contradiction
+291	contradiction
+292	contradiction
+293	contradiction
+294	contradiction
+295	contradiction
+296	contradiction
+297	contradiction
+298	contradiction
+299	contradiction

nl_tasks/exp100/run_ex01/trainer_state.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 20,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 2.0,
+      "step": 20,
+      "total_flos": 79699144089600.0,
+      "train_loss": 0.6215126037597656,
+      "train_runtime": 9.6469,
+      "train_samples_per_second": 62.196,
+      "train_steps_per_second": 2.073
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 20,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 79699144089600.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp100/run_ex02/trainer_state.json ADDED Viewed

	@@ -0,0 +1,260 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 6250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.0752563327550888,
+      "learning_rate": 0.01997616502308297,
+      "loss": 0.7328,
+      "step": 200
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.04924536868929863,
+      "learning_rate": 0.0198548107876105,
+      "loss": 0.2951,
+      "step": 400
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.03875705227255821,
+      "learning_rate": 0.01963190781883806,
+      "loss": 0.2758,
+      "step": 600
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.04360447824001312,
+      "learning_rate": 0.019309753016687477,
+      "loss": 0.2649,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.04730730503797531,
+      "learning_rate": 0.01889166601994126,
+      "loss": 0.2546,
+      "step": 1000
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.030088823288679123,
+      "learning_rate": 0.01838195499908018,
+      "loss": 0.2467,
+      "step": 1200
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.03133947774767876,
+      "learning_rate": 0.017785872262812443,
+      "loss": 0.2418,
+      "step": 1400
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.027547890320420265,
+      "learning_rate": 0.017109560135746254,
+      "loss": 0.2404,
+      "step": 1600
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.028105350211262703,
+      "learning_rate": 0.01635998766490841,
+      "loss": 0.2368,
+      "step": 1800
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.019630730152130127,
+      "learning_rate": 0.015544878807315494,
+      "loss": 0.2364,
+      "step": 2000
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.022615477442741394,
+      "learning_rate": 0.014672632838587716,
+      "loss": 0.23,
+      "step": 2200
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.018555844202637672,
+      "learning_rate": 0.01375223780275345,
+      "loss": 0.2271,
+      "step": 2400
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.018439946696162224,
+      "learning_rate": 0.012793177895099529,
+      "loss": 0.2245,
+      "step": 2600
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.017203744500875473,
+      "learning_rate": 0.011805335732439208,
+      "loss": 0.2212,
+      "step": 2800
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.018836447969079018,
+      "learning_rate": 0.010798890517852123,
+      "loss": 0.2192,
+      "step": 3000
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.018993478268384933,
+      "learning_rate": 0.009784213149256028,
+      "loss": 0.2092,
+      "step": 3200
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.02251339517533779,
+      "learning_rate": 0.008771759352662289,
+      "loss": 0.1962,
+      "step": 3400
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.01902582310140133,
+      "learning_rate": 0.007771961941321678,
+      "loss": 0.1992,
+      "step": 3600
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.01809665560722351,
+      "learning_rate": 0.006795123310974343,
+      "loss": 0.1962,
+      "step": 3800
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.016171475872397423,
+      "learning_rate": 0.005851309278984825,
+      "loss": 0.1932,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.017769088968634605,
+      "learning_rate": 0.0049502453612950284,
+      "loss": 0.1918,
+      "step": 4200
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.015108599327504635,
+      "learning_rate": 0.004101216556007472,
+      "loss": 0.189,
+      "step": 4400
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.0172615647315979,
+      "learning_rate": 0.0033129716662773125,
+      "loss": 0.1888,
+      "step": 4600
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.013923043385148048,
+      "learning_rate": 0.0025936331484162434,
+      "loss": 0.1815,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.014836262911558151,
+      "learning_rate": 0.0019506134141769472,
+      "loss": 0.1852,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.01543043740093708,
+      "learning_rate": 0.0013905384496799378,
+      "loss": 0.1812,
+      "step": 5200
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.015558457002043724,
+      "learning_rate": 0.0009191795380501134,
+      "loss": 0.1788,
+      "step": 5400
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 0.016567343845963478,
+      "learning_rate": 0.0005413937893261456,
+      "loss": 0.1768,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.013650099746882915,
+      "learning_rate": 0.0002610740904511233,
+      "loss": 0.1794,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.019280096516013145,
+      "learning_rate": 8.110899108401792e-05,
+      "loss": 0.1736,
+      "step": 6000
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 0.015858888626098633,
+      "learning_rate": 3.3529385879282893e-06,
+      "loss": 0.1747,
+      "step": 6200
+    },
+    {
+      "epoch": 2.0,
+      "step": 6250,
+      "total_flos": 4.0647058784256e+18,
+      "train_loss": 0.22993893524169923,
+      "train_runtime": 5634.1945,
+      "train_samples_per_second": 35.498,
+      "train_steps_per_second": 1.109
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 6250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.0647058784256e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp395/run_ex09/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp395/run_ex09/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp395/run_ex09/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp395/run_ex09/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp395/run_ex09/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp395/run_ex09/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp395/run_ex09/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbd1a2c07e6bdebc1f0ef22f1037b61bc06f34f554970fb77b43fe148b47472f
+size 33602915

nl_tasks/exp395/run_ex09/trainer_state.json ADDED Viewed

	@@ -0,0 +1,509 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 9375,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.24448873102664948,
+      "learning_rate": 0.00199936844222861,
+      "loss": 0.3757,
+      "step": 200
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.25495460629463196,
+      "learning_rate": 0.0019946753128925747,
+      "loss": 0.3045,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.2806861102581024,
+      "eval_runtime": 18.6896,
+      "eval_samples_per_second": 54.094,
+      "eval_steps_per_second": 0.856,
+      "step": 500
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.12310587614774704,
+      "learning_rate": 0.001985425114055429,
+      "loss": 0.2727,
+      "step": 600
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.15234604477882385,
+      "learning_rate": 0.0019716602251735175,
+      "loss": 0.2555,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.10114556550979614,
+      "learning_rate": 0.001953443709594746,
+      "loss": 0.2475,
+      "step": 1000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.25135913491249084,
+      "eval_runtime": 18.5064,
+      "eval_samples_per_second": 54.63,
+      "eval_steps_per_second": 0.865,
+      "step": 1000
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.09664544463157654,
+      "learning_rate": 0.0019308590256360988,
+      "loss": 0.2449,
+      "step": 1200
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.09191286563873291,
+      "learning_rate": 0.0019040096442223358,
+      "loss": 0.2387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.24170711636543274,
+      "eval_runtime": 18.503,
+      "eval_samples_per_second": 54.64,
+      "eval_steps_per_second": 0.865,
+      "step": 1500
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.08609094470739365,
+      "learning_rate": 0.0018730185748376353,
+      "loss": 0.2332,
+      "step": 1600
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.08084086328744888,
+      "learning_rate": 0.0018380278019620281,
+      "loss": 0.2295,
+      "step": 1800
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.08400174230337143,
+      "learning_rate": 0.0017991976345745596,
+      "loss": 0.2278,
+      "step": 2000
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.22995951771736145,
+      "eval_runtime": 18.5154,
+      "eval_samples_per_second": 54.603,
+      "eval_steps_per_second": 0.864,
+      "step": 2000
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.06514922529459,
+      "learning_rate": 0.0017567059717034153,
+      "loss": 0.2236,
+      "step": 2200
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.061288416385650635,
+      "learning_rate": 0.0017107474873878648,
+      "loss": 0.2217,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.2240372747182846,
+      "eval_runtime": 18.5034,
+      "eval_samples_per_second": 54.639,
+      "eval_steps_per_second": 0.865,
+      "step": 2500
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.0703856498003006,
+      "learning_rate": 0.0016615327387860851,
+      "loss": 0.2195,
+      "step": 2600
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.06190377473831177,
+      "learning_rate": 0.001609287201515044,
+      "loss": 0.2192,
+      "step": 2800
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.058891598135232925,
+      "learning_rate": 0.0015542502366419986,
+      "loss": 0.2119,
+      "step": 3000
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.21980270743370056,
+      "eval_runtime": 18.5017,
+      "eval_samples_per_second": 54.644,
+      "eval_steps_per_second": 0.865,
+      "step": 3000
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.08175381273031235,
+      "learning_rate": 0.001496673994060291,
+      "loss": 0.2067,
+      "step": 3200
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.058054033666849136,
+      "learning_rate": 0.0014368222572736001,
+      "loss": 0.1904,
+      "step": 3400
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.21591630578041077,
+      "eval_runtime": 18.5104,
+      "eval_samples_per_second": 54.618,
+      "eval_steps_per_second": 0.864,
+      "step": 3500
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.06751835346221924,
+      "learning_rate": 0.0013749692348812186,
+      "loss": 0.1906,
+      "step": 3600
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.06137789785861969,
+      "learning_rate": 0.0013113983043011267,
+      "loss": 0.1906,
+      "step": 3800
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.05203723534941673,
+      "learning_rate": 0.0012464007134864482,
+      "loss": 0.1883,
+      "step": 4000
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.21353089809417725,
+      "eval_runtime": 18.5177,
+      "eval_samples_per_second": 54.596,
+      "eval_steps_per_second": 0.864,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.0589132197201252,
+      "learning_rate": 0.0011802742465833352,
+      "loss": 0.1902,
+      "step": 4200
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.06806980073451996,
+      "learning_rate": 0.0011133218596435107,
+      "loss": 0.1883,
+      "step": 4400
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.20915259420871735,
+      "eval_runtime": 18.5243,
+      "eval_samples_per_second": 54.577,
+      "eval_steps_per_second": 0.864,
+      "step": 4500
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.06540437787771225,
+      "learning_rate": 0.0010458502926419136,
+      "loss": 0.189,
+      "step": 4600
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.05099968612194061,
+      "learning_rate": 0.0009781686641584368,
+      "loss": 0.1862,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.056332822889089584,
+      "learning_rate": 0.0009105870551621664,
+      "loss": 0.184,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.20469947159290314,
+      "eval_runtime": 18.5065,
+      "eval_samples_per_second": 54.629,
+      "eval_steps_per_second": 0.865,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.04745101556181908,
+      "learning_rate": 0.0008434150883864713,
+      "loss": 0.1866,
+      "step": 5200
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.04577454924583435,
+      "learning_rate": 0.0007769605098034851,
+      "loss": 0.186,
+      "step": 5400
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.20063205063343048,
+      "eval_runtime": 18.5081,
+      "eval_samples_per_second": 54.625,
+      "eval_steps_per_second": 0.864,
+      "step": 5500
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 0.04938381910324097,
+      "learning_rate": 0.0007115277786969001,
+      "loss": 0.1831,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.05956464633345604,
+      "learning_rate": 0.0006474166727926085,
+      "loss": 0.1804,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.050873901695013046,
+      "learning_rate": 0.0005849209148377339,
+      "loss": 0.1808,
+      "step": 6000
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.19810360670089722,
+      "eval_runtime": 22.7592,
+      "eval_samples_per_second": 44.422,
+      "eval_steps_per_second": 0.703,
+      "step": 6000
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 0.09603903442621231,
+      "learning_rate": 0.0005243268269203323,
+      "loss": 0.1806,
+      "step": 6200
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 0.05339692533016205,
+      "learning_rate": 0.0004659120186949479,
+      "loss": 0.1613,
+      "step": 6400
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.1972031444311142,
+      "eval_runtime": 18.5168,
+      "eval_samples_per_second": 54.599,
+      "eval_steps_per_second": 0.864,
+      "step": 6500
+    },
+    {
+      "epoch": 2.112,
+      "grad_norm": 0.053911786526441574,
+      "learning_rate": 0.0004099441155238748,
+      "loss": 0.1544,
+      "step": 6600
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 0.050456177443265915,
+      "learning_rate": 0.0003566795323610935,
+      "loss": 0.155,
+      "step": 6800
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.05330171436071396,
+      "learning_rate": 0.0003063622989963002,
+      "loss": 0.1529,
+      "step": 7000
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.1969524472951889,
+      "eval_runtime": 18.4963,
+      "eval_samples_per_second": 54.659,
+      "eval_steps_per_second": 0.865,
+      "step": 7000
+    },
+    {
+      "epoch": 2.304,
+      "grad_norm": 0.053924355655908585,
+      "learning_rate": 0.0002592229420411184,
+      "loss": 0.1545,
+      "step": 7200
+    },
+    {
+      "epoch": 2.368,
+      "grad_norm": 0.055782243609428406,
+      "learning_rate": 0.00021547742877964395,
+      "loss": 0.1569,
+      "step": 7400
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 0.19416877627372742,
+      "eval_runtime": 18.4948,
+      "eval_samples_per_second": 54.664,
+      "eval_steps_per_second": 0.865,
+      "step": 7500
+    },
+    {
+      "epoch": 2.432,
+      "grad_norm": 0.05896177887916565,
+      "learning_rate": 0.00017532617772202807,
+      "loss": 0.1557,
+      "step": 7600
+    },
+    {
+      "epoch": 2.496,
+      "grad_norm": 0.05818909779191017,
+      "learning_rate": 0.0001389531403942159,
+      "loss": 0.1558,
+      "step": 7800
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.05467315390706062,
+      "learning_rate": 0.00010652495857058375,
+      "loss": 0.1535,
+      "step": 8000
+    },
+    {
+      "epoch": 2.56,
+      "eval_loss": 0.19276997447013855,
+      "eval_runtime": 18.5042,
+      "eval_samples_per_second": 54.636,
+      "eval_steps_per_second": 0.865,
+      "step": 8000
+    },
+    {
+      "epoch": 2.624,
+      "grad_norm": 0.052459824830293655,
+      "learning_rate": 7.81902008105898e-05,
+      "loss": 0.1515,
+      "step": 8200
+    },
+    {
+      "epoch": 2.6879999999999997,
+      "grad_norm": 0.05594847351312637,
+      "learning_rate": 5.407868179721254e-05,
+      "loss": 0.1535,
+      "step": 8400
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "eval_loss": 0.1920287013053894,
+      "eval_runtime": 18.5152,
+      "eval_samples_per_second": 54.604,
+      "eval_steps_per_second": 0.864,
+      "step": 8500
+    },
+    {
+      "epoch": 2.752,
+      "grad_norm": 0.054888200014829636,
+      "learning_rate": 3.430086759560602e-05,
+      "loss": 0.1503,
+      "step": 8600
+    },
+    {
+      "epoch": 2.816,
+      "grad_norm": 0.06011143699288368,
+      "learning_rate": 1.8947369556759353e-05,
+      "loss": 0.1535,
+      "step": 8800
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 0.04984534904360771,
+      "learning_rate": 8.088529184821281e-06,
+      "loss": 0.1522,
+      "step": 9000
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.19162563979625702,
+      "eval_runtime": 18.5125,
+      "eval_samples_per_second": 54.612,
+      "eval_steps_per_second": 0.864,
+      "step": 9000
+    },
+    {
+      "epoch": 2.944,
+      "grad_norm": 0.05723896995186806,
+      "learning_rate": 1.774095870004544e-06,
+      "loss": 0.1492,
+      "step": 9200
+    },
+    {
+      "epoch": 3.0,
+      "step": 9375,
+      "total_flos": 6.0970588176384e+18,
+      "train_loss": 0.19560041158040364,
+      "train_runtime": 8921.5527,
+      "train_samples_per_second": 33.626,
+      "train_steps_per_second": 1.051
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 9375,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.0970588176384e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp395/run_ex10/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp395/run_ex10/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp395/run_ex10/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp395/run_ex10/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp395/run_ex10/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp395/run_ex10/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp395/run_ex10/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55f078d358c3a5c84a88c3b5fc6605b32726f64997693d45b47f259deaa97c3e
+size 33602915

nl_tasks/exp395/run_ex10/trainer_state.json ADDED Viewed

	@@ -0,0 +1,356 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 6250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.2293911576271057,
+      "learning_rate": 0.001997616502308297,
+      "loss": 0.4044,
+      "step": 200
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.18487609922885895,
+      "learning_rate": 0.00198548107876105,
+      "loss": 0.3009,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.2799297869205475,
+      "eval_runtime": 18.7558,
+      "eval_samples_per_second": 53.903,
+      "eval_steps_per_second": 0.853,
+      "step": 500
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.13151583075523376,
+      "learning_rate": 0.001963190781883806,
+      "loss": 0.2711,
+      "step": 600
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.13094772398471832,
+      "learning_rate": 0.0019309753016687476,
+      "loss": 0.2554,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.09965614229440689,
+      "learning_rate": 0.0018891666019941258,
+      "loss": 0.2469,
+      "step": 1000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.25120654702186584,
+      "eval_runtime": 18.4999,
+      "eval_samples_per_second": 54.649,
+      "eval_steps_per_second": 0.865,
+      "step": 1000
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.10732943564653397,
+      "learning_rate": 0.001838195499908018,
+      "loss": 0.2444,
+      "step": 1200
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.09097783267498016,
+      "learning_rate": 0.001778587226281244,
+      "loss": 0.2377,
+      "step": 1400
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.23919327557086945,
+      "eval_runtime": 18.4946,
+      "eval_samples_per_second": 54.665,
+      "eval_steps_per_second": 0.865,
+      "step": 1500
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.08693786710500717,
+      "learning_rate": 0.0017109560135746254,
+      "loss": 0.232,
+      "step": 1600
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.0780855268239975,
+      "learning_rate": 0.001635998766490841,
+      "loss": 0.2284,
+      "step": 1800
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.0817127600312233,
+      "learning_rate": 0.0015544878807315496,
+      "loss": 0.2258,
+      "step": 2000
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.2277495265007019,
+      "eval_runtime": 18.487,
+      "eval_samples_per_second": 54.687,
+      "eval_steps_per_second": 0.865,
+      "step": 2000
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.0686568021774292,
+      "learning_rate": 0.0014672632838587717,
+      "loss": 0.2217,
+      "step": 2200
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.0656941682100296,
+      "learning_rate": 0.0013752237802753448,
+      "loss": 0.2195,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.2217738926410675,
+      "eval_runtime": 18.5043,
+      "eval_samples_per_second": 54.636,
+      "eval_steps_per_second": 0.865,
+      "step": 2500
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.0752493143081665,
+      "learning_rate": 0.0012793177895099527,
+      "loss": 0.2167,
+      "step": 2600
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.08712925016880035,
+      "learning_rate": 0.0011805335732439208,
+      "loss": 0.2158,
+      "step": 2800
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.05949317663908005,
+      "learning_rate": 0.0010798890517852123,
+      "loss": 0.2085,
+      "step": 3000
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.21555665135383606,
+      "eval_runtime": 18.496,
+      "eval_samples_per_second": 54.66,
+      "eval_steps_per_second": 0.865,
+      "step": 3000
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.07340498268604279,
+      "learning_rate": 0.0009784213149256027,
+      "loss": 0.2019,
+      "step": 3200
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.06179428473114967,
+      "learning_rate": 0.0008771759352662288,
+      "loss": 0.184,
+      "step": 3400
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.21221420168876648,
+      "eval_runtime": 18.4908,
+      "eval_samples_per_second": 54.676,
+      "eval_steps_per_second": 0.865,
+      "step": 3500
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.07018924504518509,
+      "learning_rate": 0.0007771961941321678,
+      "loss": 0.1836,
+      "step": 3600
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.07013561576604843,
+      "learning_rate": 0.0006795123310974343,
+      "loss": 0.1827,
+      "step": 3800
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.061091359704732895,
+      "learning_rate": 0.0005851309278984824,
+      "loss": 0.1798,
+      "step": 4000
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.20682914555072784,
+      "eval_runtime": 18.5014,
+      "eval_samples_per_second": 54.645,
+      "eval_steps_per_second": 0.865,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.0593683086335659,
+      "learning_rate": 0.0004950245361295028,
+      "loss": 0.1807,
+      "step": 4200
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.08087774366140366,
+      "learning_rate": 0.0004101216556007472,
+      "loss": 0.1788,
+      "step": 4400
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.2025197595357895,
+      "eval_runtime": 18.5002,
+      "eval_samples_per_second": 54.648,
+      "eval_steps_per_second": 0.865,
+      "step": 4500
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.06437215209007263,
+      "learning_rate": 0.00033129716662773124,
+      "loss": 0.1788,
+      "step": 4600
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.06128371134400368,
+      "learning_rate": 0.0002593633148416243,
+      "loss": 0.1757,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.061387427151203156,
+      "learning_rate": 0.00019506134141769472,
+      "loss": 0.1731,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.198740616440773,
+      "eval_runtime": 18.5095,
+      "eval_samples_per_second": 54.621,
+      "eval_steps_per_second": 0.864,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.060046833008527756,
+      "learning_rate": 0.00013905384496799378,
+      "loss": 0.1756,
+      "step": 5200
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.05966249108314514,
+      "learning_rate": 9.191795380501134e-05,
+      "loss": 0.1752,
+      "step": 5400
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.1962076872587204,
+      "eval_runtime": 18.494,
+      "eval_samples_per_second": 54.667,
+      "eval_steps_per_second": 0.865,
+      "step": 5500
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 0.06310608237981796,
+      "learning_rate": 5.413937893261456e-05,
+      "loss": 0.1732,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.06762094050645828,
+      "learning_rate": 2.610740904511233e-05,
+      "loss": 0.171,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.06283057481050491,
+      "learning_rate": 8.110899108401792e-06,
+      "loss": 0.1717,
+      "step": 6000
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.1952924132347107,
+      "eval_runtime": 18.4907,
+      "eval_samples_per_second": 54.676,
+      "eval_steps_per_second": 0.865,
+      "step": 6000
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 0.06748773157596588,
+      "learning_rate": 3.352938587928289e-07,
+      "loss": 0.1728,
+      "step": 6200
+    },
+    {
+      "epoch": 2.0,
+      "step": 6250,
+      "total_flos": 4.0647058784256e+18,
+      "train_loss": 0.2122136308288574,
+      "train_runtime": 5832.5182,
+      "train_samples_per_second": 34.291,
+      "train_steps_per_second": 1.072
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 6250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.0647058784256e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp_init/run_ex01/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp_init/run_ex01/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/exp_init/run_ex01/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp_init/run_ex01/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp_init/run_ex01/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp_init/run_ex01/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp_init/run_ex01/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp_init/run_ex01/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17cee51a669e30c3b89f014d5339b6df2b9f4008290cbd4f6b5293d21a012450
+size 33602915

nl_tasks/exp_init/run_ex01/trainer_state.json ADDED Viewed

	@@ -0,0 +1,928 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 100,
+  "global_step": 2494,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020048115477145148,
+      "grad_norm": 0.3128751516342163,
+      "learning_rate": 9.6e-05,
+      "loss": 0.6108,
+      "step": 25
+    },
+    {
+      "epoch": 0.040096230954290296,
+      "grad_norm": 0.2898954153060913,
+      "learning_rate": 0.00019600000000000002,
+      "loss": 0.3986,
+      "step": 50
+    },
+    {
+      "epoch": 0.060144346431435444,
+      "grad_norm": 0.2638753652572632,
+      "learning_rate": 0.000296,
+      "loss": 0.3553,
+      "step": 75
+    },
+    {
+      "epoch": 0.08019246190858059,
+      "grad_norm": 0.2679823935031891,
+      "learning_rate": 0.00039600000000000003,
+      "loss": 0.3276,
+      "step": 100
+    },
+    {
+      "epoch": 0.08019246190858059,
+      "eval_loss": 0.3061896860599518,
+      "eval_runtime": 2.2347,
+      "eval_samples_per_second": 46.538,
+      "eval_steps_per_second": 0.895,
+      "step": 100
+    },
+    {
+      "epoch": 0.10024057738572574,
+      "grad_norm": 0.3121950924396515,
+      "learning_rate": 0.000496,
+      "loss": 0.3272,
+      "step": 125
+    },
+    {
+      "epoch": 0.12028869286287089,
+      "grad_norm": 0.2655491828918457,
+      "learning_rate": 0.000596,
+      "loss": 0.3186,
+      "step": 150
+    },
+    {
+      "epoch": 0.14033680834001605,
+      "grad_norm": 0.30342063307762146,
+      "learning_rate": 0.000696,
+      "loss": 0.3094,
+      "step": 175
+    },
+    {
+      "epoch": 0.16038492381716118,
+      "grad_norm": 0.3187066614627838,
+      "learning_rate": 0.000796,
+      "loss": 0.3092,
+      "step": 200
+    },
+    {
+      "epoch": 0.16038492381716118,
+      "eval_loss": 0.29791951179504395,
+      "eval_runtime": 2.0135,
+      "eval_samples_per_second": 51.651,
+      "eval_steps_per_second": 0.993,
+      "step": 200
+    },
+    {
+      "epoch": 0.18043303929430635,
+      "grad_norm": 0.29701462388038635,
+      "learning_rate": 0.000896,
+      "loss": 0.303,
+      "step": 225
+    },
+    {
+      "epoch": 0.20048115477145148,
+      "grad_norm": 0.3302502930164337,
+      "learning_rate": 0.000996,
+      "loss": 0.302,
+      "step": 250
+    },
+    {
+      "epoch": 0.22052927024859664,
+      "grad_norm": 0.2812274694442749,
+      "learning_rate": 0.0009997177878718869,
+      "loss": 0.6194,
+      "step": 275
+    },
+    {
+      "epoch": 0.24057738572574178,
+      "grad_norm": 0.2586809992790222,
+      "learning_rate": 0.0009988239768018291,
+      "loss": 0.3014,
+      "step": 300
+    },
+    {
+      "epoch": 0.24057738572574178,
+      "eval_loss": 0.2832469344139099,
+      "eval_runtime": 2.0065,
+      "eval_samples_per_second": 51.832,
+      "eval_steps_per_second": 0.997,
+      "step": 300
+    },
+    {
+      "epoch": 0.2606255012028869,
+      "grad_norm": 0.2703372538089752,
+      "learning_rate": 0.0009973191715938715,
+      "loss": 0.2981,
+      "step": 325
+    },
+    {
+      "epoch": 0.2806736166800321,
+      "grad_norm": 0.2600429356098175,
+      "learning_rate": 0.0009952052154376025,
+      "loss": 0.2955,
+      "step": 350
+    },
+    {
+      "epoch": 0.30072173215717724,
+      "grad_norm": 0.21045513451099396,
+      "learning_rate": 0.0009924846976528616,
+      "loss": 0.2865,
+      "step": 375
+    },
+    {
+      "epoch": 0.32076984763432237,
+      "grad_norm": 0.21870078146457672,
+      "learning_rate": 0.0009891609505181592,
+      "loss": 0.2754,
+      "step": 400
+    },
+    {
+      "epoch": 0.32076984763432237,
+      "eval_loss": 0.2693285048007965,
+      "eval_runtime": 2.008,
+      "eval_samples_per_second": 51.792,
+      "eval_steps_per_second": 0.996,
+      "step": 400
+    },
+    {
+      "epoch": 0.3408179631114675,
+      "grad_norm": 0.23548808693885803,
+      "learning_rate": 0.0009852380451890721,
+      "loss": 0.2812,
+      "step": 425
+    },
+    {
+      "epoch": 0.3608660785886127,
+      "grad_norm": 0.22311964631080627,
+      "learning_rate": 0.0009807207867116115,
+      "loss": 0.2868,
+      "step": 450
+    },
+    {
+      "epoch": 0.3809141940657578,
+      "grad_norm": 0.21461476385593414,
+      "learning_rate": 0.0009756147081366672,
+      "loss": 0.2765,
+      "step": 475
+    },
+    {
+      "epoch": 0.40096230954290296,
+      "grad_norm": 0.19619832932949066,
+      "learning_rate": 0.0009699260637427467,
+      "loss": 0.2759,
+      "step": 500
+    },
+    {
+      "epoch": 0.40096230954290296,
+      "eval_loss": 0.25922319293022156,
+      "eval_runtime": 2.0086,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.996,
+      "step": 500
+    },
+    {
+      "epoch": 0.4210104250200481,
+      "grad_norm": 0.16149669885635376,
+      "learning_rate": 0.0009636618213753006,
+      "loss": 0.2731,
+      "step": 525
+    },
+    {
+      "epoch": 0.4410585404971933,
+      "grad_norm": 0.20750294625759125,
+      "learning_rate": 0.0009568296539120225,
+      "loss": 0.2759,
+      "step": 550
+    },
+    {
+      "epoch": 0.4611066559743384,
+      "grad_norm": 0.18264305591583252,
+      "learning_rate": 0.0009494379298645788,
+      "loss": 0.2625,
+      "step": 575
+    },
+    {
+      "epoch": 0.48115477145148355,
+      "grad_norm": 0.17461912333965302,
+      "learning_rate": 0.0009414957031282751,
+      "loss": 0.2649,
+      "step": 600
+    },
+    {
+      "epoch": 0.48115477145148355,
+      "eval_loss": 0.24944312870502472,
+      "eval_runtime": 2.0116,
+      "eval_samples_per_second": 51.701,
+      "eval_steps_per_second": 0.994,
+      "step": 600
+    },
+    {
+      "epoch": 0.5012028869286287,
+      "grad_norm": 0.17447619140148163,
+      "learning_rate": 0.0009330127018922195,
+      "loss": 0.2597,
+      "step": 625
+    },
+    {
+      "epoch": 0.5212510024057738,
+      "grad_norm": 0.1970607340335846,
+      "learning_rate": 0.0009239993167235614,
+      "loss": 0.2577,
+      "step": 650
+    },
+    {
+      "epoch": 0.541299117882919,
+      "grad_norm": 0.17549267411231995,
+      "learning_rate": 0.0009144665878404079,
+      "loss": 0.2564,
+      "step": 675
+    },
+    {
+      "epoch": 0.5613472333600642,
+      "grad_norm": 0.17851398885250092,
+      "learning_rate": 0.0009044261915889984,
+      "loss": 0.2604,
+      "step": 700
+    },
+    {
+      "epoch": 0.5613472333600642,
+      "eval_loss": 0.24154677987098694,
+      "eval_runtime": 2.0084,
+      "eval_samples_per_second": 51.784,
+      "eval_steps_per_second": 0.996,
+      "step": 700
+    },
+    {
+      "epoch": 0.5813953488372093,
+      "grad_norm": 0.20294925570487976,
+      "learning_rate": 0.0008938904261417087,
+      "loss": 0.271,
+      "step": 725
+    },
+    {
+      "epoch": 0.6014434643143545,
+      "grad_norm": 0.16158199310302734,
+      "learning_rate": 0.0008828721964333975,
+      "loss": 0.2506,
+      "step": 750
+    },
+    {
+      "epoch": 0.6214915797914996,
+      "grad_norm": 0.2007351964712143,
+      "learning_rate": 0.000871384998354549,
+      "loss": 0.2454,
+      "step": 775
+    },
+    {
+      "epoch": 0.6415396952686447,
+      "grad_norm": 0.17736631631851196,
+      "learning_rate": 0.0008594429022205719,
+      "loss": 0.2514,
+      "step": 800
+    },
+    {
+      "epoch": 0.6415396952686447,
+      "eval_loss": 0.23755024373531342,
+      "eval_runtime": 4.2146,
+      "eval_samples_per_second": 24.676,
+      "eval_steps_per_second": 0.475,
+      "step": 800
+    },
+    {
+      "epoch": 0.6615878107457899,
+      "grad_norm": 0.15997523069381714,
+      "learning_rate": 0.0008470605355375032,
+      "loss": 0.2565,
+      "step": 825
+    },
+    {
+      "epoch": 0.681635926222935,
+      "grad_norm": 0.15349100530147552,
+      "learning_rate": 0.0008342530650852265,
+      "loss": 0.2598,
+      "step": 850
+    },
+    {
+      "epoch": 0.7016840417000801,
+      "grad_norm": 0.14758522808551788,
+      "learning_rate": 0.0008210361783401491,
+      "loss": 0.2426,
+      "step": 875
+    },
+    {
+      "epoch": 0.7217321571772254,
+      "grad_norm": 0.1686255782842636,
+      "learning_rate": 0.0008074260642600964,
+      "loss": 0.2462,
+      "step": 900
+    },
+    {
+      "epoch": 0.7217321571772254,
+      "eval_loss": 0.23332656919956207,
+      "eval_runtime": 4.2091,
+      "eval_samples_per_second": 24.708,
+      "eval_steps_per_second": 0.475,
+      "step": 900
+    },
+    {
+      "epoch": 0.7417802726543705,
+      "grad_norm": 0.1921042650938034,
+      "learning_rate": 0.0007934393934549542,
+      "loss": 0.249,
+      "step": 925
+    },
+    {
+      "epoch": 0.7618283881315157,
+      "grad_norm": 0.1523015797138214,
+      "learning_rate": 0.0007790932977673523,
+      "loss": 0.2399,
+      "step": 950
+    },
+    {
+      "epoch": 0.7818765036086608,
+      "grad_norm": 0.16055895388126373,
+      "learning_rate": 0.0007644053492883989,
+      "loss": 0.2363,
+      "step": 975
+    },
+    {
+      "epoch": 0.8019246190858059,
+      "grad_norm": 0.17422834038734436,
+      "learning_rate": 0.000749393538834164,
+      "loss": 0.2384,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8019246190858059,
+      "eval_loss": 0.23113039135932922,
+      "eval_runtime": 4.2589,
+      "eval_samples_per_second": 24.419,
+      "eval_steps_per_second": 0.47,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8219727345629511,
+      "grad_norm": 0.1599196046590805,
+      "learning_rate": 0.0007340762539092858,
+      "loss": 0.2485,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8420208500400962,
+      "grad_norm": 0.15405167639255524,
+      "learning_rate": 0.0007184722561846798,
+      "loss": 0.2464,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8620689655172413,
+      "grad_norm": 0.18259042501449585,
+      "learning_rate": 0.0007026006585169466,
+      "loss": 0.2421,
+      "step": 1075
+    },
+    {
+      "epoch": 0.8821170809943866,
+      "grad_norm": 0.14938652515411377,
+      "learning_rate": 0.0006864809015376217,
+      "loss": 0.2425,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8821170809943866,
+      "eval_loss": 0.22659502923488617,
+      "eval_runtime": 4.2121,
+      "eval_samples_per_second": 24.691,
+      "eval_steps_per_second": 0.475,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9021651964715317,
+      "grad_norm": 0.16447846591472626,
+      "learning_rate": 0.0006701327298409448,
+      "loss": 0.2414,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9222133119486768,
+      "grad_norm": 0.1590721160173416,
+      "learning_rate": 0.000653576167799312,
+      "loss": 0.2287,
+      "step": 1150
+    },
+    {
+      "epoch": 0.942261427425822,
+      "grad_norm": 0.1653919219970703,
+      "learning_rate": 0.0006368314950360416,
+      "loss": 0.2351,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9623095429029671,
+      "grad_norm": 0.1875888705253601,
+      "learning_rate": 0.000619919221585484,
+      "loss": 0.2374,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9623095429029671,
+      "eval_loss": 0.22220070660114288,
+      "eval_runtime": 4.2412,
+      "eval_samples_per_second": 24.521,
+      "eval_steps_per_second": 0.472,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9823576583801122,
+      "grad_norm": 0.15826693177223206,
+      "learning_rate": 0.0006028600627709151,
+      "loss": 0.2314,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0024057738572574,
+      "grad_norm": 0.15599651634693146,
+      "learning_rate": 0.0005856749138309716,
+      "loss": 0.2246,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0224538893344026,
+      "grad_norm": 0.15733949840068817,
+      "learning_rate": 0.000568384824325718,
+      "loss": 0.2024,
+      "step": 1275
+    },
+    {
+      "epoch": 1.0425020048115476,
+      "grad_norm": 0.14656169712543488,
+      "learning_rate": 0.0005510109723536876,
+      "loss": 0.2109,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0425020048115476,
+      "eval_loss": 0.22098909318447113,
+      "eval_runtime": 4.2171,
+      "eval_samples_per_second": 24.661,
+      "eval_steps_per_second": 0.474,
+      "step": 1300
+    },
+    {
+      "epoch": 1.062550120288693,
+      "grad_norm": 0.15239104628562927,
+      "learning_rate": 0.0005335746386114814,
+      "loss": 0.1941,
+      "step": 1325
+    },
+    {
+      "epoch": 1.082598235765838,
+      "grad_norm": 0.1525331288576126,
+      "learning_rate": 0.0005160971803276981,
+      "loss": 0.2074,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1026463512429832,
+      "grad_norm": 0.18646268546581268,
+      "learning_rate": 0.0004986000051031212,
+      "loss": 0.2008,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1226944667201284,
+      "grad_norm": 0.1695125252008438,
+      "learning_rate": 0.00048110454468920866,
+      "loss": 0.2019,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1226944667201284,
+      "eval_loss": 0.21638630330562592,
+      "eval_runtime": 4.2187,
+      "eval_samples_per_second": 24.652,
+      "eval_steps_per_second": 0.474,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1427425821972734,
+      "grad_norm": 0.15290401875972748,
+      "learning_rate": 0.0004636322287369997,
+      "loss": 0.2021,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1627906976744187,
+      "grad_norm": 0.16536127030849457,
+      "learning_rate": 0.0004462044585485944,
+      "loss": 0.1972,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1828388131515637,
+      "grad_norm": 0.14967386424541473,
+      "learning_rate": 0.0004288425808633575,
+      "loss": 0.2033,
+      "step": 1475
+    },
+    {
+      "epoch": 1.202886928628709,
+      "grad_norm": 0.15446773171424866,
+      "learning_rate": 0.00041156786171095476,
+      "loss": 0.1957,
+      "step": 1500
+    },
+    {
+      "epoch": 1.202886928628709,
+      "eval_loss": 0.21511909365653992,
+      "eval_runtime": 4.2185,
+      "eval_samples_per_second": 24.654,
+      "eval_steps_per_second": 0.474,
+      "step": 1500
+    },
+    {
+      "epoch": 1.222935044105854,
+      "grad_norm": 0.1389647275209427,
+      "learning_rate": 0.00039440146036324753,
+      "loss": 0.1964,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2429831595829992,
+      "grad_norm": 0.13631069660186768,
+      "learning_rate": 0.00037736440341695125,
+      "loss": 0.2033,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2630312750601442,
+      "grad_norm": 0.1525258868932724,
+      "learning_rate": 0.0003604775590388047,
+      "loss": 0.2013,
+      "step": 1575
+    },
+    {
+      "epoch": 1.2830793905372895,
+      "grad_norm": 0.14098823070526123,
+      "learning_rate": 0.00034376161140479495,
+      "loss": 0.1976,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2830793905372895,
+      "eval_loss": 0.21296119689941406,
+      "eval_runtime": 4.0201,
+      "eval_samples_per_second": 25.87,
+      "eval_steps_per_second": 0.497,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3031275060144347,
+      "grad_norm": 0.1649613082408905,
+      "learning_rate": 0.0003272370353647465,
+      "loss": 0.2001,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3231756214915797,
+      "grad_norm": 0.17128996551036835,
+      "learning_rate": 0.00031092407136330754,
+      "loss": 0.2015,
+      "step": 1650
+    },
+    {
+      "epoch": 1.343223736968725,
+      "grad_norm": 0.15200765430927277,
+      "learning_rate": 0.0002948427006480528,
+      "loss": 0.2056,
+      "step": 1675
+    },
+    {
+      "epoch": 1.36327185244587,
+      "grad_norm": 0.15264691412448883,
+      "learning_rate": 0.00027901262079506784,
+      "loss": 0.2032,
+      "step": 1700
+    },
+    {
+      "epoch": 1.36327185244587,
+      "eval_loss": 0.21197493374347687,
+      "eval_runtime": 4.256,
+      "eval_samples_per_second": 24.436,
+      "eval_steps_per_second": 0.47,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3833199679230153,
+      "grad_norm": 0.16756217181682587,
+      "learning_rate": 0.000263453221581995,
+      "loss": 0.1987,
+      "step": 1725
+    },
+    {
+      "epoch": 1.4033680834001605,
+      "grad_norm": 0.13861249387264252,
+      "learning_rate": 0.00024818356123809036,
+      "loss": 0.1998,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4234161988773055,
+      "grad_norm": 0.16581584513187408,
+      "learning_rate": 0.00023322234310038588,
+      "loss": 0.1875,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4434643143544506,
+      "grad_norm": 0.1450669765472412,
+      "learning_rate": 0.00021858789270454783,
+      "loss": 0.1953,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4434643143544506,
+      "eval_loss": 0.2067786008119583,
+      "eval_runtime": 4.2236,
+      "eval_samples_per_second": 24.624,
+      "eval_steps_per_second": 0.474,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4635124298315958,
+      "grad_norm": 0.1343117356300354,
+      "learning_rate": 0.00020429813533849174,
+      "loss": 0.2026,
+      "step": 1825
+    },
+    {
+      "epoch": 1.483560545308741,
+      "grad_norm": 0.14949767291545868,
+      "learning_rate": 0.00019037057408624846,
+      "loss": 0.1929,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5036086607858863,
+      "grad_norm": 0.12897883355617523,
+      "learning_rate": 0.00017682226838897568,
+      "loss": 0.1907,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5236567762630313,
+      "grad_norm": 0.15060247480869293,
+      "learning_rate": 0.00016366981314937373,
+      "loss": 0.2003,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5236567762630313,
+      "eval_loss": 0.2053409218788147,
+      "eval_runtime": 4.2538,
+      "eval_samples_per_second": 24.449,
+      "eval_steps_per_second": 0.47,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5437048917401763,
+      "grad_norm": 0.1608167141675949,
+      "learning_rate": 0.0001509293184050995,
+      "loss": 0.1984,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5637530072173216,
+      "grad_norm": 0.15426403284072876,
+      "learning_rate": 0.000138616389596077,
+      "loss": 0.1955,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5838011226944668,
+      "grad_norm": 0.1431884467601776,
+      "learning_rate": 0.0001267461084498744,
+      "loss": 0.1955,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6038492381716118,
+      "grad_norm": 0.14500346779823303,
+      "learning_rate": 0.00011533301450856055,
+      "loss": 0.1898,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6038492381716118,
+      "eval_loss": 0.20465601980686188,
+      "eval_runtime": 4.2165,
+      "eval_samples_per_second": 24.665,
+      "eval_steps_per_second": 0.474,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6238973536487569,
+      "grad_norm": 0.13658447563648224,
+      "learning_rate": 0.0001043910873196668,
+      "loss": 0.1882,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6439454691259021,
+      "grad_norm": 0.14735296368598938,
+      "learning_rate": 9.393372931306943e-05,
+      "loss": 0.194,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6639935846030474,
+      "grad_norm": 0.13270524144172668,
+      "learning_rate": 8.397374938476593e-05,
+      "loss": 0.191,
+      "step": 2075
+    },
+    {
+      "epoch": 1.6840417000801926,
+      "grad_norm": 0.13621263206005096,
+      "learning_rate": 7.452334720765258e-05,
+      "loss": 0.191,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6840417000801926,
+      "eval_loss": 0.2029379904270172,
+      "eval_runtime": 4.2107,
+      "eval_samples_per_second": 24.699,
+      "eval_steps_per_second": 0.475,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7040898155573376,
+      "grad_norm": 0.1418534368276596,
+      "learning_rate": 6.55940982885207e-05,
+      "loss": 0.1982,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 0.15418624877929688,
+      "learning_rate": 5.71969397895738e-05,
+      "loss": 0.1957,
+      "step": 2150
+    },
+    {
+      "epoch": 1.744186046511628,
+      "grad_norm": 0.15846756100654602,
+      "learning_rate": 4.934215713183526e-05,
+      "loss": 0.1904,
+      "step": 2175
+    },
+    {
+      "epoch": 1.7642341619887731,
+      "grad_norm": 0.15319091081619263,
+      "learning_rate": 4.203937139685188e-05,
+      "loss": 0.1835,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7642341619887731,
+      "eval_loss": 0.20121867954730988,
+      "eval_runtime": 4.2209,
+      "eval_samples_per_second": 24.64,
+      "eval_steps_per_second": 0.474,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7842822774659182,
+      "grad_norm": 0.14038674533367157,
+      "learning_rate": 3.529752754212767e-05,
+      "loss": 0.1886,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8043303929430632,
+      "grad_norm": 0.13600395619869232,
+      "learning_rate": 2.9124883444720253e-05,
+      "loss": 0.186,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8243785084202084,
+      "grad_norm": 0.1356409341096878,
+      "learning_rate": 2.3528999786421755e-05,
+      "loss": 0.183,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8444266238973537,
+      "grad_norm": 0.14992156624794006,
+      "learning_rate": 1.851673079291216e-05,
+      "loss": 0.1738,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8444266238973537,
+      "eval_loss": 0.20082467794418335,
+      "eval_runtime": 4.2146,
+      "eval_samples_per_second": 24.676,
+      "eval_steps_per_second": 0.475,
+      "step": 2300
+    },
+    {
+      "epoch": 1.864474739374499,
+      "grad_norm": 0.1463785320520401,
+      "learning_rate": 1.4094215838229174e-05,
+      "loss": 0.1982,
+      "step": 2325
+    },
+    {
+      "epoch": 1.884522854851644,
+      "grad_norm": 0.15394070744514465,
+      "learning_rate": 1.0266871924838216e-05,
+      "loss": 0.1887,
+      "step": 2350
+    },
+    {
+      "epoch": 1.904570970328789,
+      "grad_norm": 0.14152726531028748,
+      "learning_rate": 7.03938704851248e-06,
+      "loss": 0.1783,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9246190858059342,
+      "grad_norm": 0.1539337933063507,
+      "learning_rate": 4.415714456151243e-06,
+      "loss": 0.182,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9246190858059342,
+      "eval_loss": 0.20044730603694916,
+      "eval_runtime": 2.0109,
+      "eval_samples_per_second": 51.717,
+      "eval_steps_per_second": 0.995,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9446672012830795,
+      "grad_norm": 0.13150149583816528,
+      "learning_rate": 2.3990678035694656e-06,
+      "loss": 0.1947,
+      "step": 2425
+    },
+    {
+      "epoch": 1.9647153167602245,
+      "grad_norm": 0.14985321462154388,
+      "learning_rate": 9.919172191896753e-07,
+      "loss": 0.1947,
+      "step": 2450
+    },
+    {
+      "epoch": 1.9847634322373697,
+      "grad_norm": 0.1531253457069397,
+      "learning_rate": 1.9598627845779372e-07,
+      "loss": 0.1918,
+      "step": 2475
+    },
+    {
+      "epoch": 2.0,
+      "step": 2494,
+      "total_flos": 1.6216560612723917e+18,
+      "train_loss": 0.23998703379198943,
+      "train_runtime": 3791.0396,
+      "train_samples_per_second": 21.048,
+      "train_steps_per_second": 0.658
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2494,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6216560612723917e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exp_init/run_ex02/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp_init/run_ex02/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/exp_init/run_ex02/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exp_init/run_ex02/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exp_init/run_ex02/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exp_init/run_ex02/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/exp_init/run_ex02/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exp_init/run_ex02/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c3f303f8fb6d50c04102ed0d1a7602f8dd61b95add6eccc0ce7ecd839ae4b25
+size 33602915

nl_tasks/exp_init/run_ex02/trainer_state.json ADDED Viewed

	@@ -0,0 +1,914 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 100,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.3222310543060303,
+      "learning_rate": 9.836065573770491e-05,
+      "loss": 0.6045,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.3179238736629486,
+      "learning_rate": 0.00020081967213114754,
+      "loss": 0.3855,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.29217585921287537,
+      "learning_rate": 0.0003032786885245902,
+      "loss": 0.3566,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.3154868185520172,
+      "learning_rate": 0.0004057377049180328,
+      "loss": 0.3237,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.31438109278678894,
+      "eval_runtime": 19.4649,
+      "eval_samples_per_second": 51.375,
+      "eval_steps_per_second": 0.822,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.3041672706604004,
+      "learning_rate": 0.0005081967213114754,
+      "loss": 0.3306,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.3167073428630829,
+      "learning_rate": 0.000610655737704918,
+      "loss": 0.3149,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.3177391290664673,
+      "learning_rate": 0.0007131147540983607,
+      "loss": 0.3063,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.33738526701927185,
+      "learning_rate": 0.0008155737704918033,
+      "loss": 0.3202,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.30314716696739197,
+      "eval_runtime": 19.2923,
+      "eval_samples_per_second": 51.834,
+      "eval_steps_per_second": 0.829,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.30629661679267883,
+      "learning_rate": 0.0009180327868852459,
+      "loss": 0.3179,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.9242148995399475,
+      "learning_rate": 0.0009999871854116063,
+      "loss": 0.2964,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.2491447776556015,
+      "learning_rate": 0.0009995387437838027,
+      "loss": 0.2987,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.33308619260787964,
+      "learning_rate": 0.000998450229439693,
+      "loss": 0.2963,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.2860982120037079,
+      "eval_runtime": 19.2995,
+      "eval_samples_per_second": 51.815,
+      "eval_steps_per_second": 0.829,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.2559486925601959,
+      "learning_rate": 0.000996723037122612,
+      "loss": 0.2973,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.219248428940773,
+      "learning_rate": 0.0009943593799315263,
+      "loss": 0.2889,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.2518327236175537,
+      "learning_rate": 0.0009913622864853324,
+      "loss": 0.2972,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.2639095187187195,
+      "learning_rate": 0.0009877355970422024,
+      "loss": 0.2823,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.27193590998649597,
+      "eval_runtime": 19.297,
+      "eval_samples_per_second": 51.822,
+      "eval_steps_per_second": 0.829,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.21691828966140747,
+      "learning_rate": 0.0009834839585789559,
+      "loss": 0.2888,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.2310950607061386,
+      "learning_rate": 0.000978612818836762,
+      "loss": 0.2844,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.21057192981243134,
+      "learning_rate": 0.0009731284193407981,
+      "loss": 0.2733,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.22767874598503113,
+      "learning_rate": 0.0009670377874028117,
+      "loss": 0.2574,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.26140961050987244,
+      "eval_runtime": 19.307,
+      "eval_samples_per_second": 51.795,
+      "eval_steps_per_second": 0.829,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.20047912001609802,
+      "learning_rate": 0.0009603487271168336,
+      "loss": 0.2593,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.19039607048034668,
+      "learning_rate": 0.0009530698093595781,
+      "loss": 0.2696,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.20591352880001068,
+      "learning_rate": 0.0009452103608083418,
+      "loss": 0.2604,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.2514936625957489,
+      "learning_rate": 0.0009367804519904775,
+      "loss": 0.2784,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2537764608860016,
+      "eval_runtime": 19.2927,
+      "eval_samples_per_second": 51.833,
+      "eval_steps_per_second": 0.829,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.1930495798587799,
+      "learning_rate": 0.0009277908843797492,
+      "loss": 0.2562,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.18388758599758148,
+      "learning_rate": 0.0009182531765561084,
+      "loss": 0.2503,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.17093320190906525,
+      "learning_rate": 0.0009081795494466201,
+      "loss": 0.2632,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.171810120344162,
+      "learning_rate": 0.0008975829106664539,
+      "loss": 0.2605,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.2481871396303177,
+      "eval_runtime": 19.293,
+      "eval_samples_per_second": 51.832,
+      "eval_steps_per_second": 0.829,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.16749516129493713,
+      "learning_rate": 0.0008864768379800017,
+      "loss": 0.2588,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.17328386008739471,
+      "learning_rate": 0.0008748755619033153,
+      "loss": 0.2551,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.17557500302791595,
+      "learning_rate": 0.000862793947470155,
+      "loss": 0.2527,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.17228572070598602,
+      "learning_rate": 0.0008502474751850142,
+      "loss": 0.2546,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.2438872903585434,
+      "eval_runtime": 19.3466,
+      "eval_samples_per_second": 51.689,
+      "eval_steps_per_second": 0.827,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.18187439441680908,
+      "learning_rate": 0.0008372522211875224,
+      "loss": 0.2509,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.15625031292438507,
+      "learning_rate": 0.0008238248366536473,
+      "loss": 0.2524,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.14813965559005737,
+      "learning_rate": 0.0008099825264600842,
+      "loss": 0.2417,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.17053155601024628,
+      "learning_rate": 0.0007957430271391761,
+      "loss": 0.2478,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.23720978200435638,
+      "eval_runtime": 19.2795,
+      "eval_samples_per_second": 51.869,
+      "eval_steps_per_second": 0.83,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.1528586894273758,
+      "learning_rate": 0.0007811245841526062,
+      "loss": 0.2491,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.1788587123155594,
+      "learning_rate": 0.0007661459285129879,
+      "loss": 0.2373,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.17576590180397034,
+      "learning_rate": 0.0007508262527833029,
+      "loss": 0.2446,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.16797195374965668,
+      "learning_rate": 0.000735185186484943,
+      "loss": 0.2377,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.23422712087631226,
+      "eval_runtime": 19.2981,
+      "eval_samples_per_second": 51.819,
+      "eval_steps_per_second": 0.829,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.16894708573818207,
+      "learning_rate": 0.0007192427709458656,
+      "loss": 0.2378,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.15344825387001038,
+      "learning_rate": 0.0007030194336210887,
+      "loss": 0.2362,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.1591627299785614,
+      "learning_rate": 0.0006865359619184331,
+      "loss": 0.2407,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.1595323532819748,
+      "learning_rate": 0.0006698134765630434,
+      "loss": 0.2401,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.2298676073551178,
+      "eval_runtime": 19.2888,
+      "eval_samples_per_second": 51.844,
+      "eval_steps_per_second": 0.829,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.1466217339038849,
+      "learning_rate": 0.0006528734045348248,
+      "loss": 0.236,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.1441761553287506,
+      "learning_rate": 0.0006357374516134643,
+      "loss": 0.2346,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.13931916654109955,
+      "learning_rate": 0.0006184275745662179,
+      "loss": 0.2412,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.1619672328233719,
+      "learning_rate": 0.0006009659530141031,
+      "loss": 0.2458,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.22785130143165588,
+      "eval_runtime": 19.2959,
+      "eval_samples_per_second": 51.824,
+      "eval_steps_per_second": 0.829,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.1470383256673813,
+      "learning_rate": 0.0005833749610125402,
+      "loss": 0.2273,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.14438124001026154,
+      "learning_rate": 0.0005656771383828602,
+      "loss": 0.2068,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.16950909793376923,
+      "learning_rate": 0.0005478951618314134,
+      "loss": 0.207,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.14760279655456543,
+      "learning_rate": 0.0005300518158932815,
+      "loss": 0.2096,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.22524121403694153,
+      "eval_runtime": 19.2901,
+      "eval_samples_per_second": 51.84,
+      "eval_steps_per_second": 0.829,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.15871679782867432,
+      "learning_rate": 0.0005121699637378282,
+      "loss": 0.2074,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.14514082670211792,
+      "learning_rate": 0.0004942725178734903,
+      "loss": 0.2003,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.18950478732585907,
+      "learning_rate": 0.00047638241078935324,
+      "loss": 0.2024,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.1584726721048355,
+      "learning_rate": 0.000458522565571121,
+      "loss": 0.1955,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.22360759973526,
+      "eval_runtime": 19.3066,
+      "eval_samples_per_second": 51.796,
+      "eval_steps_per_second": 0.829,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.15903767943382263,
+      "learning_rate": 0.00044071586652913767,
+      "loss": 0.2069,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.15384770929813385,
+      "learning_rate": 0.0004229851298760915,
+      "loss": 0.206,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.16331611573696136,
+      "learning_rate": 0.0004053530744919749,
+      "loss": 0.2041,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.17139384150505066,
+      "learning_rate": 0.0003878422928137597,
+      "loss": 0.2127,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.2206723392009735,
+      "eval_runtime": 19.2698,
+      "eval_samples_per_second": 51.895,
+      "eval_steps_per_second": 0.83,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.19464436173439026,
+      "learning_rate": 0.0003704752218870861,
+      "loss": 0.207,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.1387706995010376,
+      "learning_rate": 0.00035327411461706025,
+      "loss": 0.1999,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.137301504611969,
+      "learning_rate": 0.00033626101125499555,
+      "loss": 0.2026,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.1531214863061905,
+      "learning_rate": 0.0003194577111576333,
+      "loss": 0.1957,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.2175484299659729,
+      "eval_runtime": 19.2699,
+      "eval_samples_per_second": 51.894,
+      "eval_steps_per_second": 0.83,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.14256389439105988,
+      "learning_rate": 0.00030288574485502756,
+      "loss": 0.198,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.15813028812408447,
+      "learning_rate": 0.00028656634646288565,
+      "loss": 0.199,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.17235884070396423,
+      "learning_rate": 0.00027052042647471254,
+      "loss": 0.1959,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.14712415635585785,
+      "learning_rate": 0.0002547685449686206,
+      "loss": 0.1971,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.21476209163665771,
+      "eval_runtime": 19.2701,
+      "eval_samples_per_second": 51.894,
+      "eval_steps_per_second": 0.83,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.14806444942951202,
+      "learning_rate": 0.0002393308852631373,
+      "loss": 0.1936,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.1419476568698883,
+      "learning_rate": 0.0002242272280557645,
+      "loss": 0.1929,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.14897122979164124,
+      "learning_rate": 0.0002094769260774262,
+      "loss": 0.1998,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.13588683307170868,
+      "learning_rate": 0.00019509887929528458,
+      "loss": 0.1891,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.21355417370796204,
+      "eval_runtime": 19.2809,
+      "eval_samples_per_second": 51.865,
+      "eval_steps_per_second": 0.83,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.13949081301689148,
+      "learning_rate": 0.0001811115106956918,
+      "loss": 0.1886,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.1364123523235321,
+      "learning_rate": 0.00016753274267831115,
+      "loss": 0.1916,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.15067338943481445,
+      "learning_rate": 0.00015437997409165478,
+      "loss": 0.1918,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.1649065762758255,
+      "learning_rate": 0.00014167005793946035,
+      "loss": 0.1956,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.21143756806850433,
+      "eval_runtime": 19.2693,
+      "eval_samples_per_second": 51.896,
+      "eval_steps_per_second": 0.83,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.1650763899087906,
+      "learning_rate": 0.00012941927978647527,
+      "loss": 0.1965,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.1541653871536255,
+      "learning_rate": 0.00011764333689131385,
+      "loss": 0.194,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.14436492323875427,
+      "learning_rate": 0.00010635731809312993,
+      "loss": 0.1906,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.15361854434013367,
+      "learning_rate": 9.557568447787201e-05,
+      "loss": 0.1958,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.2098333090543747,
+      "eval_runtime": 19.3433,
+      "eval_samples_per_second": 51.697,
+      "eval_steps_per_second": 0.827,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.1444142609834671,
+      "learning_rate": 8.531225084889654e-05,
+      "loss": 0.1866,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.16099859774112701,
+      "learning_rate": 7.558016802568091e-05,
+      "loss": 0.1881,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.18300087749958038,
+      "learning_rate": 6.639190599331746e-05,
+      "loss": 0.1928,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.16143175959587097,
+      "learning_rate": 5.775923792437865e-05,
+      "loss": 0.1836,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.2088012397289276,
+      "eval_runtime": 19.3492,
+      "eval_samples_per_second": 51.682,
+      "eval_steps_per_second": 0.827,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.1365450620651245,
+      "learning_rate": 4.9693225093627616e-05,
+      "loss": 0.188,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.1199432909488678,
+      "learning_rate": 4.220420270490294e-05,
+      "loss": 0.1861,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.13452377915382385,
+      "learning_rate": 3.530176664833834e-05,
+      "loss": 0.1955,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.15721169114112854,
+      "learning_rate": 2.8994761204884756e-05,
+      "loss": 0.188,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.20743653178215027,
+      "eval_runtime": 19.302,
+      "eval_samples_per_second": 51.808,
+      "eval_steps_per_second": 0.829,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.15070787072181702,
+      "learning_rate": 2.329126771388995e-05,
+      "loss": 0.189,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.1434791386127472,
+      "learning_rate": 1.8198594218256815e-05,
+      "loss": 0.19,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.13482141494750977,
+      "learning_rate": 1.3723266100447052e-05,
+      "loss": 0.1962,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.13452687859535217,
+      "learning_rate": 9.871017721329201e-06,
+      "loss": 0.1881,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.20719286799430847,
+      "eval_runtime": 19.348,
+      "eval_samples_per_second": 51.685,
+      "eval_steps_per_second": 0.827,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.16005028784275055,
+      "learning_rate": 6.646785072584871e-06,
+      "loss": 0.1958,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.1455722600221634,
+      "learning_rate": 4.054699452086641e-06,
+      "loss": 0.1816,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.12664249539375305,
+      "learning_rate": 2.0980821703527886e-06,
+      "loss": 0.1867,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.14652538299560547,
+      "learning_rate": 7.794402948607671e-07,
+      "loss": 0.1876,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.20708177983760834,
+      "eval_runtime": 19.3185,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.14083988964557648,
+      "learning_rate": 1.0046343767294853e-07,
+      "loss": 0.184,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.23704243547315965,
+      "train_runtime": 2703.034,
+      "train_samples_per_second": 28.856,
+      "train_steps_per_second": 0.902
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}