trl-internal-testing
/

tiny-Gemma3ForConditionalGeneration

@@ -18,6 +18,8 @@
     "attention_bias": false,
     "attention_dropout": 0.0,
     "attn_logit_softcapping": null,
     "final_logit_softcapping": null,
     "head_dim": 256,
     "hidden_activation": "gelu_pytorch_tanh",
@@ -33,26 +35,36 @@
     "num_attention_heads": 4,
     "num_hidden_layers": 2,
     "num_key_value_heads": 2,
     "query_pre_attn_scalar": 256,
     "rms_norm_eps": 1e-06,
-    "rope_local_base_freq": 10000.0,
-    "rope_scaling": {
-      "factor": 8.0,
-      "rope_type": "linear"
     },
-    "rope_theta": 1000000.0,
     "sliding_window": 1024,
     "use_bidirectional_attention": false,
     "use_cache": true,
     "vocab_size": 262208
   },
-  "transformers_version": "4.57.3",
   "vision_config": {
     "attention_dropout": 0.0,
     "embed_dim": 64,
     "hidden_act": "gelu_pytorch_tanh",
     "hidden_size": 16,
-    "image_size": 896,
     "intermediate_size": 4304,
     "layer_norm_eps": 1e-06,
     "model_type": "siglip_vision_model",

     "attention_bias": false,
     "attention_dropout": 0.0,
     "attn_logit_softcapping": null,
+    "bos_token_id": 2,
+    "eos_token_id": 1,
     "final_logit_softcapping": null,
     "head_dim": 256,
     "hidden_activation": "gelu_pytorch_tanh",
     "num_attention_heads": 4,
     "num_hidden_layers": 2,
     "num_key_value_heads": 2,
+    "pad_token_id": 0,
     "query_pre_attn_scalar": 256,
     "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "full_attention": {
+        "factor": 8.0,
+        "rope_theta": 1000000.0,
+        "rope_type": "linear"
+      },
+      "rope_theta": null,
+      "rope_type": "default",
+      "sliding_attention": {
+        "rope_theta": 10000.0,
+        "rope_type": "default"
+      }
     },
     "sliding_window": 1024,
+    "tie_word_embeddings": true,
     "use_bidirectional_attention": false,
     "use_cache": true,
     "vocab_size": 262208
   },
+  "tie_word_embeddings": true,
+  "transformers_version": "5.7.0.dev0",
   "vision_config": {
     "attention_dropout": 0.0,
     "embed_dim": 64,
     "hidden_act": "gelu_pytorch_tanh",
     "hidden_size": 16,
+    "image_size": 224,
     "intermediate_size": 4304,
     "layer_norm_eps": 1e-06,
     "model_type": "siglip_vision_model",

generation_config.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
   "bos_token_id": 2,
-  "cache_implementation": "hybrid",
-  "do_sample": true,
   "eos_token_id": [
     1,
     106
   ],
   "pad_token_id": 0,
-  "top_k": 64,
-  "top_p": 0.95,
-  "transformers_version": "4.57.3"
 }

 {
+  "_from_model_config": true,
   "bos_token_id": 2,
   "eos_token_id": [
     1,
     106
   ],
+  "output_attentions": false,
+  "output_hidden_states": false,
   "pad_token_id": 0,
+  "transformers_version": "5.7.0.dev0",
+  "use_cache": true
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4631a121257799c3b9ced2e772035a5f0087bef1f383271434296f3197439a7c
-size 11287536

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4290f604775b64587805e9a0552e14ca05a40437b23c3af350e641d0c857373
+size 11164176