trl-internal-testing
/

tiny-DeepseekV4ForCausalLM

Text Generation

Model card Files Files and versions

Upload DeepseekV4ForCausalLM

#4

by qgallouedec HF Staff - opened 8 days ago

base: refs/heads/main

←

from: refs/pr/4

Discussion Files changed

Files changed (2) hide show

config.json +4 -3
model.safetensors +2 -2

config.json CHANGED Viewed

@@ -6,6 +6,7 @@
   "attention_dropout": 0.0,
   "bos_token_id": 0,
   "compress_ratios": [
     0,
     4,
     128
@@ -18,7 +19,7 @@
   "compress_rope_theta": 160000.0,
   "dtype": "bfloat16",
   "eos_token_id": 1,
-  "first_k_dense_replace": 1,
   "hc_eps": 1e-06,
   "hc_mult": 4,
   "hc_sinkhorn_iters": 20,
@@ -40,8 +41,8 @@
   "norm_topk_prob": true,
   "num_attention_heads": 4,
   "num_experts_per_tok": 2,
-  "num_hash_layers": 2,
-  "num_hidden_layers": 3,
   "num_key_value_heads": 2,
   "num_nextn_predict_layers": 1,
   "o_groups": 8,

   "attention_dropout": 0.0,
   "bos_token_id": 0,
   "compress_ratios": [
+    0,
     0,
     4,
     128
   "compress_rope_theta": 160000.0,
   "dtype": "bfloat16",
   "eos_token_id": 1,
+  "first_k_dense_replace": 2,
   "hc_eps": 1e-06,
   "hc_mult": 4,
   "hc_sinkhorn_iters": 20,
   "norm_topk_prob": true,
   "num_attention_heads": 4,
   "num_experts_per_tok": 2,
+  "num_hash_layers": 3,
+  "num_hidden_layers": 4,
   "num_key_value_heads": 2,
   "num_nextn_predict_layers": 1,
   "o_groups": 8,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5c0682e334f5e114dc223c4196864ef67442228dcfe4eec24c953d386ecd5e6
-size 52073390

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcb246e5c57a24315997e93d55e759f78457690fe73efc19e5e58be0bb0f28a5
+size 37758460