Add files using upload-large-folder tool

Browse files

Files changed (7) hide show

dflash-32b-draft-v2test-phaseL/config.json +52 -0
dflash-32b-draft-v2test-phaseL/model-00001-of-00005.safetensors +3 -0
dflash-32b-draft-v2test-phaseL/model-00002-of-00005.safetensors +3 -0
dflash-32b-draft-v2test-phaseL/model-00003-of-00005.safetensors +3 -0
dflash-32b-draft-v2test-phaseL/model-00004-of-00005.safetensors +3 -0
dflash-32b-draft-v2test-phaseL/model-00005-of-00005.safetensors +3 -0
dflash-32b-draft-v2test-phaseL/model.safetensors.index.json +107 -0

dflash-32b-draft-v2test-phaseL/config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "architectures": [
+    "DFlashDraftModel"
+  ],
+  "model_type": "qwen3",
+  "hidden_size": 5120,
+  "intermediate_size": 13824,
+  "num_hidden_layers": 8,
+  "num_attention_heads": 40,
+  "num_key_value_heads": 8,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "rms_norm_eps": 1e-06,
+  "attention_bias": false,
+  "vocab_size": 129280,
+  "max_position_embeddings": 65536,
+  "rope_theta": 500000.0,
+  "rope_scaling": null,
+  "sliding_window": 512,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention"
+  ],
+  "block_size": 11,
+  "num_target_layers": 64,
+  "target_hidden_size": 5120,
+  "torch_dtype": "bfloat16",
+  "tie_word_embeddings": false,
+  "dflash_config": {
+    "mask_token_id": 128000,
+    "target_layer_ids": [
+      1,
+      10,
+      18,
+      27,
+      35,
+      44,
+      52,
+      61
+    ],
+    "num_target_layers": 64,
+    "block_size": 11,
+    "use_attention_sink": true,
+    "sliding_window": 512
+  }
+}

dflash-32b-draft-v2test-phaseL/model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a549c86d1075338b8f84cba9a02b5ce03d5b408a3d098677cf60eac5acc0dea7
+size 969977384

dflash-32b-draft-v2test-phaseL/model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15271fd91c40f2b71a9274159ce50941798dbec177516bea4aa56c2c8257741f
+size 985718896

dflash-32b-draft-v2test-phaseL/model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e72823f72482b9ab3b17660471bbfcd7f473c175443564be67735f957be0f543
+size 949006504

dflash-32b-draft-v2test-phaseL/model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d59067a7994bb229357b532c9e55de875f7445d89107a3724b58c41af17fa992
+size 959515232

dflash-32b-draft-v2test-phaseL/model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce36865fcd1f6d0a69a736b8d62cd9c7f04c39f214020611906faa0afcc7f17e
+size 959535872

dflash-32b-draft-v2test-phaseL/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "metadata": {
+    "total_size": 4823743104
+  },
+  "weight_map": {
+    "fc.weight": "model-00001-of-00005.safetensors",
+    "hidden_norm.weight": "model-00001-of-00005.safetensors",
+    "layers.0.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "layers.0.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "layers.0.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "layers.0.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "layers.0.post_feedforward_layernorm.weight": "model-00001-of-00005.safetensors",
+    "layers.0.self_attn.k_norm.weight": "model-00001-of-00005.safetensors",
+    "layers.0.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "layers.0.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "layers.0.self_attn.q_norm.weight": "model-00001-of-00005.safetensors",
+    "layers.0.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "layers.0.self_attn.sinks": "model-00001-of-00005.safetensors",
+    "layers.0.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "layers.1.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.1.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.1.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.1.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "layers.1.post_feedforward_layernorm.weight": "model-00002-of-00005.safetensors",
+    "layers.1.self_attn.k_norm.weight": "model-00002-of-00005.safetensors",
+    "layers.1.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.1.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.1.self_attn.q_norm.weight": "model-00002-of-00005.safetensors",
+    "layers.1.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.1.self_attn.sinks": "model-00002-of-00005.safetensors",
+    "layers.1.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.2.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.2.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.2.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.2.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "layers.2.post_feedforward_layernorm.weight": "model-00002-of-00005.safetensors",
+    "layers.2.self_attn.k_norm.weight": "model-00002-of-00005.safetensors",
+    "layers.2.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "layers.2.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.2.self_attn.q_norm.weight": "model-00003-of-00005.safetensors",
+    "layers.2.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.2.self_attn.sinks": "model-00003-of-00005.safetensors",
+    "layers.2.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.3.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.3.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.3.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.3.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "layers.3.post_feedforward_layernorm.weight": "model-00003-of-00005.safetensors",
+    "layers.3.self_attn.k_norm.weight": "model-00003-of-00005.safetensors",
+    "layers.3.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.3.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.3.self_attn.q_norm.weight": "model-00003-of-00005.safetensors",
+    "layers.3.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.3.self_attn.sinks": "model-00003-of-00005.safetensors",
+    "layers.3.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.4.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.4.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "layers.4.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.4.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "layers.4.post_feedforward_layernorm.weight": "model-00004-of-00005.safetensors",
+    "layers.4.self_attn.k_norm.weight": "model-00004-of-00005.safetensors",
+    "layers.4.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.4.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.4.self_attn.q_norm.weight": "model-00004-of-00005.safetensors",
+    "layers.4.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.4.self_attn.sinks": "model-00004-of-00005.safetensors",
+    "layers.4.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.5.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.5.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.5.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.5.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "layers.5.post_feedforward_layernorm.weight": "model-00004-of-00005.safetensors",
+    "layers.5.self_attn.k_norm.weight": "model-00004-of-00005.safetensors",
+    "layers.5.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.5.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.5.self_attn.q_norm.weight": "model-00004-of-00005.safetensors",
+    "layers.5.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.5.self_attn.sinks": "model-00004-of-00005.safetensors",
+    "layers.5.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.6.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "layers.6.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.6.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.6.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "layers.6.post_feedforward_layernorm.weight": "model-00005-of-00005.safetensors",
+    "layers.6.self_attn.k_norm.weight": "model-00005-of-00005.safetensors",
+    "layers.6.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.6.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.6.self_attn.q_norm.weight": "model-00005-of-00005.safetensors",
+    "layers.6.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.6.self_attn.sinks": "model-00005-of-00005.safetensors",
+    "layers.6.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.7.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.7.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.7.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.7.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "layers.7.post_feedforward_layernorm.weight": "model-00005-of-00005.safetensors",
+    "layers.7.self_attn.k_norm.weight": "model-00005-of-00005.safetensors",
+    "layers.7.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.7.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.7.self_attn.q_norm.weight": "model-00005-of-00005.safetensors",
+    "layers.7.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "layers.7.self_attn.sinks": "model-00005-of-00005.safetensors",
+    "layers.7.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "mask_embed": "model-00005-of-00005.safetensors",
+    "norm.weight": "model-00005-of-00005.safetensors"
+  }
+}