Initial release: merged fp16 model + model card

Browse files

Files changed (16) hide show

.gitattributes +1 -0
README.md +219 -0
chat_template.jinja +54 -0
config.json +81 -0
generation_config.json +14 -0
model-00001-of-00008.safetensors +3 -0
model-00002-of-00008.safetensors +3 -0
model-00003-of-00008.safetensors +3 -0
model-00004-of-00008.safetensors +3 -0
model-00005-of-00008.safetensors +3 -0
model-00006-of-00008.safetensors +3 -0
model-00007-of-00008.safetensors +3 -0
model-00008-of-00008.safetensors +3 -0
model.safetensors.index.json +587 -0
tokenizer.json +3 -0
tokenizer_config.json +29 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,219 @@

+---
+license: apache-2.0
+base_model: Qwen/Qwen2.5-Coder-14B-Instruct
+tags:
+  - csharp
+  - dotnet
+  - code
+  - fine-tuned
+  - dpo
+  - qlora
+  - coding-assistant
+  - aspnet
+  - entity-framework
+language:
+  - en
+pipeline_tag: text-generation
+library_name: transformers
+model-index:
+  - name: dotnet-coder-14b
+    results:
+      - task:
+          type: text-generation
+          name: C# Code Generation
+        metrics:
+          - name: Compile Rate (30 prompts)
+            type: accuracy
+            value: 97
+          - name: Compile Rate Holdout (30 fresh prompts)
+            type: accuracy
+            value: 97
+          - name: Expert Knowledge
+            type: accuracy
+            value: 100
+          - name: C# 13/14 Knowledge
+            type: accuracy
+            value: 100
+---
+# dotnet-coder-14b
+**The most capable open-source C#/.NET coding model.** Fine-tuned from Qwen2.5-Coder-14B-Instruct using SFT + iterative DPO with compile verification.
+A 14B parameter model that outperforms Qwen2.5-Coder-32B and Qwen2.5-72B on C# code generation, expert .NET knowledge, and modern C# language features — while running on a single consumer GPU.
+## Highlights
+- **97% compile rate** — generated code compiles with `dotnet build` straight out of the model
+- **Perfect expert knowledge** (10/10) — knows ConcurrentDictionary gotchas, async void dangers, N+1 queries, EF Core pitfalls, DI lifetime bugs, and more
+- **Perfect C# 13/14 knowledge** (10/10) — field keyword, extension members, params collections, partial properties
+- **Beats 72B models** — outperforms Qwen2.5-72B (5x larger) on C# tasks
+- **Runs locally** — Q4_K_M quantization fits in ~8GB VRAM (RTX 3080+, Apple M2 Pro+)
+## Benchmarks
+### Compile Rate (code compiles with `dotnet build`)
+| Model | Parameters | Compile Rate | Holdout (fresh prompts) |
+|---|---|---|---|
+| **dotnet-coder-14b** | **14B** | **97%** | **97%** |
+| Qwen2.5-Coder-14B-Instruct | 14B | 83% | 93% |
+| Qwen2.5-72B-Instruct | 72B | 80% | 80% |
+| Qwen2.5-Coder-32B-Instruct | 32B | 80% | 87% |
+| Qwen2.5-Coder-7B-Instruct | 7B | 57% | 67% |
+| DeepSeek-R1-Distill-Qwen-14B | 14B | 10% | 13% |
+### Expert .NET Knowledge (10 expert gotcha questions + 10 C# 13/14 questions)
+| Model | Parameters | Expert Gotchas | C# 13/14 Features |
+|---|---|---|---|
+| **dotnet-coder-14b** | **14B** | **10/10** | **10/10** |
+| Qwen2.5-72B-Instruct | 72B | 9/10 | 10/10 |
+| Qwen2.5-Coder-14B-Instruct | 14B | 8/10 | 10/10 |
+| Qwen2.5-Coder-32B-Instruct | 32B | 6/10 | 10/10 |
+| DeepSeek-R1-Distill-Qwen-14B | 14B | 3/10 | 5/10 |
+### Complex Multi-Class Tasks (10 tasks requiring 3-6 interacting classes)
+| Model | Parameters | First Try | With Retry |
+|---|---|---|---|
+| **dotnet-coder-14b** | **14B** | **70-90%** | **90%+** |
+Tasks include: CQRS with dispatcher, event sourcing, fluent validation framework, resilience pipeline, state machines, plugin systems, and more.
+## What This Model Is Good At
+- Writing complete, compilable C# classes and files
+- ASP.NET Core middleware, controllers, and minimal APIs
+- Entity Framework Core queries, configurations, and patterns
+- Design patterns implemented in idiomatic C#
+- Modern C# features (records, primary constructors, collection expressions, pattern matching)
+- Explaining C# gotchas and .NET internals
+- Code that's ready to use — no unnecessary boilerplate or explanation
+## Usage
+### With Transformers
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+model = AutoModelForCausalLM.from_pretrained(
+    "zipaltrivedi/dotnet-coder-14b",
+    torch_dtype=torch.float16,
+    device_map="auto",
+)
+tokenizer = AutoTokenizer.from_pretrained("zipaltrivedi/dotnet-coder-14b")
+messages = [
+    {"role": "system", "content": "You are an expert C# and .NET developer. Write complete, compilable C# code."},
+    {"role": "user", "content": "Write a thread-safe LRU cache with generic key and value types in C#."},
+]
+text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+inputs = tokenizer(text, return_tensors="pt").to(model.device)
+output = model.generate(**inputs, max_new_tokens=1024, temperature=0.2, top_p=0.9)
+print(tokenizer.decode(output[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
+```
+### With Ollama
+```bash
+ollama run zipaltrivedi/dotnet-coder-14b
+```
+### With llama.cpp
+```bash
+./llama-cli -m dotnet-coder-14b-Q4_K_M.gguf -p "Write a C# class for..." --temp 0.2
+```
+### With LM Studio / Jan / GPT4All
+Download the GGUF file matching your hardware from the Files tab and load it in your preferred UI.
+## GGUF Quantizations
+| Quantization | Size | Min RAM | Recommended For |
+|---|---|---|---|
+| Q8_0 | ~15GB | 16GB+ | Best quality — RTX 4090, A100, M3 Max 36GB |
+| Q6_K | ~12GB | 14GB+ | High quality — RTX 4080, M2 Max 32GB |
+| **Q4_K_M** | **~8GB** | **10GB+** | **Recommended — RTX 3080/4070, M2 Pro 16GB** |
+| Q4_K_S | ~7.5GB | 9GB+ | Slightly smaller — M1 Pro 16GB |
+| Q3_K_M | ~6.5GB | 8GB+ | Budget GPU, Apple M1/M2 8GB |
+| IQ4_XS | ~7GB | 9GB+ | Good quality at small size |
+| Q2_K | ~5GB | 6GB+ | CPU-only inference, minimum viable |
+## Training Details
+### Method
+1. **SFT (Supervised Fine-Tuning)**: QLoRA 4-bit, rank 64, alpha 128, 2 epochs on 107K C# training records
+2. **DPO (Direct Preference Optimization)**: 3 iterative rounds using `dotnet build` compilation as the reward signal
+   - Round 1: 126 preference pairs (compilable vs non-compilable) — 57% → 73%
+   - Round 2: 382 pairs with stronger signal — 73% → 87%
+   - Round 3: 850 pairs from improved model — 87% → 97%
+### Dataset (107K records)
+| Source | Records | Description |
+|---|---|---|
+| Expert C# knowledge | 54,443 | Curated Q&A covering gotchas, patterns, best practices, version-specific features |
+| Compile-verified repos | 35,736 | Self-contained C# files from 140 GitHub repos, filtered and verified |
+| .NET runtime source | 12,352 | Code from dotnet/runtime, aspnetcore, and other core .NET repos |
+| Synthetic examples | 4,906 | C# 13/14 features, debugging pairs, code review examples |
+### Infrastructure
+- **Hardware**: RunPod A100 80GB SXM
+- **SFT training**: ~13 hours
+- **DPO training**: ~2 hours total (3 rounds)
+- **Total cost**: ~$60
+### Hyperparameters
+- **SFT**: lr=2e-4, batch=16 (2x8 grad accum), warmup 3%, cosine schedule, packing enabled
+- **DPO**: lr=5e-5, beta=0.3, batch=8 (2x4 grad accum), 3 epochs per round
+## Evaluation Methodology
+All compile tests use actual `dotnet build` with .NET 8 SDK against a project with common NuGet packages (EF Core, ASP.NET Core, Microsoft.Extensions). No manual evaluation — pass/fail is binary based on compiler exit code.
+Expert knowledge and C# version tests are evaluated by checking whether the response contains code examples and addresses the core question accurately.
+## Limitations
+- **Optimized for single-file code generation** — for multi-project solutions, use as a component alongside an agent framework
+- **Concise by design** — gives direct answers with code, not step-by-step tutorials. Best for experienced developers and coding agents
+- **English only** — trained on English C# content
+- **14B parameter model** — for extremely complex architectural decisions, larger models may provide more nuanced analysis
+## Use Cases
+- **Coding agent backend** — serve via OpenAI-compatible API for use with OpenCode, Continue, Cursor, Claude Code
+- **Local code assistant** — run with Ollama or LM Studio for offline C# development
+- **CI/CD code generation** — generate boilerplate, tests, and implementations in automated pipelines
+- **Learning tool** — get accurate, concise answers about C# patterns and .NET internals
+## License
+Apache 2.0 (same as base model Qwen2.5-Coder-14B-Instruct)
+## Citation
+```bibtex
+@misc{dotnet-coder-14b,
+  author = {Zipal Trivedi},
+  title = {dotnet-coder-14b: A C#/.NET Specialist Language Model},
+  year = {2026},
+  publisher = {HuggingFace},
+  url = {https://huggingface.co/zipaltrivedi/dotnet-coder-14b}
+}
+```
+## Acknowledgments
+- Base model: [Qwen2.5-Coder-14B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-14B-Instruct) by Alibaba
+- Training framework: [Unsloth](https://github.com/unslothai/unsloth)
+- Training data sources: The Stack (permissive licenses), StackOverflow (CC-BY-SA), Microsoft Learn (CC-BY-4.0), GitHub repos (Apache/MIT licensed)

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,81 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "dtype": "float16",
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 13824,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 48,
+  "model_type": "qwen2",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 48,
+  "num_key_value_heads": 8,
+  "pad_token_id": null,
+  "rms_norm_eps": 1e-06,
+  "rope_parameters": {
+    "rope_theta": 1000000.0,
+    "rope_type": "default"
+  },
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "5.5.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "5.5.1"
+}

model-00001-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1dc539e8813c01021a103b42e997f8b11a323600d3f266acb94a35fc481b94d
+size 3947935624

model-00002-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88be59f3c221466694c62da2911b67622da1a5cb391852f920aea37977a23a51
+size 3995340408

model-00003-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:940a2e98fb97199d18197bf435ceac9f9a9ebd57ab28e55ef6b3f2ce7193bca1
+size 3979622536

model-00004-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fe843541c773202330c76d20a01083407b9338a97cda4026968483a1f8f35b9
+size 3995327992

model-00005-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:950c2ad9d81cc833b40c33dddb213683fd9859402357b5466efb013189cde597
+size 3995327976

model-00006-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82a2d927c9e541d8eb3577874ee7a7286ce85d0df271e8de723ef721aafbcdfe
+size 3995340496

model-00007-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3080453fadcba0c9cc66f2a78213520e07d0821eca84b698785a0a9518a2905
+size 3979622552

model-00008-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1852809906a34ecb329aaef3f3970f7b951c8e4f812375bca278f980d32930aa
+size 1651615744

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,587 @@

+{
+  "metadata": {
+    "total_parameters": 14770033664,
+    "total_size": 29540067328
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00001-of-00008.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00008.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00008.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00008.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00008.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00004-of-00008.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00005-of-00008.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.self_attn.q_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.36.self_attn.v_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.37.self_attn.k_proj.bias": "model-00006-of-00008.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.self_attn.k_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.self_attn.k_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.39.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.self_attn.k_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.40.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.self_attn.k_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.41.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.self_attn.k_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.42.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00007-of-00008.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
+    "model.layers.45.self_attn.k_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.45.self_attn.q_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.45.self_attn.v_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.self_attn.k_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.self_attn.q_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.46.self_attn.v_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.self_attn.k_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.self_attn.q_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.47.self_attn.v_proj.bias": "model-00008-of-00008.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00008.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00008.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.norm.weight": "model-00008-of-00008.safetensors"
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fd169731d2cbde95e10bf356d66d5997fd885dd8dbb6fb4684da3f23b2585d8
+size 11421892

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "is_local": false,
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}