Upload folder using huggingface_hub

Files changed (5) hide show

.gitattributes CHANGED Viewed

@@ -66,3 +66,4 @@ qwen3.5-0.8b-v1/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 smollm2-360m-q1-v1/smollm2-360m-int8-v1.cellm filter=lfs diff=lfs merge=lfs -text
 smolvlm-256m-instruct-f16-full/smolvlm-256m-instruct-f16-full.cellm filter=lfs diff=lfs merge=lfs -text
 smolvlm-256m-instruct-int8-v1/smolvlm-256m-instruct-int8-v1.cellm filter=lfs diff=lfs merge=lfs -text

 smollm2-360m-q1-v1/smollm2-360m-int8-v1.cellm filter=lfs diff=lfs merge=lfs -text
 smolvlm-256m-instruct-f16-full/smolvlm-256m-instruct-f16-full.cellm filter=lfs diff=lfs merge=lfs -text
 smolvlm-256m-instruct-int8-v1/smolvlm-256m-instruct-int8-v1.cellm filter=lfs diff=lfs merge=lfs -text
+nanowhale-100m-v1/nanowhale-100m-v1.cellm filter=lfs diff=lfs merge=lfs -text

nanowhale-100m-v1/README.md ADDED Viewed

+# NanoWhale-100M (cellm)
+NanoWhale-100M is a tiny 100M parameter model based on the DeepSeek-V4 architecture (MLA + MoE), converted to the cellm format for efficient on-device inference.
+## Model Details
+- **Architecture**: DeepSeek-V4 (MLA + MoE)
+- **Parameters**: ~100M
+- **Layers**: 8
+- **Hidden Size**: 320
+- **MLA Config**: 8 heads, 96 head_dim, 32 qk_rope_head_dim
+- **MoE Config**: 4 routed experts, 1 shared expert, 2 experts per token
+- **Vocab Size**: 129,280
+## Files
+| File | Format | Size |
+|------|--------|------|
+| nanowhale-100m-v1.cellm | f16/int8 | 210 MB |
+## Usage
+```sh
+./target/release/infer \
+  --model nanowhale-100m-v1.cellm \
+  --tokenizer tokenizer.json \
+  --prompt "<｜begin of sentence｜><｜User｜>what's sycophancy?<｜Assistant｜>" \
+  --gen 100 --temperature 0 --backend cpu
+```
+## Notes
+- This model uses **Multi-head Latent Attention (MLA)** for efficient KV cache management.
+- It uses **DeepSeekMoE** with routed and shared experts.
+- Designed for extremely lightweight inference on mobile and edge devices.

nanowhale-100m-v1/nanowhale-100m-v1.cellm ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:19bd7cd4d517c3800da139b2b0709eb4ece4742fd75604acba7b3df371ac155b
+size 220774656

nanowhale-100m-v1/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nanowhale-100m-v1/tokenizer_config.json ADDED Viewed

+{
+  "backend": "tokenizers",
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "eos_token": "<｜end▁of▁sentence｜>",
+  "is_local": true,
+  "local_files_only": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "tokenizer_class": "TokenizersBackend"
+}