SykoLLM-UnTrained / README.md
SykoSLM's picture
Update README.md
f589b17 verified
---
language:
- tr
- en
license: apache-2.0
tags:
- causal-lm
- custom-architecture
- turkish
- english
- syko
base-model: null
pipeline-tag: text-generation
---
# SykoLLM — Untrained Architecture
> ⚠️ Bu model henüz eğitilmemiştir. Mimari oluşturulmuş ve ağırlıklar rastgele initialize edilmiştir.
---
## Nedir?
SykoLLM, sıfırdan tasarlanmış özgün bir Türkçe/İngilizce dil modeli mimarisidir.
Phi-3 veya Llama gibi mevcut mimariler temel alınmamış, tüm bileşenler baştan yazılmıştır.
Bu repo mimarinin başlangıç noktasıdır — eğitim süreci bu temel üzerinden devam edecektir.
---
## Mimari
| Parametre | Değer |
|---|---|
| Vocab Size | 32,000 |
| Hidden Size | 768 |
| Num Hidden Layers | 24 |
| Num Attention Heads | 6 |
| Intermediate Size | 3,072 |
| Max Position Embeddings | 2,048 |
| Attention | Scaled Dot-Product (SDPA) |
| Positional Encoding | RoPE |
| Normalization | RMSNorm |
| Activation | SwiGLU |
---
## Tokenizer
Özel eğitilmiş BPE tokenizer. CulturaX Türkçe + İngilizce corpus'u kullanılarak eğitilmiştir.
Byte-level fallback sayesinde OOV (out of vocabulary) sorunu yoktur.
Türkçe karakterler (`ğ ü ş ı ö ç İ Ğ Ü Ş Ö Ç`) tam desteklenmektedir.
### Special Tokens
| Token | ID | Açıklama |
|---|---|---|
| `<pad>` | 0 | Padding |
| `<bos>` | 1 | Sequence başlangıcı |
| `<eos>` | 2 | Sequence sonu |
| `<unk>` | 3 | Bilinmeyen token |
| `<sep>` | 4 | Segment ayırıcı |
| `<cls>` | 5 | Classification token |
| `<mask>` | 6 | Mask token |
| `<sys>` / `</sys>` | 7 / 8 | Sistem promptu |
| `<user>` / `</user>` | 9 / 10 | Kullanıcı mesajı |
| `<assistant>` / `</assistant>` | 11 / 12 | Asistan cevabı |
| `<tr>` / `<en>` | 13 / 14 | Dil etiketleri |
| `<think>` / `</think>` | 15 / 16 | Düşünce zinciri |
| `<code>` / `</code>` | 17 / 18 | Kod bloğu |
---
## Kurulum Öncesi Hazırlık
Syko mimarisi Transformers'a kayıtlı olmadığı için, modeli çalıştırmak kendi özel kütüphanemi indirmeniz gerekmektedir. Kütüphane şu:
`!pip install syko-llm`
## Kullanım
```python
!pip install syko-llm
import sys
sys.path.insert(0, ".")
from transformers import AutoTokenizer
# Tokenizer
tokenizer = AutoTokenizer.from_pretrained("SykoSLM/SykoLLM-UnTrained")
# Model (syko_model.py gereklidir)
from syko import SykoConfig, SykoCausalLM
config = SykoConfig.from_pretrained("SykoSLM/SykoLLM-UnTrained")
model = SykoCausalLM(config)
```
---
## Yol Haritası
- [x] Mimari tasarımı (RoPE, RMSNorm, SwiGLU, SDPA)
- [x] HuggingFace uyumlu altyapı (save/load, generate, Trainer)
- [x] Özel BPE tokenizer eğitimi (TR + EN)
- [ ] Ön eğitim (pre-training)
- [ ] İnce ayar (fine-tuning)
- [ ] Değerlendirme (evaluation)
---
## Geliştirici
**Burak** — [@SykoAI](https://huggingface.co/SykoSLM)
Bağımsız geliştirici, Türkiye 🇹🇷