SykoLLM Phi-3 Mini (233M) - Experimental
⚠️ Uyarı / Disclaimer: Bu model şu anda aktif bir test ve araştırma aşamasındadır. Temel amacı, yeni nesil Phi-3 mimarisinin yeteneklerini sıfırdan eğitilmiş (trained from scratch) bir yapıyla küçük ölçekte test etmektir. Üretime (production) hazır bir model değildir; halüsinasyon görebilir, mantıksal hatalar yapabilir veya beklenmedik yanıtlar verebilir.
Model Özeti (Model Description)
Bu model, Microsoft'un Phi-3 mimarisi temel alınarak sıfırdan eğitilmiş 233 Milyon parametreli, deneysel bir dil modelidir. Hem İngilizce hem de Türkçe dillerinde genel bilgi, kodlama yeteneği ve mantıksal yürütme kapasitesini ölçmek amacıyla çeşitli yüksek kaliteli veri setleri harmanlanarak eğitilmiştir.
Ayrıca model için BPE (Byte-Pair Encoding) tabanlı özel bir tokenizer sıfırdan eğitilip kullanılmıştır.
Model Mimarisi (Architecture Details)
Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 yapısına dayanır:
- Mimari Türü:
Phi3ForCausalLM - Parametre Sayısı: ~233M
- Gömme Boyutu (Hidden Size): 768
- Ara Katman Boyutu (Intermediate Size): 2304
- Katman Sayısı (Hidden Layers): 24
- Dikkat Başlıkları (Attention Heads): 6 (GQA destekli)
- Bağlam Penceresi (Context Size): 1024 Token
- Sözlük Boyutu (Vocab Size): 32,000
Eğitim Verisi (Training Data)
Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay zeka kalıntıları (AI-robots) temizlenmiş ve filtrelenmiş şu veri setlerinden oluşmaktadır:
1. Genel Bilgi ve Mantık (İngilizce):
HuggingFaceTB/cosmopedia(Math, KhanAcademy, OpenStax, Stanford vb.)roneneldan/TinyStoriesnampdn-ai/tiny-textbooks
2. Kodlama ve Talimat (Coding & Instruct):
nampdn-ai/tiny-codesise-uiuc/Magicoder-Evol-Instruct-110Ktheblackcat102/evol-codealpaca-v1
3. Türkçe Veriler (Turkish NLP):
uonlp/CulturaX(Türkçe alt kümesi, CJK ve gürültü temizlenmiş)turkish-nlp-suite/InstrucTurca
Eğitim Konfigürasyonu (Training Procedure)
- Optimizasyon: 8-bit AdamW (
adamw_bnb_8bit) - Öğrenme Oranı (Learning Rate): 3e-4 (Cosine Scheduler ile)
- Hassasiyet (Precision): FP16
- Max Adım Sayısı (Steps): 6000
- Ağırlık Azalması (Weight Decay): 0.05
Örnek Kullanım (How to Use)
Modeli test etmek için aşağıdaki Python kodunu kullanabilirsiniz. trust_remote_code=True parametresinin ekli olduğundan emin olun.
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "SykoSLM/SykoLLM-Phi3-Test"
# Modeli ve Tokenizer'ı yükle
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, device_map="auto")
prompt = "<|user|>\nPython ile bir 'Hello World' yaz.\n<|end|>\n<|assistant|>\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=100,
temperature=0.7,
do_sample=True,
eos_token_id=tokenizer.eos_token_id,
pad_token_id=tokenizer.pad_token_id
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 113