Clarify Turkish adaptation method as Continued PreTraining (CPT) while preserving model-specific ratios
fdc689c verified metadata
language:
- tr
license: apache-2.0
library_name: transformers
tags:
- qwen2.5
- coder
- turkish
- data-mining
- data-science
- instruction-tuning
- sft
datasets:
- wikimedia/wikipedia
- murataksit34/veri-bilimci-diyalog-8k-tr
Qwen2.5-Coder-3B-Data-Science-Insight-TR-7.6K
Bu model, veri madenciliği ve applied data science karar desteği için geliştirilmiştir.
Eğitim Kurgusu
- Türkçe düşünme adaptasyonu (Continued PreTraining, CPT): wikimedia/wikipedia ile yaklaşık %10 ön eğitim/adaptasyon (48,148 kayıt).
- Alan uzmanlığı SFT: murataksit34/veri-bilimci-diyalog-8k-tr.
Veri Seti Test Özeti (murataksit34/veri-bilimci-diyalog-8k-tr)
- Toplam kayıt: 7,656
- Split: train: 6,124 · test: 1,532
- assistant_first_unique_ratio: 0.7034
- assistant_final_unique_ratio: 0.8723
Kullanım Notu
Model karar odaklı yanıt üretimi için optimize edilmiştir (yöntem seçimi, alternatif kıyas, risk sinyali, doğrulama adımı).
Copyright
Copyright (c) Zero9 Tech
License
Apache-2.0