murataksit34's picture
Clarify Turkish adaptation method as Continued PreTraining (CPT) while preserving model-specific ratios
fdc689c verified
metadata
language:
  - tr
license: apache-2.0
library_name: transformers
tags:
  - qwen2.5
  - coder
  - turkish
  - data-mining
  - data-science
  - instruction-tuning
  - sft
datasets:
  - wikimedia/wikipedia
  - murataksit34/veri-bilimci-diyalog-8k-tr

Qwen2.5-Coder-3B-Data-Science-Insight-TR-7.6K

Bu model, veri madenciliği ve applied data science karar desteği için geliştirilmiştir.

Eğitim Kurgusu

  1. Türkçe düşünme adaptasyonu (Continued PreTraining, CPT): wikimedia/wikipedia ile yaklaşık %10 ön eğitim/adaptasyon (48,148 kayıt).
  2. Alan uzmanlığı SFT: murataksit34/veri-bilimci-diyalog-8k-tr.

Veri Seti Test Özeti (murataksit34/veri-bilimci-diyalog-8k-tr)

  • Toplam kayıt: 7,656
  • Split: train: 6,124 · test: 1,532
  • assistant_first_unique_ratio: 0.7034
  • assistant_final_unique_ratio: 0.8723

Kullanım Notu

Model karar odaklı yanıt üretimi için optimize edilmiştir (yöntem seçimi, alternatif kıyas, risk sinyali, doğrulama adımı).

Copyright

Copyright (c) Zero9 Tech

License

Apache-2.0