murataksit34's picture
Clarify Turkish adaptation method as Continued PreTraining (CPT) while preserving model-specific ratios
e16b654 verified
metadata
language:
  - tr
license: apache-2.0
library_name: transformers
tags:
  - qwen3
  - turkish
  - data-mining
  - data-science
  - instruction-tuning
  - sft
  - insight
datasets:
  - wikimedia/wikipedia
  - zero9tech/veri-bilimci-insight-diyalog-tr-16.2k

Qwen3.5-9B-Data-Science-Insight-16.2K-TR

Bu model, veri madenciliği ve applied data science karar desteği için geliştirilmiştir.

Eğitim Kurgusu

  1. Türkçe düşünme adaptasyonu (Continued PreTraining, CPT): wikimedia/wikipedia ile yaklaşık %99 ön eğitim/adaptasyon (529,638 kayıt).
  2. Alan uzmanlığı SFT: zero9tech/veri-bilimci-insight-diyalog-tr-16.2k.

Veri Seti Test Özeti (zero9tech/veri-bilimci-insight-diyalog-tr-16.2k)

  • Toplam kayıt: 16,180
  • Split: train: 13,763 · validation: 814 · test: 1,603
  • assistant_first_unique_ratio: 0.6295
  • assistant_final_unique_ratio: 1.0000

Kullanım Notu

Model karar odaklı yanıt üretimi için optimize edilmiştir (yöntem seçimi, alternatif kıyas, risk sinyali, doğrulama adımı).

Copyright

Copyright (c) Zero9 Tech

License

Apache-2.0