Clarify Turkish adaptation method as Continued PreTraining (CPT) while preserving model-specific ratios

a50a1fe verified 12 days ago

1.07 kB

	---
	language:
	- tr
	license: apache-2.0
	library_name: transformers
	tags:
	- qwen3
	- turkish
	- data-mining
	- data-science
	- instruction-tuning
	- sft
	- insight
	datasets:
	- wikimedia/wikipedia
	- zero9tech/veri-bilimci-insight-diyalog-tr-16.2k
	---

	# Qwen3-4B-Data-Science-Insight-16.5K-TR

	Bu model, veri madenciliği ve applied data science karar desteği için geliştirilmiştir.

	## Eğitim Kurgusu
	1. Türkçe düşünme adaptasyonu (Continued PreTraining, CPT): wikimedia/wikipedia ile yaklaşık %80 ön eğitim/adaptasyon (427,990 kayıt).
	2. Alan uzmanlığı SFT: zero9tech/veri-bilimci-insight-diyalog-tr-16.2k.

	## Veri Seti Test Özeti (zero9tech/veri-bilimci-insight-diyalog-tr-16.2k)
	- Toplam kayıt: 16,180
	- Split: train: 13,763 · validation: 814 · test: 1,603
	- assistant_first_unique_ratio: 0.6295
	- assistant_final_unique_ratio: 1.0000

	## Kullanım Notu
	Model karar odaklı yanıt üretimi için optimize edilmiştir (yöntem seçimi, alternatif kıyas, risk sinyali, doğrulama adımı).

	## Copyright
	Copyright (c) Zero9 Tech

	## License
	Apache-2.0