README.md · zero9tech/Qwen2.5-Coder-3B-Data-Science-Insight-TR-7.6K at main

Clarify Turkish adaptation method as Continued PreTraining (CPT) while preserving model-specific ratios

fdc689c verified 12 days ago

1.03 kB

	---
	language:
	- tr
	license: apache-2.0
	library_name: transformers
	tags:
	- qwen2.5
	- coder
	- turkish
	- data-mining
	- data-science
	- instruction-tuning
	- sft
	datasets:
	- wikimedia/wikipedia
	- murataksit34/veri-bilimci-diyalog-8k-tr
	---

	# Qwen2.5-Coder-3B-Data-Science-Insight-TR-7.6K

	Bu model, veri madenciliği ve applied data science karar desteği için geliştirilmiştir.

	## Eğitim Kurgusu
	1. Türkçe düşünme adaptasyonu (Continued PreTraining, CPT): wikimedia/wikipedia ile yaklaşık %10 ön eğitim/adaptasyon (48,148 kayıt).
	2. Alan uzmanlığı SFT: murataksit34/veri-bilimci-diyalog-8k-tr.

	## Veri Seti Test Özeti (murataksit34/veri-bilimci-diyalog-8k-tr)
	- Toplam kayıt: 7,656
	- Split: train: 6,124 · test: 1,532
	- assistant_first_unique_ratio: 0.7034
	- assistant_final_unique_ratio: 0.8723

	## Kullanım Notu
	Model karar odaklı yanıt üretimi için optimize edilmiştir (yöntem seçimi, alternatif kıyas, risk sinyali, doğrulama adımı).

	## Copyright
	Copyright (c) Zero9 Tech

	## License
	Apache-2.0