Büşra Mina AL commited on
Commit
bed4cfd
·
verified ·
1 Parent(s): d487701

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +54 -34
README.md CHANGED
@@ -1,38 +1,58 @@
1
- ---
2
- base_model: Qwen/Qwen2.5-7B-Instruct
3
- library_name: peft
4
- license: apache-2.0
5
- language:
6
- - tr
7
- metrics:
8
- - accuracy
9
- - exact_match
10
- pipeline_tag: text-classification
11
- ---
12
- # 🧠 SQL Coder — Türkçe NL→SQL LoRA Modeli
13
 
 
 
 
14
  Bu model, Türkçe doğal dilde yazılmış soruları PostgreSQL şemasına uygun SQL komutlarına dönüştürmek için,
15
- `Qwen2.5-7B-Instruct` tabanlı **LoRA (QLoRA)** yöntemiyle eğitilmiştir.
16
 
17
  ## 🚀 Özellikler
18
- - Türkçe doğal dil optimize SQL dönüşümü
19
- - 33 tablo + ilişkilerle eğitilmiş özel veri seti
20
- - JOIN kurallarını graph üzerinden çıkartan özel prompt yapısı
21
- - Hatalı tablo kullanımı engelleme kuralları
22
- - PostgreSQL sintaks uyumluluğu
23
-
24
- ## 🔧 Teknik Bilgiler
25
-
26
- ### Base model:
27
- `Qwen/Qwen2.5-7B-Instruct`
28
-
29
- ### LoRA Ayarları:
30
- ```json
31
- {
32
- "r": 16,
33
- "lora_alpha": 32,
34
- "target_modules": ["q_proj", "v_proj"],
35
- "lora_dropout": 0.1,
36
- "bias": "none",
37
- "task_type": "CAUSAL_LM"
38
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # SQLCoder V2 — Türkçe NL→SQL LoRA Modeli
 
 
 
 
 
 
 
 
 
 
 
2
 
3
+ Bu README, HuggingFace model sayfan için hazırlanmış indirilebilir dosyadır.
4
+
5
+ ## 🧠 Model Hakkında
6
  Bu model, Türkçe doğal dilde yazılmış soruları PostgreSQL şemasına uygun SQL komutlarına dönüştürmek için,
7
+ **Qwen2.5-7B-Instruct** tabanı üzerine **QLoRA** yöntemiyle eğitilmiştir.
8
 
9
  ## 🚀 Özellikler
10
+ - Türkçe NL → SQL dönüşümü
11
+ - PostgreSQL uyumlu çıktı
12
+ - Şema farkındalığı (table + column awareness)
13
+ - Güvenli sorgu üretimi (JOIN kuralları, yanlış tablo engelleme vb.)
14
+ - LoRA ile hafif ve hızlı fine-tuning
15
+
16
+ ## 🏗️ Eğitim Detayları
17
+ - Base Model: Qwen/Qwen2.5-7B-Instruct
18
+ - Yöntem: 4-bit QLoRA
19
+ - Epoch: 2
20
+ - LR: 2e-4
21
+ - Batch Size: 2
22
+ - Max Seq Length: 2048
23
+ - Dataset Boyutu: 2.8k NL→SQL örneği
24
+
25
+ ## 📁 Dosya Yapısı
26
+ - adapter_model.safetensors
27
+ - adapter_config.json
28
+ - training_args.bin
29
+ - tokenizer.model / tokenizer.json
30
+ - README.md (bu dosya)
31
+
32
+ ## 🔧 Kullanım
33
+ ```python
34
+ from transformers import AutoModelForCausalLM, AutoTokenizer
35
+ from peft import PeftModel
36
+
37
+ base = "Qwen/Qwen2.5-7B-Instruct"
38
+ lora = "BMina/sql_coder"
39
+
40
+ tokenizer = AutoTokenizer.from_pretrained(base)
41
+ model = AutoModelForCausalLM.from_pretrained(base)
42
+ model = PeftModel.from_pretrained(model, lora)
43
+
44
+ prompt = "Tüm müşterilerin ad ve soyadlarını getir."
45
+ inputs = tokenizer(prompt, return_tensors="pt")
46
+ outputs = model.generate(**inputs, max_new_tokens=150)
47
+ print(tokenizer.decode(outputs[0]))
48
+ ```
49
+
50
+ ## 📊 Örnek Sorgular
51
+ | Soru | SQL |
52
+ |------|------|
53
+ | “Tüm kullanıcıları listele” | `SELECT * FROM users;` |
54
+ | “Her departmandaki kişi sayısı nedir?” | `SELECT dept, COUNT(*) FROM users GROUP BY dept;` |
55
+
56
+ ## 📜 Lisans
57
+ MIT License
58
+