İstatistik Formül Rehberi

📐1. Temel Kavramlar

Merkezi Eğilim Ölçüleri

Ölçü	Formül	Ne Zaman?
Ortalama	$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$	Simetrik dağılımlarda
Medyan	Sıralı verinin ortası	Çarpık dağılım / aykırı değer
Mod	En sık tekrar eden	Kategorik veriler

Yayılım Ölçüleri

Örneklem Varyansı $$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

Standart Sapma $$s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

💡 n-1 (Bessel düzeltmesi): Örneklem ortalaması veriden hesaplandığı için 1 serbestlik derecesi kaybedilir.

Şekil Ölçüleri

Ölçü	=0	>0	<0
Çarpıklık (Skewness)	Simetrik	Sağa çarpık	Sola çarpık
Basıklık (Kurtosis)	Normal (meso)	Sivri (lepto)	Basık (platy)

🔔2. Olasılık Dağılımları

Normal Dağılım (Gaussian)

Olasılık Yoğunluk Fonksiyonu $$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

68-95-99.7 Kuralı:

Aralık	Kapsam
$\mu \pm 1\sigma$	%68
$\mu \pm 2\sigma$	%95
$\mu \pm 3\sigma$	%99.7

💡 Merkezi Limit Teoremi: $n \geq 30$ olduğunda, örneklem ortalamaları $\bar{X} \sim N\!\left(\mu, \frac{\sigma^2}{n}\right)$ dağılır.

Binomial Dağılım

$n$ bağımsız deneme, her birinde başarı olasılığı $p$

PMF $$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$

$E[X] = np$ $Var(X) = np(1-p)$

Poisson Dağılım

Birim zamanda/alanda nadir olay sayma ($\lambda$ = birim başına ort. olay sayısı)

PMF $$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$

$E[X] = \lambda$ $Var(X) = \lambda$

📊3. Z-Skoru

Bir değerin ortalamadan kaç standart sapma uzakta olduğunu gösterir. Farklı ölçekleri karşılaştırılabilir yapar.

Tek Değer $$z = \frac{x - \mu}{\sigma}$$

Örneklem Ortalaması $$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$

Kritik Z Değerleri

$z$	Tek Taraflı $P$	Çift Taraflı $P$
$1.645$	$0.050$	$0.100$
$1.960$	$0.025$	$0.050$
$2.576$	$0.005$	$0.010$

Z'den olasılık: $P(Z < z)=\Phi(z)$ | Olasılıktan Z: $z = \Phi^{-1}(p)$

🎯4. Güven Aralıkları

σ biliniyor veya n ≥ 30 $$\text{GA} = \bar{x} \pm z^* \cdot \frac{\sigma}{\sqrt{n}}$$

σ bilinmiyor ve n < 30 $$\text{GA} = \bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$$

Güven Düzeyi	$z^*$
%90	1.645
%95	1.960
%99	2.576

Oran için Güven Aralığı $$\hat{p} \pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

💡 Yorum: "%95 güven aralığı" = bu yöntemi sonsuz kez uygulasak, oluşan aralıkların %95'i gerçek parametreyi içerir.

⚖️5. Hipotez Testi Temelleri

Adımlar

$H_0$ (Sıfır hipotez): Fark yok / etki yok
$H_1$ (Alternatif): Fark var / etki var
Anlamlılık düzeyi belirle: $\alpha = 0.05$
Test istatistiği hesapla ($z$, $t$, $\chi^2$, $F$ ...)
p-value bul
Karar: $p < \alpha \Rightarrow H_0$ red | $p \geq \alpha \Rightarrow H_0$ reddedilemez

Hata Tipleri

	$H_0$ Doğru	$H_0$ Yanlış
$H_0$ Reddet	❌ Tip I Hata ($\alpha$)	✅ Doğru Karar (Güç $= 1-\beta$)
$H_0$ Reddetme	✅ Doğru Karar	❌ Tip II Hata ($\beta$)

Test Yönleri

Yön	$H_1$	Ne Zaman?
Çift taraflı	$\mu \neq \mu_0$	Farkın yönü önemsiz
Sağ taraflı	$\mu > \mu_0$	Artış bekleniyor
Sol taraflı	$\mu < \mu_0$	Azalış bekleniyor

📈6. Normallik Testleri

Shapiro-Wilk Testi

En güvenilir normallik testi ($n < 5000$)

Test İstatistiği $$W = \frac{\left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

$H_0$: Veri normal dağılımdan geliyor
$H_1$: Normal dağılımdan gelmiyor
$p > 0.05 \Rightarrow$ Normal kabul et ✅

D'Agostino K² Testi

Çarpıklık ve basıklığı birlikte test eder. Büyük örneklemlerde daha uygun.

QQ-Plot (Görsel)

Verinin kuantilleri ile normal dağılım kuantillerini karşılaştırır. Noktalar doğru üzerindeyse → normal.

💡 Pratik: $n > 30$ ise CLT gereği parametrik testler çoğunlukla kullanılabilir (hafif normallik ihlali tolere edilir).

⚖️7. Varyans Homojenliği — Levene Testi

Grupların varyanslarının eşit olup olmadığını test eder. T-testi ve ANOVA'nın ön koşuludur.

Levene İstatistiği $$W = \frac{(N-k)}{(k-1)} \cdot \frac{\sum_{i=1}^{k} n_i (\bar{Z}_{i\cdot} - \bar{Z}_{\cdot\cdot})^2}{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(Z_{ij} - \bar{Z}_{i\cdot})^2}$$

$Z_{ij} = |x_{ij} - \tilde{x}_i|$ (medyandan mutlak sapma)

$H_0$: $\sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2$
$p > 0.05 \Rightarrow$ Varyanslar homojen ✅

Test	Avantaj	Dezavantaj
Levene	Normallik varsaymaz, robust	Biraz daha az güçlü
Bartlett	Normal dağılımda daha güçlü	Normallik ihlallerine hassas

⚠️ Homojen değilse: T-testi için Welch düzeltmesi (equal_var=False), ANOVA yerine Welch ANOVA veya Kruskal-Wallis kullanın.

🔬8. T-Testi

8.1 Tek Örneklem T-Testi

Bir grubun ortalamasını bilinen bir değerle karşılaştırır.

Formül $$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \qquad df = n - 1$$

8.2 Bağımsız İki Örneklem T-Testi

Ön koşullar: ① Normallik ② Varyans homojenliği ③ Bağımsızlık

Eşit varyans $$t = \frac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \qquad s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}$$

Welch T-Testi (eşit olmayan varyans) $$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$

8.3 Eşleştirilmiş (Paired) T-Testi

Aynı grubun öncesi-sonrası karşılaştırması. Farkları $d_i = x_{1i} - x_{2i}$ olarak hesaplanır.

Formül $$t = \frac{\bar{d}}{s_d / \sqrt{n}} \qquad df = n - 1$$

📏9. Z-Testi

T-testinin büyük örneklem ($n \geq 30$) ve $\sigma$ bilinen versiyonu.

Tek Örneklem $$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$

İki Oran Karşılaştırma $$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}} \qquad \hat{p} = \frac{x_1 + x_2}{n_1 + n_2}$$

T-Testi vs Z-Testi

Özellik	Z-Testi	T-Testi
$\sigma$ biliniyor mu?	Evet	Hayır
Örneklem	$n \geq 30$	Herhangi
Dağılım	$N(0,1)$	$t(df)$ — kalın kuyruklar

📊10. ANOVA

Tek Yönlü ANOVA

$k$ bağımsız grubun ortalamasını karşılaştırır.

$H_0: \mu_1 = \mu_2 = \cdots = \mu_k$
$H_1:$ En az bir ortalama farklı

F İstatistiği $$F = \frac{MSB}{MSW} = \frac{SS_B / (k-1)}{SS_W / (N-k)}$$

Kareler Toplamı $$SS_B = \sum_{i=1}^{k} n_i(\bar{x}_i - \bar{x})^2 \qquad SS_W = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2$$

Post-hoc Testler

ANOVA anlamlı çıktıysa ($p < 0.05$), hangi gruplar farklı?

Test	Kullanım
Tukey HSD	Tüm ikili karşılaştırmalar, eşit örneklem
Bonferroni	Muhafazakâr, az sayıda karşılaştırma
Scheffé	Esnek, eşit olmayan örneklem

🎲11. Ki-Kare Testi

Bağımsızlık Testi

İki kategorik değişken arasında ilişki var mı?

Test İstatistiği $$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \qquad E_{ij} = \frac{R_i \cdot C_j}{N}$$

$df = (r-1)(c-1)$ ($r$ = satır, $c$ = sütun)

Uyum İyiliği (Goodness of Fit)

Gözlenen dağılım beklenen dağılıma uyuyor mu?

Test İstatistiği $$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \qquad df = k - 1$$

📉12. Korelasyon & Regresyon

Pearson Korelasyon Katsayısı

Formül $$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \cdot \sum(y_i-\bar{y})^2}}$$

$\|r\|$	Yorum
0.00 – 0.29	Zayıf
0.30 – 0.69	Orta
0.70 – 1.00	Güçlü

Basit Doğrusal Regresyon

Model $$\hat{y} = \beta_0 + \beta_1 x$$

Katsayılar (OLS) $$\beta_1 = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2} \qquad \beta_0 = \bar{y} - \beta_1\bar{x}$$

Belirleme Katsayısı $$R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$$

Spearman Sıra Korelasyonu

Non-parametrik alternatif. Monoton (doğrusal olmayan) ilişkileri de yakalar.

Formül $$\rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)} \qquad d_i = \text{rank}(x_i) - \text{rank}(y_i)$$

🔄13. Non-Parametrik Testler

Normallik sağlanmadığında veya sıralama (ordinal) verisi olduğunda kullanılır.

Parametrik	Non-Parametrik	Durum
Bağımsız t-testi	Mann-Whitney U	2 bağımsız grup
Eşleştirilmiş t	Wilcoxon İşaretli Sıra	2 bağımlı grup
Tek yönlü ANOVA	Kruskal-Wallis	3+ bağımsız grup

Mann-Whitney U

Test İstatistiği $$U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - R_1$$

Kruskal-Wallis

H İstatistiği $$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$

📐14. Etki Büyüklüğü

p-value "fark var mı?" → Etki büyüklüğü "fark ne kadar büyük?"

Cohen's d (T-Testi)

Formül $$d = \frac{\bar{x}_1 - \bar{x}_2}{s_p} \qquad s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}$$

$\|d\|$	Yorum
0.2	Küçük etki
0.5	Orta etki
0.8	Büyük etki

Eta-Kare (ANOVA)

Formül $$\eta^2 = \frac{SS_{between}}{SS_{total}}$$

$\eta^2$	Yorum
0.01	Küçük
0.06	Orta
0.14	Büyük

⚡15. Güç Analizi

Testten ÖNCE yapılır. Hedeflenen etkiyi yakalamak için gerekli örneklem büyüklüğünü belirler.

4 Bileşen (3'ünü ver → 4.'yü hesapla)

Bileşen	Sembol	Tipik Değer
Etki büyüklüğü	$d$	0.2 / 0.5 / 0.8
Anlamlılık	$\alpha$	0.05
Güç	$1-\beta$	0.80
Örneklem	$n$	Hesaplanır

Güç (Power) $$\text{Güç} = 1 - \beta = P(\text{Gerçek farkı yakala})$$

Güç artar ↑ → $n$ artar, $d$ artar, $\alpha$ artar

🧪16. A/B Testi

Genel Akış

Hipotez kur: $H_0: p_A = p_B$
Başarı metriği belirle (conversion, CTR, revenue…)
MDE (Minimum Detectable Effect) ve örneklem büyüklüğü hesapla
Deneyi çalıştır ve yeterli veri topla
İstatistiksel testi uygula + sonuçları değerlendir

Oran Karşılaştırma Formülü

Z-Testi (İki Oran) $$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$

Lift (Yüzde İyileşme) $$\text{Lift} = \frac{\hat{p}_{test} - \hat{p}_{kontrol}}{\hat{p}_{kontrol}} \times 100\%$$

Örneklem Büyüklüğü (Oran Testi)

Yaklaşık Formül $$n \approx \frac{(z_{\alpha/2} + z_\beta)^2 \cdot [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2}$$

A/B Testi Tuzakları

Tuzak	Çözüm
Peeking (erken bakma)	Önceden $n$ belirle, bekle
Multiple testing	Bonferroni: $\alpha_{yeni} = \alpha / k$
Simpson paradoksu	Alt segment analizi yap
Novelty effect	Yeterli süre bekle (2+ hafta)
Selection bias	Doğru rastgele atama (randomization)

🧠17. Bayesian Temeller

Bayes Teoremi $$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

Genel Form $$\underbrace{P(\theta|X)}_{\text{Posterior}} = \frac{\overbrace{P(X|\theta)}^{\text{Likelihood}} \cdot \overbrace{P(\theta)}^{\text{Prior}}}{\underbrace{P(X)}_{\text{Evidence}}}$$

Örnek: Tıbbi Test Paradoksu

Test doğruluğu %99, hastalık prevalansı %1 → Test pozitif çıkarsa gerçekten hasta olma olasılığı:

$$P(H|+) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.01 \times 0.99} = 0.50 = \textbf{%50}$$

⚠️ %99 doğruluklu bir test bile nadir hastalıklarda yanıltıcı sonuç verebilir!

Frequentist vs Bayesian

Frequentist

Olasılık = uzun vadeli frekans
Parametre sabit (bilinmeyen)
Sonuç: p-value, güven aralığı
Prior bilgi kullanmaz

Bayesian

Olasılık = inanç derecesi
Parametre rastgele değişken
Sonuç: posterior, credible interval
Prior bilgiyi dahil eder

🗺️18. Hangi Testi Seçmeli? — Karar Ağacı

VERİ TİPİN NE? │ ├── Sayısal (Sürekli) │ ├── 1 Grup → Tek örneklem t-testi │ ├── 2 Grup │ │ ├── Bağımsız → Normal? → Evet: Bağımsız t | Hayır: Mann-Whitney U │ │ └── Bağımlı → Normal? → Evet: Paired t | Hayır: Wilcoxon │ └── 3+ Grup │ ├── Bağımsız → Normal? → Evet: ANOVA + Tukey | Hayır: Kruskal-Wallis │ └── Bağımlı → Tekrarlı Ölçümler ANOVA / Friedman │ ├── Kategorik (Sayım) │ ├── Tek değişken → Ki-Kare Uyum İyiliği │ └── İki değişken → Ki-Kare Bağımsızlık │ └── İlişki ├── Doğrusal? → Normal? → Pearson $r$ | Spearman $\rho$ └── Tahmin? → Regresyon (Basit / Çoklu)

Hızlı Kontrol Listesi

#	Adım	Yöntem
1	Veri tipini belirle	Sürekli / Kategorik / Ordinal
2	Dağılımı incele	Histogram, QQ-Plot
3	Normallik testi	Shapiro-Wilk
4	Varyans homojenliği	Levene testi
5	Uygun testi uygula	Karar ağacı
6	Etki büyüklüğü hesapla	Cohen's $d$, $\eta^2$
7	Sonucu raporla	$p$ + etki + güven aralığı

⚠️ Altın Kural: p-value TEK BAŞINA yeterli değildir. Her zaman etki büyüklüğü ve güven aralığı ile birlikte raporlayın!

İSTATİSTİK FORMÜL REHBERİ

📑 İçindekiler

📐1. Temel Kavramlar

Merkezi Eğilim Ölçüleri

Yayılım Ölçüleri

Şekil Ölçüleri

🔔2. Olasılık Dağılımları

Normal Dağılım (Gaussian)

Binomial Dağılım

Poisson Dağılım

📊3. Z-Skoru

Kritik Z Değerleri

🎯4. Güven Aralıkları

⚖️5. Hipotez Testi Temelleri

Adımlar

Hata Tipleri

Test Yönleri

📈6. Normallik Testleri

Shapiro-Wilk Testi

D'Agostino K² Testi

QQ-Plot (Görsel)

⚖️7. Varyans Homojenliği — Levene Testi

🔬8. T-Testi

8.1 Tek Örneklem T-Testi

8.2 Bağımsız İki Örneklem T-Testi

8.3 Eşleştirilmiş (Paired) T-Testi

📏9. Z-Testi

T-Testi vs Z-Testi

📊10. ANOVA

Tek Yönlü ANOVA

Post-hoc Testler

🎲11. Ki-Kare Testi

Bağımsızlık Testi

Uyum İyiliği (Goodness of Fit)

📉12. Korelasyon & Regresyon

Pearson Korelasyon Katsayısı

Basit Doğrusal Regresyon

Spearman Sıra Korelasyonu

🔄13. Non-Parametrik Testler

Mann-Whitney U

Kruskal-Wallis

📐14. Etki Büyüklüğü

Cohen's d (T-Testi)

Eta-Kare (ANOVA)

⚡15. Güç Analizi

4 Bileşen (3'ünü ver → 4.'yü hesapla)

🧪16. A/B Testi

Genel Akış

Oran Karşılaştırma Formülü

Örneklem Büyüklüğü (Oran Testi)

A/B Testi Tuzakları

🧠17. Bayesian Temeller

Örnek: Tıbbi Test Paradoksu

Frequentist vs Bayesian

Frequentist

Bayesian

🗺️18. Hangi Testi Seçmeli? — Karar Ağacı

Hızlı Kontrol Listesi