İSTATİSTİK FORMÜL REHBERİ

3-4 saatte tüm istatistiği tekrar etmek için • Sadece teori & formüller

Shapiro-WilkLevene T-TestZ-Score ANOVAKi-Kare A/B TestRegresyon BayesianGüç Analizi

📑 İçindekiler

📐1. Temel Kavramlar

Merkezi Eğilim Ölçüleri

Ölçü Formül Ne Zaman?
Ortalama $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ Simetrik dağılımlarda
Medyan Sıralı verinin ortası Çarpık dağılım / aykırı değer
Mod En sık tekrar eden Kategorik veriler

Yayılım Ölçüleri

Örneklem Varyansı $$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$
Standart Sapma $$s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}$$
💡 n-1 (Bessel düzeltmesi): Örneklem ortalaması veriden hesaplandığı için 1 serbestlik derecesi kaybedilir.

Şekil Ölçüleri

Ölçü =0 >0 <0
Çarpıklık (Skewness) Simetrik Sağa çarpık Sola çarpık
Basıklık (Kurtosis) Normal (meso) Sivri (lepto) Basık (platy)

🔔2. Olasılık Dağılımları

Normal Dağılım (Gaussian)

Olasılık Yoğunluk Fonksiyonu $$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

68-95-99.7 Kuralı:

Aralık Kapsam
$\mu \pm 1\sigma$ %68
$\mu \pm 2\sigma$ %95
$\mu \pm 3\sigma$ %99.7
💡 Merkezi Limit Teoremi: $n \geq 30$ olduğunda, örneklem ortalamaları $\bar{X} \sim N\!\left(\mu, \frac{\sigma^2}{n}\right)$ dağılır.

Binomial Dağılım

$n$ bağımsız deneme, her birinde başarı olasılığı $p$

PMF $$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$

$E[X] = np$    $Var(X) = np(1-p)$

Poisson Dağılım

Birim zamanda/alanda nadir olay sayma ($\lambda$ = birim başına ort. olay sayısı)

PMF $$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$

$E[X] = \lambda$    $Var(X) = \lambda$


📊3. Z-Skoru

Bir değerin ortalamadan kaç standart sapma uzakta olduğunu gösterir. Farklı ölçekleri karşılaştırılabilir yapar.

Tek Değer $$z = \frac{x - \mu}{\sigma}$$
Örneklem Ortalaması $$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$

Kritik Z Değerleri

$z$ Tek Taraflı $P$ Çift Taraflı $P$
$1.645$ $0.050$ $0.100$
$1.960$ $0.025$ $0.050$
$2.576$ $0.005$ $0.010$

Z'den olasılık: $P(Z < z)=\Phi(z)$  |  Olasılıktan Z: $z = \Phi^{-1}(p)$


🎯4. Güven Aralıkları

σ biliniyor veya n ≥ 30 $$\text{GA} = \bar{x} \pm z^* \cdot \frac{\sigma}{\sqrt{n}}$$
σ bilinmiyor ve n < 30 $$\text{GA} = \bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$$
Güven Düzeyi $z^*$
%90 1.645
%95 1.960
%99 2.576
Oran için Güven Aralığı $$\hat{p} \pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
💡 Yorum: "%95 güven aralığı" = bu yöntemi sonsuz kez uygulasak, oluşan aralıkların %95'i gerçek parametreyi içerir.

⚖️5. Hipotez Testi Temelleri

Adımlar

  1. $H_0$ (Sıfır hipotez): Fark yok / etki yok
  2. $H_1$ (Alternatif): Fark var / etki var
  3. Anlamlılık düzeyi belirle: $\alpha = 0.05$
  4. Test istatistiği hesapla ($z$, $t$, $\chi^2$, $F$ ...)
  5. p-value bul
  6. Karar: $p < \alpha \Rightarrow H_0$ red  |  $p \geq \alpha \Rightarrow H_0$ reddedilemez

Hata Tipleri

$H_0$ Doğru $H_0$ Yanlış
$H_0$ Reddet ❌ Tip I Hata ($\alpha$) ✅ Doğru Karar (Güç $= 1-\beta$)
$H_0$ Reddetme ✅ Doğru Karar ❌ Tip II Hata ($\beta$)

Test Yönleri

Yön $H_1$ Ne Zaman?
Çift taraflı $\mu \neq \mu_0$ Farkın yönü önemsiz
Sağ taraflı $\mu > \mu_0$ Artış bekleniyor
Sol taraflı $\mu < \mu_0$ Azalış bekleniyor

📈6. Normallik Testleri

Shapiro-Wilk Testi

En güvenilir normallik testi ($n < 5000$)

Test İstatistiği $$W = \frac{\left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

D'Agostino K² Testi

Çarpıklık ve basıklığı birlikte test eder. Büyük örneklemlerde daha uygun.

QQ-Plot (Görsel)

Verinin kuantilleri ile normal dağılım kuantillerini karşılaştırır. Noktalar doğru üzerindeyse → normal.

💡 Pratik: $n > 30$ ise CLT gereği parametrik testler çoğunlukla kullanılabilir (hafif normallik ihlali tolere edilir).

⚖️7. Varyans Homojenliği — Levene Testi

Grupların varyanslarının eşit olup olmadığını test eder. T-testi ve ANOVA'nın ön koşuludur.

Levene İstatistiği $$W = \frac{(N-k)}{(k-1)} \cdot \frac{\sum_{i=1}^{k} n_i (\bar{Z}_{i\cdot} - \bar{Z}_{\cdot\cdot})^2}{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(Z_{ij} - \bar{Z}_{i\cdot})^2}$$

$Z_{ij} = |x_{ij} - \tilde{x}_i|$   (medyandan mutlak sapma)

Test Avantaj Dezavantaj
Levene Normallik varsaymaz, robust Biraz daha az güçlü
Bartlett Normal dağılımda daha güçlü Normallik ihlallerine hassas
⚠️ Homojen değilse: T-testi için Welch düzeltmesi (equal_var=False), ANOVA yerine Welch ANOVA veya Kruskal-Wallis kullanın.

🔬8. T-Testi

8.1 Tek Örneklem T-Testi

Bir grubun ortalamasını bilinen bir değerle karşılaştırır.

Formül $$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \qquad df = n - 1$$

8.2 Bağımsız İki Örneklem T-Testi

Ön koşullar: ① Normallik   ② Varyans homojenliği   ③ Bağımsızlık

Eşit varyans $$t = \frac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \qquad s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}$$
Welch T-Testi (eşit olmayan varyans) $$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$

8.3 Eşleştirilmiş (Paired) T-Testi

Aynı grubun öncesi-sonrası karşılaştırması. Farkları $d_i = x_{1i} - x_{2i}$ olarak hesaplanır.

Formül $$t = \frac{\bar{d}}{s_d / \sqrt{n}} \qquad df = n - 1$$

📏9. Z-Testi

T-testinin büyük örneklem ($n \geq 30$) ve $\sigma$ bilinen versiyonu.

Tek Örneklem $$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$
İki Oran Karşılaştırma $$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}} \qquad \hat{p} = \frac{x_1 + x_2}{n_1 + n_2}$$

T-Testi vs Z-Testi

Özellik Z-Testi T-Testi
$\sigma$ biliniyor mu? Evet Hayır
Örneklem $n \geq 30$ Herhangi
Dağılım $N(0,1)$ $t(df)$ — kalın kuyruklar

📊10. ANOVA

Tek Yönlü ANOVA

$k$ bağımsız grubun ortalamasını karşılaştırır.

F İstatistiği $$F = \frac{MSB}{MSW} = \frac{SS_B / (k-1)}{SS_W / (N-k)}$$
Kareler Toplamı $$SS_B = \sum_{i=1}^{k} n_i(\bar{x}_i - \bar{x})^2 \qquad SS_W = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2$$

Post-hoc Testler

ANOVA anlamlı çıktıysa ($p < 0.05$), hangi gruplar farklı?

Test Kullanım
Tukey HSD Tüm ikili karşılaştırmalar, eşit örneklem
Bonferroni Muhafazakâr, az sayıda karşılaştırma
Scheffé Esnek, eşit olmayan örneklem

🎲11. Ki-Kare Testi

Bağımsızlık Testi

İki kategorik değişken arasında ilişki var mı?

Test İstatistiği $$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \qquad E_{ij} = \frac{R_i \cdot C_j}{N}$$

$df = (r-1)(c-1)$   ($r$ = satır, $c$ = sütun)

Uyum İyiliği (Goodness of Fit)

Gözlenen dağılım beklenen dağılıma uyuyor mu?

Test İstatistiği $$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \qquad df = k - 1$$

📉12. Korelasyon & Regresyon

Pearson Korelasyon Katsayısı

Formül $$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \cdot \sum(y_i-\bar{y})^2}}$$
$|r|$ Yorum
0.00 – 0.29 Zayıf
0.30 – 0.69 Orta
0.70 – 1.00 Güçlü

Basit Doğrusal Regresyon

Model $$\hat{y} = \beta_0 + \beta_1 x$$
Katsayılar (OLS) $$\beta_1 = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2} \qquad \beta_0 = \bar{y} - \beta_1\bar{x}$$
Belirleme Katsayısı $$R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$$

Spearman Sıra Korelasyonu

Non-parametrik alternatif. Monoton (doğrusal olmayan) ilişkileri de yakalar.

Formül $$\rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)} \qquad d_i = \text{rank}(x_i) - \text{rank}(y_i)$$

🔄13. Non-Parametrik Testler

Normallik sağlanmadığında veya sıralama (ordinal) verisi olduğunda kullanılır.

Parametrik Non-Parametrik Durum
Bağımsız t-testi Mann-Whitney U 2 bağımsız grup
Eşleştirilmiş t Wilcoxon İşaretli Sıra 2 bağımlı grup
Tek yönlü ANOVA Kruskal-Wallis 3+ bağımsız grup

Mann-Whitney U

Test İstatistiği $$U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - R_1$$

Kruskal-Wallis

H İstatistiği $$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$

📐14. Etki Büyüklüğü

p-value "fark var mı?" → Etki büyüklüğü "fark ne kadar büyük?"

Cohen's d (T-Testi)

Formül $$d = \frac{\bar{x}_1 - \bar{x}_2}{s_p} \qquad s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}$$
$|d|$ Yorum
0.2 Küçük etki
0.5 Orta etki
0.8 Büyük etki

Eta-Kare (ANOVA)

Formül $$\eta^2 = \frac{SS_{between}}{SS_{total}}$$
$\eta^2$ Yorum
0.01 Küçük
0.06 Orta
0.14 Büyük

15. Güç Analizi

Testten ÖNCE yapılır. Hedeflenen etkiyi yakalamak için gerekli örneklem büyüklüğünü belirler.

4 Bileşen (3'ünü ver → 4.'yü hesapla)

Bileşen Sembol Tipik Değer
Etki büyüklüğü $d$ 0.2 / 0.5 / 0.8
Anlamlılık $\alpha$ 0.05
Güç $1-\beta$ 0.80
Örneklem $n$ Hesaplanır
Güç (Power) $$\text{Güç} = 1 - \beta = P(\text{Gerçek farkı yakala})$$

Güç artar ↑  →  $n$ artar, $d$ artar, $\alpha$ artar


🧪16. A/B Testi

Genel Akış

  1. Hipotez kur: $H_0: p_A = p_B$
  2. Başarı metriği belirle (conversion, CTR, revenue…)
  3. MDE (Minimum Detectable Effect) ve örneklem büyüklüğü hesapla
  4. Deneyi çalıştır ve yeterli veri topla
  5. İstatistiksel testi uygula + sonuçları değerlendir

Oran Karşılaştırma Formülü

Z-Testi (İki Oran) $$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$
Lift (Yüzde İyileşme) $$\text{Lift} = \frac{\hat{p}_{test} - \hat{p}_{kontrol}}{\hat{p}_{kontrol}} \times 100\%$$

Örneklem Büyüklüğü (Oran Testi)

Yaklaşık Formül $$n \approx \frac{(z_{\alpha/2} + z_\beta)^2 \cdot [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2}$$

A/B Testi Tuzakları

Tuzak Çözüm
Peeking (erken bakma) Önceden $n$ belirle, bekle
Multiple testing Bonferroni: $\alpha_{yeni} = \alpha / k$
Simpson paradoksu Alt segment analizi yap
Novelty effect Yeterli süre bekle (2+ hafta)
Selection bias Doğru rastgele atama (randomization)

🧠17. Bayesian Temeller

Bayes Teoremi $$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$
Genel Form $$\underbrace{P(\theta|X)}_{\text{Posterior}} = \frac{\overbrace{P(X|\theta)}^{\text{Likelihood}} \cdot \overbrace{P(\theta)}^{\text{Prior}}}{\underbrace{P(X)}_{\text{Evidence}}}$$

Örnek: Tıbbi Test Paradoksu

Test doğruluğu %99, hastalık prevalansı %1 → Test pozitif çıkarsa gerçekten hasta olma olasılığı:

$$P(H|+) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.01 \times 0.99} = 0.50 = \textbf{%50}$$
⚠️ %99 doğruluklu bir test bile nadir hastalıklarda yanıltıcı sonuç verebilir!

Frequentist vs Bayesian

Frequentist

  • Olasılık = uzun vadeli frekans
  • Parametre sabit (bilinmeyen)
  • Sonuç: p-value, güven aralığı
  • Prior bilgi kullanmaz

Bayesian

  • Olasılık = inanç derecesi
  • Parametre rastgele değişken
  • Sonuç: posterior, credible interval
  • Prior bilgiyi dahil eder

🗺️18. Hangi Testi Seçmeli? — Karar Ağacı

VERİ TİPİN NE? │ ├── Sayısal (Sürekli) │ ├── 1 Grup → Tek örneklem t-testi │ ├── 2 Grup │ │ ├── Bağımsız → Normal? → Evet: Bağımsız t | Hayır: Mann-Whitney U │ │ └── Bağımlı → Normal? → Evet: Paired t | Hayır: Wilcoxon │ └── 3+ Grup │ ├── Bağımsız → Normal? → Evet: ANOVA + Tukey | Hayır: Kruskal-Wallis │ └── Bağımlı → Tekrarlı Ölçümler ANOVA / Friedman │ ├── Kategorik (Sayım) │ ├── Tek değişken → Ki-Kare Uyum İyiliği │ └── İki değişken → Ki-Kare Bağımsızlık │ └── İlişki ├── Doğrusal? → Normal? → Pearson $r$ | Spearman $\rho$ └── Tahmin? → Regresyon (Basit / Çoklu)

Hızlı Kontrol Listesi

# Adım Yöntem
1 Veri tipini belirle Sürekli / Kategorik / Ordinal
2 Dağılımı incele Histogram, QQ-Plot
3 Normallik testi Shapiro-Wilk
4 Varyans homojenliği Levene testi
5 Uygun testi uygula Karar ağacı
6 Etki büyüklüğü hesapla Cohen's $d$, $\eta^2$
7 Sonucu raporla $p$ + etki + güven aralığı
⚠️ Altın Kural: p-value TEK BAŞINA yeterli değildir. Her zaman etki büyüklüğü ve güven aralığı ile birlikte raporlayın!