İSTATİSTİK FORMÜL REHBERİ
3-4 saatte tüm istatistiği tekrar etmek için • Sadece teori & formüller
Shapiro-WilkLevene
T-TestZ-Score
ANOVAKi-Kare
A/B TestRegresyon
BayesianGüç Analizi
📐1. Temel Kavramlar
Merkezi Eğilim Ölçüleri
| Ölçü |
Formül |
Ne Zaman? |
| Ortalama |
$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ |
Simetrik dağılımlarda |
| Medyan |
Sıralı verinin ortası |
Çarpık dağılım / aykırı değer |
| Mod |
En sık tekrar eden |
Kategorik veriler |
Yayılım Ölçüleri
Örneklem Varyansı
$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$
Standart Sapma
$$s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}$$
💡 n-1 (Bessel düzeltmesi): Örneklem ortalaması veriden hesaplandığı için
1 serbestlik derecesi kaybedilir.
Şekil Ölçüleri
| Ölçü |
=0 |
>0 |
<0 |
| Çarpıklık (Skewness) |
Simetrik |
Sağa çarpık |
Sola çarpık |
| Basıklık (Kurtosis) |
Normal (meso) |
Sivri (lepto) |
Basık (platy) |
🔔2. Olasılık Dağılımları
Normal Dağılım (Gaussian)
Olasılık Yoğunluk Fonksiyonu
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$
68-95-99.7 Kuralı:
| Aralık |
Kapsam |
| $\mu \pm 1\sigma$ |
%68 |
| $\mu \pm 2\sigma$ |
%95 |
| $\mu \pm 3\sigma$ |
%99.7 |
💡 Merkezi Limit Teoremi: $n \geq 30$ olduğunda, örneklem ortalamaları
$\bar{X} \sim N\!\left(\mu, \frac{\sigma^2}{n}\right)$ dağılır.
Binomial Dağılım
$n$ bağımsız deneme, her birinde başarı olasılığı $p$
PMF
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$
$E[X] = np$ $Var(X) = np(1-p)$
Poisson Dağılım
Birim zamanda/alanda nadir olay sayma ($\lambda$ = birim başına ort. olay sayısı)
PMF
$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$
$E[X] = \lambda$ $Var(X) = \lambda$
📊3. Z-Skoru
Bir değerin ortalamadan kaç standart sapma uzakta olduğunu gösterir. Farklı ölçekleri karşılaştırılabilir
yapar.
Tek Değer
$$z = \frac{x - \mu}{\sigma}$$
Örneklem Ortalaması
$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$
Kritik Z Değerleri
| $z$ |
Tek Taraflı $P$ |
Çift Taraflı $P$ |
| $1.645$ |
$0.050$ |
$0.100$ |
| $1.960$ |
$0.025$ |
$0.050$ |
| $2.576$ |
$0.005$ |
$0.010$ |
Z'den olasılık: $P(Z < z)=\Phi(z)$ | Olasılıktan Z: $z =
\Phi^{-1}(p)$
🎯4. Güven Aralıkları
σ biliniyor veya n ≥ 30
$$\text{GA} = \bar{x} \pm z^* \cdot \frac{\sigma}{\sqrt{n}}$$
σ bilinmiyor ve n < 30
$$\text{GA} = \bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$$
| Güven Düzeyi |
$z^*$ |
| %90 |
1.645 |
| %95 |
1.960 |
| %99 |
2.576 |
Oran için Güven Aralığı
$$\hat{p} \pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
💡 Yorum: "%95 güven aralığı" = bu yöntemi sonsuz kez uygulasak, oluşan
aralıkların %95'i gerçek parametreyi içerir.
⚖️5. Hipotez Testi Temelleri
Adımlar
- $H_0$ (Sıfır hipotez): Fark yok / etki yok
- $H_1$ (Alternatif): Fark var / etki var
- Anlamlılık düzeyi belirle: $\alpha = 0.05$
- Test istatistiği hesapla ($z$, $t$, $\chi^2$, $F$ ...)
- p-value bul
- Karar: $p < \alpha \Rightarrow H_0$ red | $p \geq \alpha \Rightarrow
H_0$ reddedilemez
Hata Tipleri
|
$H_0$ Doğru |
$H_0$ Yanlış |
| $H_0$ Reddet |
❌ Tip I Hata ($\alpha$) |
✅ Doğru Karar (Güç $= 1-\beta$) |
| $H_0$ Reddetme |
✅ Doğru Karar |
❌ Tip II Hata ($\beta$) |
Test Yönleri
| Yön |
$H_1$ |
Ne Zaman? |
| Çift taraflı |
$\mu \neq \mu_0$ |
Farkın yönü önemsiz |
| Sağ taraflı |
$\mu > \mu_0$ |
Artış bekleniyor |
| Sol taraflı |
$\mu < \mu_0$ |
Azalış bekleniyor |
📈6. Normallik Testleri
Shapiro-Wilk Testi
En güvenilir normallik testi ($n < 5000$)
Test İstatistiği
$$W = \frac{\left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$
- $H_0$: Veri normal dağılımdan geliyor
- $H_1$: Normal dağılımdan gelmiyor
- $p > 0.05 \Rightarrow$ Normal kabul et ✅
D'Agostino K² Testi
Çarpıklık ve basıklığı birlikte test eder. Büyük örneklemlerde daha uygun.
QQ-Plot (Görsel)
Verinin kuantilleri ile normal dağılım kuantillerini karşılaştırır. Noktalar doğru üzerindeyse →
normal.
💡 Pratik: $n > 30$ ise CLT gereği parametrik testler çoğunlukla
kullanılabilir (hafif normallik ihlali tolere edilir).
⚖️7. Varyans Homojenliği — Levene Testi
Grupların varyanslarının eşit olup olmadığını test eder. T-testi ve ANOVA'nın ön
koşuludur.
Levene İstatistiği
$$W = \frac{(N-k)}{(k-1)} \cdot \frac{\sum_{i=1}^{k} n_i (\bar{Z}_{i\cdot} -
\bar{Z}_{\cdot\cdot})^2}{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(Z_{ij} - \bar{Z}_{i\cdot})^2}$$
$Z_{ij} = |x_{ij} - \tilde{x}_i|$
(medyandan mutlak sapma)
- $H_0$: $\sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2$
- $p > 0.05 \Rightarrow$ Varyanslar homojen ✅
| Test |
Avantaj |
Dezavantaj |
| Levene |
Normallik varsaymaz, robust |
Biraz daha az güçlü |
| Bartlett |
Normal dağılımda daha güçlü |
Normallik ihlallerine hassas |
⚠️ Homojen değilse: T-testi için Welch düzeltmesi
(equal_var=False), ANOVA yerine Welch ANOVA veya Kruskal-Wallis kullanın.
🔬8. T-Testi
8.1 Tek Örneklem T-Testi
Bir grubun ortalamasını bilinen bir değerle karşılaştırır.
Formül
$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \qquad df = n - 1$$
8.2 Bağımsız İki Örneklem T-Testi
Ön koşullar: ① Normallik ② Varyans homojenliği ③ Bağımsızlık
Eşit varyans
$$t = \frac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \qquad s_p =
\sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}$$
Welch T-Testi (eşit olmayan varyans)
$$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$
8.3 Eşleştirilmiş (Paired) T-Testi
Aynı grubun öncesi-sonrası karşılaştırması. Farkları $d_i = x_{1i} - x_{2i}$ olarak hesaplanır.
Formül
$$t = \frac{\bar{d}}{s_d / \sqrt{n}} \qquad df = n - 1$$
📏9. Z-Testi
T-testinin büyük örneklem ($n \geq 30$) ve $\sigma$ bilinen versiyonu.
Tek Örneklem
$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$
İki Oran Karşılaştırma
$$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}
\qquad \hat{p} = \frac{x_1 + x_2}{n_1 + n_2}$$
T-Testi vs Z-Testi
| Özellik |
Z-Testi |
T-Testi |
| $\sigma$ biliniyor mu? |
Evet |
Hayır |
| Örneklem |
$n \geq 30$ |
Herhangi |
| Dağılım |
$N(0,1)$ |
$t(df)$ — kalın kuyruklar |
📊10. ANOVA
Tek Yönlü ANOVA
$k$ bağımsız grubun ortalamasını karşılaştırır.
- $H_0: \mu_1 = \mu_2 = \cdots = \mu_k$
- $H_1:$ En az bir ortalama farklı
F İstatistiği
$$F = \frac{MSB}{MSW} = \frac{SS_B / (k-1)}{SS_W / (N-k)}$$
Kareler Toplamı
$$SS_B = \sum_{i=1}^{k} n_i(\bar{x}_i - \bar{x})^2 \qquad SS_W = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij} -
\bar{x}_i)^2$$
Post-hoc Testler
ANOVA anlamlı çıktıysa ($p < 0.05$), hangi gruplar farklı?
| Test |
Kullanım |
| Tukey HSD |
Tüm ikili karşılaştırmalar, eşit örneklem |
| Bonferroni |
Muhafazakâr, az sayıda karşılaştırma |
| Scheffé |
Esnek, eşit olmayan örneklem |
🎲11. Ki-Kare Testi
Bağımsızlık Testi
İki kategorik değişken arasında ilişki var mı?
Test İstatistiği
$$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \qquad E_{ij} = \frac{R_i \cdot C_j}{N}$$
$df = (r-1)(c-1)$ ($r$ = satır, $c$ = sütun)
Uyum İyiliği (Goodness of Fit)
Gözlenen dağılım beklenen dağılıma uyuyor mu?
Test İstatistiği
$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \qquad df = k - 1$$
📉12. Korelasyon & Regresyon
Pearson Korelasyon Katsayısı
Formül
$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \cdot \sum(y_i-\bar{y})^2}}$$
| $|r|$ |
Yorum |
| 0.00 – 0.29 |
Zayıf |
| 0.30 – 0.69 |
Orta |
| 0.70 – 1.00 |
Güçlü |
Basit Doğrusal Regresyon
Model
$$\hat{y} = \beta_0 + \beta_1 x$$
Katsayılar (OLS)
$$\beta_1 = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2} \qquad \beta_0 = \bar{y} -
\beta_1\bar{x}$$
Belirleme Katsayısı
$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$$
Spearman Sıra Korelasyonu
Non-parametrik alternatif. Monoton (doğrusal olmayan) ilişkileri de yakalar.
Formül
$$\rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)} \qquad d_i = \text{rank}(x_i) - \text{rank}(y_i)$$
🔄13. Non-Parametrik Testler
Normallik sağlanmadığında veya sıralama (ordinal) verisi olduğunda kullanılır.
| Parametrik |
Non-Parametrik |
Durum |
| Bağımsız t-testi |
Mann-Whitney U |
2 bağımsız grup |
| Eşleştirilmiş t |
Wilcoxon İşaretli Sıra |
2 bağımlı grup |
| Tek yönlü ANOVA |
Kruskal-Wallis |
3+ bağımsız grup |
Mann-Whitney U
Test İstatistiği
$$U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - R_1$$
Kruskal-Wallis
H İstatistiği
$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$
📐14. Etki Büyüklüğü
p-value "fark var mı?" → Etki büyüklüğü "fark ne kadar büyük?"
Cohen's d (T-Testi)
Formül
$$d = \frac{\bar{x}_1 - \bar{x}_2}{s_p} \qquad s_p = \sqrt{\frac{(n_1-1)s_1^2 +
(n_2-1)s_2^2}{n_1+n_2-2}}$$
| $|d|$ |
Yorum |
| 0.2 |
Küçük etki |
| 0.5 |
Orta etki |
| 0.8 |
Büyük etki |
Eta-Kare (ANOVA)
Formül
$$\eta^2 = \frac{SS_{between}}{SS_{total}}$$
| $\eta^2$ |
Yorum |
| 0.01 |
Küçük |
| 0.06 |
Orta |
| 0.14 |
Büyük |
⚡15. Güç Analizi
Testten ÖNCE yapılır. Hedeflenen etkiyi yakalamak için gerekli örneklem büyüklüğünü
belirler.
4 Bileşen (3'ünü ver → 4.'yü hesapla)
| Bileşen |
Sembol |
Tipik Değer |
| Etki büyüklüğü |
$d$ |
0.2 / 0.5 / 0.8 |
| Anlamlılık |
$\alpha$ |
0.05 |
| Güç |
$1-\beta$ |
0.80 |
| Örneklem |
$n$ |
Hesaplanır |
Güç (Power)
$$\text{Güç} = 1 - \beta = P(\text{Gerçek farkı yakala})$$
Güç artar ↑ → $n$ artar, $d$ artar, $\alpha$ artar
🧪16. A/B Testi
Genel Akış
- Hipotez kur: $H_0: p_A = p_B$
- Başarı metriği belirle (conversion, CTR, revenue…)
- MDE (Minimum Detectable Effect) ve örneklem büyüklüğü hesapla
- Deneyi çalıştır ve yeterli veri topla
- İstatistiksel testi uygula + sonuçları değerlendir
Oran Karşılaştırma Formülü
Z-Testi (İki Oran)
$$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$
Lift (Yüzde İyileşme)
$$\text{Lift} = \frac{\hat{p}_{test} - \hat{p}_{kontrol}}{\hat{p}_{kontrol}} \times 100\%$$
Örneklem Büyüklüğü (Oran Testi)
Yaklaşık Formül
$$n \approx \frac{(z_{\alpha/2} + z_\beta)^2 \cdot [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2}$$
A/B Testi Tuzakları
| Tuzak |
Çözüm |
| Peeking (erken bakma) |
Önceden $n$ belirle, bekle |
| Multiple testing |
Bonferroni: $\alpha_{yeni} = \alpha / k$ |
| Simpson paradoksu |
Alt segment analizi yap |
| Novelty effect |
Yeterli süre bekle (2+ hafta) |
| Selection bias |
Doğru rastgele atama (randomization) |
🧠17. Bayesian Temeller
Bayes Teoremi
$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$
Genel Form
$$\underbrace{P(\theta|X)}_{\text{Posterior}} = \frac{\overbrace{P(X|\theta)}^{\text{Likelihood}} \cdot
\overbrace{P(\theta)}^{\text{Prior}}}{\underbrace{P(X)}_{\text{Evidence}}}$$
Örnek: Tıbbi Test Paradoksu
Test doğruluğu %99, hastalık prevalansı %1 → Test pozitif çıkarsa gerçekten hasta olma olasılığı:
$$P(H|+) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.01 \times 0.99} = 0.50 = \textbf{%50}$$
⚠️ %99 doğruluklu bir test bile nadir hastalıklarda yanıltıcı sonuç
verebilir!
Frequentist vs Bayesian
Frequentist
- Olasılık = uzun vadeli frekans
- Parametre sabit (bilinmeyen)
- Sonuç: p-value, güven aralığı
- Prior bilgi kullanmaz
Bayesian
- Olasılık = inanç derecesi
- Parametre rastgele değişken
- Sonuç: posterior, credible interval
- Prior bilgiyi dahil eder
🗺️18. Hangi Testi Seçmeli? — Karar Ağacı
VERİ TİPİN NE?
│
├── Sayısal (Sürekli)
│ ├── 1 Grup → Tek örneklem t-testi
│ ├── 2 Grup
│ │ ├── Bağımsız → Normal? → Evet: Bağımsız t | Hayır: Mann-Whitney U
│ │ └── Bağımlı → Normal? → Evet: Paired t | Hayır: Wilcoxon
│ └── 3+ Grup
│ ├── Bağımsız → Normal? → Evet: ANOVA + Tukey | Hayır: Kruskal-Wallis
│ └── Bağımlı → Tekrarlı Ölçümler ANOVA / Friedman
│
├── Kategorik (Sayım)
│ ├── Tek değişken → Ki-Kare Uyum İyiliği
│ └── İki değişken → Ki-Kare Bağımsızlık
│
└── İlişki
├── Doğrusal? → Normal? → Pearson $r$ | Spearman $\rho$
└── Tahmin? → Regresyon (Basit / Çoklu)
Hızlı Kontrol Listesi
| # |
Adım |
Yöntem |
| 1 |
Veri tipini belirle |
Sürekli / Kategorik / Ordinal |
| 2 |
Dağılımı incele |
Histogram, QQ-Plot |
| 3 |
Normallik testi |
Shapiro-Wilk |
| 4 |
Varyans homojenliği |
Levene testi |
| 5 |
Uygun testi uygula |
Karar ağacı |
| 6 |
Etki büyüklüğü hesapla |
Cohen's $d$, $\eta^2$ |
| 7 |
Sonucu raporla |
$p$ + etki + güven aralığı |
⚠️ Altın Kural: p-value TEK BAŞINA yeterli değildir. Her zaman
etki büyüklüğü ve güven aralığı ile birlikte raporlayın!