İstatistiksel Anlamlılık: Alfa Düzeyi, p-Değeri ve Test Gücü Üzerinden İnceleme
- Nominal Analiz
- 4 Ağu
- 2 dakikada okunur
Temel Kavramlar ve Hipotezler
Araştırmalarda, gözlenen bir farklılığın ya da ilişkinin gerçek mi yoksa tesadüfi mi olduğunu belirlemek için iki karşıt hipotez kurulur.
Bunlar “yokluk hipotezi” (H₀) ile “araştırma hipotezi” (H₁) olarak adlandırılır.
H₀, veride anlamlı bir fark ya da ilişki olmadığını; H₁ ise farkın veya ilişkinin gerçekten var olduğunu ileri sürer.
İstatistiksel anlamlılık, H₀’ı ne ölçüde güvenle reddedebileceğimizi gösterir.

Alfa Düzeyi ve Tip I Hata
Araştırmacı, H₀’ı reddetme kararını vermeden önce kabul edeceği maksimum yanlış red (Tip I) hatası oranını belirler. Buna “anlamlılık düzeyi” ya da alfa (α) denir. α = 0,05 seçildiğinde, gerçekte fark yokken %5 olasılıkla H₀’ı yanlışlıkla reddetme riski kabul edilmiş olur.
Daha düşük alfa değerleri (örneğin 0,01) hata riskini azaltırken, aynı anda testin gücünü de düşürebilir.
p-Değeri ve Yorumlanışı
p-değeri, H₀ doğru iken gözlenen veya daha uç bir etkinin elde edilme olasılığını verir.
p yaklaştıkça 0, etkinin şanstan kaynaklanma ihtimali azalır; p yaklaştıkça 1 ise elde edilen farkın tamamen tesadüfi olduğu anlaşılır.
H₀’ı reddetmek için p, önceden belirlenen alfa düzeyinden küçük olmalıdır (örneğin p < 0,05).
Ancak p değeri tek başına etkinin büyüklüğünü ya da araştırmanın pratik önemini göstermez.
Etki Büyüklüğü ve Güven Aralığı
Anlamlı bir p sonucu, yalnızca farkın tesadüfi olmadığını kanıtlar. Etkinin ne kadar büyük olduğunu ölçmek için etki büyüklüğü (örneğin Cohen’s d, Pearson r, η²) hesaplanmalıdır.
Etki büyüklüğü; küçük, orta ve büyük olmak üzere yorumlanabilir. Bunun yanı sıra %95 güven aralığı, parametrik tahminlerin belirsizlik sınırlarını sunarak elde edilen değerin tutarlılığını gösterir.

Testin Gücü (Power) ve Tip II Hata
Test gücü, H₁ gerçek olduğunda H₀’ı reddetme olasılığıdır. Genellikle en az 0,80 (yani %80) olarak hedeflenir. Test gücü, örneklem büyüklüğü, etki büyüklüğü ve alfa düzeyine bağlıdır.
Yetersiz güç, gerçek bir fark varken H₀’ı reddedememe (Tip II hata) riskini artırır. Araştırma tasarımı aşamasında prior power analizi yaparak gerekli örneklem büyüklüğünü belirlemek, sonuçların güvenilirliğini yükseltir.
Çoklu Karşılaştırmalar ve Düzeltme Yöntemleri
Birden çok hipotez testi yapıldığında, her test için ayrı alfa kullanmak toplam Tip I hata oranını yükseltir.
Bonferroni, Holm veya Benjamini–Hochberg gibi düzeltme yöntemleri, aile-hatası oranını kontrol altında tutar.
Bu yöntemler, anlamlılık düzeyini her teste uygun şekilde ayarlayarak yanlış pozitif sonuç riskini düşürür.

Raporlama Prensipleri
Araştırma bulguları paylaşılırken yalnızca “p < 0,05” ifadesine yaslanmak yetersiz kalır. Aşağıdaki unsurların eksiksiz sunulması, istatistiksel açıklayıcılığı güçlendirir:
Tam p değeri (örneğin p = 0,032)
Etki büyüklüğü ölçüsü ve yorum seviyesi
%95 güven aralığı
Testin gücü ve uygulanan çoklu karşılaştırma düzeltmesi
Kullanılan testin adı ve varsayımların sağlanıp sağlanmadığı
Uygulamada Dikkat Edilmesi Gerekenler
p-hacking’den kaçınma: Analizleri tekrar tekrar çalıştırarak yalnızca anlamlı çıkan sonuçları raporlamak, bilimsel güvenilirliği zedeler.
Tek eşiğe odaklanmama: p değeri 0,049 ile 0,051 arasında pratik açıdan bir fark yoktur; klinik ve teorik bağlam her zaman göz önünde bulundurulmalıdır.
Örneklem temsiliyetinin önemi: Küçük veya önyargılı örneklemler, genellenebilirliği kısıtlar.
Veri görselleştirme: Ortalama±GA çizimleri, kutu grafikleri veya dağılım grafikleri ile sonuçlar somutlaştırılmalı; metinsel ifadeler görsellerle desteklenmelidir.
İstatistiksel anlamlılık, araştırma sorularına yanıt verirken kritik bir araç olmasına karşın doğru yorum ve kapsamlı raporlama gerektirir.
Alfa düzeyi ve p değeri, etki büyüklüğü ve güven aralığı ile birlikte değerlendirilmeli; test gücü ve çoklu karşılaştırma düzeltmeleri titizlikle uygulanmalıdır. Bu bütüncül yaklaşım, bulguların hem istatistiksel hem de bilimsel açıdan sağlam temellere dayanmasını sağlar.
Yorumlar