Frekanscı ve Bayesci İstatistiğin Karşılaştırılması
Hangi istatistiksel yaklaşım olduğundan bağımsız olarak, herhangi bir istatistiksel çıkarım paradigması aşağıdaki şeylerle ilgilenir:
-
Öğrenmek veya test etmekle ilgilendiğimiz bazı bilinmeyen çokluklar (quantity). Bunlar parametre olarak adlandırılır.
-
Gözlemlediğimiz ve bilgi içermesini ümit ettiğimiz bazı veriler.
-
Veriler ve parametreler arasında ilişki kurmamıza yardım edecek modeller.
Frekansçı bakış açısına göre:
- Veriler rasgeledir, çünkü veriler stokastik süreçlerin (random processes) bir sonucudur.
- Model parametreleri sabit (fixed) kabul edilir. Bir parametrenin gerçek değeri bir bilinmeyen ve sabittir.
Bayesci bakış açısına göre:
- Veriler sabittir. Veriler rasgele olsalar bile, bir kez gözlemlendikten sonra değişmezler.
- Model parametreleri rasgele olmayabilirler, ancak Bayesciler parametre değerlerindeki belirsizlikleri tanımlamak için olasılık dağılımlarını kullanırlar, ve bu nedenle parametreler rasgele olarak değerlendirilir.
Örnek 1. Bayesci bilardo oyunu olarak da bilinen oyun aşağıdaki gibi tanımlanır:
Alice ve Bob bir odaya girerler. Perdenin arkasında göremedikleri bir bilardo masası vardır. Arkadaşları Carol masaya bir top atar ve nereye indiğini işaretler. Daha sonra Carol masaya toplar atmaya başlar ve, eğer bir top işaretli noktanın soluna düşerse Alice 1 puan alır, sağına düşerse Bob 1 puan alır. Carol’un yansız olduğunu varsayalım. 6 puana ilk ulaşan kişi oyunu kazanır.
İşaretin konumu, sonraki atışların sonucunu belirleme de önemli bir unsurdur. Eğer ilk atış sağa doğru düşerse, sonraki atışlar Alice’in lehine olacaktır. Tersine, ilk atış sola doğru düşerse, sonraki atışlar Bob’un lehine olacaktır.
Bir oyunda, 8 atıştan sonra, Alice 5 ve Bob 3 puana sahip olsun. Bu oyunu Bob’un kazanma şansı nedir?
Çözüm
Bob’un 3 kere üst üste kazanma şansını hesaplayacağız.
-
Frekanscı yaklaşım
İşaretin konumu için bir tahmin yapmamız gerekir. İşaretin konumunu Alice’in lehine sonuçlanan atış sayısı ile belirlersek, parametresinin maksimum olabilirlik tahmini
olur. Bunu ve binom dağılımını kullanırsak (Binom dağılımı, başarı olasılığı p, başarısızlık olasılığı 1-p olmak üzere, N denemede n tane başarı elde etme olasılığını verir),
olarak bulunur. Yani Bob’un bu oyunda kazanma olasılığı %5’dir.
-
Bayesci yaklaşım
İlk olarak bazı tanımlamalar yapalım:
- : Bob kazanır,
- : Gözlemlenen veri, ,
- : Topun Alice’in tarafına düşme olasılığı
olasılığını hesaplamak istiyoruz; yani, Alice 5, Bob 3 puana sahipken Bob’un oyunu kazanma olasılığını hesaplamak istiyoruz.
Bu değeri hesaplamak için, ilk olarak ifadeyi koşullu olasılık tanımı ile:
şeklinde yazalım. Bayes teoremini kullanarak ifadesini yeniden yazalım:
Son olarak ifadesini genişletelim:
Buradaki terimleri tek tek inceleyelim:
- : Bu terim, frekanscı yaklaşımda kullandığımız olabilirlik ile aynıdır. Yani, işaretin konumu p, Alice 5 ve Bob 3 puana sahip olmak üzere, dir.
- : Bir p olasılığı için, 8 denemede 5 pozitif sonuç elde etme olasılığı nedir? Binom dağılımını kullanırsak: .
- : p olasılığına ait önbilgimiz. Problem tanımından (Carol yansız), p değerinin
[0,1]
aralığından eşit olasılıkla geldiğini varsayabiliriz, yani olur.
Bu değerleri yerine koyarsak,
bulunur. Yukarıdaki integraller Beta fonksiyonunun özel bir halidir:
Beta fonksiyonları hesaplanırsa sonuç
0.09
olarak bulunur.
Frekansı ve Bayesci yaklaşımlar farklı sonuç verdi. Hangisinin doğru olduğuna nasıl karar vereceğiz?
Monte Carlo simülasyonundan daha sonra detaylı olarak bahsedeceğim. Basitçe açıklamak gerekirse; yüksek sayıda rasgele oyun üretip, kaç tanesinde Bob’un kazanacağını sayacağız.
Simülasyon için yazılmış Python kodu kaynaklar kısmındaki 4. linkte bulunabilir. Simülasyon sonucuna bakarsak Bob’un kazanma olasılığının 0.09
olduğunu gözüyoruz.
Örneğimizde frekanscı yaklaşım yanlış sonuç verdi, ancak bu frekanscı yaklaşımın yanlış olduğu anlamına gelmemektedir. Bu tip problemlerle uğraşmak için çeşitli frekanscı yöntemler mevcuttur, ancak Bayesci yaklaşım - Bayesci yaklaşımın daha zor olduğu düşünüldüğü halde - basit bir model ile daha doğru sonuç vermektedir.