← Return to Home

Pekiştirmeli Öğrenme (Reinforcement Learning)'e Giriş ve Temel Kavramlar

2026-01-02 · 5 min read

Pekiştirmeli öğrenme (Reinforcement Learning – RL), bir ajanın (agent), dinamik bir ortam (environment) ile etkileşime girerek, aldığı ödül (reward) sinyallerine dayanarak davranışlarını iyileştirmesini amaçlayan bir makine öğrenmesi yaklaşımıdır. Denetimli öğrenmeden farklı olarak, pekiştirmeli öğrenmede veriler sınıf etiketi içermez. Bunun yerine ajan, uzun vadede toplam ödülü maksimize edecek bir strateji (policy) öğrenmeye çalışır.

Ajan-Ortam Etkileşim Döngüsü
Ajan-Ortam Etkileşim Döngüsü

Temel Bileşenler

Ortam durum geçişlerinin ve politikanın stokastik olduğunu düşünürsek, T T -adım yörünge olasılığı aşağıdaki gibi ifade edilir:

P ( τ π ) = ρ 0 ( s 0 ) t = 0 T 1 P ( s t + 1 s t , a t ) π ( a t s t ) . P(\tau|\pi) = \rho_0 (s_0) \prod_{t=0}^{T-1} P(s_{t+1} | s_t, a_t) \pi(a_t | s_t).

Beklenen getiri ise

J ( π ) = τ P ( τ π ) R ( τ ) = E τ π [ R ( τ ) ] . J(\pi) = \int_{\tau} P(\tau|\pi) R(\tau) = \underset{\tau\sim \pi}{E}[R(\tau)].

π \pi^* optimal politika olmak üzere, problem

π = arg max π J ( π ) \pi^* = \arg \max_{\pi} J(\pi)

şeklinde ifade edilir.

Değer Fonksiyonları (Value Functions)

Değer fonksiyonları, bir ajanın uzun vadede ne kadar "iyi" durumda olduğunu veya belirli bir eylemin ne kadar "karlı" olduğunu ölçen, pekiştirmeli öğrenme algoritmalarının temellerini oluşturan fonksiyonlardır.

Politikanın öğrenme sürecindeki rolüne göre iki ana yaklaşım bulunmaktadır. On-policy yakşalımda öğrenilen potilika ve davranılan politika aynıdır. Off-policy yaklaşımda ise aynı olmak zorunda değildir.

  1. On-policy Durum-Değer fonksiyonu V π ( s ) V^\pi(s) : Durum s s ve politika π \pi iken beklenen getiriyi hesaplar:

V π ( s ) = E τ π [ R ( τ ) s 0 = s ] V^{\pi}(s) = \underset{\tau \sim \pi}{E}[R(\tau)\left| s_0 = s\right]

  1. On-policy Eylem-Değer fonksiyonu Q π ( s , a ) Q^\pi(s,a) : Durum s s iken a a aksiyonu alınırsa (politikadan olmak zorunda değil) ve daha sonrasında π \pi politikası izlenirse elde edilecek beklenen getiriyi hesaplar:

Q π ( s , a ) = E τ π [ R ( τ ) s 0 = s , a 0 = a ] Q^{\pi}(s,a) = \underset{\tau \sim \pi}{E}[R(\tau)\left| s_0 = s, a_0 = a\right.]

  1. Optimal Değer fonksiyonu V ( s ) V^\star(s) : Durum s s iken her zaman optimal politikaya göre hareket edilirse beklenen getiriyi hesaplar:

V ( s ) = max π E τ π [ R ( τ ) s 0 = s ] V^*(s) = \max_{\pi} \underset{\tau \sim \pi}{E}[R(\tau)\left| s_0 = s\right]

  1. Optimal Eylem-Değer fonksiyonu Q ( s , a ) Q^*(s,a) : Durum s s ve herhangi bir a a aksiyonu alındıktan sonra optimal politika izlenirse beklenen getiriyi hesaplar:

Q ( s , a ) = max π E τ π [ R ( τ ) s 0 = s , a 0 = a ] . Q^*(s,a) = \max_{\pi} \underset{\tau \sim \pi}{E}[R(\tau)\left| s_0 = s, a_0 = a\right].

Bellman Denklemleri

Bellman denklemleri, değer fonksiyonlarının kendi kendisiyle tutarlı olmasını sağlayan temel eşitliklerdir. Temel olarak, bir noktadaki “iyi olma” durumu, yalnızca o an kazanılan ödüle değil, sonrasında hangi duruma geçileceğine de bağlı olduğunu belirtir.

On-policy Bellman Denklemleri

V π ( s ) = E a π , s P [ r ( s , a ) + γ V π ( s ) ] , Q π ( s , a ) = E s P [ r ( s , a ) + γ E a π [ Q π ( s , a ) ] ] , \begin{align*}V^{\pi}(s) &= \underset{a \sim \pi, s'\sim P}{E}[r(s,a) + \gamma V^{\pi}(s')], \\Q^{\pi}(s,a) &= \underset{s'\sim P}{E}[r(s,a) + \gamma \underset{a'\sim \pi}{E}[Q^{\pi}(s',a')]],\end{align*}

Optimal değer fonksiyonları için Bellman denklemleri

V ( s ) = max a E s P [ r ( s , a ) + γ V ( s ) ] , Q ( s , a ) = E s P [ r ( s , a ) + γ max a Q ( s , a ) ] . \begin{align*}V^*(s) &= \max_a \underset{s'\sim P}{E}[r(s,a) + \gamma V^*(s')], \\Q^*(s,a) &= \underset{s'\sim P}{E}[r(s,a) + \gamma \max_{a'} Q^*(s',a')].\end{align*}

Bellman denklemleri, uzun vadeli problemi, tek adımlık güncellemelere indirger ve bir çok pekiştirmeli öğrenme algoritmasının temelini oluştururlar.

Avantaj (Advantage) Fonksiyonu

Pekiştirmeli öğrenmede bazen bir eylemin mutlak olarak ne kadar iyi olduğu ile ilgilenmek yerine, bir eylemin diğer eylemlere göre ortalamada ne kadar iyi olduğu ölçülür. Bu kavram avantaj (advantage) olarak adlandırılır ve Policy Gradient algoritmalarının ana fikrini oluşturur.

Markov Karar Süreçleri (Markov Decision Processes)

Yukarıda anlattığım ajan ve ortam etkileşimi matematiksel olarak Markov karar süreçleri ile tanımlanabilir. Bir Markov karar süreci (kısaca MDP) aşağıdaki 5 bileşenden oluşur:

S , A , R , P , ρ 0 \lang S,A,R,P,\rho_0\rang

Burada:

Keşif (Exploration) vs. Kullanım (Exploitation)

Kullanım, ajanın o ana kadar en yüksek ödülü getirdiğini bildiği, güvenilir ve test edilmişeylemi tekrar tekrar seçmesidir. Amaç, mevcut bilgiyle en iyi ödülü almaktır.

Keşif ise ajanın daha önce az denediği, sonucu belirsiz ve sısa vadede kötü sonuçlar verebilecek eylemleri bilerek denemesidir. Bu davranıştaki amaç daha iyi bir eylem var mı sorusuna yanıt aramaktır.

Başarılı bir pekiştirmeli öğrenme algoritması, doğru keşif - kullanım dengesini kurmalıdır.

Pekiştirmeli Öğrenme Algoritmalarının Sınıflandırılması

Bazı PÖ algoritmalarının sınıflandırılması
Bazı PÖ algoritmalarının sınıflandırılması

Model-based algoritmalarda ajan ortamın nasıl çalıştığını bilir ya da öğrenebilir. Bunun avantajı, ajanın planlama yapabilmesidir. Avantajı, daha az veri ile daha hızlı öğrenebilmesidir ancak eğer ortam modeli hatalıysa, ajan gerçek ortamda başarısız olur.

Model-free algoritmalarda ise böyle bir varsayım yoktur. Model-free algoritmalarda genel olarak iki farklı yaklaşım bulunmaktadır:

  1. Politika Optimizasyonu (Policy optimization): Ajan, doğrudan politikayı π \pi öğrenir. A2C, A3C, PPO gibi algoritmalar bu yöntemi kullanır.

  2. Q-Learning: Bu yöntemde ajan, aksiyonların değerlerini öğrenir. DQN gibi popüler algoritmalar bu yöntemi kullanır.

  3. Actor-Critic: İki yöntemi birleşimidir, politika öğrenen bir aktör ve onu "eleştiren" bir kritik (Q-fonksiyonu) vardır. DDPG, TD3, SAC gibi algoritmalar bu yöntemi kullanır.

Bir sonraki yazıda görüşmek üzere.

Kaynaklar