이전 글에서 봤었던 MDP글과 이어진다.
에이전트는 정책 (policy)이라는 것을 통해 매 시점마다 환경의 상태에 알맞은 행동을 취해서 환경을 제어한다.
정책 ((\pi))는 각 상태 ((s))에서 행동 ((a))를 취할 확률을 정의하는 함수이다.
즉, (( \pi : S \times A \rightarrow [0,1] )) such that (( \pi(s,a) = Pr[a | S = s] ))인 함수이다.
- 입력 ($S \times A$): 에이전트가 현재 관측한 상태($S$)와 그 상태에서 취할 수 있는 특정 행동($A$)을 쌍으로 묶어 입력받는다.
- 출력 ($[0, 1]$): 해당 상태에서 그 행동을 선택할 확률이 나온다. 따라서 결과값은 항상 $0$에서 $1$ 사이의 실수이다
조건부 확률 분포임을 잘 나타내기 위하여 (( \pi(s, a) ))대신 (( \pi(a|s) ))로 표기해준다.
이전 글의 전이 함수식에서 언급했다시피, 이 수식의 핵심은 정책이 단순한 1:1 대응(상태 $\rightarrow$ 행동)이 아니라, 확률 분포(Probability Distribution)라는 점을 명시한다.
- $\pi(a|s) = \text{Pr}[A_t=a | S_t=s]$ 라는 식은 시간 $t$에 상태 $s$에 주어졌을 때, 에이전트가 선택할 수 있는 수많은 행동 중 $a$를 고를 조건부 확률을 뜻한다.
- 수학적 제약 조건: 어떤 상태 $s$에 처해 있을 때, 에이전트가 취할 수 있는 모든 행동들의 확률을 합치면 반드시 1 (100%)이 되어야 한다.
$$\sum_{a \in A} \pi(a|s) = 1$$
결론적으로 정책은 각 상태마다 어떤 행동을 취해야 할지 적어놓은 지침서이다. 그리고 해당 지침서를 가지고 에이전트는 정책을 따랐을 때 받게 되는 누적 보상이 가장 큰 정책을 찾아내는 것이다.
특정 상태에서 항상 똑같은 행동만 하도록 $a = \mu(s)$, \pi:\mathcal{S} \rightarrow \mathcal{A} 형태로 고정해 두는 것을 결정론적 정책(Deterministic Policy)이라고, 해당 수식처럼 확률을 부여하는 방식을 확률적 정책(Stochastic Policy)이라고 한다. 우리는 계속 확률적 방식을 사용하고 있다.
이유는현실의 환경은 대부분 확률론적(stochastic) 이다. 같은 상태에서 같은 행동을 하더라도 다음 상태가 달라질 수 있다. 이점은 이전글의 전이함수에서 언급한 바있다.
위의 식에서 의미하는 바는 결국엔 주어진 상황($s$)에서 내가 취할 수 있는 여러 행동($a$)들 각각에 얼만큼의 가중치(확률)를 두고 움직일 것인가? 를 정의한 것과 같다.
그럼 그 다음으로 우리는 먼저 좋은 정책과 나쁜 정책의 기준을 세워야 한다. 정책의 성능은 가치 함수라는 것으로 측정될 수 있다. 가치 함수는 정책을 따랐을 때 받게 되는 return의 기댓값이다.
해당 return이라는게 이전 글에서 봤었던 $G_t$ (반환값)이다. 반환값 $G_t$는 특정 시간 $t$부터 에피소드가 종료될 때까지 얻는 감가된 보상의 합이며, 실제 결과값이다(Sample값)이다. 이 수 많은 $G_t$들을 모아서 평균을 낸 것이 바로 기댓값(Expected Value)이다 그리고 이 기댓값이 결국 가치 함수로 이어진다.
'ML' 카테고리의 다른 글
| 벨만 방정식(Bellman Equation)이란? (0) | 2026.05.08 |
|---|---|
| 가치 함수(Value Function)란? (0) | 2026.05.06 |
| Markov Decision Process(마르코프 결정 과정) 이란? (0) | 2026.05.06 |