ML 4

벨만 방정식(Bellman Equation)이란?

벨만 방정식은 현재 상태의 가치(Value)와 다음 상태의 가치 사이의 관계를 나타내는 재귀식이다.이는 현재 상태의 가치는 당장 얻는 보상과 다음 상태 가치의 합이라는 것을 수학적으로 증명한 식이다. 리처드 벨만(Richard Bellman)에 의해 정립되었으며, 복잡한 미래를 한 단계의 재귀적인 관계로 압축한 것이 핵심이다. 강화학습의 핵심인 반환값(Return, $G_t$)의 정의를 시간 단계별로 분해하여 얻을 수 있다. $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$G_t = R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \dots)..

ML 2026.05.08

가치 함수(Value Function)란?

가치 함수란, 정책의 좋고 나쁨을 수치적으로 측정할 수 있는 함수이다. 이런 가치 함수에는 크게 3종류가 있다.상태 가치 함수행동 가치 함수advantage 함수 상태 가치 함수 (State value function)한 정책 ((\pi))의 상태 (( s \in S ))에서의 상태 가치 함수는 상태 ((s))에서 정책 ((\pi))를 따랐을 때 받게 되는 return의 기댓값(보상의 총합)이다. 내가 지금 현재 취하고 있는 상태가 얼마나 유리한가를 따지는 것이다.수식은 아래와 같다. $V^\pi(s) := \mathbb{E}_\pi [G_t | S_t = s]$ 한 정책 ((\pi))의 상태 ((s \in S))의 상태 가치 함수 ((V^\pi \ : \ S \rightarrow \ \mathbb{..

ML 2026.05.06

정책(policy)이란?

이전 글에서 봤었던 MDP글과 이어진다.에이전트는 정책 (policy)이라는 것을 통해 매 시점마다 환경의 상태에 알맞은 행동을 취해서 환경을 제어한다. 정책 ((\pi))는 각 상태 ((s))에서 행동 ((a))를 취할 확률을 정의하는 함수이다. 즉, (( \pi : S \times A \rightarrow [0,1] )) such that (( \pi(s,a) = Pr[a | S = s] ))인 함수이다. 입력 ($S \times A$): 에이전트가 현재 관측한 상태($S$)와 그 상태에서 취할 수 있는 특정 행동($A$)을 쌍으로 묶어 입력받는다.출력 ($[0, 1]$): 해당 상태에서 그 행동을 선택할 확률이 나온다. 따라서 결과값은 항상 $0$에서 $1$ 사이의 실수이다 조건부 확률 분포..

ML 2026.05.06

Markov Decision Process(마르코프 결정 과정) 이란?

마르코프 결정 과정(MDP)은 불확실한 환경에서 여러 결정이 순차적으로 이뤄지는 의사결정 문제를 수학적으로 모델링하는 프레임워크이며, 순서대로 상태 공간 ((S)), 행동 공간 ((A)), 초기 상태의 확률 분포 (( d_{0} )), 보상 함수 (( r )) , 전이 확률 분포 (( p )) , 할인률 (( \gamma ))이다. MDP는 순서쌍 (( ( S, A, r, d_{0}, p, \gamma) )) 으로 정의된다고 말할 수 있다. MDP는 각 행동이 서로 다른 결과를 초래할 수 있는 환경에서 작동해야 하는 스마트 기계 또는 에이전트를 설계하는 데 이용한다. 즉, 다시 말해서 순차적 의사 결정 문제를 적당히 단순화하여 정의할 수 있게 만들어주는 틀이다. 그래서 다음과 같은 질문을 답하는데 도움..

ML 2026.05.06