벨만 방정식은 현재 상태의 가치(Value)와 다음 상태의 가치 사이의 관계를 나타내는 재귀식이다.이는 현재 상태의 가치는 당장 얻는 보상과 다음 상태 가치의 합이라는 것을 수학적으로 증명한 식이다. 리처드 벨만(Richard Bellman)에 의해 정립되었으며, 복잡한 미래를 한 단계의 재귀적인 관계로 압축한 것이 핵심이다. 강화학습의 핵심인 반환값(Return, $G_t$)의 정의를 시간 단계별로 분해하여 얻을 수 있다. $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$G_t = R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \dots)..