Value Function(가치함수) value function(가치함수) : agent가 계산하는 값으로 각 state가 얼마나 가치있는지를 계산하는 함수이다.정책 π를 따를 때, 상태 s로부터 예상되는 장기 보상의 누적값이다.여기서 중요한 점은 "장기 보상의 값"이라는 것이다. 이는 reward(보상)과는 다른 의미이다. Reward : 즉각적인 보상ex) 야구 게임을 할 때 희생 번트를 하는 것은 그 번트를 하는 타자가 1루에서 아웃 될 확률이 매우 높다. 그래서 번트를 하는 action은 낮은 reward를 가지게 될 수 있다. Value Function : 장기적 관점의 누적 보상 (가치 판단)ex) 희생 번트는 reward는 낮을 수 있지만 장기적으로 보았을 때 출루되어있는 선수들이 진로할 수..