<상태가치함수 vs 행동가치함수>

 

상태 : 그 곳에서 할 수 있는 모든 행동들의 가치에 대한 평균

 

상태에 가치를 두면 불구덩이 옆에 있을 때 가치가 훅 떨어진다.

불구덩이 옆에 있는 것은 위험하다고 판단하는 것이다.

어떻게 보면 너무나도 합리적이다.

하지만 그 아직 불구덩이에 빠지진 않았지만 '불구덩이에 가까운' 것만으로 가치를 떨어뜨린다면 그 근처에 있는 또다른 가치를 얻어낼 수 없다.

 

그렇기에 Q러닝은 상태가 아닌 ( 모든 행동이 아닌 ) 하나의 행동마다 가치를 개별적으로 판단하기로 한 학습방법이다.

Q러닝을 하는 순간, 에이전트는 불구덩이 근처라 하더라도 가치를 완전히 낮게 판단하여 무조건 피하는게 아니라

그 불구덩이 근처에도 있는 높은 가치의 행동이 있다면 아슬아슬하게 그곳으로 가서 높은 가치의 행동도 시도 해버린다.

마치 호날두가 골대라인까지 아슬아슬하게 드리블하며 전력질주하는 것을 할 수 있게 된다. 

 

딥러닝에 Q러닝을 적용하고 엄청난 퍼포먼스를 내는 것은 너무나도 당연하다.

프로선수들이 실력이 높아지면 당연한 듯이 하는 알고리즘을 적용한 것이다.

무슨 위대한 연구자 한명의 취향에 따라 갑자기 Q라는 용어를 붙여서 멋있는 척하는게 아니다.

적용시켜야만하는 당연한 알고리즘을 그저 Q러닝이라는 이름을 붙인 것 뿐이다.

 

 

Q러닝적인 태도를 본받아보면

내가 아무리 힘든 상황이더라도 아주 작은 올바른 행동 한가지라도 집중하여 가치를 두며 그쪽으로 행동해나야 한다는 것을 알 수 있다.

내 상태가 매우 열악하고 길이 좁아도 나자신을 저평가하지 않으며 앞으로 나아가는 태도가 필요하다고 딥러닝이 말하고 있다.

 

 

 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기