value를 기반하는것과 policy를 기반하는 것은 무슨 차이가 있을까?

 

똑같이 왼쪽으로 움직인다고 하더라도

누구는 '이런 상황에서는 왼쪽으로 움직인다' 라고 판단할 수 있고

누구는 '왼쪽이 더 높은 밸류를 가지고 있으니 왼쪽으로 움직인다' 라고 판단할 수 있다.

 

밸류 판단은 환경에 대한 정보와 경험이 있어야만 적용할 수 있다.

폴리시는 환경에 대한 정보 없이도 현재의 상태만으로 가치를 판단할 수 있다.

 

밸류 : 환경에 대한 정보를 기반으로 함

폴리시 : 과거의 경험을 토대로한 정보를 기반으로 함

 

폴리시는 유용할 수 있지만 딱딱해서 잘못 적용될 수 있는 단점이 있을 것이고

밸류는 정보나 경험이 있어야만 하는 비용이 든다는 단점이 있을 것이다.

 

 

좀 더 생각해보면

폴리시는 보상보다 더 중요하다고 생각하는 것을 추구하는 태도와 같다.

물론 보상이라는 것이 세상 모든 것을 단일화하여 가장 가치있는 것을 측정한 것이기에 그 중요한 것조차 보상에 담겨있어야만 하는 것이지만

계산에는 한계가 있기 때문에 밸류 계산이 잘못되어있을 수 도 있다.

 

그럴 때 미지수이긴 하지만 폴리시를 지킴으로써 더 큰 보상을 얻을 수도 있으며

혹은 폴리시를 지킴으로써 어떤 특정한 니즈를 충족시킬 수 있다. ( ex 나는 방어하는 것에 쾌감을 느끼므로 방어를 위주로 하겠다는 폴리시 )

보상은 적어도, 감정적인 이득을 얻을 수 있다.

그로인해 지속이 된다면 더 큰 보상을 얻었다고 할 수도 있다.

 

 

<그냥 단어만으로 생각해본 것이고 실제로 강화학습에 어떻게 적용되는지는 잘 모릅니다>

 

 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기