value를 기반하는것과 policy를 기반하는 것은 무슨 차이가 있을까?
똑같이 왼쪽으로 움직인다고 하더라도
누구는 '이런 상황에서는 왼쪽으로 움직인다' 라고 판단할 수 있고
누구는 '왼쪽이 더 높은 밸류를 가지고 있으니 왼쪽으로 움직인다' 라고 판단할 수 있다.
밸류 판단은 환경에 대한 정보와 경험이 있어야만 적용할 수 있다.
폴리시는 환경에 대한 정보 없이도 현재의 상태만으로 가치를 판단할 수 있다.
밸류 : 환경에 대한 정보를 기반으로 함
폴리시 : 과거의 경험을 토대로한 정보를 기반으로 함
폴리시는 유용할 수 있지만 딱딱해서 잘못 적용될 수 있는 단점이 있을 것이고
밸류는 정보나 경험이 있어야만 하는 비용이 든다는 단점이 있을 것이다.
좀 더 생각해보면
폴리시는 보상보다 더 중요하다고 생각하는 것을 추구하는 태도와 같다.
물론 보상이라는 것이 세상 모든 것을 단일화하여 가장 가치있는 것을 측정한 것이기에 그 중요한 것조차 보상에 담겨있어야만 하는 것이지만
계산에는 한계가 있기 때문에 밸류 계산이 잘못되어있을 수 도 있다.
그럴 때 미지수이긴 하지만 폴리시를 지킴으로써 더 큰 보상을 얻을 수도 있으며
혹은 폴리시를 지킴으로써 어떤 특정한 니즈를 충족시킬 수 있다. ( ex 나는 방어하는 것에 쾌감을 느끼므로 방어를 위주로 하겠다는 폴리시 )
보상은 적어도, 감정적인 이득을 얻을 수 있다.
그로인해 지속이 된다면 더 큰 보상을 얻었다고 할 수도 있다.
<그냥 단어만으로 생각해본 것이고 실제로 강화학습에 어떻게 적용되는지는 잘 모릅니다>
'소프트웨어 > AI' 카테고리의 다른 글
[AI] 지연된 보상의 장점 (보상유예 Deferred Gratification) (1) | 2024.02.14 |
---|---|
[AI] 몸을 쓰냐 머리를 쓰냐 (0) | 2023.09.08 |
[AI] 데이터는 시간 (0) | 2022.07.27 |
[ai] 뇌는 미래를 예측하기 위해 만들어진 부품 (0) | 2022.07.03 |
[AI] 알고리즘을 공부하지 않을 수 있는 알고리즘 (0) | 2022.06.26 |