<상태가치함수 vs 행동가치함수>
상태 : 그 곳에서 할 수 있는 모든 행동들의 가치에 대한 평균
상태에 가치를 두면 불구덩이 옆에 있을 때 가치가 훅 떨어진다.
불구덩이 옆에 있는 것은 위험하다고 판단하는 것이다.
어떻게 보면 너무나도 합리적이다.
하지만 그 아직 불구덩이에 빠지진 않았지만 '불구덩이에 가까운' 것만으로 가치를 떨어뜨린다면 그 근처에 있는 또다른 가치를 얻어낼 수 없다.
그렇기에 Q러닝은 상태가 아닌 ( 모든 행동이 아닌 ) 하나의 행동마다 가치를 개별적으로 판단하기로 한 학습방법이다.
Q러닝을 하는 순간, 에이전트는 불구덩이 근처라 하더라도 가치를 완전히 낮게 판단하여 무조건 피하는게 아니라
그 불구덩이 근처에도 있는 높은 가치의 행동이 있다면 아슬아슬하게 그곳으로 가서 높은 가치의 행동도 시도 해버린다.
마치 호날두가 골대라인까지 아슬아슬하게 드리블하며 전력질주하는 것을 할 수 있게 된다.
딥러닝에 Q러닝을 적용하고 엄청난 퍼포먼스를 내는 것은 너무나도 당연하다.
프로선수들이 실력이 높아지면 당연한 듯이 하는 알고리즘을 적용한 것이다.
무슨 위대한 연구자 한명의 취향에 따라 갑자기 Q라는 용어를 붙여서 멋있는 척하는게 아니다.
적용시켜야만하는 당연한 알고리즘을 그저 Q러닝이라는 이름을 붙인 것 뿐이다.
Q러닝적인 태도를 본받아보면
내가 아무리 힘든 상황이더라도 아주 작은 올바른 행동 한가지라도 집중하여 가치를 두며 그쪽으로 행동해나야 한다는 것을 알 수 있다.
내 상태가 매우 열악하고 길이 좁아도 나자신을 저평가하지 않으며 앞으로 나아가는 태도가 필요하다고 딥러닝이 말하고 있다.
'소프트웨어 > AI' 카테고리의 다른 글
[AI] 기본적인 신경망 이해 (0) | 2022.06.04 |
---|---|
[AI] Temporal Difference ( 일시적 차이 ) (0) | 2022.06.04 |
[AI] 정책 vs 계획 ( policy vs plan ) (0) | 2022.06.02 |
[AI] 인공지능이 인간보다 나은 이유 (0) | 2022.06.02 |
[AI] 불확실함을 다른말로 게임이라고 한다 (0) | 2022.06.02 |