정답을 맞췄는데도 보상이 주어지지 않았을 때
인간이던 기계던 뭔가를 더 하게 되어있다.
 
일시금으로 1억을 주지않고 월별로 10개월에 나눠서 천만원씩 주는것 또한 보상유예라고 볼 수 있다.
이렇게 보상을 얻는 것이 확정적일 때라도
미래에 얻는 보상은 불확실성에 의해 줄어들수도있고, 지급이 정지될 수도 있다는 두려움을 품는다.
중간에 언제든 죽을 수 있기 때문이다.
강화학습에선 미래보상에 대해 할인율이 들어가도록하여 미래보상의 가치를 더 낮추고 현재에 집중하게 만든다.
 
 
보상이 유예되면 유예될수록, 개체는 부족함, 배고픈 상태가 유지되기 때문에 보상을 얻기위해 움직이게되어있다.
반드시 행동하게 되어있다.
 
내가 만약 10만큼 일해서 1만큼의 보상을 받았다면
억울한 감정은 둘째치고 어쨌던 10만큼 일했을 때 든 에너지 손실을 채우고자하는 욕구가 생기기 마련이다.
 
즉각적 보상은 매우 적게, 대부분을 미래 보상으로 주면 가상의 컴퓨터 코드조차 움직인다.
언젠가는 그래도 나머지 9를 주기 때문에 불합리한 사기는 아니므로 움직일만 하다.

미래보상은 여러곳에 쌓여서, 한 개체가 만들 수 있는 에너지 이상으로 쌓이게 된다.
10만큼 일해서 10만큼 받은다음, 10이 떨어지면 또 10만큼 일하는 일대일 교환이 아니라
10만큼일해서 1을 받았기 때문에 지금 에너지가 없어도 배고픈상태에서 또다시 움직이게 된다.
자기 한계를 넘어서 그야말로 '강화 학습'을 하게 된다.
눈떠보면 보상은 지속적으로 쌓이고 계속해서 움직였던 만큼 많은 경험치가 쌓인다.

 
강화학습은 이와같이 에이전트를 정답으로 이끄는 방법으로 지연보상과 할인율을 사용한다.
빵을 한번에 주는것도 아니고, 안주는것도 아니고
감질나게 조금씩 분할해서 주고있다.
단순한 당근과 채찍 전략이 전혀 아니다.
 
그렇다면 내가 가야할 길이 맞는지 아닌지 확인하는 방법은 명확하다.
보상이 많은 길은 아니다.
보상이 없는 길은 아니다.
두 길 모두 나를 '강화' 시키지 못한다. 신이 이끄는 방향이 아니다.
 
보상이 조금씩 나누어서 주어지는 적당한 곳이 나의 길이다.
현재의 나도 버리지 않고 미래의 나도 버리지 않는 곳이 정답이다.
 
그 유명한 마시멜로 테스트는 틀렸다.
마시멜로 먹는 것을 잘 참는다고해서 대단한건 아니다.
어린 아이를 평가해서는 안된다.
그 대상을 키우고 올바른 방향으로 인도하기 위해서 마시멜로를 조금씩 나누어주는 어른이 필요할 뿐이다.
그런 어른과 함께 가는 것을 선택해야할 뿐이다.
 
 오타니 쇼헤이가 곧바로 메이저리그에 가지않고 자국리그를 선택했기 때문에 더 안전하게 자기를 강화시킬 수 있었던것처럼

한단계씩 올라가는 지연된 보상은 올바르게 성장할 수 있는 발판이 된다.

계단을 통해 올라가는 당연한 지혜와 같다.

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기