랜덤하고 불확실한 환경에서의 어떤 행동은 일시적으로 좋은 보상을 받을 수 있다.
하지만 그 보상이 일시적이라면, 그 행동의 가치를 높게 생각해선 안된다.
로또에 한번 당첨되었다고 해서 로또는 일주일에 한번 사야만한다라는 학습을 해서는 안된다.
그렇기에 Q러닝에선 TD 값에다 학습률 '알파'를 곱한 뒤, 원래 평가했던 Q값에 더해서 가치를 평가한다.
TD = ( 행동한 후에 실제로 얻은 가치 - 행동을 하기전에 평가했던 가치 )
Q(새로업데이트할 가치평가) = 행동하기 전에 평가했던 가치 + 알파 * TD
만약 학습률 알파가 0이면, TD 값이 없어지므로 TD 식에 있었던 [행동한 후에 실제로 얻은 가치] 를 반영하지 않고 예전에 평가했던 가치를 계속해서 그대로 보유한다.
즉 하나도 배우지 않는다. 학습률이 0 이다.
무슨일이 벌어지던 예전가치를 고수한다. 그 행동에 의해 보상이 늘었떤 줄었던 상관없다. 환경이 변하던 말던 상관이 없다.
고지식하고 보수적인 할아버지가 떠오른다.
반면에 학습률 알파가 1이면,
Q(새로업데이트할 가치평가) = 행동하기 전에 평가했던 가치 + 알파 * TD
Q(새로업데이트할 가치평가) = 행동하기 전에 평가했던 가치 + 1 * ( 행동한 후에 실제로 얻은 가치 - 행동을 하기전에 평가했던 가치 )
결국 우변에는 행동한 후에 실제로 얻은 가치만 남게 되므로 행동의 결과가 곧 행동의 가치가 되어버린다.
결과는 랜덤적이고, 나의 판단과 실력과 무관할 수 있는데도 결과가 좋으면 무지성적으로 그곳으로만 가는 것이다.
대가리 빠개진 히피들, 결과한번 좋으면 천기누설 투자비법을 설파하기위해 유투브 동영상을 올리는 것들이 떠오른다.
결과가 좋았다고해서 좋은 행동이 되는 것이 아닌 세상이다.
내 행동을 검증하기위해 학습률은 0과 1사이에 있어야만한다.
행동의 결과의 비율을 압축해서 가치평가에 반영함으로써 시간을 지연시키고,
많은 경우의 수를 탐색할 수 있다.
지속적으로 계속해서 좋은 결과를 주는 행동들에 대해서만 가치를 조금씩 올려나간다.
한두번의 결과가 좋지 않다고해도 가치를 훅 내리지 않으며
한두번 결과가 좋았다고하더라도 가치를 훅 올리지 않기에
올바른 검증을 할 수 있게 된다.
결국 TD값이 0으로 수렴하게 될 때, 시간적 차이에 의한 랜덤성이 없을 때, 즉 내 평가가 곧 결과와 일치할 때
행동에 대한 올바른 가치평가를 했다고 볼 수 있다.
투자에서도 내 예상과 다르면 수익을 얻었어도 실패했다고 생각해야한다고 말한다.
왜냐면 다음번엔 그 예상에 대한 실력으로인해 또 실패할 것이니까.
가치에 대한 방법을 바꿔야만 하는 실패라는 것이다.
시간이 지나도 같음을 유지할 수 있는 실력을 갖출 수 있게 만드는 이 알고리즘, 학습법으로 인해 딥러닝은 제대로 학습을 시작할 수 있다.
'소프트웨어 > AI' 카테고리의 다른 글
[AI] 마음챙김과 경사 하강법 (0) | 2022.06.04 |
---|---|
[AI] 기본적인 신경망 이해 (0) | 2022.06.04 |
[AI] Q 러닝 이해 (0) | 2022.06.03 |
[AI] 정책 vs 계획 ( policy vs plan ) (0) | 2022.06.02 |
[AI] 인공지능이 인간보다 나은 이유 (0) | 2022.06.02 |