탐색은 가보지 않은 길을 가는 것이고 활용은 알고있는 확실한 길을 가는 것이다. 탐색은 그냥 재미있기 위해서 하는게 아니라, 지금 내가 알고 있는 길에 대한 의심이 있기에 하는 행동이다. 그 의심이란 단순히 믿지 못하는 것이 아니라 오히려 내가 알고 있는 길을 더 확신하기 위해서이기도 하다. ε-greedy 알고리즘은 ε% 만큼은 빼고 모두 탐욕적으로 이미 알고있는 보상이 큰 쪽을 택하겠다는 행동선택 정책이다. 탐욕스러운 활용적 선택만을 고집했을 땐 탐색으로 인한 새로운 발견은 거의 하지 못하게 된다. 환경에 따라 그것을 조절하는 것이 필요하다.
소프트웨어/AI 검색 결과
왜 학습은 나중에 해야하는가? 경험들을 기억 속에 저장해놨다가 나중에 학습해야하는 이유는 무엇일까? 그 이유는 맥락을 파악하기 위해서이다. 크게 보기 위해서다. 앞뒤 좌우를 판단해서 정말로 그 경험에 대한 결과가 맞는지 판단할 수 있다. 만약 일대일 대응으로 경험한 즉시 학습을 해버리면 사기를 당하게 된다. 집을 보러다니는데 집주인이 향수를 뿌려놓은 것에 기분이 좋아져서 집을 곧바로 계약해버릴 수 있다. 그저 잠시 내려놓고 시간을 보내는 것만으로 다른 집들에 대한 데이터가 쌓인다. 넓은 범위의 데이터를 하나의 단위로써 학습할 때 비로소 정말로 그 집이 좋은지 올바른 학습을 할 수 있게 된다. 보상을 많이 얻더라도 그것이 편향된 것이라면 학습데이터로 사용하지 않아야만한다.
윤대현 박사님은 두명이서 대화를 하더라도 마치 4명이서 대화를 하는 것과 같다고 말한다. 사람마다 마음을 가지고 있기 때문이다. 그리고 그 마음은 외면적인 나와 전혀 다른 별개의 존재다. 소통하기 어려운 마음을 다루기 위해서 우리가 하고 있는 일은 '마인드 컨트롤'이다. [열심히 해야 돼] 라고 생각하는 건 잘하지만, 마음을 위해서 뭘 해줄까? 생각하는 것은 하지못하는 것이 우리의 일상이다. 올바른 소통을 하기 위해선 4명 모두 만족해야만 하는데 말이다. 이번에 나온 [드라마 지속가능한 사랑입니까]에서 요가 강사로 나온 우에노 주리가 마음챙김에 대해서 이야기 하는 것이 윤대현박사님이 이야기하는 것과 완전히 똑같아서 놀랐다. 요가에서는 열심히 한다는 말을 잘 쓰지 않아요 열심히 하려고 하지 말고 '열심히..
신경망을 사용한다는 것은 뇌를 사용해서 '생각' 이라는 기능을 사용한다는 뜻이다. 망이라는 network 는 적어도 두개이상의 여러개의 무언가가 조합되어있는 것을 뜻한다. 고로 생각이란 뭔가 여러개를 고려하는 것 이라고 이해할 수 있다. 이 도식은 전형적인 무뇌아들의 신경회로과정이다. 이성을 봤을 때 그 이성의 조건에 따라서 곧바로 결과로 이어지는 과정이다. 눈이 2cm이상이고 복근이 있으면 활성화함수가 적용되어 활성화된다. 이성에게 침을 흘리기 시작한다. 그 이성을 가치있는 이성이라고 판단한다. 복근과 눈에 가중치값을 높이고 그것을 결과로 전달한다. 그 결과가 올바른 결과이던 말던 아무런 상관없이 외부적으로 드러나는 것에 대해 그대로 반응한 것이기에 언젠가는 무조건적인 편향이 생길 수 밖에 없다. 마치..
랜덤하고 불확실한 환경에서의 어떤 행동은 일시적으로 좋은 보상을 받을 수 있다. 하지만 그 보상이 일시적이라면, 그 행동의 가치를 높게 생각해선 안된다. 로또에 한번 당첨되었다고 해서 로또는 일주일에 한번 사야만한다라는 학습을 해서는 안된다. 그렇기에 Q러닝에선 TD 값에다 학습률 '알파'를 곱한 뒤, 원래 평가했던 Q값에 더해서 가치를 평가한다. TD = ( 행동한 후에 실제로 얻은 가치 - 행동을 하기전에 평가했던 가치 ) Q(새로업데이트할 가치평가) = 행동하기 전에 평가했던 가치 + 알파 * TD 만약 학습률 알파가 0이면, TD 값이 없어지므로 TD 식에 있었던 [행동한 후에 실제로 얻은 가치] 를 반영하지 않고 예전에 평가했던 가치를 계속해서 그대로 보유한다. 즉 하나도 배우지 않는다. 학습..
상태 : 그 곳에서 할 수 있는 모든 행동들의 가치에 대한 평균 상태에 가치를 두면 불구덩이 옆에 있을 때 가치가 훅 떨어진다. 불구덩이 옆에 있는 것은 위험하다고 판단하는 것이다. 어떻게 보면 너무나도 합리적이다. 하지만 그 아직 불구덩이에 빠지진 않았지만 '불구덩이에 가까운' 것만으로 가치를 떨어뜨린다면 그 근처에 있는 또다른 가치를 얻어낼 수 없다. 그렇기에 Q러닝은 상태가 아닌 ( 모든 행동이 아닌 ) 하나의 행동마다 가치를 개별적으로 판단하기로 한 학습방법이다. Q러닝을 하는 순간, 에이전트는 불구덩이 근처라 하더라도 가치를 완전히 낮게 판단하여 무조건 피하는게 아니라 그 불구덩이 근처에도 있는 높은 가치의 행동이 있다면 아슬아슬하게 그곳으로 가서 높은 가치의 행동도 시도 해버린다. 마치 호날두..