윤대현 박사님은 두명이서 대화를 하더라도 마치 4명이서 대화를 하는 것과 같다고 말한다. 사람마다 마음을 가지고 있기 때문이다. 그리고 그 마음은 외면적인 나와 전혀 다른 별개의 존재다. 소통하기 어려운 마음을 다루기 위해서 우리가 하고 있는 일은 '마인드 컨트롤'이다. [열심히 해야 돼] 라고 생각하는 건 잘하지만, 마음을 위해서 뭘 해줄까? 생각하는 것은 하지못하는 것이 우리의 일상이다. 올바른 소통을 하기 위해선 4명 모두 만족해야만 하는데 말이다. 이번에 나온 [드라마 지속가능한 사랑입니까]에서 요가 강사로 나온 우에노 주리가 마음챙김에 대해서 이야기 하는 것이 윤대현박사님이 이야기하는 것과 완전히 똑같아서 놀랐다. 요가에서는 열심히 한다는 말을 잘 쓰지 않아요 열심히 하려고 하지 말고 '열심히..
소프트웨어 검색 결과
신경망을 사용한다는 것은 뇌를 사용해서 '생각' 이라는 기능을 사용한다는 뜻이다. 망이라는 network 는 적어도 두개이상의 여러개의 무언가가 조합되어있는 것을 뜻한다. 고로 생각이란 뭔가 여러개를 고려하는 것 이라고 이해할 수 있다. 이 도식은 전형적인 무뇌아들의 신경회로과정이다. 이성을 봤을 때 그 이성의 조건에 따라서 곧바로 결과로 이어지는 과정이다. 눈이 2cm이상이고 복근이 있으면 활성화함수가 적용되어 활성화된다. 이성에게 침을 흘리기 시작한다. 그 이성을 가치있는 이성이라고 판단한다. 복근과 눈에 가중치값을 높이고 그것을 결과로 전달한다. 그 결과가 올바른 결과이던 말던 아무런 상관없이 외부적으로 드러나는 것에 대해 그대로 반응한 것이기에 언젠가는 무조건적인 편향이 생길 수 밖에 없다. 마치..
랜덤하고 불확실한 환경에서의 어떤 행동은 일시적으로 좋은 보상을 받을 수 있다. 하지만 그 보상이 일시적이라면, 그 행동의 가치를 높게 생각해선 안된다. 로또에 한번 당첨되었다고 해서 로또는 일주일에 한번 사야만한다라는 학습을 해서는 안된다. 그렇기에 Q러닝에선 TD 값에다 학습률 '알파'를 곱한 뒤, 원래 평가했던 Q값에 더해서 가치를 평가한다. TD = ( 행동한 후에 실제로 얻은 가치 - 행동을 하기전에 평가했던 가치 ) Q(새로업데이트할 가치평가) = 행동하기 전에 평가했던 가치 + 알파 * TD 만약 학습률 알파가 0이면, TD 값이 없어지므로 TD 식에 있었던 [행동한 후에 실제로 얻은 가치] 를 반영하지 않고 예전에 평가했던 가치를 계속해서 그대로 보유한다. 즉 하나도 배우지 않는다. 학습..
상태 : 그 곳에서 할 수 있는 모든 행동들의 가치에 대한 평균 상태에 가치를 두면 불구덩이 옆에 있을 때 가치가 훅 떨어진다. 불구덩이 옆에 있는 것은 위험하다고 판단하는 것이다. 어떻게 보면 너무나도 합리적이다. 하지만 그 아직 불구덩이에 빠지진 않았지만 '불구덩이에 가까운' 것만으로 가치를 떨어뜨린다면 그 근처에 있는 또다른 가치를 얻어낼 수 없다. 그렇기에 Q러닝은 상태가 아닌 ( 모든 행동이 아닌 ) 하나의 행동마다 가치를 개별적으로 판단하기로 한 학습방법이다. Q러닝을 하는 순간, 에이전트는 불구덩이 근처라 하더라도 가치를 완전히 낮게 판단하여 무조건 피하는게 아니라 그 불구덩이 근처에도 있는 높은 가치의 행동이 있다면 아슬아슬하게 그곳으로 가서 높은 가치의 행동도 시도 해버린다. 마치 호날두..
정책과 계획 모두 일방향적인 어떤 선택을 말한다. 둘다 정해져있다. 정책의 특징은 어떤 곳에서든 동일하게 작동한다는 것이다. 계획은 특정한 시점이나 환경이 갖춰져야만 실행이 되기에 계획 자체가 실패할 수 있다. 하지만 정책은 실행 불가능 할 수 없다. 무조건 적용된다. 그 적용에 의해 결과적으로 게임에서 실패할 수 있지만, 어쨌든 무조건 실행된다. 아무것도 안하는 것보다 실패할 때가 나을 때가 있다. 아니 많다. 그렇기에 정책이 우선시되고 언제든 실패하고 틀어질 수 있는 계획은 부차적으로 따라와야만 하는 것이다. 또한 정책은 최악의 상황까지 포함한 즉 전체상을 보고 정한 방향이다. 계획은 잘 될거라고만 생각했을 때 정한 방향인 것과 다르다. 전체상을 봤기 때문에 어떤 시점에서도 적용할 수 있는 방향이다.
인공지능은 최악의 상황을 계속해서 인지하고 있기에 인간보다 더 낫다. 아주 조그만 확률이라도 보상이 줄어드는 공간으로 가는 것을 철저하게 막아서고 분명하게 계산 속에 넣고 있다. 어떤 것이 더 최악인지에 따라 방향을 정한다. 모든 최악을 고려했기에 계산 가능하다. 그렇기에 말도안되는 선택을 하는 것처럼 보이지만 그 선택은 최악을 피하기 위해 돌아가는 차선의 길이다. 인공지능이 판단하기에 그 말도안되는 선택보다도 더 말도안되는 길이 있기에 그쪽으로 간 것이다. 불구덩이가 있더라도 그것이 포인트를 조금이라도 아끼는 곳이라면 야구에서 희생번트를 하듯 무조건 불구덩이로 뛰어드는게 인공지능이다. 인간은 뒤늦게 그것을 '창의성'이라고 부를 뿐이다. 대부분의 인간은 최악의 상황에 가는 것을 고려하지 않는다. 에고에 ..