value를 기반하는것과 policy를 기반하는 것은 무슨 차이가 있을까? 똑같이 왼쪽으로 움직인다고 하더라도 누구는 '이런 상황에서는 왼쪽으로 움직인다' 라고 판단할 수 있고 누구는 '왼쪽이 더 높은 밸류를 가지고 있으니 왼쪽으로 움직인다' 라고 판단할 수 있다. 밸류 판단은 환경에 대한 정보와 경험이 있어야만 적용할 수 있다. 폴리시는 환경에 대한 정보 없이도 현재의 상태만으로 가치를 판단할 수 있다. 밸류 : 환경에 대한 정보를 기반으로 함 폴리시 : 과거의 경험을 토대로한 정보를 기반으로 함 폴리시는 유용할 수 있지만 딱딱해서 잘못 적용될 수 있는 단점이 있을 것이고 밸류는 정보나 경험이 있어야만 하는 비용이 든다는 단점이 있을 것이다. 좀 더 생각해보면 폴리시는 보상보다 더 중요하다고 생각하는..
소프트웨어/AI 검색 결과
정답을 맞췄는데도 보상이 주어지지 않았을 때 인간이던 기계던 뭔가를 더 하게 되어있다. 일시금으로 1억을 주지않고 월별로 10개월에 나눠서 천만원씩 주는것 또한 보상유예라고 볼 수 있다. 이렇게 보상을 얻는 것이 확정적일 때라도 미래에 얻는 보상은 불확실성에 의해 줄어들수도있고, 지급이 정지될 수도 있다는 두려움을 품는다. 중간에 언제든 죽을 수 있기 때문이다. 강화학습에선 미래보상에 대해 할인율이 들어가도록하여 미래보상의 가치를 더 낮추고 현재에 집중하게 만든다. 보상이 유예되면 유예될수록, 개체는 부족함, 배고픈 상태가 유지되기 때문에 보상을 얻기위해 움직이게되어있다. 반드시 행동하게 되어있다. 내가 만약 10만큼 일해서 1만큼의 보상을 받았다면 억울한 감정은 둘째치고 어쨌던 10만큼 일했을 때 든 ..
인공지능이 사람보다 뛰어난 능력을 가질 수 있는 것은 데이터를 먹기 때문이다. 시간은 많이 줄 수 없기 떄문에 인간이 시간을 통해 얻는 것을 다 압축해서 줘버리는 개념이다. 그래서 빅데이터를 주구장창 외치는 것이다. 빅데이터란 결국 많은 시간이다. 많이 한놈이 당연히 잘한다. 그런데 잘 생각해보면 외길인생 50년 장인들이 외골수에 빠지는 것도 무시할 수는 없다는 걸 알 수 있다. 꼭 많이 해야만 잘해진다고 생각할 수도 없는 노릇이다. 1년 2년만 해도 퍼포먼스를 보여줄 수 있는 사람이 되어야한다. 꼭 30년이 지나야만 1인분을 할 수 있어선 안된다. 그 30년의 세월이 얼마나 허접하고 낭비되는 시간이었을까. 최근 앤드류 응 교수가 말하는 데이터 중심의 ai 개발도 같은 맥락이다. 모델의 성능은 일정해졌으..
일단 하기 싫다. 시간아깝다. 내 일하는 것도 바쁘다. 게다가 재수없다. 그래서 알고리즘 공부를 안할 수 있는 변명 알고리즘을 푸는 것이 더 나을 것 같다. 사람은 눈 앞에 일이 닥쳤을 때 몰입되는 신경을 통해 문제를 풀기 마련이다. 그것을 풀었을 때의 보상과 주변사람들의 칭찬 등을 기대하기 마련이다. 실생활에 활용되고 지금 이용되어야만 한다. 현물적인 보물이 되어야한다. 야구경기가 있다면 경기 안에서 홈런을 치고 싶지 바깥에서 깔짝거리지는 않을 것이다. 야구선수 입단테스트인 트라이아웃은 선수들의 달리기 속도, 제구력, 구속 등을 측정한다. 그리고 시뮬레이션 경기를 통해 어떻게 경기를 하는지 지켜보고 평가한다. 그것은 실제 경기 안에서의 다양한 문제들을 풀기 이전 단계에 있는 기본적이면서 객관적인 수치들..