[ 인생전략 ] 팃포탯을 이기는 파블로프 전략 ( Win Stay, Lose Shift )

WSLS 전략은 말그대로

이기면 가만히 있고

지면 움직이는 전략이다.

연구자의 이름을 따서 '파블로프 전략' 이라고도 불린다고 한다.

왜 이 전략이 유명하지 않은지 궁금하다.

이 전략은 게임이론 최고의 전략이라고 알려진 Tit For Tat (TFT) 의 결함을 수정할 수 있는 무결함에 가까운 전략이다.

눈에는 눈, 이에는 이.

상대방이 협력하면 협력하고, 상대방이 배신하면 배신한다는 팃포탯 전략은

죄수의 딜레마 게임에서 모든 알고리즘을 이기고 우승한 최고의 전략이라고 한다.

얼핏들으면 너무나도 공정하며 마치 성인군자라도 된듯, 철인이라도 된듯 철저하게 공명정대하며 멋있어보인다.

하지만 그것은 한정되어있는 게임 안에서만 가능한 가상적인 일이다.

너무나도 단순한 예를 들어보자.

범죄자가 나에게 환한 미소와 스윗한 태도로 먼저 협력을 한다.

그럼이 공명정대한 팃포탯은 무조건 거기에 협력을 하게 된다.

그런 협력은 사회적으로 매우 악하며, 또한 자기자신에게도 매우 위협적이다.

매우 오랬동안 협력을 하다가 단한번에 엄청난 배신으로 목숨까지 잃을 수 있는게 현실세계이기 때문이다.

팃포탯이 우승한 이유는 협력 점수에도 한계가 있고, 배신 점수에도 한계가 있기 때문이다.

하지만 현실세계는 그렇지 않다.

다시 복수를 할 기회조차 주어지지 않을 수 있다. 단 한번에 밑장 빼버리면 답이 없는 것이다.

WSLS 전략은 상대방을 바라보지 않는다.

오직 '나 자신'만을 바라본다.

내가 한 행동이 맞으면 계속해고,

내가 한 행동이 틀리면 이동한다.

범죄자가 먼저 협력을 걸어온다.

처음에 파블로프는 팃포탯과 마찬가지로 그것을 거부하지 않는다. 이점에서 팃포탯과 차이가 없고, 선악을 구별하지 않는다.

심지어 뭘 잘모르는 초기 알고리즘형태(어릴 때)에서는 범죄자에게 먼저 협력을 하기도한다. 아직 배우기 전이니까 당연하다.

완전히 순수한 상태에서 오직 내 경험, 내 역사에서만 판단하겠다는 것이다.

범죄자와의 협력과정에서 나 자신의 상태를 바라본다.

상대방이 아니다, 나를 바라보고 있다.

바라봤더니 나의 상태가 점점 좋아지고 있다. 그렇다는 것은 사회적시선이 잘못되었고, 내 생각이 잘못되었고, 그 상대방은 범죄자가 아니었던것으로 판단한다. 그렇기에 협력을 지속한다. ( 이부분은 팃포탯과 동일한 형태를 띈다 )

바라봤더니 나의 상태가 점점 안좋아지고 있다. 말은 협력관계이지만 뭔지 모를 이상한 손해, 적어지는 이득, 나쁜 기분 등이 자주 출몰하기 때문에 그 상대방은 범죄자가 확실하다.

그렇기에 범죄자가 먼저 배신하지도 않았는데, 어느 순간 칼같이 그 범죄자를 배신하여 오히려 이득을 얻어버린다. ( 이 부분은 팃포탯이 절대로 하지 못하는 형태다 )

개인적인 선택을 했을 뿐인데 범죄자가 약해지는 사회적으로도 이득이 얻어진다.

반대로 완전히 순수하게 착한 협력자들과도 당연히 협력한다.

그런데 계속 지나고보니까, 내 상태가 확실한 이득이 되지 않고 정체된다거나 오히려 손해를 보는 상황이 온다면?

그럼 나에게 무한한 신뢰와 협력만을 주던 상대조차도 '먼저' 배신을 해버린다.

왜냐면 협력상태와 관계없이 지고있거나, 이미 졌기 때문이다.

무조건 협력한다고 좋은게 아니라 현실에 안주하거나 이득이 적어지는 상황도 언제든지 나올수 있기 때문이다.

나와 상대방이 협력을 하던말던, 나의 집단보다 더 월등한 성과를 내는 다른 집단이 상대적으로 있다면 그것은 협력이지만 이미 진거고 져가는 상태인것이다.

과감하게 뛰쳐나온다.

착한 사람을 잔인하게 배신해버린다.

그것은 착함이 아니기 때문이다.

범죄자에게도 무한한 신뢰와 협력을 줄 수 있는 예쁜 쓰레기이기 때문이다.

팃포탯과의 차이점은 너무나도 명확하다.

상대방의 행동에 따라 내 행동이 결정되는게 아니라,

내가 먼저 행동한다는 것이다.

주체성이 나에게 있다. 적극성이 있다.

훨씬 더 많은 이동을 만들어내고, 그렇기에 훨씬 더 많은 마음속 데이터, 즉 강화학습 머신러닝을 진행하게 된다.

선악의 구별이 없고, 나의 생각이 없다.

오직 나의 상태 나의 역사 나의 경험과 몸을 믿고 가는 전략이다.

애덤그런트가 말한 기버, 매쳐, 테이커 이론과도 연결된다.

상대방의 행동에 따라 선해질수도 악해질수도 있는 Matcher 는 팃포탯과 완전히 똑같다.

하지만 정말로 성공한 사람은 먼저 무언가를 주는 Giver 다.

기버는 정말 성공한사람과 완전히 호구되어서 가난한 사람의 빈부격차가 크게 난다고 한다.

완전 호구가 되어서 가난한 기버는 '무조건 협력자' 이다.

반대로 정말로 성공한 사람은 바로 이 전략인 파블로프 전략을 사용한 기버들이다.

쉽게 말하면 '무조건 내가 먼저' 라는 전략을 사용한 것이다.

무언가를 먼저 하는 것은 매우 어렵고 감정노동이 필요한 일이다.

손해를 볼수도 있고, 책임을 져야할 수 있다.

그런 의미에서 '주었다' 라고 충분히 말할 수 있다.

내가 망하는 걸 봤으면 학습이 될거고, 내가 성공하는 모습을 봣어도 학습이 될것이기 떄문이다.

하지만 그 주는 것이 무조건 주는게 아니라 내 경험상 성공할 수 있다는 가능성

나의 역사와 경험을 믿고 '먼저' 행동한다는 것이다.

실패하면? 알고리즘에 다시 반영한다.

성공하면? 그대로 계속 간다.

지속적인 승부에 대한 참여와 책임이다.

나에게 협력할지 배신할지 모르는 대상을 향해 먼저 협력을 시작한다.

그런의미에서 주는 것이다.

상대방이 배신하면 주는거니까. 그 배신할지말지를 상대방에게 권한을 준다.

착함이고 뭐고

복수고 뭐고

선악이고 뭐고

그딴거 신경 쓸 새가 없다.

지금 나는 내 게임을 하고있다.

내 실력을 올리고 있다.

이기는 것이 최선이자 지상 목표이다.

앞으로 가야한다.

이겨야한다.

나는 이득을 향해 이동하며 지키는 것을 반복해야할 뿐이다.

그저 내 실력이며

모든 상황은 내 실력을 올리기위해 작용할 뿐이다.

저작자표시 (새창열림)

[ 인생전략 ] 팃포탯을 이기는 파블로프 전략 ( Win Stay, Lose Shift )

태그

티스토리툴바

CATEGORY

태그

VISITOR

티스토리툴바