기댓값과 긴 반복
우연이 지배하는 일에는 묘한 이중성이 있다. 한 번의 결과는 도무지 알 수 없는데, 같은 일을 아주 여러 번 되풀이하면 전체의 모습은 또렷이 가늠된다는 것이다. 이 긴 반복의 평균이 향하는 자리를 기댓값이라 부른다. 이 글은 기댓값이 무엇이고, 그것이 긴 반복 속에서 어떻게 작동하며, 우연을 다루는 자리에서 무엇을 말해주는지를 들여다본다.
기댓값이라는 것
기댓값은 어렵지 않다. 일어날 수 있는 결과마다 그 값에 그 일이 일어날 가능성을 곱해 모두 더한 것이다. 어떤 결과가 자주 일어나면 그쪽으로, 큰 값을 주는 결과가 있으면 또 그쪽으로 기댓값이 당겨진다. 한마디로 같은 일을 수없이 되풀이했을 때 한 번당 평균적으로 어느 쪽으로 기우는지를 나타내는 값이다. 그 엄밀한 정의는 울프럼 매스월드의 기댓값 항목에 정리되어 있다.
중요한 것은 기댓값이 한 번의 결과를 말해주지 않는다는 점이다. 주사위를 한 번 굴려 나오는 눈의 기댓값을 셈할 수 있지만, 정작 그 값이 주사위 눈으로 나오지는 않는다. 기댓값은 한 번의 일이 아니라 수많은 반복의 평균에 관한 이야기다. 한 번을 묻는 자리에서 기댓값을 들이대면 번지수가 틀린 것이다.
기댓값이라는 말 자체가 오해를 부르기도 한다. 기댓이라는 말 때문에 마치 그 값이 일어나리라 기대되는 결과처럼 들린다. 그러나 기댓값은 어느 한 번에서 기대되는 결과가 아니다. 주사위 눈의 기댓값이 정수가 아닌 어중간한 값으로 나오는 데서 보듯, 그 값은 실제로 한 번에 나올 수 없는 수일 때도 많다. 기댓값은 기대되는 한 번이 아니라 긴 평균의 자리를 가리키는 이름일 뿐이다.
한 번당 얼마라는 셈
기댓값을 조금 더 손에 잡히게 그려보자. 어떤 놀이에서 자주 작게 잃고 드물게 크게 딴다고 하자. 작은 손실이 잦으니 그쪽으로 기댓값이 당겨지지만, 드문 큰 이득이 그것을 얼마나 되돌리는지에 따라 전체 기댓값이 정해진다. 잦은 작은 값과 드문 큰 값이 가능성의 무게로 저울질되는 것이다.
이 저울질의 결과가 본전보다 아래면 평균적으로 잃는 놀이이고, 위면 평균적으로 따는 놀이다. 한 번 한 번은 작게 잃거나 크게 따거나 제각각이지만, 그 모두를 가능성으로 버무린 한 값이 긴 반복의 방향을 미리 일러준다. 기댓값은 이렇게 들쭉날쭉한 결과들을 하나의 수로 요약한다.
공정한 게임과 기운 게임
기댓값으로 게임을 가르면 두 부류가 나온다. 하나는 공정한 게임이다. 건 만큼 평균적으로 되돌려받는, 기댓값이 본전인 게임이다. 다른 하나는 한쪽으로 기운 게임이다. 평균적으로 거는 쪽이 조금씩 잃도록, 또는 따도록 기댓값이 본전에서 벗어나 있는 게임이다. 이 작은 기울기가 긴 반복에서 큰 차이를 빚는다.
현실에서 마주하는 우연의 게임은 대개 공정하지 않다. 어느 한쪽으로 기댓값이 살짝 기울어 있다. 그 기울기가 눈에 띄지 않을 만큼 작더라도, 반복이 쌓이면 그 작은 차이가 또렷한 방향으로 누적된다. 공정해 보이는 게임과 실제로 공정한 게임은 다르며, 그 차이는 기댓값을 따져야 비로소 드러난다.
큰 수의 법칙
기댓값이 긴 반복에서 힘을 발휘하는 까닭은 큰 수의 법칙이라는 성질 때문이다. 같은 일을 충분히 여러 번 되풀이하면, 실제 결과의 평균이 기댓값에 점점 가까워진다는 것이다. 처음 몇 번은 들쭉날쭉하지만, 횟수가 쌓일수록 평균은 기댓값 둘레로 모여든다. 우연의 들쭉날쭉함이 반복 속에서 서로 상쇄되며 묻히는 것이다.
여기서 꼭 새겨야 할 것이 있다. 평균이 기댓값에 가까워지는 것은 들쭉날쭉함이 묻혀서이지, 한쪽으로 쏠린 결과를 나중에 되갚아서가 아니다. 앞서 한쪽이 많이 나왔다고 해서 그것을 메우려는 힘이 작동하는 것이 아니다. 그저 반복이 쌓일수록 초반의 치우침이 전체에서 차지하는 몫이 작아질 뿐이다. 이 차이를 흐리면 흔한 착각에 빠진다.
긴 반복이란 얼마나 긴가
큰 수의 법칙은 충분히 여러 번이면 평균이 기댓값에 가까워진다고 말한다. 그렇다면 얼마나 여러 번이어야 충분한 걸까. 답은 게임에 따라 다르다. 출렁임이 작은 게임은 비교적 적은 반복으로도 평균이 자리를 잡지만, 출렁임이 큰 게임은 아주 오랜 반복이 쌓여야 평균이 기댓값 둘레로 모인다.
이 점이 사람을 오래 헷갈리게 한다. 충분히 길지 않은 구간에서는 평균이 기댓값에서 한참 벗어나 있을 수 있기 때문이다. 그 벗어남을 보고 기댓값이 틀렸다거나 자기에게 행운이 따른다고 여기기 쉽다. 그러나 그것은 아직 반복이 충분히 길지 않다는 뜻일 뿐이다. 긴 반복의 법칙을 짧은 구간에 들이대는 것이 또 하나의 흔한 잘못이다.
되갚는다는 착각
그 착각이 바로 도박사의 오류라 불리는 것이다. 한쪽 결과가 한동안 이어지면, 이제 반대쪽이 나올 차례라고 느끼는 마음이다. 동전에서 앞이 내리 나오면 다음엔 뒤가 나올 것 같고, 그래야 균형이 맞는다고 여긴다. 그러나 잘 섞인 우연에는 기억도 차례도 없다. 다음 한 번은 앞선 결과와 끊겨 있어, 지나간 쏠림을 메우려 들지 않는다.
큰 수의 법칙은 이런 되갚기를 약속한 적이 없다. 그것은 반복이 충분히 쌓였을 때 비율이 수렴한다고 말할 뿐, 다음 한 번이 과거를 보정하리라 말하지 않는다. 과거의 치우침은 메워지는 것이 아니라 묻히는 것이다. 이 구분을 또렷이 하는 일이 우연을 제대로 다루는 핵심이다. 단서가 있는 일과 없는 일을 가르는 이야기는 언어와 확률에서 다뤘다.
짧게 보면, 길게 보면
기댓값은 긴 반복의 이야기이므로, 짧은 구간에서는 얼마든지 다른 풍경이 펼쳐진다. 평균적으로 잃도록 기운 게임에서도 짧게는 딸 수 있고, 평균적으로 따도록 기운 게임에서도 짧게는 잃을 수 있다. 이 짧은 구간의 출렁임을 분산이라 부른다. 분산이 크면 짧은 결과가 기댓값에서 크게 벗어나 출렁인다.
이 출렁임이 사람을 헷갈리게 한다. 기운 게임에서 잠깐 땄다고 그 게임이 자기에게 유리하다고 착각하는 것이다. 그러나 짧은 행운은 긴 반복의 방향을 바꾸지 못한다. 출렁임은 출렁임일 뿐, 시간이 갈수록 결과는 기댓값이 가리키는 쪽으로 끌려간다. 짧게 보면 우연이지만 길게 보면 산수다.
그래서 짧은 결과로 게임의 성격을 판단하는 것은 위험하다. 잠깐의 행운이나 불운은 그 게임이 본디 어느 쪽으로 기울었는지에 대해 거의 아무것도 말해주지 않는다. 게임의 진짜 성격은 짧은 출렁임이 아니라 긴 반복이 향하는 기댓값에 새겨져 있다. 눈앞의 결과가 아니라 그 아래 깔린 기울기를 보아야 하는 까닭이다.
하우스 엣지라는 기울기
이 모든 이야기가 가장 또렷하게 작동하는 자리가 우연을 이용해 굴러가는 게임이다. 그런 게임에는 대개 기댓값이 게임을 여는 쪽으로 살짝 기울도록 설계된 차이가 들어 있다. 흔히 하우스 엣지라 부르는 이 기울기는, 한 번 한 번에는 거의 드러나지 않을 만큼 작다. 그래서 짧게 보면 누구든 앞설 수 있다.
그러나 큰 수의 법칙이 여기서도 작동한다. 시행이 쌓일수록 전체 결과는 그 작은 기울기가 가리키는 쪽, 곧 게임을 여는 쪽으로 수렴한다. 짧은 구간의 출렁임 속에서 누군가는 따고 누군가는 잃지만, 반복이 충분히 길어지면 전체의 합은 설계된 방향으로 모인다. 이것은 미화하거나 비난할 일이 아니라 구조가 그렇다는 사실일 뿐이다. 우연한 결과에서 헛된 무늬를 찾는 일이 왜 통하지 않는지는 신호와 잡음에서도 다뤘다.
티끌 같은 차이가 쌓이면
기댓값의 기울기가 무서운 것은 그것이 작기 때문이다. 한 번에 드러나는 차이가 너무 작아 거의 느껴지지 않는다. 그래서 사람은 그 기울기를 무시하고 눈앞의 출렁임에만 마음을 쓴다. 그러나 작아서 안 보이던 차이도 반복이 쌓이면 또렷한 흐름이 된다. 한 번의 티끌이 수없이 모여 무시할 수 없는 더미가 되는 것이다.
이것은 작은 것을 우습게 보면 안 되는 이유를 말해준다. 한 번의 기댓값 차이는 사소해 보여도, 그것이 거듭되는 횟수만큼 곱해져 쌓인다. 긴 반복 앞에서는 작은 기울기가 결정적이다. 눈에 보이는 출렁임이 아니라 보이지 않는 작은 기울기가 긴 결과의 향방을 쥐고 있다.
기댓값의 밝은 쓰임
기댓값이 늘 우울한 이야기인 것은 아니다. 그것은 우리를 지키는 데도 쓰인다. 보험이 좋은 예다. 보험은 평균적으로 보면 낸 돈보다 덜 돌려받도록 설계되어 있다. 기댓값만 따지면 손해다. 그런데도 많은 이가 기꺼이 보험을 든다. 드물지만 감당하기 어려운 큰 불행의 충격을, 작고 꾸준한 비용으로 나누기 위해서다.
이것은 기댓값이 전부가 아님을 보여준다. 한 번의 큰 손실이 삶을 무너뜨릴 수 있다면, 기댓값에서 조금 손해를 보더라도 그 위험을 더는 편이 현명하다. 기댓값과 함께 분산, 곧 출렁임의 크기와 그 충격까지 함께 보는 것이다. 기댓값을 안다는 것은 그것을 맹목적으로 따르는 것이 아니라, 그것이 무엇을 말하고 무엇은 말하지 않는지를 아는 일이다.
운과 실력을 가르다
우연이 섞인 일에서 결과를 보고 실력을 가늠하기란 까다롭다. 짧은 구간에서는 운만으로도 좋은 결과가 나올 수 있어, 그것이 실력인지 운인지 분간하기 어렵다. 평균적으로 불리한 게임에서 잠깐 딴 사람을 보고 그가 비결을 안다고 여기는 것이 그 흔한 착각이다. 그 좋은 결과는 실력이 아니라 출렁임의 한 자락일 수 있다.
운과 실력을 가르려면 긴 안목이 필요하다. 충분히 여러 번을 지켜봐야 운의 출렁임이 묻히고 진짜 실력의 신호가 드러난다. 짧은 성공담에 휘둘리지 않고 긴 기록을 보는 태도다. 이것은 데이터에서 신호와 잡음을 가르는 일과 똑같은 이치인데, 그 이야기는 신호와 잡음에서 다뤘다.
이처럼 기댓값은 피하라는 경고로도, 받아들이라는 권유로도 쓰인다. 평균적으로 불리한 일을 멀리하게 하고, 때로는 작은 손해를 무릅쓰고 큰 위험을 더는 지혜를 주기도 한다. 같은 셈이 상황에 따라 다른 조언을 건네는 것이다. 중요한 것은 기댓값이라는 한 값에 매달리지 않고, 그 값과 출렁임을 함께 읽는 균형 잡힌 눈이다.
한 번의 운
마지막으로 다시 강조할 것이 있다. 기댓값은 긴 반복의 이야기이지 한 번의 약속이 아니라는 점이다. 평균적으로 기운 방향이 있어도, 그것이 다음 한 번이 어떻게 될지를 알려주지는 않는다. 한 번의 일에는 운이 작동하고, 그 운은 누구도 미리 알 수 없다. 기댓값은 그 한 번의 운을 다스리지 못한다.
그래서 기댓값을 안다고 다음 한 번을 맞힐 수 있는 것은 아니다. 기댓값이 말해주는 것은 오직 긴 반복의 향방뿐이다. 다음 한 번을 점치려는 시도는, 기댓값이 다룰 수 없는 영역에 손을 뻗는 일이다. 무엇이 예측되고 무엇은 끝내 알 수 없는지를 가리는 일이 여기서도 핵심이다. 증거로 믿음을 고쳐가는 이야기는 베이즈의 생각에서, 다음 말을 가늠하는 이야기는 다음 단어 고르기에서 다뤘다.
기댓값은 긴 반복의 평균이 향하는 자리이지, 다음 한 번의 결과가 아니다. 짧은 행운은 긴 반복의 방향을 바꾸지 못하고, 지나간 쏠림은 메워지는 것이 아니라 묻힐 뿐이다. 모르는 말이 나오면 용어와 자료를 참고하면 된다.
한 번은 모르지만 긴 반복은 보인다는 기댓값의 이중성은, 우연을 다루는 일의 핵심을 담고 있다. 우연 앞에서 우리가 할 수 있는 것은 다음 한 번을 맞히는 것이 아니라, 긴 반복이 어디로 향하는지를 정직하게 아는 것이다. 그 앎은 우연을 이기게 해주지는 않지만, 우연을 둘러싼 헛된 기대와 착각에서 우리를 지켜준다. 이 사이트가 무엇을 다루고 무엇을 다루지 않는지는 소개에 적어두었다.