본문으로 건너뛰기
Margin

가능성과 오차 사이

최근 노트

갈래

자료

언어와 확률

언어와 확률은 멀어 보이지만 실은 한 뿌리에서 만난다. 기계가 다음에 올 단어를 고르는 일은, 어떤 말이 더 그럴듯한지를 따지는 일이다. 곧 가능성을 셈하는 일이다. 이 페이지는 언어를 다루는 일이 어떻게 확률과 만나는지, 그리고 그 만남이 우연을 다루는 또 다른 자리로 어떻게 이어지는지를 짚는다. 이 노트의 여러 글이 모이는 길목이라 할 만하다.

그럴듯함을 수로 옮기다

기계가 문장을 이어 쓸 때, 그것은 단 하나의 정답을 떠올리는 것이 아니다. 다음에 올 법한 여러 후보를 두고, 각각이 얼마나 그럴듯한지를 수로 매긴다. 어떤 말은 매우 그럴듯하고, 어떤 말은 가능은 하지만 어색하며, 어떤 말은 거의 나오지 않는다. 이 그럴듯함의 크기가 곧 확률이다.

그래서 언어 모델은 가능성의 분포를 다룬다고 말할 수 있다. 다음 자리에 올 수 있는 말들 위에 그럴듯함이 어떻게 퍼져 있는지를 보고, 그 가운데서 말을 고른다. 이 과정이 구체적으로 어떻게 돌아가는지는 다음 단어 고르기에서 자세히 다룬다. 언어를 다루는 기술의 한복판에 확률이 자리 잡고 있는 것이다.

불확실성을 인정한다는 것

가능성을 수로 다룬다는 것은 곧 불확실성을 인정한다는 뜻이다. 다음 단어가 무엇일지 단정하지 않고, 여러 갈래의 가능성을 함께 안고 가는 것이다. 이것은 약점이 아니라 오히려 정직한 태도다. 사람의 말은 본디 한 갈래로 정해져 있지 않으니, 여러 가능성을 다루는 편이 현실에 맞다.

이런 사고는 언어에만 머물지 않는다. 새로운 정보가 들어올 때 우리의 믿음을 어떻게 고쳐야 하는지를 다루는 일도 같은 결을 따른다. 처음에 가졌던 가능성의 그림을, 새 증거에 비추어 차근차근 손보는 것이다. 그 셈법은 베이즈의 생각에서 살핀다. 또 데이터 속에서 진짜 신호와 그저 그런 잡음을 가리는 일 역시 가능성을 따지는 일인데, 그 이야기는 신호와 잡음에 있다.

가능성으로 말하는 이로움

한 가지 분명히 해둘 것이 있다. 가능성으로 말한다고 해서 아무것도 모른다는 뜻은 아니다. 오히려 그 반대다. 어떤 일이 일어날 가능성이 열에 아홉이라고 말하는 것은, 그 일을 거의 확신하면서도 어긋날 여지를 정직하게 남겨두는 것이다. 단정과 무지 사이에서 가능성은 가장 정직한 자리를 차지한다.

이 태도는 일상에서도 쓸모가 크다. 누군가 어떤 일을 반드시 그렇다고 단언하면 한 걸음 물러서 볼 만하고, 절대 아니라고 못 박아도 마찬가지다. 세상의 많은 일은 가능성의 언어로 말할 때 가장 정확하다. 확실함을 가장한 말보다, 얼마나 그럴듯한지를 정직하게 밝히는 말이 대개 더 믿을 만하다.

예측의 두 얼굴

여기서 예측이라는 말을 조금 갈라볼 필요가 있다. 언어 모델이 다음 단어를 짚는 것도 예측이고, 동전의 다음 결과를 가늠하는 것도 예측이다. 그러나 둘은 결이 다르다. 언어에는 문맥이라는 단서가 있다. 앞에 놓인 말들이 다음에 올 말을 강하게 좁혀준다. 충분한 단서가 있기에 꽤 그럴듯한 짐작이 가능하다.

반면 순수한 우연에는 그런 단서가 없다. 잘 섞은 동전이나 주사위의 다음 결과는 앞선 결과와 끊겨 있다. 아무리 과거를 들여다봐도 다음 한 번에 대해서는 더 알 수 없다. 같은 예측이라는 말을 쓰지만, 한쪽은 단서를 읽는 일이고 다른 쪽은 단서가 없는 일이다. 이 차이를 흐리면 큰 오해가 생긴다.

무엇은 예측되고 무엇은 아닌가

그래서 핵심 물음은 이것이다. 지금 다루는 일에 정말 단서가 있는가. 언어처럼 문맥이 다음을 좁혀주는 일이라면 예측이 힘을 발휘한다. 그러나 우연이 지배하는 일, 곧 과거가 미래에 대해 아무 정보도 주지 않는 일이라면 예측은 헛돈다. 무엇이 어느 쪽인지를 가리는 것이 우연을 제대로 이해하는 첫걸음이다.

사람은 이 둘을 자주 헷갈린다. 언어나 자연에서 단서를 읽어내던 능력이, 단서가 없는 곳에서도 흐름과 차례를 찾으려 들기 때문이다. 한쪽으로 쏠린 우연한 결과를 보고 이제 반대가 나올 차례라 느끼는 것이 그 흔한 예다. 그러나 기억 없는 우연에는 차례도 흐름도 없다.

이 헷갈림은 단순한 머릿속 착각으로 그치지 않는다. 단서가 없는 일에 단서가 있는 듯 행동하면, 헛된 자신감으로 잘못된 선택을 하게 된다. 그래서 단서의 있고 없음을 가리는 일은 한가한 따짐이 아니라, 우연 앞에서 자신을 지키는 실용적인 분별이다.

우연을 다루는 자리에서

이 구분이 가장 무겁게 다가오는 곳이 우연을 이용해 굴러가는 게임이다. 그런 게임의 결과가 순수한 우연이라면, 과거의 흐름을 분석해 다음을 맞히려는 노력은 원리상 통하지 않는다. 어떤 패턴이 보이더라도 그것은 우리 머리가 그린 무늬일 뿐, 다음 결과에 대한 정보를 담고 있지 않다.

게다가 이런 게임에는 대개 기댓값이 게임을 여는 쪽으로 살짝 기울도록 설계된 차이가 들어 있다. 흔히 하우스 엣지라 부르는 이 작은 기울기 때문에, 짧은 시간에는 누구든 앞설 수 있어도 시행이 쌓일수록 전체 결과는 그 설계된 쪽으로 수렴한다. 짧게 보면 우연이지만 길게 보면 산수이고, 그 산수는 게임을 여는 쪽에 유리하다. 이것은 미화하거나 비난할 일이 아니라 구조가 그렇다는 사실일 뿐이다. 기댓값이 긴 반복에서 어떻게 작동하는지는 기댓값과 긴 반복에서 자세히 다룬다.

이 노트는 우연을 이기는 방법 같은 것을 다루지 않는다. 다만 무엇이 예측되고 무엇은 끝내 알 수 없는지를 또렷이 해둘 뿐이다. 이 사이트가 무엇을 다루고 무엇을 다루지 않는지는 소개에 적어두었다.

언어를 다루는 일에서 출발한 이야기가, 불확실성을 거쳐 우연의 한계에까지 닿았다. 그 길을 관통하는 물음은 하나다. 지금 이 자리에 정말 읽어낼 단서가 있는가. 그 물음을 잊지 않는 한, 우리는 가능성과 우연 앞에서 한결 차분해질 수 있다. 모르는 말이 나오면 용어와 자료를 펼쳐보면 된다.