믿음을 고치는 셈, 베이즈의 생각
우리는 살면서 끊임없이 마음을 고쳐먹는다. 어떤 일을 반신반의하다가 새 소식을 듣고 더 믿거나 덜 믿게 된다. 이렇게 새로운 정보가 들어올 때 믿음을 어떻게 고쳐야 하는가를 또렷한 셈으로 다듬은 것이, 십팔 세기의 한 성직자 이름을 딴 베이즈의 생각이다. 이 글은 그 생각을 수식 없이, 일상의 말로 풀어본다.
믿기 전과 믿은 뒤
베이즈의 생각은 단순한 뼈대를 갖는다. 어떤 일을 두고 처음에 가진 가늠이 있다. 이것을 사전이라 부르자. 그다음 새로운 증거가 들어온다. 그 증거를 반영해 가늠을 고치면 새로운 가늠이 나온다. 이것이 사후다. 사전에서 출발해, 증거를 거쳐, 사후에 이른다. 이 흐름이 전부다.
중요한 것은 증거가 사전을 완전히 지우지 않는다는 점이다. 사후는 처음의 가늠과 새 증거를 함께 버무린 결과다. 처음에 거의 불가능하다고 본 일은, 어지간한 증거로는 쉽게 그럴듯해지지 않는다. 반대로 처음부터 충분히 있을 법한 일은 적은 증거로도 확신에 가까워진다. 출발점이 어디였는지가 도착점에 그대로 묻어난다.
거꾸로 따지는 셈
베이즈의 생각이 다루는 것은 일종의 거꾸로 된 물음이다. 보통 우리는 원인에서 결과로 따진다. 비가 오면 길이 젖는다는 식이다. 그런데 실제로 마주하는 상황은 그 반대일 때가 많다. 길이 젖은 것을 보고 비가 왔는지를 가늠해야 한다. 결과를 손에 쥐고 원인을 거슬러 묻는 것이다.
이 거꾸로 묻기가 까다로운 까닭은, 같은 결과가 여러 원인에서 나올 수 있기 때문이다. 길이 젖은 것은 비 때문일 수도, 누가 물을 뿌려서일 수도 있다. 베이즈의 생각은 이 거슬러 묻기를 차분히 풀어내는 길을 준다. 결과를 보고 어느 원인이 더 그럴듯한지를, 각 원인이 본디 얼마나 흔한지와 함께 따지는 것이다.
믿음을 수로 다룬다는 것
베이즈의 생각에서 믿음은 흑백이 아니다. 믿는다와 안 믿는다 둘 중 하나가 아니라, 얼마나 믿는지를 정도로 다룬다. 거의 확신함, 반신반의함, 그럴 리 없다고 봄이 모두 다른 크기의 숫자로 표현된다. 이렇게 믿음을 정도로 다루면, 새 증거가 그 정도를 얼마나 밀어 올리거나 끌어내리는지를 셈할 수 있다.
이것은 일상의 느낌과도 통한다. 우리는 어떤 일을 단지 믿거나 안 믿는 것이 아니라 어느 정도 믿는다. 새 소식을 들으면 그 믿음의 정도가 조금 오르거나 내린다. 베이즈의 생각은 이 자연스러운 마음의 움직임을 수의 언어로 옮긴 것이다. 막연한 느낌을 또렷한 셈으로 바꾸는 셈이다.
드문 일을 잊으면 생기는 일
이 생각이 빛을 발하는 유명한 예가 있다. 아주 드문 병을 찾아내는 검사를 떠올려보자. 이 검사가 꽤 정확하다고 하자. 병이 있으면 거의 양성이 나오고, 병이 없으면 대개 음성이 나온다. 그런데 어떤 사람이 양성 판정을 받았다면, 그 사람이 정말 병에 걸렸을 가능성은 얼마나 될까. 많은 이가 검사가 정확하니 거의 틀림없다고 여긴다.
그러나 답은 뜻밖에 낮을 수 있다. 병 자체가 워낙 드물기 때문이다. 병에 걸린 사람이 극히 적다면, 건강한 수많은 사람 가운데 드물게 나오는 잘못된 양성의 수가, 진짜 병자에게서 나온 양성의 수보다 오히려 많을 수 있다. 그래서 양성이라도 실제로 병일 가능성은 생각보다 낮다. 처음의 드묾, 곧 사전을 잊고 검사의 정확함만 보면 크게 헛짚는 것이다.
이 착각은 사전을 무시한 데서 온다. 베이즈의 생각은 바로 이 사전을 셈에 끌어들이라고 말한다. 어떤 증거를 해석할 때, 그 일이 본디 얼마나 흔한지를 함께 따져야 한다는 것이다. 이 한 가지 교훈만으로도 우리는 수많은 성급한 판단에서 벗어날 수 있다.
법정과 일상에서도
사전을 잊는 착각은 검사실 밖에서도 흔하다. 어떤 드문 특징이 우연히 들어맞았다는 사실만으로 누군가를 의심하는 경우가 그렇다. 그 특징이 아무리 드물어도, 아주 많은 사람을 놓고 보면 우연히 들어맞는 이가 제법 나올 수 있다. 드묾만 보고 우연의 규모를 잊으면 엉뚱한 결론에 이른다.
일상의 판단도 마찬가지다. 인상적인 한 가지 증거에 휘둘려, 그 일이 본디 얼마나 있을 법한지를 잊곤 한다. 놀라운 우연을 운명으로 여기거나, 드문 성공담을 흔한 일로 착각하는 것이 그렇다. 증거의 강렬함과 그 일의 흔함은 다른 문제다. 둘을 함께 저울에 올리는 것이 베이즈가 가르치는 분별이다.
증거의 무게를 재다
그렇다면 증거는 믿음을 얼마나 바꿔야 할까. 핵심은 그 증거가 어느 쪽 설명에서 더 그럴듯한가다. 어떤 증거가 한 설명 아래에서는 흔히 나타나지만 다른 설명 아래에서는 좀처럼 나타나지 않는다면, 그 증거는 앞쪽 설명을 강하게 떠받친다. 반대로 어느 설명에서나 비슷하게 나타나는 증거라면, 그것은 둘을 가리는 데 별 도움이 안 된다.
이렇게 한 설명이 증거를 얼마나 잘 떠받치는지를 나타내는 값을 가능도라 부른다. 베이즈의 셈은 사전에 이 가능도를 곱하는 방식으로 사후를 빚는다. 처음의 가늠을, 증거가 어느 쪽을 더 잘 설명하는지에 따라 키우거나 줄이는 것이다. 베이즈의 생각에 관한 차분한 설명은 스탠퍼드 철학 백과사전의 베이즈 정리 항목에 잘 정리되어 있다.
차근차근 고쳐가다
증거는 대개 한 번에 다 오지 않는다. 하나씩 차례로 들어온다. 베이즈의 생각이 우아한 까닭은, 증거가 들어올 때마다 같은 셈을 되풀이하면 된다는 데 있다. 첫 증거로 사전을 고쳐 사후를 얻고, 그 사후를 다음 증거에 대한 새 사전으로 삼아 또 고친다. 이렇게 한 걸음씩 가늠을 다듬어간다.
이 차근차근의 갱신은 앞서 다룬 다른 이야기와 깊이 닮았다. 언어 모델이 앞말을 하나씩 받으며 다음에 올 말에 대한 가늠을 고쳐가는 일이 그렇다. 새 단서가 들어올 때마다 가능성의 지형을 다시 그리는 것이다. 그 이야기는 다음 단어 고르기에서 다뤘다. 증거에 따라 믿음을 고쳐가는 사고는 언어를 다루는 일의 바탕에도 흐른다.
어떤 증거를 보았는가
베이즈의 셈은 손에 든 증거를 충실히 반영한다. 그런데 그 증거가 어떻게 모였는지는 따로 챙겨야 한다. 우리가 보는 증거가 한쪽으로 골라진 것이라면, 아무리 셈을 정확히 해도 결론이 기운다. 눈에 띄는 사례만 기억하고 그렇지 않은 경우는 잊는다면, 그 치우친 증거가 사후를 엉뚱한 곳으로 끌고 간다.
그래서 베이즈의 생각을 제대로 쓰려면 셈만큼이나 증거의 출처를 살펴야 한다. 이 증거가 전체를 고르게 비추는가, 아니면 어떤 이유로 한쪽만 보여주는가. 골라진 증거 위에 세운 정교한 셈은, 그 정교함 때문에 오히려 치우친 결론을 더 그럴듯하게 포장할 수 있다. 무엇을 보았는지를 묻는 일이 셈에 앞선다.
증거가 쌓일수록
베이즈의 갱신에는 위안이 되는 성질이 있다. 증거가 충분히 쌓이면, 처음의 사전이 어디였든 사후가 비슷한 곳으로 모여드는 경향이다. 출발점이 조금 달랐어도, 같은 증거를 많이 겪다 보면 결국 비슷한 가늠에 이른다. 사전의 영향은 증거가 쌓일수록 옅어진다.
다만 이것은 증거가 넉넉하고 미더울 때의 이야기다. 증거가 적으면 사전의 입김이 여전히 세고, 증거 자체가 치우쳐 있으면 많이 쌓여도 엉뚱한 곳으로 모인다. 그래서 좋은 판단은 좋은 증거를 충분히 모으는 데서 온다. 적은 증거로 성급히 단정하지 않는 태도가 여기서도 빛을 발한다.
기계도 이렇게 따진다
베이즈의 생각은 기계가 무언가를 가려내는 일에도 널리 쓰인다. 받은 글이 광고성 쪽지인지 아닌지를 판단하는 일을 떠올려보자. 어떤 낱말이 광고성 쪽지에 유독 자주 나타난다면, 그 낱말의 등장은 광고일 가능성을 높이는 증거가 된다. 여러 낱말의 증거를 차근차근 모으면, 이 글이 광고일 가능성에 대한 가늠이 점점 또렷해진다.
이 방식의 묘미는 단순하면서도 꽤 잘 통한다는 데 있다. 각 단서가 어느 쪽을 얼마나 떠받치는지를 따져 곱해나가는 것만으로, 제법 미더운 판단이 나온다. 다만 이 판단도 결국 가능성일 뿐 확정이 아니다. 광고일 가능성이 높다는 것과 반드시 광고라는 것은 다르다. 데이터에서 진짜와 가짜를 가리는 더 넓은 이야기는 신호와 잡음에서 다룬다.
사전을 어떻게 정하나
베이즈의 생각에는 곤란한 물음이 하나 따라붙는다. 처음의 가늠인 사전을 어떻게 정하느냐다. 어떤 경우에는 사전이 분명하다. 드문 병의 비율처럼 이미 알려진 숫자가 있으면 그것을 쓰면 된다. 그러나 그런 숫자가 없을 때는, 사전을 정하는 데 사람의 판단이 끼어든다.
사전이 사람마다 다르면 사후도 달라질 수 있다. 같은 증거를 보고도 출발점이 다르면 도착점이 갈리는 것이다. 이것을 베이즈의 약점으로 보는 이도 있고, 오히려 정직한 면으로 보는 이도 있다. 우리의 판단이 늘 어떤 출발점 위에 선다는 사실을 드러내기 때문이다. 분명한 것은, 사전을 함부로 정하면 그 치우침이 결론까지 따라온다는 점이다.
지나친 확신을 경계하기
베이즈의 셈을 따르더라도 빠질 수 있는 함정이 있다. 사전을 지나치게 굳게 잡는 경우다. 어떤 일을 처음부터 거의 확신하거나 거의 불가능하다고 못 박아두면, 웬만한 증거로는 그 가늠이 꿈쩍도 하지 않는다. 아무리 반대 증거가 쌓여도 마음을 바꾸지 않는 고집이 셈의 옷을 입고 나타나는 것이다.
그래서 건강한 사전은 어느 쪽으로도 너무 치우치지 않는다. 가능성을 열어두되 증거에 따라 움직일 여지를 남기는 것이다. 절대 그럴 리 없다는 빗장을 함부로 걸지 않는 태도가, 새 증거 앞에서 마음을 고칠 수 있게 한다. 베이즈의 생각은 셈이기 이전에, 증거에 따라 마음을 여는 자세에 관한 것이기도 하다.
점치기가 아니라 고치기
베이즈의 생각을 미래를 점치는 도구로 오해하기 쉽다. 그러나 그것은 점이 아니다. 베이즈는 다음에 무슨 일이 일어날지를 알려주지 않는다. 다만 지금 손에 든 증거에 비추어, 어떤 설명이 더 그럴듯한지를 가늠할 뿐이다. 미래를 내다보는 것이 아니라 현재의 믿음을 정리하는 일에 가깝다.
이 구분은 중요하다. 어떤 일이 더 그럴듯하다는 가늠은 그 일이 반드시 일어난다는 보장이 아니다. 양성 판정이 병의 가능성을 높이지만 확정하지 않듯, 베이즈의 사후도 가능성의 크기일 뿐 정해진 답이 아니다. 베이즈를 점괘처럼 받아들이는 순간, 가능성과 확정을 헷갈리는 흔한 함정에 빠진다.
겸손의 셈법
베이즈의 생각이 우리에게 건네는 가장 큰 교훈은 겸손일지도 모른다. 그것은 한 번에 진실을 단언하지 않는다. 다만 지금 가진 가늠을, 새 증거에 비추어 조금씩 고쳐갈 뿐이다. 더 많은 증거가 쌓이면 가늠은 더 또렷해지지만, 완전한 확신에 이르는 일은 드물다.
이 태도는 우연과 불확실성을 다루는 이 노트의 결과 맞닿는다. 무엇을 알 수 있고 무엇은 여전히 모르는지를 정직하게 가늠하는 것, 그것이 확률적 사고의 바탕이다. 그 사고가 언어와 우연을 어떻게 가로지르는지는 언어와 확률에서, 긴 반복 속에서 어떻게 작동하는지는 기댓값과 긴 반복에서 이어 다룬다.
증거를 해석할 때는 그 일이 본디 얼마나 흔한지를 함께 따져야 한다. 이 한 가지, 곧 사전을 잊지 않는 것만으로도 많은 성급한 판단을 면할 수 있다. 모르는 말이 나오면 용어와 자료를 참고하면 된다.
믿음을 고치는 일에 셈이 있다는 생각은 처음엔 낯설다. 그러나 그 셈의 알맹이는 상식에 가깝다. 처음의 가늠을 잊지 말 것, 증거가 어느 쪽을 더 잘 설명하는지 따질 것, 그리고 한 번에 단정하기보다 차근차근 고쳐갈 것. 베이즈의 생각은 이 상식을 또렷한 틀로 다듬어, 우리가 불확실한 세상에서 조금 덜 헛짚도록 돕는다. 이 사이트가 다루는 것과 다루지 않는 것은 소개에 적어두었다.