본문으로 건너뛰기
Margin

가능성과 오차 사이

최근 노트

갈래

자료

좌표가 된 의미

기계가 사람의 말을 다루려면 단어를 숫자로 바꿔야 한다는 이야기를 기계의 읽기에서 했다. 그런데 단순히 단어마다 번호를 붙이는 것만으로는 부족하다. 번호는 순서일 뿐 뜻을 담지 못한다. 그렇다면 단어의 의미 자체를 어떻게 숫자로 옮길 수 있을까. 이 글은 그 영리한 방법, 곧 단어를 좌표로 바꾸는 생각을 들여다본다.

어울리는 말이 뜻을 말해준다

출발점은 단순한 관찰이다. 비슷한 뜻을 지닌 말들은 비슷한 자리에 나타난다는 것이다. 커피와 차를 떠올려보자. 두 단어는 마신다, 따뜻하다, 잔, 아침 같은 말들과 자주 어울린다. 어울리는 말들이 겹친다는 사실이, 커피와 차의 뜻이 가깝다는 신호가 된다. 굳이 사전을 펴지 않아도, 어떤 말과 함께 쓰이는지를 보면 그 말의 쓰임을 짐작할 수 있다.

이 생각은 뒤집어도 통한다. 어떤 단어의 뜻을 알고 싶다면, 그 단어가 어떤 말들 사이에 자주 놓이는지를 보면 된다. 수많은 문장에서 한 단어의 둘레에 어떤 말들이 모이는지를 모으면, 그 단어의 쓰임이 윤곽을 드러낸다. 말의 뜻을 그 말이 지닌 본질에서 찾는 대신, 그 말이 맺는 관계에서 찾는 셈이다.

우리도 그렇게 배운다

이 방식이 그럴듯한 까닭은 사람도 비슷하게 말을 익히기 때문이다. 우리는 모르는 단어를 만나도 사전을 펴기 전에 문맥으로 뜻을 짐작한다. 어떤 말이 어떤 상황에서 어떤 말들과 함께 쓰이는지를 거듭 보다 보면, 그 말의 쓰임이 몸에 밴다. 정의를 외워서가 아니라 쓰임을 겪으며 뜻을 익히는 것이다.

기계가 단어를 좌표로 다루는 일도 결국 같은 이치를 따른다. 말의 뜻을 미리 정해 넣는 대신, 그 말이 실제로 쓰이는 모습에서 뜻을 길어 올린다. 사람이 오랜 경험으로 쌓는 언어 감각을, 기계는 방대한 글의 통계로 흉내 내는 셈이다.

단어마다 좌표를 주다

이 관찰을 숫자로 옮기는 방법이 단어를 좌표로 나타내는 것이다. 지도 위의 한 지점이 가로와 세로 두 수로 표시되듯, 각 단어에 여러 개의 수로 이루어진 좌표를 부여한다. 다만 이 좌표는 두 개의 수가 아니라 훨씬 많은 수로 이루어진다. 그 많은 수가 그 단어가 여러 말들과 맺는 어울림의 무늬를 담는다.

좌표가 정해지면 단어들은 하나의 거대한 공간 안에 흩뿌려진 점들처럼 자리를 잡는다. 어울리는 말이 비슷한 단어들은 이 공간에서 서로 가까운 곳에 모이고, 영 다른 맥락에서 쓰이는 단어들은 멀리 떨어진다. 말의 뜻이 공간 속 위치로 바뀐 것이다. 이렇게 단어를 좌표로 다루는 구체적인 방식은 의미의 기하학에서 더 깊이 살핀다.

몇 개의 수가 필요한가

단어 하나의 좌표가 몇 개의 수로 이루어지는지 궁금할 수 있다. 가로세로 두 수로는 어림없다. 말의 쓰임은 너무 여러 갈래라, 그것을 담으려면 수백 개의 수가 필요하다. 각각의 수가 그 단어가 지닌 어떤 측면을 조금씩 나누어 맡는다고 보면 된다.

이렇게 많은 수로 이루어진 공간은 사람이 머릿속에 그리기 어렵다. 우리는 가로세로높이 정도까지만 떠올릴 수 있기 때문이다. 그러나 기계에게는 수가 몇 개든 상관없다. 거리를 재고 방향을 따지는 셈법은 수가 아무리 많아도 똑같이 작동한다. 사람의 직관이 닿지 않는 곳에서 기계는 거뜬히 계산을 이어간다.

가까움이 곧 닮음

단어가 공간 속 점이 되면 한 가지 편리한 일이 생긴다. 두 단어가 얼마나 비슷한지를 두 점 사이의 거리로 잴 수 있게 되는 것이다. 가까이 있으면 뜻이 가깝고, 멀리 있으면 뜻이 멀다. 사람이 머릿속으로 어렴풋이 느끼던 말의 닮음을, 기계는 좌표 사이의 거리라는 또렷한 수로 다룰 수 있다.

덕분에 기계는 어떤 단어와 비슷한 말들을 쉽게 찾아낸다. 한 단어의 좌표 둘레에 모인 다른 단어들이 곧 그 단어와 뜻이 가까운 말들이다. 사람이 동의어 사전을 뒤지는 일을, 기계는 공간에서 가까운 이웃을 찾는 일로 대신한다. 말의 의미를 다루는 일이 거리를 재는 일로 바뀐 셈이다.

이 거리를 재는 셈은 뜻밖의 일에도 쓰인다. 글과 글이 얼마나 비슷한 주제를 다루는지, 어떤 물음에 어떤 답이 잘 맞는지를 가늠하는 데도 같은 방식이 작동한다. 단어를 넘어 문장이나 글 전체를 좌표로 바꾸면, 그 사이의 거리로 닮음을 잴 수 있기 때문이다. 의미를 공간으로 옮긴다는 한 가지 생각이 여러 쓰임으로 뻗어 나간다.

뜻에도 방향이 있다

더 흥미로운 일도 있다. 이 공간에서는 단어들 사이의 관계가 방향으로 나타나기도 한다. 이를테면 어떤 나라에서 그 수도로 가는 방향이, 여러 나라와 수도 짝에서 비슷하게 나타난다는 것이다. 한 짝에서 다른 짝으로 옮겨가는 길이 닮은 모양을 그린다. 관계가 공간 속의 일정한 방향으로 새겨지는 셈이다.

이것이 신기한 까닭은, 누가 일부러 그런 방향을 새겨 넣은 것이 아니기 때문이다. 그저 수많은 문장에서 단어들의 어울림을 통계로 익혔을 뿐인데, 그 결과로 만들어진 공간 안에 이런 관계의 방향이 저절로 담겼다. 말의 쓰임 속에 숨어 있던 규칙이 좌표의 기하로 드러난 것이다.

고정된 좌표의 한계

물론 단어에 좌표 하나를 딱 붙여두는 방식에는 한계가 있다. 한 단어가 여러 뜻을 지닐 때다. 앞서 말한 배처럼 여러 뜻을 가진 단어에 좌표 하나만 준다면, 그 좌표는 여러 뜻을 어정쩡하게 뭉뚱그린 자리에 놓이고 만다. 강의 배와 과일의 배가 한 점에 겹쳐버리는 것이다.

그래서 더 나아간 방법들은 단어의 좌표를 문맥에 따라 바꾼다. 같은 단어라도 어떤 문장에 놓이느냐에 따라 다른 좌표를 갖게 하는 것이다. 그러면 강 이야기 속의 배와 과일 이야기 속의 배가 서로 다른 자리에 놓인다. 고정된 좌표에서 문맥에 따라 움직이는 좌표로 나아간 셈인데, 그 바탕에 깔린 생각은 여기서 본 것과 같다. 의미는 관계에서 나오고, 그 관계는 공간으로 옮길 수 있다는 생각이다. 모르는 말이 나오면 용어와 자료를 참고하면 된다.