오늘날 우리가 사용하고 있는 통신은 그 형태가 무엇이든, 하나같이 효율성을 높이는데 초점이 맞추어져 있다. 샤논이 50년 전 제시한 정보이론은 바로 이 연구분야에 물꼬를 튼 기념비적 사고다.
이제는 일상용어가 돼 거리낌 없이 사용하는 낱말 중 '통신'이란 단어가 있다. 이동통신, 휴대통신, 위성통신, 정보통신, PC통신 등. 과연 통신이란 무엇인가? 일단은 '정보의 전송 및 저장'으로 정의하는 것이 가장 적절할 것이다. 그렇다면 '정보'란 무엇인가? 어떻게 정보가 많은지 적은지를 알 수 있는가? 또 정보를 어떻게 전송, 저장하는 것이 효율적인가?
이렇듯 추상적이며 모호한 문제를 수학적으로 정의하고 접근할 수 있는 방법이 없을까? 다른 모든 과학분야와 마찬가지로 수학적인 접근은 통신분야에서도 최적 시스템을 설계하고, 또 그 성능을 평가하는데 아주 중요하고 명확한 객관적인 근거가 될 수 있을 것이다.
적도 지방에 내리는 눈
2차대전 후 디지털통신에 대한 관심이 고조되면서 미국 벨연구소의 샤논박사는 1948년 '통신의 수학적 이론'이란 논문을 발표했다. 이른바 '정보이론'이란 새로운 학문분야가 탄생한 것이다.
샤논은 그의 논문에서 정보를 '불확정성' 혹은 '불확실성'으로 정의했다. 즉 어떤 사건이나 사실이 확실할수록 그에 따른 정보는 적어지고 반대로 불확실할수록 그 정보는 많아진다는 것이다.
예를 들어 시베리아지방과 적도 부근에서 1월 중에 폭설이 내리는 사건을 한번 가상해 보자. 똑같은 사건임에도 불구하고 시베리아지방에서는 별로 새로운 정보의 가치가 없음을, 반대로 적도부근의 경우에는 정보의 가치가 엄청남을 충분히 예상할 수 있을 것이다. 이 두 경우의 차이점을 무엇인가? 바로 사건 발생 확률의 차이인 것이다. 알다시피 한겨울에 시베리아지방에 폭설이 내린다는 것은 누구나 다 짐작할 수 있는 일인 반면, 적도부근에서 그러한 일이 일어난다는 것은 아무도 예상하지 못한다.
이 점에 착안해 그는 정보의 양이 많고 적음을 나타내는 척도를 '엔트로피'로 정하고 그것을 발생확률에 반비례하도록 정의했다. 물론 단순 반비례가 아니고 발생확률의 역수의 대수값(로그)으로 정의했다. 이는 전체적으로 확률과 엔트로피 사이의 반비례 관계를 유지하면서 앞서 제기된 다른 의문사항에 대한 해답과의 상관관계를 고려해 결정된 것이다. 우리는 발생확률만 알면 그 사건이 일어났다는 것을 알았거나 통보받았을 경우, 받은 정보의 양을 수학적으로 측정할 수 있게 됐다.
근본적인 통신의 문제로 들어가서, 과연 어떻게 하면 효율적으로 정보를 전송, 혹은 저장할 수 있겠는가? 효율적이란 말이 상당히 주관적이고 모호하다보니 여기에 대해 보는 사람의 관점에 따라 여러가지로 다양한 답이 나올 수 있다. 1차적으로 이 물음에 대해 샤논은 "동일한 정보를 전송하는 경우에는 좀더 짧은 시간에, 또 저장하는 경우에는 좀더 적은 기억공간이나 저장장소 만으로도 가능하다" 고 보았다.
신문 한 장의 내용을 전송하는데 1시간이 걸리는 경우와 1분에 가능한 경우가 있다면 당연히 후자가 더 효율적이다. 또한 이를 저장할 때 디스켓이나 하드디스크의 필요 메모리량은 적으면 적을수록 더 효율적이다. 이때 실제로 전송하거나 저장되는 것은 정보 그 자체가 아니고 사실은 그 정보를 적절하게 표현한 전기신호에 해당된다.
따라서 통신의 기본목적인 '효율적인 정보의 전송 및 저장'을 좀 더 실제적으로 해석하면 동일한 정보를 어떤 형태의 신호로 표현할 것인가의 문제가 되고, 가능한 한 적은 양의 신호로 표현하는 것이 바람직하다는 것이다. 일반적으로 디지털신호를 표현하는데는 1대 1로 대응되는 2진수인 비트를 사용한다. 따라서 효율적인 통신의 1차적인 목표는 동일한 정보를 최대한 적은 수의 비트로 표현하는 것이다.
숨어 있는 비트를 찾아라
그렇다면 과연 특정한 정보가 있을 때 그 정보를 나타내는 비트수는 얼마나 줄일 수 있을까? 제한없이 줄일 수 있을까? 여기에 대한 대답으로 샤논은 최소 비트수가 바로 정보량, 즉 엔트로피가 된다고 말했다. 앞서 언급한 바와 같이 이 관계를 만들기 위해 그는 엔트로피를 확률의 역수의 대수값으로 정했고, 또 그 단위를 비트라 했다. 다시 말하면 어떤 정보를 표현하는데 있어 아무리 좋은 방법을 동원하더라도 그 정보량 이하로 비트 수를 줄일 수는 없다는 것이다.
자, 이제 어떻게 최소의 비트로 주어진 정보를 표현할 수 있을지 생각해보자. 즉 주어진 정보에 대해 이를 표현하는 신호나 부호를 어떻게 선택하면 최소 비트수에 도달할 수 있겠는가? 여기에 대해 아주 간단하고 체계적으로 이를 구할 수 있는 방법을 1952년에 허프만교수가 발표했는데, 이를 허프만 부호라 부른다.
그 기본개념은 정보의 양이 바로 확률로 정의되므로 이를 표현하는 부호도 그 확률에 맞추어 자주 일어나는 사건, 혹은 심벌에는 짧은 부호를 할당하고, 그렇지 않는 경우에는 상대적으로 긴 부호를 할당하자는 것이다. 이렇게 되면 사건이나 심벌에 따라 부호의 길이가 다른, 이른바 '가변장부호'가 발생된다.
일반적으로 동일한 발생확률, 예를 들어 발생확률이 4분의 1인 4가지 경우를 표현하기 위해서는 00,01,10,11과 같이 모든 경우에 대해 똑같이 2비트가 필요하며, 따라서 평균적으로도 2비트가 필요하다. 그러나 만약 4가지 경우의 발생확률이 다르다면, 즉 1/2,1/4,1/8,1/8이면 이를 0,10,110,111과 같이 각 경우에 따라 길이가 다른 부호를 사용할 수 있다. 이때 최소 밑 최대 부호의 길이는 각각 1과 3이지만 평균 길이는 1.75비트가 된다.
다시 말해 고정된 2비트씩을 배정하는 것보다 가변장부호를 사용함으로써 12.5%의 비트수 감소효과를 볼 수 있고, 이 경우 실제적으로 샤논이 제시한 최소비트수에 도달한다. 이러한 허프만부호는 현재 팩스나 영상신호 등에서 그대로, 혹은 약간 변형된 형태로 응용되고 있다.
깨진 수도관에서 새는 물
만약 송신이나 저장된 정보가 수신측이나 재생측에서 완벽하게 재현된다면 통신은 아무 문제가 되지 않을것이다. 그러나 실제 통신시스템에서는 찌그러지거나 변형된 신호를 받을 수밖에 없다. 이런 열악한 환경에서 완벽하게 신호를 재현하는 것은 통신의 가장 기본적이면서도 영원한 숙제다. 열악한 환경의 주된 원인은 크게 왜곡과 잡음현상 때문인데, 특히 잡음은 그 예측 불가능한 특성으로 인해 통신시스템에서 가장 중요하고 심각한 문제다.
이러한 현상은 정보의 흐름 측면에서 해석할 수 있다. 예를 들어 흠집이 있는 수도관을 상상해보자. 수도관을 통해 흘러가는 물은 정보로, 흠집은 열악한 환경으로 볼 수 있다. 수도관을 통해 흘러가는 물의 일부는 목적지에 도달하기 전에 흠집을 통해 밖으로 새나가고, 또 그 흠집을 통해 밖에 있던 오수가 흘러 들어올 수도 있다. 즉 송신 측에서 보내진 정보는 그대로 전달되지 못하고 일부가 중간에서 소실되고, 또 불필요한 정보가 덧붙여져서 수신측으로 전달된다. 결국 수신정보는 송신정보에서 소실된 정보를 빼고 불필요한 정보가 더해진 값이 된다.
수신측에서 실제 필요한 정보는 도달한 전체 수신정보에서 불필요하게 더해진 정보를 제외한 것이며, 이는 또한 송신정보에서 소실된 정보가 빠진 것과 같다. 이를 송신측과 수신측의 '상호정보'라 하고, 이 상호정보의 최대값을 채널용량이라 한다. 다시 말하면 채널용량은 주어진 채널, 즉 통신매체를 통해 전달할 수 있는 최대정보량이 된다.
샤논의 논문이 발표되기 전에는 일반적으로 잡음이 정보의 흐름을 제한시키기 때문에 채널상에서 발생되는 오류를 줄이기 위해서는 데이터전송률을 감소시켜야만 가능한 것으로 알려져 있었다. 그러나 샤논은 만약 데이터전송률이 채널용량보다 적다면 오류확률을 임의적으로 줄일 수 있음을 증명해냈다.
이는 일정한 범위 내에서는 데이터전송률을 줄이지 않고도 오류확률을 마음대로 줄일 수 있으며, 오류확률과 데이터전송률은 서로 무관하게 결정된다는 뜻이다. 이러한 샤논의 주장을 역으로 해석하면 채널용량 이상의 데이터전송률에서는 우리가 원하는 오류관련 성능에 도달할 수 없음을 의미한다.
그렇다면 채널용량 이하의 데이터전송률에서는 어떠한 방법으로 임의의 최소 오류확률에 도달할 수 있겠는가? 그 대답은 개념적으로 '잉여의 정보'를 이용하는 것이다. 예를 들면 '1998년 첫째날 1월 1일 목요일'이란 문장에서 1998년 1월 1일을 제외한 첫째날과 목요일은 덧붙여 있는 잉여의 정보다. 즉 1998년 1월 1일만 알아도 그것이 1998년의 첫째날이며 목요일이란 것은 따로 이야기할 필요가 없는 군더더기의 정보인 셈이다.
만약 이 문장을 전송하는 중에 오류가 발생해 '1998년 첫째날 1월 2일 목요일'로 수신했다면 여기에서 첫째날과 목요일은 실제 1월 1일이므로 2일로 수신한 것은 오류에 의한 것임을 짐작할 수 있을 것이다.
그러나 만약 꼭 필요한 정보만 전송한 경우, 즉 '1998년 1월 1일'로 송신했으나 오류에 의해 '1998년 1월 2일'로 수신한 경우에는 이 문장에 오류가 있다는 사실을 알 방법이 없다. 따라서 잉여정보를 이용하면 전송중의 오류를 찾아낼 수도 있고, 더 나아가 고칠 수도 있으므로 주어진 채널에서 임의의 오류성능을 구현할 수 있다.
이러한 개념을 이용해 효율적으로 잡음에 대항할 수 있는 부호화방법을 연구하는 분야가 '부호이론'이며 이는 정보이론의 가장 중요한 부분이다. 특히 이 방법은 '오류에 대한 부호화'라 해서, 여기서 사용하는 부호를 '오류제어부호' 혹은 '오류검출 및 정정부호'라 한다. 컴퓨터 통신이나 콤팩트 디스크등 현재의 거의 모든 선진화된 전송·저장 시스템에서는 거의 필수적으로 오류제어부호를 사용하고 있다.
정보이론의 유용성
지금까지 샤논박사의 논문에서 시작된 좁은 의미의 정보이론을 간단하게 살펴보았다. 현재 정보이론 분야는 전자 및 전기공학회(IEEE)산하에 연구회가 조직돼 있고 정기적으로 학술대회 개최 및 논문지 발간을 하고 있다. 소속 회원들은 대부분 전자 및 전기공학 전공자이긴 하지만, 이들뿐 아니라 학문의 특성상 순수과학인 수학이나 물리학 전공자도 많이 참석하고 있다.
정보이론을 탐구하는 가장 큰 이유는 바로 그것이 정보전송시스템을 설계하는 기준을 제공해준다는 점일 것이다. 정보와 전송에 대한 명확한 개념을 개발함으로써 기술의 목표와 한계를 더 확실히 이해할 수 있다. 이런 이해로 말미암아 좀 더 효율적인 방향으로 연구와 개발이 진행될 수 있고, 이것이 바로 정보이론의 가장 중요한 성공분야로 간주된다.
정보이론의 여러 가지 응용분야 중에서도 가장 중요한 것은 통신의 제반 문제에 관련된 것이다. 현재 잡음채널상에서 일반적인 최적 데이터전송방식은 알려져 있지 않다. 특히 데이타의 정보율이 채널의 정보용량보다 더 클 경우 왜곡이나 변형 없이 데이터를 전송한다는 것은 불가능하다. 즉 채널용량과 송신 데이터의 정보량, 엔트로피의 개념을 도입함으로써 정보이론은 통신시스템의 최적성능을 정확하게 판단할 수 있게 해준다. 덧붙여 최적시스템을 합리적으로 설계할 수 있는 방안도 제공해준다.
위성통신, 데이터통신, 자기기록장치 등과 같은 디지털 통신시스템에서는 현재 신호 파형을 더 이상 한번에 한 비트씩 송수신하지 않고, 더 많은 비트열에 해당되는 파형을 전송하는 좀더 복잡하고 발전된 형태를 사용하고 있다. 정보이론은 이런 앞서나가는 방식들의 개발에 지침을 마련해주고 또 얼마나 많은 개선의 여지가 있는가를 알려준다.
정보이론은 통신의 가장 기본적인 문제인 정보의 효율적인 전송 및 저장에 대한 기본 방향을 제시해주고, 또 이론적인 최적성능에 도달할 수 있는 방안을 제공해준다. 따라서 50년 전 샤논박사에 의해 시작된 현대 정보이론은 이론 그 자체도 지금까지 엄청난 발전을 해왔으며, 또한 그 응용도 최신 통신분야의 발전에 끼친 영향이 지대하다. 더구나 지금까지의 발전에 그치지 않고 다가오는 차세대의 변화, 발전되는 통신환경에 맞추어 더욱 더 큰 발전과 광범위한 응용이 기대되고 있다.