일상생활에서 필요한 온갖 정보가 컴퓨터에 입력되어 활용될 수 있다면 우리가 절약할 수 있는 시간은 얼마나 될까? 그것을 바라기 전에 자신이 갖고 있는 모든 자료를 데이터베이스화 하는 습관이 필요하다.
자료의 기지
영어로는 Data Base라고 쓰기도 하고 Database라고 붙여서 쓰기도 한다. 그러니까 이것을 띄어서 쓸것인지 아닌지, 또 데이타가 표준인지 데이터가 표준인지 잘 모르겠다. 이 말이 생긴지는 20년도 채 못된다. 듣건대 미국공군에서 쓰는 용어의 기지(base)라는 의미로 쓰였던게 최초의 모양인데 이것을 번역한다면 '자료(data)의 기지'인 셈이다. 아마도 전세계에 흩어져 있는 사람들에게 공문이나 자료를 보내는 일도 대단한 일로서 이것을 집중관리하려고 이런 말을 쓴 모양이다.
컴퓨터가 생기고 나서 이안에 처리할 자료를 넣어 두었다가 필요할 때 쓰도록 만들어 둔 것을 데이터베이스라고 말하게 되었다. 박물관에 가면 수많은 문화재가 보관되어 있으며 도서관에 가면 수많은 책들이 보존되어 있다. 창고에 가면 물건이 쌓여 있으며 빌딩에 들어가면 수많은 사람이 들락거린다. 은행에 가면 돈이 많이 보관되어 있다. 이와같이 데이터베이스를 많이 모아두면 이것이 데이터뱅크(어떤 사람은 자료은행)가 된다. 한마디로 쉽게 말하면 컴퓨터가 읽을 수 있는 형태로 자료를 변환시켜 두어서 필요할 때에는 즉각(2∼3초 이내에) 찾아낼 수 있도록 만들어 둔 것을 말한다.
한동한 '많이 알고 말 잘하는 사람'을 일컬어서 컴퓨터 같은 사람이라고 불렀지만 요즘은 데이터베이스라고 부른다. 그럴 정도로 이말이 나날이 널리 보급되고 있다.
출판물이 최종제품이 아니다
우리나라 사람은 정보자료의 보존에는 무지무지하게 약하다. 도대체 보존이라는 뜻도 잘 모르는 모양이다. 그러니까 거북선도 없어졌고 고려자기를 만드는 기술도 공중으로 사라져버렸다. 그렇고 보면 기록도 잘 할줄 모르고 보존은 더더욱 잘 못하는 것처럼 보인다. 그래서 필자는 정보생산의 습관을 개혁하여야 한다고 역설을 거듭하여 왔지만 별성과 없는 모양이다. 몇달씩 머리를 싸매고 쓴 글이 드디어 활자화되어 나왔을 때의 기쁨만 누리고 이것을 잘 보관해두려는 노력은 너무나 희박하다.
말이 나왔으니 말이지 역사적인 기록물인 산문마저도 제대로 보존시키고나 있을까, 어느 신문이든지 창간호부터 오늘호까지 하루도 빼먹지 않고 보존하고 있는 신문사가 과연 있을까? 있다면 용서를 빌겠지만 아마도 안 빌어도 될 것 같다. 또한 이렇게 모아둔 자료를 찾는데 또 얼마나 많은 시간을 소모하고 있는지 알만한 사람은 다 알고 있다. "가령 28년전의 고연전이던 연고전이든 간에 축구에서 어느쪽이 몇대몇으로 이겼는가"라는 질문에 대하여 답하려면 도대체 어떻게 찾는지 그 순서가 체계화돼 있는지.
선진국의 출판물 제작과정을 예를 들지 않더라도 모두가 "데이터베이스를 만드는 과정의 중간제품으로서 출판물을 내놓고 있다" 그러니까 데이터베이스가 최종제품이지 출판물이 제종제품이 아니라는 것은 분명하다. 조금더 심하게 말하면 데이터베이스를 만들지 않는 출판물은 하나의 선전물에 지나지 않으며 발행 즉시 그 수명이 다하는 셈이다. 사람의 기억력이 살아 있는 동안만을 제외하고는.
데이터뱅크를 써보고
지금 세계에서는 웬만한 출판사라면 모두 데이터베이스 생산회사로 둔갑하고 있거나 이미 둔갑해버렸다. 이렇게 해서 상업적으로 팔고 있는 곳만도 2천군데가 넘는다. 미국의 데이터뱅크인 다이알로그(Dialog)에는 2백가지가 넘는 데이터베이스가 들어 있다. 여기에는 과학기술, 경영경제뿐 아니라 사회과학에 이르기까지 수많은 분야의 데이터베이스가 담겨져 있다. 그래서 컴퓨터 단말기로서 여기에 필요한 자료를 대화식으로 찾으면 금방 회답이 나오도록 되어 있다. 여기서는 웬만한 질문에 대해서는 몇분 이내에 찾아낼 수 있기 때문에 이용자가 해마다 급격히 늘어나고 있다.
한번은 역사를 전공하는 분이 역사에 관한 데이터베이스가 있느냐고 물어 왔다. 메뉴를 보았더니 미국역사에 관한 것이 들어있었다. 이것을 불러서 무엇을 찾고 싶으냐고 물어 보았다. 그랬더니 '이순신장군'에 관하여 찾아 보자고 한다. "글쎄 미국역사 데이터베이스에 한국데이터가 들어 있겠읍니까?"라고 의아해 하면서 "그러나저러나 찾아 봅시다. 이순신의 영어철자를 어떻게 쓰지요?"라고 물었더니 정확하게 알턱이 없다. 우선 Lee, Lie, Rhee, Ree, Rie, Ri등. 성 하나 가지고도 수많은 가능성이 있다. 다 넣어도 없다는 회답만이 단말기 화면에 비추어진다. 이때 한가지 꽤를 부렸다. "이름으로는 도저히 찾을 수 없기 때문에 다른 것으로 한번 찾아 봅시다"라면서 컴퓨터에게 'Korea'에 관한 것을 찾으라고 지시하였더니 9백52건이 들어 있다고 회답이 나왔다. 다음에 장군(Admiral)이라는 단어가 들어 있는 자료를 찾으라고 지시하였더니 2백44건이 들어있다고 한다. 당장에 한국과 장군 둘 다 들어있는 것을 찾으라고 지시하였더니 금방 2건이 들어 있다고 회답이 나왔다. 이것을 모두 비추라자 지시를 하였더니 반갑게도 "Adiral Yi Sun-Shin and the Tuttle Boat"라는 자료와 그 명세가 주루룩 비추어 나오지 않는가?
한번은 국내의 모그룹에서 '원고청탁'이란게 왔다. 솔직히 그 그룹의 상황을 좀 알아야 써도 쓸텐데 기업정보에 관해서 무식한 필자가 이걸 조사하려면 시간이 걸린다. 도서관에 가서 연감을 찾아보고 복사해와서 참고 한다음 글을 써야 한다. 필자가 직접해도 자료를 찾는데만 이틀은 족히 걸릴 것이다. 다른 사람을 시키면 시간과 돈이 더들고. 당장에 데이터뱅크에 연결해서 적당한 데이터베이스를 불러서 그룹의 이름을 쳐넣었다. 당장에 그룹의 내역과 하는 일, 매출액, 주소, 임원 등 '원고쓰기'에 충분한 자료가 3∼4분만에 다 찍혀 나온다. 그래 놓고선 요금은 6.5달러라고 찍혀져 나왔다. 물론 요금은 물었지만 이렇게 편리하게 정보검색이 된다는 것은 의외의 수확이었다. 적절히 원고료로 커버했지만 한심하다고 여겨진 것은 "왜 우리나라의 정보를 외국의 데이터뱅크에 연결해서 달러를 지불하면서 얻느냐"는 것이다.
그런데 데이터뱅크란 물건은 정보의 창고역할만 하는 것이 아니다. 이것을 쓰는 사람끼리 편지를 보내고 받고 하기도 하고 또는 회의를 온라인으로 하게도 한다. 뿐만 아니라 홈쇼핑이란 것도 되며 여행안내 및 예약도 단말기를 통하여 할 수도 있다. 좋은 시스템인 경우에는 돈을 보내고 받고 할 수도 있다. 그래서 데이터뱅크의 일반화는 우리의 생활자체를 바꾸어 버린다. 기존의 대충매체는 그대로 유지하면서 좀더 구체적인 정보를 온라인으로 입수할 수가 있게 되어 충족도가 훨씬 높아진다.
고속도로는 있어도 실어날라야 할 물건이 없다
우리나라는 전자산업이 해마다 발전하여 오늘에 이르러서는 국산 컴퓨터도 나오고 일부는 수출까지 해서 경쟁국들의 경계를 사고 있는 것은 잘 알려져 있다. 그러나 남이 쓸 것은 만들어서 갖다 대어주면서 왜 우리 스스로 쓰지 않는지 무척 염려스럽다. 컴퓨터도 만들고 또 컴퓨터로 생산되는 데이터를 실어나를 데이터통신망도 만들어졌다. 그런데 항상 필요한 정보는 전화나 공문만으로 이루어지며 대중매체인 경우에는 일시적으로 정보를 날려 버리는데 불과해서 균형있는 정보공급이 잘 안된다.
처리할 데이터는 이용하는 모든 사람이 만드는 습관을 키워야 한다. 그래서 지난호에서도 '워드프로세서로 원고를 씁시다'를 강조했다. 정보화시대에서의 정보의 생김새가 신문이나 책자처럼 되어 있는 것도 아니고 방송과 같은 대중매체처럼 생긴 것도 아니다. 굳이 어디에 있느냐고 묻는다면 녹음테이프처럼 생긴 자기테이프에 담기도 하고 경우에 따라서는 디스크에 담기도 한다. 이러한 테이프나 디스크에 담긴 데이터라야만 컴퓨터가 읽어 준다. 그래서 현재 우리가 알거나 입수할 수 있는 모든 데이터를 컴퓨터 가독형(可讀形)으로 만들어야 한다. 10년이 걸리든지 백년이 걸리든… 그래야 우리의 문화가 후손에게까지 전달되지 그렇지 않고서는 절대로 '역사깊은 배달민족'을 자랑할 수 없다.
데이타통신망을 왜 만드느냐고 생각하여 보자. 여기에 필요한 데이터들이 왔다갔다하게 하기 위해서이다. 20년전에 경부고속도로가 생겼다. 처음 만들때에는 무어라고 말이 많았던 것도 아직 기억난다. 경제규모가 그렇게 안된다느니 공연한 짓이니 하는 신문사설을 읽은 기억이 있는데 이런걸 쓴 사람들은 오늘날의 복잡한 고속도로를 보고는 무어라고 말을 할 것인지 궁금하다. 데이터의 고속도로는 있어도 아직도 충분한 데이터가 없는 것이니 안타까운 일이나 이것은 모든 정보생산자가 직접 참여하지 않으면 영원히 풀 수 없는 숙제가 될 것이다.
데이터베이스 산업
펜대를 들고 일하는 사람은 모두가 데이베이스 산업에 종사하는 사람들이다. 그리고 이것을 정리하거나 편집하거나 또한 식자하거나 인쇄하거나 하는 모든 사람들은 일단 모두 데이터베이스인이라고 정의할 수 있다. 아직도 데이터베이스가 글자로 된 것이 대부분이지만 기술개발에 따라 소리에 관한것, 그림에 관한것, 심지어는 움직이는 그림에 이르기까지 데이터베이스화 하려고 노력하고 있다. 그래서 비디오텍스도 생겨났고 텔리텍스트도 생겨났고 케이브텔레비젼도 생겨났다. 앞으로는 또 어떠한 새로운 미디어가 나올지 모르겠다. 그러나 아직 한동안은 글자만으로 된 데이터베이스가 판을 칠 것이다. 그림이나 소리나 움직이는 그림의 데이터베이스까지 친다면 모든 예능인, 작가, 아나운서, 가수등 모두가 베이터베이스인이다.
그래서 웬만한 글자로 표현될 수 있는 모든 자료는 일단 모두 컴퓨터 가독형으로 만들어 두어야 한다. 그래야 모든 사람들이 쉽게 자기가 찾는 정보를 얻을 수 있기 때문이다. "나만 알고 만다"는 심보로서는 도무지 이 산업을 키울 수 없을뿐 아니라 완전히 우리나라가 후진국으로 낙후해버리는 원인이 되기도 한자. 이것은 하나의 산업의 성장이 아니라 일종의 변혁, 다시말하면 문화의 혁명이라고 할 수 있다. 멀지 않아서 수백년 동안 이어져 온 우리의 정보습관(생산, 처리, 보관, 전달, 이용)이 바꾸어야 한다는 뜻이된다.
탈대량화에 탈획일화
데이터베이스의 부산물 가운데서 새로운 상품화가 많이 생기고 있다. 전자출판이 그렇고 전자신문도 그렇다. 책이 없는 도서관도 바로 이것이며 무엇이든지 보관해 두었다가 나중에 찾는 일이라면 모두 데이터베이스의 부산물이다. 원고를 쓰는 것도 데이터베이스를 위해서 쓰며 그것의 일부분이 활자화되어 배달된다. 이러한 것들이 발달되어서 각종의 응용분야가 넓어진다. 그래서 집에서 장보는 일, 은행일 보는 일, 집에서 사무를 보는 일 등 기술적으로 가능하게 되는 일이 한두가지가 아니다.
궁극적으로 어떻게 하면 사람들의 생활이 편하게 될 것이며 시간을 아껴주게 될 것인가에 귀착된다. 그렇기 때문에 이 분야에서 일하면서 생활 할 수 있는 인구를 늘려 나가는 것이 바로 데이터베이스 산업의 육성이다. 2000년대 생활인의 정보수요는 도대체 무엇일까를 생각하고 이것을 미리 짐작해서 데이터를 축적시키는 사람이 돈도 벌게 될 것이다. 얼마전에 한국에 온 미래학자 앨빈 토플러의 강연내용이 생각난다. '탈대량화'에 '탈획일화'가 미래사회의 특징이라고 한다. 그렇다면 정보의 수요도 이러한 특징을 가질 것이 틀림이 없다.