글 도둑도 도둑!
표절의 영어단어인 plagiarism은 ‘납치하는 사람’이라는 뜻인 plagiarus에서 유래했다. 표절이라는 단어를 이루는 한자도 ‘훔친다’는 뜻이다. 글쓰기에서 표절은 다른 사람의 작품, 연구 내용을 글에 가져와서 쓸 때 적절한 인용 부호와 출처 표시를 빼 마치 글쓴이가 창작한 것처럼 보이게 하는 것이다.
인용했다는 표시를 제대로 하기만 하면 표절이 아닌 걸까? 서울교대 윤리교육과 이인재 교수는 논문 ‘연구부정행위로서 표절과 올바른 글쓰기’에서 “가져온 원 저작물의 출처를 밝히든 밝히지 않든 상관없이, 베낀 글이나 아이디어가 새로운 저작물에서 대다수를 차지할 때는 표절이다”라고 설명했다. 인용은 꼭 필요한 부분만 최소한으로 하는 게 좋다.
표절을 하면 도덕적인 비난을 받을 수 있고 저작권을 침해해 법적 책임을 지는 경우도 있다. 물론 표절을 한다고 모두 저작권을 침해한 것은 아니다. 창작물에 대한 권리인 저작권은 법이 보호하는 기간이 정해져 있다. 일반적으로 작품을 창작한 사람이 사망한 지 70년이 되는 시점까지다. 이때가 지나면 저작권이 사라져 창작자의 허락 없이 인용할 수 있다. 하지만 인용했다는 표시를 하지 않으면 역시 표절이다.
표절과 저작권 침해 여부를 판단하기는 어렵다. 법적으로는 아이디어와 표현 중 표현만 보호대상인데, 그 둘을 구분하기가 애매하기 때문이다. 예를 들어 소설에서 군대 간 남자친구를 기다리는 설정, 자식이 뒤바뀌는 설정 같은 아이디어는 저작권으로 보호하지 않는다. 하지만 인물의 감정 변화를 효과적으로 표현하기 위해 작가가 창작한 줄거리, 대사 등은 법으로 보호받을 수 있다.
영화 ‘왕의 남자’ 표절 논란
2005년에 개봉한 영화 ‘왕의 남자’에는 광대 공길과 장생이 맹인극에서 ‘나 여기 있고 너 거기 있어?’라는 대사를 하는 장면이 나온다. 그런데 1996년에 만들어진 희곡 ‘키스’에도 ‘나 여기 있고 너 거기 있어’라는 대사가 있어 표절 여부를 두고 논란이 불거졌다. 영화의 원작인 희곡 ‘이’를 쓴 김태웅 작가는 영화 개봉 후 모 방송에서 희곡 ‘키스’의 대사를 영화에 인용했다고 밝혔다. 2006년 서울고등법원은 이 대사가 일상에서 쓰는 흔한 표현이며, 작품 속에서 대사가 주는 효과가 달라 표절로 인정하지 않는다고 판결했다.
내가 쓴 글이 표절일 가능성
표절 여부를 판단할 때는 신중해야 한다. 그래서 객관적인 근거가 필요할 때도 있다. 두 문서에 비슷한 문장이 얼마나 있는지를 숫자로 나타낸 표절율이 대표적이다. 표절 검사 프로그램 ‘카피킬러’를 개발한 신동호 무하유 대표는 “우연히 같을 수 있는 문장과 출처 표시가 제대로 된 문장을 뺀 나머지 부분을 다른 문서와 비교해 표절율을 구한다”고 말했다.
표절율은 글에서 다른 글을 베낀 부분이 차지하는 비율이다. 표절율의 분모는 글에서 표절 검사 대상인 어절★의 개수다. 표지, 목차, 참고 문헌 등은 표절 검사에서 빠진다. 표절율의 분자는 내 글과 다른 글 모두에서 발견된 어절의 개수다. 이때 출처가 표시된 어절은 다른 글에서도 발견됐더라도 제외한다. 큰따옴표, 주석 등을 써서 다른 글에서 인용했다는 것을 밝힌 문장은 표절로 보지 않는다.
표절한 정도를 정확히 계산하려면 우연히 같을 수 있는 문장을 가려내는 것도 중요하다. 하지만 컴퓨터는 사람처럼 판단할 수 없다. 대신 확률의 도움을 받는다. 수십억개의 문서를 바탕으로 특정 단어 나열이 발견되는 확률을 계산한 다음, 우연히 같을 확률이 높은 두 문장은 표절로 판단하지 않는다.
표절 검사의 정확도를 나타내는 기준은?
표절 검사가 얼마나 정확한지는 재현율과 정확율로 판단한다.
정확율 = $\frac{실제 표절이면서 검사 결과도 표절인 어절 수}{검색 결과 표절로 판단한 어절 수}$ = $\frac{15}{40}$
재현율 = $\frac{실제 표절이면서 검사 결과도 표절인 어절 수}{실제 표절인 어절 수}$ = $\frac{15}{20}$
정확율과 재현율은 반비례한다. 실제 표절인 어절의 개수는 바뀌지 않는데 재현율을 높이려면 검사에서 표절인 어절을 많이 찾아야 하기 때문에 탐색 범위가 넓어진다. 그러면 검사 프로그램이 표절로 판단하는 어절도 많아지므로 정확율은 낮아진다.
이 개념은 검색 프로그램의 성능을 판단할 때에도 쓴다. 포털사이트의 경우 재현율보다 정확율이 높은 게 좋다. 수많은 검색 결과를 모두 보지 않는 사용자에게 마음에 쏙 드는 자료를 정확히 찾아주는 게 중요하기 때문이다. 반면, 특허문서 검색 프로그램처럼 유사한 특허 기록을 하나도 빠짐없이 확인해야 하는 경우에는 재현율이 높은 것이 좋다. 특허를 등록하려고 할 때 이미 비슷한 특허가 있다는 것을 놓치는 일을 막기 위해서다.
어절★ 문장을 구성하는 단위. 띄어쓰기의 단위와 같다.
뛰는 놈 위에 나는 놈!
표절에 대한 관심이 커지면서 표절을 피하는 ‘꼼수’도 발전했다. 우리말은 동의어, 높임말, 띄어쓰기, 한자어로 뜻이 거의 바뀌지 않은 새로운 문장을 만들 수 있다.
이런 꼼수를 막기 위한 연구도 있다. 부산대 컴퓨터공학과 조환규 교수팀은 우리말만의 표절 검색 시스템이 필요하다고 생각했다. 예를 들어 영문장인 ‘Chul-su goes to school’을 ‘School goes to Chul-su’로 바꾸면 뜻이 달라진다. 하지만 ‘철수가 학교에 간다.’를 ‘학교에 철수가 간다.’나 ‘철수가 간다. 학교에’로 바꾸면 뜻이 통하기 때문이다.
연구팀은 국립국어원에서 구축한 한글 말뭉치★를 일일이 검증해 표절 영역이 전혀 없는 문서 집합을 만들었다. 이 문서 집합을 2000어절 단위로 문서 200개로 나눈 다음 무작위로 뽑은 두 문서가 비슷한 정도를 점수로 표현하고, 점수가 어떤 확률 분포로 나타나는지 계산했다.
이 확률 분포는 ‘굼벨 분포’라는 확률 분포와 비슷했다. 이 확률 분포를 이용하면 서로 다른 두 문서에서 비슷한 부분이 나타날 가능성을 확률 값으로 나타낼 수 있다. 예를 들어 비슷한 정도가 100점인 두 문서가 표절 없이 우연히 만들어질 확률은 십분의 일 정도다. 비슷한 정도가 1000점인 두 문서가 우연히 만들어질 확률은 십만 분의 일이다. 조 교수는 “범죄 현장에서 얻은 혈흔으로 유전자 검사를 해 범인을 찾는 원리와 비슷하다”고 덧붙였다.
말뭉치★ 글을 컴퓨터가 읽을 수 있는 형태로 바꿔 모아 놓은 자료.
글쓰기는 정직하고 안전하게
요즘은 블로그나 SNS에 매일 글을 쓰는 사람이 많다. 누군가 글을 쓰면 웹로봇이 인터넷을 돌아다니면서 글을 수집한다. 뜻이 같은 다양한 문장을 데이터베이스에 저장해 표절 탐색 성능을 높이는 것이다. 인터넷에 글이 많아질수록 표절을 막는 수단도 함께 발달한다.
표절은 ‘적발 대상’, ‘도덕적 문제’라는 부정적인 이미지가 크다. 하지만 표절을 예방하는 것은 단순히 범죄나 책임을 피하는 것보다 의미 있는 일이다. 내 글을 안전하게 쓰는 동시에 다른 사람의 창작물을 존중하는 방법이기 때문이다.