한 유명 소설가의 표절 논란이 인터넷을 뜨겁게 달구고 있다. 정치인들의 학위 논문, 유명 가수의 신곡, 대학 입학을 위한 자기소개서까지, 표절 논란은 한국 사회의 고질적인 문제다. 국내 최초로 한글 기반의 표절 검사 알고리듬 ‘디박(DeVAC)’을 개발한 조환규 부산대 정보컴퓨터공학부 교수라면 해답을 갖고 있지 않을까.
![](https://images.dongascience.com/uploads/old/article/2015/06/1958593217558b95c75eaba.jpg)
Q 언제부터 표절을 연구했나
A 원래는 DNA 여러 개의 염기서열을 서로 비교하는 연구를 했었다. 수십억 개에 달하는 염기서열을 비교하면서 일치하는 부분을 찾고, 비슷한 정도를 수치화하는 알고리듬을 개발했다. 그러다 우연히 디박이라는 프로그램을 만들게 됐다. 대략 10년 전쯤이다.
Q 디박이 우리나라 최초의 표절 검사 프로그램인가
A 이전에도 표절 검사 프로그램이 있긴 했다. 문서에 특정 단어가 나타나는 빈도수를 세서 표절 여부를 확인하는 프로그램이었다. 쉽고 간편하지만 정확도가 떨어진다는 단점이 있었다. 대학전공과목 레포트를 이런 기준으로 검사한다고 생각해보라. 모두 비슷한 용어를 사용하기 때문에 줄줄이 표절이 된다. 디박은 이보다 훨씬 정교한 정렬형 알고리듬을 국내 최초로 사용했다.
Q 디박은 어떻게 표절을 찾아내나
A 정렬형 알고리듬은 단어는 물론, 구조까지 비교해서 표절을 판단한다. 예컨대 ‘아버지가 나가셨다’와 ‘아버지가 방을 나가셨다’라는 두 문장을 비교할 때, ‘아버지가’라는 공통된 단어에 점수를 준다. 또 ‘나가셨다’라는 공통된 서술어도 있으므로 추가로 점수를 더하는 식이다. 점수가 클수록 표절일 확률이 높아진다.
Q 몇 점이 넘으면 표절인가
A 점수에 따라 표절 확률을 계산한 확률 분포표가 있다. 점수가 1000점이 넘으면 두 문서가 독립적으로 작성됐을 확률(표절이 아닐 확률)이 1500만 분의 1보다 작다. 보통 인터넷에 떠도는 문서를 그대로 복사해서 붙여넣은 경우 이런 점수가 나온다.
Q 신경숙 작가의 소설이 표절일 가능성은 얼마나 되나
A 얼핏 봤는데 신경숙 작가의 소설과 그가 베꼈다는 의혹을 받고 있는 소설, 두 가지가 독립적으로 작성됐을 확률은 대략 100만 분의 1 정도라고 생각한다. 컴퓨터 프로그래머로서 말할 수 있는 것은 여기까지다. 문학계 전문가들이 이 확률을 토대로 진짜 표절 여부를 가려내야 한다.