d라이브러리










책 한 권에서 가장 많이 나오는 단어의 개수는 그 다음으로 많이 나오는 단어의 개수와 수학적으로 어떤 관련이 있을까요?

놀랍게도 긴 글에서 단어들이 나오는 빈도가 높은 순서대로 나열해 순위를 매기면, 그 빈도가 해당 단어의 순위에 반비례하는 수학적인 법칙이 있습니다. 바로 ‘지프의 법칙’입니다. 즉, 글에서 가장 많이 나오는 단어는 두 번째로 많이 나오는 단어보다 빈도가 약 2배 높으며, 세 번째로 많이 나오는 단어보다는 빈도가 3배 높다는 뜻입니다.

스페인 바르셀로나자치대 수학 리서치센터 연구진은 3만 종류의 영어 텍스트로 지프의 법칙이 얼마나 정확한지 조사했습니다. 3만 개의 텍스트는 약 5만개의 작품을 디지털로 소장한 세계에서 가장 오래된 디지털 도서관인 ‘프로젝트 구텐베르크’에서 찾은 것입니다.

연구진은 표본에 대한 정보로 전체 집단의 정보를 실제와 가장 가깝게 추정하는 통계기법인 ‘최대우도추정법’을 통해 3만 개의 텍스트를 분석했습니다. 모든 단어에 대해 등장 빈도와 순위를 조사한 결과 지프의 법칙은 40% 정도 들어맞았습니다. 자주 나오는 단어만 조사할 경우 법칙이 맞을 확률은 더 높아졌습니다.

연구진은 빅데이터와 방대한 컴퓨터 연산의 시대에 살면서 앞으로 지프의 법칙을 분석하는 데 더 큰 노력이 필요하다고 강조했습니다. 이 연구 결과는 학술지 플로스원 1월 22일자에 실렸습니다.

2016년 04월 수학동아 정보

  • 고은영 기자

🎓️ 진로 추천

  • 언어학
  • 컴퓨터공학
  • 통계학
이 기사를 읽은 분이 본
다른 인기기사는?