d라이브러리









영화, 드라마 흥행 예측하는 AI 모형

2023년 크게 인기를 끌었던 드라마 ‘무빙’은 우리나라 드라마 사상 최고 제작비인 500억 원 이상을 쏟아부어 기획 단계에서부터 관심을 모았다. 이처럼 많은 제작비를 투입한 작품이 손익 분기점을 못 넘기는 낭패를 보지 않기 위해선 수학이 꼭 필요하다. 준비하고 있는 작품이 대중의 사랑을 받을지를 객관적으로 예측할 수 있기 때문이다.

 

할리우드에서는 이미 10여 년 전부터 수학을 이용한 AI 모형으로 흥행을 예측해왔다. ‘시네리틱’, ‘에파고긱스’, ‘디즈니 리서치’ 등 흥행 예측 모형을 만드는 회사만 10곳이 넘는다. 그중 에파고긱스라는 영국 회사는 AI를 이용해서 시나리오를 분석해 영화를 제작했을 때 벌어들일 수익을 예측한다.

 

에파고긱스는 2007년 개봉한 영화 ‘럭키 유’가 700만 달러를 벌어들일 것으로 예측했다. 이 영화는 당시 이름 있는 스타와 유명 감독, 시나리오 작가가 참여한 데다가 제작비도 5,000만 달러에 달했다. 그러나 에파고긱스의 예상에 가깝게 600만 달러라는 적은 실적으로 큰 손해를 입었다.

 

이 때문에 할리우드 대형 영화 제작사인 ‘워너 브라더스’는 2020년부터 미국 AI 기술 회사인 시네리틱과 손을 잡았다. 시네리틱은 영화 주제, 출연 배우 등에 따른 기존 흥행 데이터를 학습시켜 관객 수나 수익 등을 예측하는 AI 모형을 만들었고, 워너 브라더스는 이 모형을 참고해 영화를 제작하고 있다.

 

우리나라 기업인 KT도 2021년 미디어 콘텐츠의 흥행을 예측하는 AI 모형을 공개했다. 이 모형은 장르와 배우를 일정 기준으로 나눈 콘텐츠 정보, 시청 데이터, 콘텐츠 구매 금액, 관객 수 등 다양한 정보를 이용한다. 정보를 학습한 AI는 향후 제작할 콘텐츠의 기획안을 보고 작품의 흥행과 매출을 예상한다.

 

실제로 tvN 드라마 ‘슬기로운 의사생활 시즌1’은 흥행 1등급을 받고 그에 걸맞은 시청률을 거뒀다. 흥행 2등급이었던 드라마 ‘더 킹’도 좋은 흥행 성적을 냈다. 시청률 조사 기업 ‘닐슨 코리아’가 집계한 최고 시청률은 ‘슬기로운 의사생활 시즌1’이 14.1%, ‘더 킹’이 11.6%이었다.

 

KT와 같은 기업들은 흥행 예측 모형을 어떻게 만들었을까? 기업들은 영업 비밀이라며 상세한 원리를 알려주진 않지만, 기본적으로 오른쪽 페이지의 AI 모형 원리를 바탕으로 모형을 만든다고 알려져 있다. 여기에 새로운 변수를 추가하거나 더 잘 설명하는 함수를 고안해 모형의 정확도를 높인다.

 

여기서는 영화 흥행의 척도인 관객 수를 *종속변수 y, 관객 수를 만드는 다양한 요인들을 *독립변수 xi로 나타낸 신경망 함수 y = b0 + b1x1 + b2x2bnxn으로 AI 모형을 만드는 방법을 알아보자.

 

 
1. 변수 정하기
AI에 과거 영화의 정보를 입력한다. 이때 독립변수와 종속변수로 나눠 넣는다. 독립변수는 데이터를 입력하는 사람이 정할 수 있어 그 종류가 다양하다. AI가 데이터를 학습하면서 특정 변수가 관객 수에 영향을 미치지 못한다고 판단하면 그 변수를 빼거나 가중치를 낮춘다.
2. 신경망 함수 만들기
각 독립변수가 관객 수에 얼마나 영향을 끼치는지 가중치를 계산해 관객 수를 계산하는 신경망 함수를 만든다. 이때 각각의 가중치 값은 중요하지 않다. 데이터를 계속 학습시키면서 관객 수를 정확히 예측할 수 있도록 가중치를 바꿔가며 신경망 함수를 최적화한다.
3. 신경망 함수에 데이터 넣고 예측률 비교
신경망 함수에 영화별로 독립변수 데이터를 넣어 계산한 예측 관객 수가 실제 관객 수와 얼마나 같은지 비교한다. 오차가 얼마인지 알아볼 때는 주로 ‘평균 제곱 오차’라는 개념을 이용한다. AI가 예측한 영화들의 관객 수와 실제 관객 수의 차이를 각각 제곱하고 평균을 계산해 오차를 얻는 방법이다.
4. 신경망 함수 최적화
계속 가중치를 달리해 보면서 예측 오차가 최소가 되는, 즉 예측률이 높은 신경망 함수를 구한다.
5. 최종 모형 결정
드디어 천만 관객을 넘을지 예측하는 AI 모형이 만들어졌다. 이 과정에서 독립변수들의 구성을 달리하거나 y = b0 + b1x1 + b2x2 + … + bnxn이 아닌 새로운 함수를 이용해 만든 모형을 함께 사용하면 AI 모형의 정확도가 더욱 올라간다.

 

 

입소문이 만드는 천만 영화

 

영화가 흥행하기 위해서는 좋은 시나리오와 연출력, 배우의 탄탄한 연기력 등이 갖춰져야 한다. 하지만 잘 만든 영화라도 입소문을 타지 못하면 관객을 모으기 어렵다. SNS에 좋은 후기가 많거나 영화 평가 사이트에 실제 관객이 남긴 별점이 높으면 관객이 저절로 모인다.

 

어떤 영화의 입소문이 얼마나 났는지 추측하는 방법으로 ‘순수 추천고객 지수’가 있다. 순수 추천고객 지수의 값이 클수록 입소문이 잘 나서 관객 수가 늘고, 값이 음수면 관객 수가 점차 감소한다.

 

▶ 순수 추천고객 지수
>= (영화를 추천하겠다는 관객 수 – 영화를 추천하지 않겠다는 관객 수) ÷ 영화를 관람한 총 관객 수 × 100

 

2015년 CJ CGV가 영화산업 미디어 포럼에서 공개한 자료에 따르면 2013, 2014년 개봉작 중 순수 추천고객 지수가 가장 높은 영화는 67%의 ‘변호인’이었다. 변호인은 개봉 33일 만에 천만 관객을 돌파해 흥행에 성공했다. 마찬가지로 천만 영화인 ‘7번 방의 선물’과 ‘국제시장’이 56%로 그 뒤를 이었다.

 

한편 2011년 일본 응용수학자 이시이 아키라는 입소문이 영화 흥행에 얼마나 영향을 미치는지를 수학적으로 밝혔다. 

 

 
입소문 효과❶ 아는 사람에게 영화 이야기를 들었을 때
▶ i가 j의 이야기를 듣고 영화를 볼 확률 = Dij × Ij(t)
● Dij = 직접 소통 효과
● Ij(t) = t 시점에 j가 영화를 보러 갈 의사가 있는지를 나타내는 함수
▶ i가 N명의 아는 사람에게 영향을 받아 어떤 영화를 볼 확률
= j에 1~N을 대입해 Di1 × I1(t)부터 DiN × IN(t)까지의 확률을 모두 더한 값 =Σj=1NDijIj(t)

입소문 효과❷ 모르는 사람에게 영화 이야기를 들었을 때
▶ k가 i와 j의 대화를 듣고 영화를 볼 확률 = Qijk × Dij × Ii(t) × Ij(t)
● Qijk = 간접 소통 효과
● Dij × Ii(t) × Ij(t) = i와 j가 영화에 관해 나누는 이야기의 광고 효과는 직접 대화를 통한 입소문 효과와 동일
※ SNS, 블로그 같은 간접 홍보로 영화를 볼 확률도 이 방법으로 구함.

 

배우의 전성기도 예측

 

데뷔하자마자 인기를 얻고 승승장구하는 배우가 있는 반면 오랜 무명 시절을 겪는 배우도 있다. 배우 구교환은 2008년에 데뷔해 10년가량 여러 작품을 거쳐오다가 2019년에 영화 ‘메기’를 통해 본격적으로 이름을 알렸다. 그렇다면 배우가 언제 전성기를 맞이할지 미리 알 수 있을까?

 

2019년 이탈리아 응용수학자 비토 라토라가 이끄는 연구팀은 세계 최초 영화가 등장한 1888년부터 2016년까지 영화 데이터베이스에 기록된 전 세계 남자 배우 151만 2,472명과 여자 배우 89만 6,029명의 자료를 모았다. 그리고 배우별로 매년 참여한 작품 수와 연기 활동을 한 전체 기간을 계산한 다음 수학 모형으로 나타내 분석했다.

 

그 결과 작품 활동을 가장 많이 한 해와 전성기에 대한 상관관계가 드러났다. 연구팀이 개발한 통계적 학습 알고리듬은 어떤 배우가 전성기에 다가가고 있는지 혹은 이미 전성기가 지났는지를 85%의 정확도로 예측할 수 있었다.

 

이 모형으로 배우의 70%가 단 1년만 활동한 뒤 대중의 관심을 받지 못한 채 사라진다는 사실도 밝혔다. 게다가 이미 유명한 배우는 계속해서 작품 활동을 많이 하는 것으로 나타났다. 배우가 유명할수록 제작사에서 그 배우를 더 찾기 때문이다.

 

배우의 성별에 따라서도 전성기에 차이가 있었다. 여자 배우는 데뷔 초기에 활동이 집중되는 경향이 있지만, 남자 배우는 공백기 이후에 더 활발한 작품 활동을 보이는 경우가 많았다. 이는 경력이 1년 이상 된 경우, 상대적으로 경력이 짧은 여성 배우를 선호하는 경향이 있기 때문이다.

 

오스카 수상자도 미리 본다!
흔히 ‘오스카’라고 불리는 ‘아카데미상’은 미국에서 가장 권위 있는 영화 시상식이다. 미국 야구 분석가 벤 자우즈머는 2012년부터 매년 오스카 수상자를 예측한다. 미국 하버드대학교 응용수학과 신입생이던 그는 옛날 영화와 과거 시상식을 조사해 자신만의 데이터베이스를 정리했다.
그리고 통계적 방법을 사용해 수집한 데이터가 각 시상 부문과 얼마나 연관됐는지 확인했다. 연관성이 높은 예측 변수는 수학 모형에서 더 많은 가중치를 줬다.
예를 들어 작품상 수상작은 미국 감독 조합상 수상작과 일치하는 경향이 있어서 조합상을 받은 후보가 높은 가중치를 받는다. 이렇게 가중치를 적용한 수학 모형으로 각 후보가 그 부문에서 수상할 확률을 계산할 수 있다.
자우즈머가 2023년까지 열두 해 동안 예측한 오스카 수상 적중률은 77%나 된다.

 

 

 
벤 자우즈머는 2021년 영화 ‘미나리’에서
‘순자’ 역을 맡아 한국 배우 최초로
오스카 여우주연상을 거머쥔 윤여정의 수상을 예측하기도 했다.
"5명 후보가 모두 각자 다른 영화에서의 수상자입니다.
우리는 각자 다른 역을 연기했잖아요.
우리끼리 경쟁할 순 없습니다.
오늘 제가 여기에 있는 것은 단지 조금 더 운이 좋았을 뿐이죠."
- 윤여정 수상 소감 중

 

용어 설명
*종속변수 : 다른 변수에 영향을 받아 값이 바뀌는 변수다.
*독립변수 : 다른 변수에 영향을 주는 변수다.

2024년 04월 수학동아 정보

  • 수학동아 편집부
이 기사를 읽은 분이 본
다른 인기기사는?