“이 문장은 실제 기자의 보도와 비슷해요. 높은 점수를 주고 싶네요!” AI 기사 부분의 심사가 한창 이뤄지고 있던 중, 심사위원들의 칭찬이 이어졌어요. AI 기사는 축구 경기가 끝나고, 1, 2초 만에 완성됐지요. 인공지능 기자는 어떻게 기사를 빠르고 정확하게 썼을까요?
핵심 사건을 뽑아라!
AI 기자는 AI 해설과 비슷한 방식으로 진행돼요. AI 축구 경기 속 데이터를 읽어서 경기의 흐름과 사건들을 파악해 기사를 썼지요. 대신 AI 해설처럼 실시간으로 상황에 맞는 단어를 추출할 필요는 없어요. 경기 시작과 동시에 참가팀이 코딩한 기사 작성 프로그램도 작동하면서 경기의 데이터를 수집했다가, 경기가 끝나자마자 완성된 기사를 선보이는 거지요.
데이터는 미리 설정한 주요 사건을 중심으로 수집해요. 득점이나 파울, 골을 두 번 이상 넣은 선수 등 경기 내용 중 핵심 사건을 뽑는 게 가장 중요하지요. 이러한 핵심 사건은 경기의 전체적인 흐름을 설명할 뿐만 아니라, 기사를 보는 독자들이 궁금해하는 내용이기도 하거든요.
기사의 구조도 미리 설정해야 해요. 기사의 첫 문장에 어떤 사건을 넣을 것인지, 문단별로 어떤 내용을 나열할 것인지 틀을 만드는 거예요. 이후 틀 안에 해당되는 문장들을 넣으면 기사가 완성되는 거랍니다.
아쉽게도 AI 기자 부분에는 두 팀만 참여했어요. 전문가들은 이번 대회의 세 분야 중 코딩하는 방법이 가장 복잡하고 까다로웠기 때문이라고 분석했지요. 하지만 두 팀 중 한 팀이 정확한 구조와 문장, 내용을 담은 기사를 완성하면서 심사위원들의 주목을 받았어요. 그 주인공은 바로 싯 리포터(SIIT-Reporter) 팀이랍니다.
“최신 축구 기사를 보며 필요한 통계 데이터를 공부했어요!”
싯 리포터 팀의 리더인 KAIST 전기 및 전자공학부 주동규 박사과정 연구원은 팀의 전략에 대해 “최근 보도된 축구 경기 기사를 참고해 어떤 데이터를 추출해 기사를 쓰는지 공부했다”며, “기사 속에 다양한 통계 자료가 담기도록 코딩한 결과, 기사에 경기 정보를 풍부하게 담아낼 수 있었다”고 말했어요.
싯 리포터 팀 기사의 가장 큰 특징은 단순 경기 정보뿐만 아니라 경기 내용을 분석한 통계 내용까지 기사에 담았다는 거예요. 예를 들어 “B 팀의 2번 선수는 경기 동안 173m를 달리며, 두 팀 중 가장 많이 뛴 선수로 활약했다”는 문장은 선수들의 움직인 거리를 표현한 문장이에요. 또 “B팀은 파울을 14개 기록하며, 26번인 A 팀보다 파울을 한 비율이 26%나 적었다”와 같은 표현은 두 팀의 파울 기록을 비교한 문장이지요. 이는 축구 담당 기자들이 축구 경기를 분석하는 기사를 쓸 때 많이 사용하는 요소이기도 해요.
주동규 연구원은 “어떤 내용을 분석하고 넣을지 설정한 규칙 기반 기술로 기사 작성 프로그램을 만들어 원했던 정보를 다 기사에 담을 수 있었다”고 말했어요. 이어 “만약 딥러닝 기술을 이용하면 내용을 미리 짜놓을 필요가 없기 때문에 사람이 쓴 것처럼 좀 더 자연스러운 기사가 만들어질 것”이라며 “앞으로 딥러닝 기술을 이용한 기사 프로그램 개발도 해 보고 싶다”고 말했답니다.