기자명 박주화 기자 (joohwa12345@gmail.com)

유희관을 선발로 앞세운 두산은 31일 열린 한국시리즈 5차전 경기에서 장원삼이 나선 삼성을 13:2로 대승하며 홈 팬들을 열광시켰다. 두산의 양의지는 맹활약을 펼치며 팀을 승리로 이끌었다. 양의지는 1회 말에 장원삼을 상대로 2점을 뽑아내며 두산의 11점 차 승리를 이끈 일등공신이 됐다. 이 후 9점을 더 뽑은 두산은 삼성의 9회 초 마지막 공격을 성공적으로 막아내며 31일 경기를 승리로 장식했다.


이 기사는 서울대학교 언론정보학과 이준환 교수가 이끄는 연구팀 'hci+d lab'에서 개발한 일명 ‘로봇 기자’가 작성한 기사다. ‘로봇 기자’는 실제 로봇이 기사를 작성하는 것이 아니라, 인간이 기사를 작성하도록 만든 소프트웨어를 의미한다. 로봇 저널리즘은 이 소프트웨어가 스스로 정보를 수집하고 기사를 작성하는 방법이다. 컴퓨터가 기사를 쓴다는 사실은 우리에게 낯설게 느껴지지만, 로봇 저널리즘은 더 이상 먼 미래의 일이 아니다. 미국 등의 영어권 국가에서는 이미 특정 분야의 기사 작성에 로봇이 뛰어난 활약을 하고 있고 국내에서도 상용화 준비 단계에 있다.

 

로봇 저널리즘의 역사

로봇 저널리즘은 지난 1977년 처음 시작됐다. 당시 UC어바인 제임스 미한 교수에 의해 ‘Tale-Spin’이라는 이야기 제작프로그램에 대한 논문이 발표됐다. 논문은 컴퓨터 프로그램이 이야기를 제작하기 위해서는 어떠한 정보가 필요한지에 대해 밝히고자 했고, 이는 ‘로봇 기자’의 시초가 됐다. 이를 모티브로 약 30년 뒤 미국의 스타트업 ‘내러티브 사이언스’에 의해 로봇 저널리즘이 주목받기 시작했다. 이 회사는 스포츠 게임 정보를 수집해 자동으로 기사를 작성하는 프로그램 ‘StatsMonkey’에서 시작해 로봇 저널리즘의 상용화를 이끌었다. 초기에 개발된 알고리즘은 스포츠경기와 같은 간단한 기사를 쓰는데 그쳤지만 현재는 금융 전문기사를 작성하기까지 한다. 최근에는 LA타임즈가 도입한 소프트웨어인 ‘퀘이크봇’이 LA지방에서 발생한 강도 4.4의 지진을 단 8분 만에 기사로 작성하기도 했다. 이렇듯 ‘로봇 기자’는 많은 성과를 보이고 있지만 아직까지는 명확하고 정제된 양질 데이터를 활용하는 분야에만 주로 이용되고 있다. 그러나 인공지능이 급속하게 발전함에 따라 로봇이 작성하는 뉴스 분야가 확대되고 그 양 또한 증가할 것이라고 전문가들은 전망한다.


로봇은 기사를 어떻게 쓰는가

기사가 작성되는 과정은 크게 5가지 절차로 나뉜다. 첫째로 데이터 수집 단계를 거친다. 이 단계에서는 인공지능이 웹 사이트 등을 탐색하여 데이터를 수집한다. 이후 수집된 데이터가 기사에 적합한지 판단한 뒤 정제, 변환한다. 그 다음 단계는 ‘이벤트 추출’이다. 수집된 데이터를 분석하고 수집된 데이터에 의미를 부여하는 과정이다. 야구경기의 예를 들면 ‘1번 타자 ooo 삼진 아웃’ 등과 같이 상황을 구체적으로 설명하는 이벤트를 만들어낸다. 세 번째 단계에서는 중요한 이벤트를 선별하는 작업이 이루어진다. 두 번째 단계에서 추출된 모든 사건이 기사에 쓰일 수 있는 것이 아니기 때문에 중요한 사건을 선택하는 작업이 필수적이다. 이를 ‘이벤트 스코어링’이라 하는데, 통계적 분석 등의 알고리즘을 통해 중요 사건을 선택한다. 그 다음 네 번째 단계에선 기사의 분위기를 결정한다. 하나의 이야기에는 여러 관점이 포함될 수 있는데, 이를 종합해서 화자가 글을 통해 전달하고 싶은 주제를 전달하는 방식이 기사의 분위기를 만드는 일이 된다. 예를 들어 A팀이 야구경기에서 큰 점수 차를 극복하고 역전에 성공한 경우 “A팀, 대역전극을 이뤄내다”라는 극적인 분위기를 설정할 수도 있다. 분위기는 알고리즘이 단순히 데이터를 열거하는데 그치지 않고, 데이터를 엮어 사람의 관점에서 서사를 만들도록 돕는다. 마지막 단계는 ‘뉴스 기사 생성’이다. 이 단계에서는 앞서 4단계에 걸쳐 처리된 정보를 토대로 실제 기사를 작성한다. 아직까지의 인공지능 기술로는 문장을 처음부터 끝까지 작성하는 것은 불가능하다. 따라서 현재는 여러 문장을 데이터베이스에 저장해 놓은 후, 상황과 문맥에 따라 알맞은 것들을 선택해 기사를 작성하게 된다. 우리가 PPT를 만들 때 사용하는 템플릿과 비슷한 개념이다.


의의 그리고 한계

로봇 저널리즘의 가능성에 대해 많은 것을 생각할 수 있지만, 크게 3가지를 꼽을 수 있다. 첫째, 신속성과 정확성이다. 로봇 저널리즘은 기본적으로 컴퓨터의 알고리즘에 기반을 두고 있기 때문에 정보를 매우 빠르고 정확하게 전달할 수 있다. 따라서 스포츠나 주가, 재난정보와 같은 분야에 매우 유용하게 사용될 수 있다. 둘째로는 맞춤형 뉴스를 전달할 수 있다는 점이다. 로봇은 개개인의 데이터를 기반으로 분석할 수 있기 때문에 개별적인 독자에게 맞춤형 뉴스를 제공할 수 있을 것으로 기대된다.  마지막으로 단순한 사실전달 기사를 대체함으로써 기자들이 보다 전문적인 분야에 집중할 수 있도록 해줄 것이다.
이러한 가능성에도 불구하고 한계점 또한 존재한다. 첫째, 현재로서는 단순한 사실 전달 기사만을 다룰 수 있다는 것이다. 아직까지 ‘로봇 기자’는 가치판단을 하지 못하며, 사건이 발생했다는 사실만 적을 수 있을 뿐 그 사실이 왜 발생했는지에 대해서는 판단하지 못하기 때문이다. 둘째, 알고리즘의 편향성과 신뢰성에 대한 연구가 아직까지 부족하다. 알고리즘이 특정 방향으로 기울게 되면 정보는 계속해서 한 방향으로 치우쳐 독자가 정보를 편향적으로 소비하도록 유도할 수 있다. 따라서 앞으로 로봇 저널리즘에 대한 보다 깊은 연구와 논의가 필요할 것이다.
 

참고도서

이준환·김동환「로봇저널리즘 현황과 전망」, 2015
이준환·김동환「신속효율성 뛰어나, 과도한 기대는 아직 일러」,『신문과 방송』, 2015.11
김영주정재민오세욱「호의적 평가 많지만 정확성·신뢰성 문제 해결해야」, 『신문과 방송』, 2015.11