기자명 한연수 기자 (yeonsoohc@skkuw.com)

통계 결과의 객관성 해치는 주범
현실 조작해 대중 현혹하기도

현대사회에서는 정보 전달을 위해 표와 그래프를 흔히 사용한다. 이처럼 통계는 현대사회에서 큰 비중을 차지한다. 그러나 영국의 정치가 벤자민 디즈레일리가 “세상에는 세 가지 거짓말이 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계다”라고 말했듯 통계에는 오류가 발생하기 쉽다. 통계의 오류는 현실을 조작해 대중을 속이기 때문에 이에 대해 알아둘 필요가 있다.

객관성을 잃은 통계
통계의 오류란 통계 분석 결과의 객관성을 해치는 오류 또는 편향을 의미한다. 다양한 원인에 의해 통계의 오류가 발생하는데 그중 가장 대표적인 오류가 ‘심슨의 역설’이다. 특정 모집단의 확률 변수 사이에 성립된 상관관계가 그 모집단을 분할한 하위 집단에서는 성립하지 않는 것이 ‘심슨의 역설’이다. 예를 들어 의사1이 환자를 완치시킬 확률이 30%이고 의사2가 환자를 완치시킬 확률이 60%일 때, 단순히 보면 의사2가 더 실력 있다고 볼 수 있다. 그러나 의사1이 중환자 수술을 많이 맡았고 의사2가 그에 비해 가벼운 수술을 많이 맡았다면 단순히 의사2의 실력이 더 뛰어나다고 말할 수 없다. ‘심슨의 역설’이 발생하는 원인에 대해 서병태(통계) 교수는 “통계를 분석할 때 중요한 변수가 무시됐거나 각 부분의 표본 크기나 비율이 다른데도 불구하고 가중치를 주지 않았을 때 ‘심슨의 역설’이 발생할 수 있다”고 설명했다.

상관관계와 인과관계
통계 자료를 통한 현상 예측 및 분석에서 상관관계와 인과관계를 구별하지 못해 잘못된 결과가 도출되는 오류도 흔히 발생한다. 서 교수는 “설명변수X가 반응변수Y를 잘 설명한다는 말은 두 변수 사이의 밀접한 관계를 나타낸 것이지 인과관계를 나타내는 것이 아니다”라고 설명했다. 예를 들어 X를 화재현장에 출동한 소방관의 수고 Y를 화재 피해액이라고 할 때 둘 사이에 양의 상관관계가 성립할 수도 있다. 그렇다고 출동한 소방관 수가 많을수록 화재피해액이 증가한다는 인과관계를 도출한다면 이는 통계의 오류에 해당한다. 제3의 요인, 예를 들어 화재의 크기가 해당 상관관계의 성립에 영향을 미쳤을 가능성이 있기 때문이다. 상관관계와 인과관계 혼동의 오류에 대해 서 교수는 “잠재변수의 존재 가능성에 대해 주의해야한다”며 “잠재변수란 관측되지 않은 숨겨진 변수로 관측된 변수들의 상관관계에 중요한 영향을 끼치는 변수”라고 강조했다.

머신러닝의 과적합
통계가 필수적인 인공지능의 한 분야인 머신러닝에서도 통계의 오류인 ‘과적합’이 발생할 수 있다. 서 교수에 따르면 '과적합'은 인공지능이 이미 주어진 학습 데이터에 대해서는 올바른 결과를 출력하지만 새로 주어진 자료에 대한 분석과 예측 정확성은 현저히 떨어지는 통계의 오류를 의미한다. ‘과적합’은 주어진 자료 수에 비해 특징이 많은 경우 발생한다. 경기 승패 예측 모형을 생각해보면 승패 예측을 위해서는 감독의 역량, 선수들의 역량, 경기장의 상태 등 많은 특징을 고려해야한다. 그러나 3경기의 승패 예측 자료만 주어졌다면 새로운 경기 승패 예측 시 ‘과적합’이 발생한다. ‘과적합’은 자료 묶음에 비해 과도하게 많은 특징의 수를 감소시키는 방법으로 해결할 수 있다. 위의 예시로 본다면 승패 예측에 감독의 역량과 선수들의 역량이라는 두 가지 특징만을 이용하는 것이다. 그러나 특징의 수를 과도하게 감소시키면 부작용이 발생할 수 있다. 이에 대해 서 교수는 “그러나 이 과정에서 해당 모형에 큰 영향을 주는 특징을 제거할 경우 예측 정확성이 현저히 떨어질 수 있다”고 설명했다. 이 외에도 특징을 제거하지 않고 데이터를 일정한 규칙에 따라 변형해 이용하기 쉽게 만드는 '정규화'를 통해 '과적합'을 해결할 수 있다.

그래프의 현혹
위에서 살펴본 오류와는 달리 통계 결과를 표현할 때 대중을 현혹하기 위해 인위적으로 오류를 발생시키는 경우가 있다. 시각 자료의 조작이 그런 경우다. 뉴스나 신문 등 매체에서는 정보 전달 시 시각 자료를 자주 이용한다. 시각 자료 이용 시 관련 기관은 해당 자료를 시각적 왜곡을 통해 자신에게 유리한 방향으로 조작한다. 이때 시야를 좁게 만들어 특정 부분만 눈에 들어오게 하는 ‘시야 협착 효과’가 종종 사용된다. 매체에서는 눈금과 눈금 사리의 거리를 늘이기, 그래프 일부만 확대하기, 색상을 이용해 특정 항목만 강조하기 등의 방법을 통해 그래프 왜곡을 한다. 이러한 시각 자료 왜곡을 통한 대중의 현혹은 예전부터 사용된 뻔한 방법이지만 아직까지 효과를 발휘하고 있고 최근 정부의 대국민 정책 홍보 책자에서도 사용됐다. 제시된 그래프가 해당 자료인데 똑같은 5만원 단위를 다른 크기로 표현하고 있고 색상을 이용해 특정 항목만 강조하고 있다. 또한 화살표를 이용해 특정 항목에서의 증가를 강조하고 있다.

『새빨간 거짓말, 통계』의 저자 대럴 허프에 따르면 그래프의 특정 부분에 현혹되지 않기 위해서는 x축과 y축에 유의해야 한다. 특히 해당 축들의 눈금 간격이 일정한지를 점검해야 한다. 또한 색상을 통한 시각적 효과에 의해 특정 항목만 강조되고 있지는 않은지 살펴봐야 한다. 이외에도 제시된 자료와 같이 갑자기 화살표가 등장해 해당 자료에서 그래프의 증가나 감소를 보여주고 있다면 조작 수단일 가능성이 높으니 주의해야 한다. 

주의의 필요성
통계는 불확실한 상황을 예측하거나 특정 현상을 분석하는데 사용된다는 의의가 있다. 그러나 앞서 말한 것처럼 통계의 정확성과 객관성을 해치는 오류들이 발생할 수 있다. 이러한 통계의 오류들에 대해 서 교수는 “최대한 통계의 오류가 발생하지 않는 것이 좋지만 만약에 발생한다면 이에 현혹되지 않게 주의해야 한다”고 당부했다.