통계 오류를 보는 법 |
1. 누가 발표했는가? 출처 확인
- 무엇보다 가장 조심해야 할 것은 왜곡된 통계를 찾아내는 일이다. 예를 들어, 어떤 실험실에서 무엇인가를 검증했다면, 자신이 주장하는 이론의 완벽함을 과시하기 위한 것인지, 또는 명예를 위해서인지 또는 돈을 목적으로 하는 것인지를 알아 볼 필요가 있다.
또 신문을 볼 때는 그 목적이 바람직한 기사를 내기 위해서인지, 아니면 다른 목적이 있는지, 예를 들어 임금 문제에 줄다리기를 하고 있는 노조 측인지, 경영자 측인지 등등을 잘 살펴 볼 필요가 있다.
- 고의적인 왜곡은 반드시 찾아내야 한다. 직접 대놓고 거짓을 말하거나 또는 일부러 애매하게 표현해서 자신에게 유리한 쪽으로 몰고 가는 것을 찾아야만 한다. 유리한 데이터만 골라 쓰고, 불리한 데이터는 묵살해 버렸을지도 모르기 때문이다.
또 측정 단위를 슬쩍 뒤바꾸어 놓은 것도 잘 봐야 한다. 비교를 할 때, 기준 연도를 자신에게 유리하게 바꾸는 것도 해당된다. 또 부적절한 측정법이 사용되어 있는 것도 찾아내야 한다. 예를 들어, 중앙값을 사용해야 함에도 불구하고,
산술 평균값을 사용하면서 그저 막연하게 평균이란 말로 어물쩍 넘어가는 경우를 조심해야 한다. 고의가 아니라고 하더라도 무의식적으로 사용된 왜곡도 찾아내야 한다. 이런 왜곡이 때로는 더 위험한 경우도 많다.
1928년(세계대공황 전년도) 여러 통계학자들과 경제학자들이 발표한 수많은 도표와 예측들은 엄청난 실수를 저질렀다. 경제 구조상의 결함은 간과하고, 이제 번영의 흐름으로 들어오게 됐음을 보여주기 위해 여러 증거들을 거론하면서 이것을 통계적으로 뒷받침하고 있었던 것이다.
- 누가 그런 통계 숫자를 만들었는지를 찾아내기 위해서는 데이터를 적어도, 한 번은 잘 검토해 볼 필요가 있다. 그 '누구'란 바로 '권위라는 이름'으로 불리는 유명인사들의 이름 밑에 숨겨져 있을지도 모른다.
의학적 분위기를 조성하는 듯한 직업이라면 모두가 다 권위라는 이름에 속한다. 마찬가지로 대학, 그 중에서도 특정 전문 분야에서 명성이 높은 대학은 그 권위라는 이름에 속한다.
2. 어떤 방법으로 알게 되었는가? 조사방법
- 표본의 왜곡 여부에 대해서도 그 증거를 찾아볼 필요가 있다. 표본의 추출 방법이 부적당했던 것은 아니었는지 또는 조사하는 과정에서 나온 몇 개 안 되는 표본을 그대로 사용한 것은 아닌지를 따져 볼 필요가 있다.
그리고 그 표본은 신뢰할 만한 결론을 얻기에 충분히 큰가의 여부도 따질 필요가 있다.
상관관계에 대해서도 마찬가지로 그 상관관계가 정말 의미 있는 것으로 결론지을 만큼 표본의 크기가 큰지, 그리고 또 어떤 유의한 결론을 내릴 만큼 충분히 많은 사례가 있었는지를 물어 봐야 한다.
물론 통계를 잘 알지 못하는 우리가 결과의 유의성을 조사해 본다든지, 표본의 적절성을 따져보기는 어려 울 것이다. 그러나 발표된 여러 통계숫자에 대해서 조금만 꼼꼼히 생각해 본다면,
합리적으로 추론할 수 있는 사람을 납득시키기에 충분한 사례가 그렇게 많지 않다는 것을 알 수 있다.
3. 빠진 데이터는 없는가? 숨겨진 자료
- 표본의 크기가 얼마인지 항상 알려 주지는 않는다. 이런 숫자가 빠져 있다면, 특히 그 출처가 중요한 관심사라면, 그 통계나 조사 전체에 대해서 의심해 볼 필요가 있다.
마찬가지로 신뢰도에 관한 자료(확률 오차나 표준편차 등)가 빠져 있는 상관관계는 심각하게 여길 필요가 없다.
산술평균값과 중앙값의 차이가 클 것으로 예상되는 경우에는 편차가 명시되어 있지 않은 평균값에 대해 특별하게 주의할 필요가 있다. 비교할 다른 숫자가 빠져 있기 때문에 아무 의미가 없는 숫자들이 많다.
- 때로는 백분율만 발표하고, 실제 숫자는 빠져 있는 경우도 있는데, 이것도 일종의 속임수다. 어느 회사의 발표에 따르면, 그 회사의 주주는 3003명으로 주주 한 사람이 소유하고 있는 주식 수는 평균 600주라고 했다. 이것은 사실이었다.
그런데 이 회사 200만 주 주식 중 4분의 3에 해당하는 주를 단 세 사람의 주주가 소유하고 있었으며, 나머지 4분의1을 3000명이 나누어 갖고 있는 것도 또한 사실이었다.
- 지수를 알고 있다고 하더라도 그 지수 외에 무엇이 생략되어 있는가를 찾아 봐야 한다. 아마 지수를 계산할 때의 기준이 빠져 있을 가능성이 많은데, 무엇을 기준으로 정하느냐에 따라 왜곡된 통계 숫자를 만들어 낼 수 있기 때문이다.
전국적인 어떤 노조 단체가 발표한 것에 따르면, 불황 후에는 이윤과 생산 지수의 신장률이 임금 지수의 신장률보다 훨씬 높았다고 한다. 그런데 임금 인상 요구의 근거로 제출된 이 그래프는 누군가가 생략된 기준 숫자를 파헤쳐 묻는 바람에 그 권위가 추락하고 말았다.
이 그래프에서는 가장 낮은 이윤을 기록했던 연도를 기준으로 잡았기 때문에 임금 상승률보다는 이윤 상승률 쪽이 훨씬 급상승할 수밖에 없었던 것이다.
- 때로는 생략된 것이 바로 변화를 일으키는 원인이 되는 경우도 있다. 이것이 생략되어 있기 때문에 이 변화는 다른 원인, 그래서 더 바람직하기를 원하는 원인 때문에 발생한 것처럼 보이기도 한다.
예를들면, 어느 해에 발표된 소매상의 판매액을 보니, 4월의 판매액이 그 전년도 4월보다 훨씬 증가해서 장사가 매우 번창해진 것 같은 느낌을 주고 있었다. 그러나 이 통계에서는 그 전년도에는 3월에 부활절이 있었지만,
그 해에는 4월에 있었다는 사실을 밝히지 않고 빠뜨리고 있었다.
- 또 다른 한 예를 보면, 과거 25년 간 암으로 인한 사망자 수가 크게 증가했다는 보고도 다음과 같은 외부요인에 의한 것인가를 알기 전에는 사람들의 오해를 사기에 충분하다. 즉 오늘날 암이라고 일컬어지는 것 중에는 옛날에 '사망원인 불명'으로 처리된 것들이 많았다.
또 오늘날에는 옛날보다 부검을 더 많이 하게 되어서 정확한 사망원인을 알 수 있게 되었다. 또 의학상 여러 통계 데이터의 보고나 편집방식이 그전보다도 훨씬 더 완벽해졌다. 또 오늘날에 와서는 더 많은 사람들이 암에 걸리기 쉬운 연령까지 생명이 연장되었다.
따라서 사망률이 아니고 사망자 수를 대상으로 할 때는 그전에 비해서 암으로 죽는 사람의 수가 훨씬 많아지게 된다는 사실을 잊어서는 안 된다.
4. 내용이 뒤바뀐건 아닌가? 쟁점 바꿔치기
- 통계를 분석할 때는 그 기초가 된 데이터와 결론 사이에 어떤 바꿔치기가 있었는지 봐야 한다. 전혀 다른 것으로 둔갑해서 발표되는 경우가 많기 때문이다. 위에 암을 예로 든것과 마찬가지로,
어떤 병의 환자 수가 많이 보고 되었다고 해서 실제 그 병이 더 많이 발병했다고 말할 수는 없는 것이다.
또 여론조사에서 이긴다고 반드시 실제 선거에서도 당선된다고는 할 수 없다. 또 독자 여론조사결과 독자들이 국제문제에 관한 기사에 흥미를 보이고 있다고 해서, 실제로 그런 기사를 다음 호에 실었을 경우에도 그 독자들이 읽으리라는 것을 보장할 수는 없다.
- '전후관계와 인과관계의 혼동 post hoc'이라는 논리적 오류도 겉보기에는 쉽게 파악하기 힘든 주제를 바꿔치기하는 수법 중의 하나다. 전자와 후자와의 관계가 원인과 결과라는 관계로 바뀐 것이다.
5. 상식적으로 말이 되는 이야기인가?
- 증명되지도 않은 가정을 토대로 장황하게 이야기가 전개될 때 '상식적으로 말이 되는 얘긴가?'와 같은 질문은 통계숫자를 과대평가하지 않고 제대로 파악할 수 있게 해 주는 역할을 한다.
여러 통계들이 액면 그대로 받아들였다가는 큰일나는 거짓된 것들이다. 통계는 숫자라는 마술에 의해 사람들의 상식을 마비시켜 버려서 절대 사라지지 않는다. 또 너무 정확한 숫자도 상식에 맞지 않는 점이 있다.
어떤 신문에서 가족을 가진 직업 여성이 가족과 함께 만족할만한 생활을 하기 위해 주당 40.13달러의 주급이 필요하다는 연구결과를 기사화했다. 조금 더 논리적으로 생각하면서 기사를 읽었다면,
인간이 마음과 몸의 평안을 찾아 충족한 생활을 유지해 나가는 데 필요한 경비를 산출하는데, 1센트까지 계산을 해야 하는가를 의심하게 될 것이다.
그러나 여기에 유혹이 도사리고 있다. '약 40달러'라고 하는 것보다는 '40.13달러'라고 하는 것이 훨씬 그럴듯하게 들리기 때문이다.
- 외삽법은 어떤 경향을 예측하는 상황에서 매우 유용한 방법이다. 그러나 이 경향 예측을 위해 만든 숫자나 도표를 볼 때는 항상 염두해 둬야 할 것이 있다. 현재까지의 추세가 사실일지는 몰라도 미래에 대한 경향은 어디까지나 추측 이외에 아무 것도 아니라는 것이다.
그리고 또 이 경향 예측 속에는 '다른 모든 상황이 변하지 않고', 또 '현재까지의 추세가 그냥 계속 된다'라는 가정이 은연중에 내포되어 있다. 그런데 사실은 바로 이 '여러 다른 사항들'이 실제로는 변동하는 것이 다반사이다.
관련 글: 비합리적 결정원칙을 유리하게 사용하는 방법
관련 글: 팔랑귀 고치는 방법
관련 글: 상대 마음을 움직이는 협상 방법
통계 오류를 꿰뚫어 보는 5가지 방법
Reviewed by 해결사
on
10월 19, 2022
Rating:
댓글 없음: