벌거벗은 통계학

Naked Statistics, 벌거벗은 통계학, 갑자기 왜 통계학 책...?


빅데이터가 대세인 사회다. 인터넷을 통해 검색하고 있는 그것, 신용카드, 교통카드, 즐겨찾기 목록, 카카오톡 메시지, 사용한 앱, 가입한 인터넷 카페, 길가를 걸어다니면 볼 수 있는 CCTV, 자동차 블랙박스 등등 수많은 개인 정보 노출 위험에 쌓여 있다. 이 데이터를 잘만 활용하면 이 사람이 무슨 생각을 하고 무슨 행동을 할지 훤히 볼 수 있는 1984의 "빅브라더"와 같은 시스템을 구축할 수 있다.


그런데 막상 우리에게 닥친 큰 문제는 '진짜 정보'와 '가짜 정보'를 구분할 수 있는 능력이다. 수많은 인터넷 뉴스를 보면 도무지 어느것이 사실인지 잘 모를때가 있다. 정말 이럴땐 마음이 답답하다. 모처럼 시간을 들여서 이것 저것 정보들을 찾고 머리속에 주입시켜놓았더니 어느것이 사실인지 전혀 모르겠다. 마치 뇌에서 안개가 피어나듯이 복잡해진다. 이 정보들을 잘 정리해서 나에게 보여주었으면 좋겠다.


통계의 오류는 어떻게 보면 평균의 오류와 비슷해보인다. 잘 살고 있는 사람과 못 살고 있는 사람의 소득 평균을 구했을때 우리나라 월 평균 수입이 예를들어 280만원 정도라고 해보자. 그렇다고해서 대부분의 사람들이 280만원을 번다고 하기는 쉽지 않다. 실제 사람들이 가장 많이 분포하고 있는 월급집단은 280만원보다 낮은 150~250만원대라고 한다. 그러니 평균의 오류는 지극히 극한 정보인 평균이라는 대표값으로 집단을 평가했기 때문에 발생한다.


통계를 냈을때도 마찬가지다. 사람들은 통계가 신뢰적이라는 편견을 가지고 있어 이렇게 저렇게도 해석될 수 있는 말에 자주 속는다. 그러니 통계는 언론과도 같이 보고 싶은 부분만 보면 엉터리 정보가 될 가능성이 있다. 예를 들면 '바나나를 아침에 먹으면 안좋다' VS '바나나를 아침에 먹으면 몸에 매우 좋다'와 같은 논쟁거리가 있다. 이렇게 애매모호한 논쟁은 자기가 믿고 싶은대로 믿어버리기 마련이다. 정확히 통제, 독립 변수를 제한하고 실험, 가변 변수을 변화 시키면서 그 추이를 엄밀하게 실험한 결과는 생각보다 많지는 않다.


예를 들어 흡연 문제에 관한 것이다. 흡연이 암을 일으킨다는 말에 대해 여러가지 변수를 통제하기 쉽지 않다. 그것도 충분히 시간을 들여서 해야 한다면 인간에게 했을 경우 비윤리적이다. 그래서 우리가 가장 연관을 짓는 부분은 직계 부모님들의 흡연여부와 폐암이 걸렸는지 여부를 통해 유전자적 상관관계를 찾는다. 건강한 사람은 무슨짓을 해도 암에 안 걸릴것이고 취약한 사람은 담배를 피우지도 않았는데 암에 걸릴수 있다는 결론이다. 이것은 그냥 사고 실험을 통해서 알수 있는 내용이라 별로 놀랍지도 않다.


<CSI:회귀분석>은 식생활, 운동, 체중 등과 같은 다른 중요한 변수들의 영향을 일정하게 유지하거나 통제한 채, 연구자들이 두 변수(ex, 흡연&암) 사이의 관계를 분리해내는 도구이다. (36p)


결국 수많은 정보에 둘러 쌓여 살아가는 우리에게 필요한것은 정보의 양이 아니라 정보의 질이다. 이 정보의 질을 높이기 위해서는 정보를 해석할 줄 아는 능력이 필요하고 그것은 통계학으로 설명될 수 있다. 통계의 궁극적인 목표가 수학 좀 한다고 으쓱대는 데 있지 않다. 실생활에 유용한 정보를 제공하는 데 그 목적이 있다. 다음은 책 41page에 나오는 통계학을 배우는 이유를 적어놓은것이다.


  • 방대한 양의 데이터를 요약

  • 보다 나은 의사 결정

  • 중요한 사회적 질문에 대답

  • 복잡한 머리속을 단순 명료하게 정리(단, 고정관념에 빠질 수 있으니 주의)



"거짓말에는 세 종류가 있다. 거짓말, 새빨간 거짓말 그리고 통계"        - 마크 트웨인 -


정밀성(Precision)과 정확성(Accuracy)의 차이는 무엇일까? 정밀성은 우리가 무엇인가를 얼마나 정교하게 표현하는지를 의미한다. 반면 정확성은 표현한 결과가 얼마나 실제 결과와 부합하는지를 나타내는것을 의미한다. 엄밀하게 차이를 구분하기 어렵지만 다음과 같이 구분이 가능하다.


현재 위치에서 우리집까지 가는 길은 대략 500m 정도라고 가정한다. 정밀성은 대략 500m를 535.45m 정도로 정교하게 표현한 것이며 정확성은 집까지 가는데 500m지만 대략 북동쪽으로 500m일뿐 아니라 직진, 좌회전, 우회전과 같은 실질적으로 우리집에 도달할 수 있는 실제 정보를 나타내준다. 그러니 정밀성만 높다고 해서 정확할수는 없다. 수치적으로 정밀했다고 해서 그 정보를 믿을수 없는 증거이기도 하다. 이 정밀성을 악용하면 통계를 악용할 수 있다.


할리우드 영화사들의 통계조작을 살펴보자. 2011년 기준 미국내에서 가장 큰 매출을 올린 영화 다섯편은 다음과 같다.

1.<아바타>(2009)

2.<타이타닉>(1997)

3.<다크나이트>(2008)

4.<스타워즈 에피소드 4>(1977)

5.<슈렉2>(2004)


이 통계수치는 믿을만해보이지만 그렇지 않다. 이유는 단순 명료하다. 영화표 티켓 값이 단순 명목수치로 계산되었기 때문이다. 20년전 1억이라는 금액과 현재 1억이라는 금액 가치가 다르다. 그러므로 더 정밀하고 정확한 통계치를 가지기 위해서는 돈에 각 년도별 인플레이션을 적용한 실질 화폐 가치 수준을 따져주어야 한다. 이 실질 가치 수준을 따지면 1~5위는 다음과 같다.


1.<바람과 함께 사라지다>(1939)

2.<스타워즈 에피소드 4>(1977)

3.<사운드 오브 뮤직>(1965)

4.<E.T.>(1982)

5.<십계>(1956)


스타워즈 에피소드4가 대단하다는 사실을 새삼 깨닫는다. 평소 얼마나 무분별하게 정보를 받아들여 대기업의 마케팅에 속고 있는지 짐작이 가질 않는다. 그렇기 때문에 이런 숫자 놀음을 명확하게 확인하기 위해서는 비판적인 사고 방식이 필요하다. 이유는 단순하다. 정보의 양이 아닌 정보의 질을 높이기 위해서.








제 블로그에 방문해주셔서 감사합니다.

포스팅 내용은 조금 도움이 되셨나요?

공감과 댓글은 저에게 힘이 됩니다.!! ^^



'Book' 카테고리의 다른 글

고엔카의 위빳사나 명상  (0) 2019.11.16
마인드셋  (0) 2019.11.15
강신주의 감정수업  (0) 2019.11.06
나는 나무에게 인생을 배웠다  (0) 2019.11.03
레오나르도 다빈치  (0) 2019.10.28

댓글

Designed by JB FACTORY