문화/책

벌거벗은 통계학 - 내 인생 최고의 통계학 책!

억스리 2016. 10. 5. 13:53

[출처] http://blog.naver.com/hong8706/220824388277



 



통계학은 우리 모두가 배워야할 수 많은 지식 중, 가장 위에 위치할 몇 가지 중 하나라 생각합니다(통계학 이전에 언어와 문자, 그리고 간단한 수학이 있겠죠). 


인터넷의 세계에는 거짓정보가 홍수난 후의 강물처럼 흐르고 있죠. 그리고 통계는 이런 거짓정보를 걸러낼 힘을 부여합니다. 뿐만 아니라, 점점 발달해가는 정보통신의 기술을 이해하고 활용하기 위해서라도 통계학은 반드시 배워야할 지식이라 할 수 있습니다.


그러나.. 통계학은 쉽지 않습니다. 


그런데 오늘 소개하는 책 "벌거벗은 통계학"은 굉장히 흥미롭습니다. 고등학교 문과 졸업 수준의 수학실력을 가지고 계신 분이라면 누구나 이해할 수 있는 레벨의 간단한 수식 몇개만으로, 왜 통계학 공부를 해야하며 또 어떻게 활용할 수 있는 지를 술술 풀어줍니다. 



★★★


서설이 길었네요. 제가 가장 감명을 받았던 '회귀분석' 부분의 예를 중심으로 이야기를 시작하겠습니다(ebook 기준 362 페이지).


업무 스트레스로 죽을 수도 있을까? 그렇다. 특히 과중한 업무 스트레스가 심장병을 일으켜 죽음을 앞당길 수 있다는 부정하기 힘든 증거가 있다. (중략) 업무 스트레스로 사망할 확률은 회사의 운이 달린 중대한 결정을 내리는 CEO보다는, 지시받은 대로 일하고 착실히 전화에 응대하는 그의 비서에게서 훨씬 높다. 


어떻게 이런 일이 일어날 수 있을까? 밝혀진 바에 따르면, 가장 위험한 종류의 업무 스트레스는 자신이 맡은 직무에 '결정권이 적은 데'에서 비롯된다.


공감합니다. 생존본능이 가동되며 '코르티솔'이 분비되고, 살이 찌며 면역능력이 저하됩니다. 제가 모 기관에 있을 때 딱 저랬습니다. ㅠ.ㅠ



그런데, 이런 주장은 매우 흥미로우나.. 입증하기는 대단히 어렵습니다. 왜냐하면, 사람들을 서로 무작위로 다른 직무에 배정하고 일을 시킨다면 수 년 후에 사망률을 측정할 수는 없지 않겠어요? 


물론 한국에서는 그 비슷한 일(순환보직!!!)을 합니다만, 암튼 영미권에서는 무작위 배정이라는 것은 상상할 수 없는 일입니다(ebook 기준 364 페이지).


이런 문제를 해결할 수 있게 도와주는 통계 도구가 바로 회귀분석이다. 좀 더 자세히 말하면 회귀분석은 다른 변인(=변화를 일으키는 힘, 여기에서는 흡연여부 등)을 통제한 상태에서 우리가 알고자 하는 어떤 변수(=직무에 대한 의사결정권한)와 결과(=공무원 사망률)의 연관관계를 숫자로 나타낼 수 있게 해준다.


어떻게 이게 가능한가? 


이 문제를 '체중'과 '신장'의 관계를 통해 풀어줍니다공감합니다. 아래의 '그림'에는 어떤 집단의 신장과 체중의 관계가 나와 있습니다. 세로 축은 체중이며, 가로축은 신장입니다. 대체로 신장이 클수록 체중도 더 많이 나갑니다. 그런데, 키의 변화에 따른 체중의 증감을 정확하게 측정할 방법이 없을까요? 


이 문제를 해결해주는 게 바로 회귀분석입니다. 


<신장과 체중에 대한 산포도> 





신장과 체중 통계와 대충 일치한다고 말할 만한 직선은 굉장히 많이 있을 겁니다. 그중 어떤 직선이 이 데이터에 가장 근접한 선인지 어떻게 알 수 있을까요?(ebook 기준 372 페이지).


회귀분석에서는 최소 제곱법(OLS)라고 불리는 방법을 사용한다. (중략) 최소 제곱법은 잔차(residual) 제곱의 합이 가장 작은 선을 가장 근접한 것으로 선택한다. 들리는 것만큼 그렇게 복잡하지는 않다. 


신장과 체중 데이터 중 정확히 회귀선 위에 위치하는 관찰값이 아닌 다른 값들은 회귀선에서 어느 정도 떨어져 있다. 잔차는 회귀선 사이의 수직 거리이고, 회귀선 바로 위에 위치한 관찰값의 잔차는 0이다. 


아래 <그림>에 가상의 인물 A에 대한 잔차가 표시되어 있다. 직관적으로 전체 잔차의 합이 클수록 선이 데이터와 잘 맞지 않다는 것을 알 수 있다.


<신장과 체중에 대한 선형 회귀선> 





최소 제곱법에서 '제곱'의 의미는 회귀선과 관찰값의 차이가 어떨 때에는 플러스, 혹은 어떨 때에는 마이너스가 되기 때문에.. 제곱함으로써 이 문제를 해결하기 위함입니다. 위 <그림>의 회귀선을 추정하면(엑셀에서 바로 계산해줍니다), 다음과 같은 결과를 얻습니다(ebook 기준 375~376 페이지).


체중 = -135 + (4.5)×신장


(중략) 신장 1인치의 증가는 체중 4.5 파운드 증가와 관련되어 있다. 그러므로 이 조사("변화하는 삶")에 참가한 키가 5피트 10인치인 사람의 체중에 대한 가장 좋은 추정은 -135+4.5×70=180. 즉 180파운드라고 할 수 있다.


이런 식으로 통계를 해석하는 순간, 다양한 분석이 가능해집니다. 이제 이 조사("변화하는 삶")에 혹시 다른 통계. 예를 들어 나이와 성별, 그리고 인종 등이 남아 있으면 점점 더 치밀한 분석이 이뤄지는 겁니다(ebook 기준 387~388 페이지).


회귀식에 "변화하는 삶" 연구 참가자의 체중을 설명해줄 다른 변수인 '나이'를 집어 넣어보자.


체중 = -135 + (4.6)×신장 + 0.1×(나이)


여기서 나이에 대한 계수 값은 0.1이다. 이는 '신장'이 다 비슷한 사람들은 나이가 한살 만을 때 몸무게가 0.1 파운드 더 나간다는 의미로 볼 수 있다. (중략) 위 식에서 신장의 계수가 이전 4.5에서 4.6으로 0.1만큼 증가한 것을 눈치챈 사람이 있을 것이다. 분석에 나이를 추가함으로써, 신장과 체중의 관계에 대해 보다 더 정확하게 이해할 수 있게 된다. (중략)


이번에 성별 변수를 추가해보자. 성별은 남성과 여성 두 가지 뿐이므로 조금 다른 방식을 써야 한다. (중략) 여성참가자에게는 1, 남성참가자에게는 0을 부여한다. (중략) 성별에 대한 계수는 -4.8이 나왔는데, 이는 신장과 나이가 같을 때 여성이 남성에 비해 평균적으로 4.8파운드 덜 나간다는 뜻으로 이 결과를 해석할 수 있다.


즉, 중요한 변수를 하나씩 추가해 나감으로써 다른 요인을 '통제'하고 순수하게 '키와 체중의 관계'를 뽑아낼 수 있게 되는 겁니다. 이제 보다 민감한 문제로 들어가보죠. 가난은 체중에 어떤 영향을 미칠까요?(ebook 기준 390~392 페이지).


가난은 어떤 영향을 미칠까? 미국에서 저소득층으로 산다는 것은 체중에도 영향을 미칠까? "변화하는 삶" 연구자들은 정부에서 주는 푸드 스탬프 수령 여부도 조사했다. 푸드 스탬프는 빈곤 정도를 측정하는 좋은 수단으로 쓰인다. (중략)


회귀분석을 통해 '가난'이 체중에 미치는 영향을 독립적으로 분리해낼 수 있다. (중략) 푸드 스탬프를 받는 사람은 다른 성인보다 무거운 것으로 나타났다. 다른 조건이 동일할 때, 푸드 스탬프를 받는 사람들은 "변화하는 삶" 연구에 참가한 다른 성인보다 평균 5.6파운드 체중이 더 나갔다. 


이제 더 무시무시한 영역으로 가보죠. 


남녀임금격차의 차이에 대해서도 '원인'을 분리해낼 수 있습니다. 여성이 남성에 비해 낮은 임금을 받는 게 노골적인 '남녀차별' 때문인지, 아니면 다른 요인 때문인지를 구분해보자는 겁니다(ebook 기준 395~396 페이지).


시카고 대학에서 MBA를 받은 남녀 2,500명 표본을 대상으로 임금변화의 궤적을 조사한 결과, 졸업 후 초봉은 남성 13만 달러 여성은 11.5만 달러로 큰 차이가 없었다. 그러나 10년 후에는 남녀간 임금격차가 크게 벌어져, 여성은 24.3만 달러 남성은 44.2만 달러를 받아 여성 졸업자가 동기 남성에 비해 평균적으로 45%나 낮은 임금을 받았다. (중략)


시카고 대학 비즈니스스쿨의 매리엔 베르트랑, 하버드 대학의 클라우디아 골딘, 로렌스 카츠에 따르면, 남녀 임금격차의 대부분은 '남녀차별'에 의해 설명되지 않는다. 성별에 따른 소득격차 문제는 설명변수가 추가되면서 사라졌다. (중략)


한 예로 남성은 여성보다 MBA시절 '금융' 수업을 더 많이 들었고 더 좋은 학점으로 졸업했다. 이 점을 통제 변수(=설명변수)로 회귀식에 포함시키자, 남녀 간 임금격차 중 설명되지 않은채 남아 있는 부분(=남녀차별에 따른 임금 격차)이 19%로 줄어들었다.


또 MBA 졸업 후 휴직 기간을 제외한 직장 경력을 회귀식에 추가했을 때 남녀 간 소득 격차 중 설명되지 않고 남아 있는 부분은 다시 9%로 줄어들었다. 또한 직종, 업무시간 등 업무 성격이 설명변수로 추가되자 성별에 따른 소득 격차 중 설명되지 않은 채 남아 있는 부분은 4% 이하로 떨어졌다.


물론 이 분석이 '완전 정확'한 것은 아닙니다. 일단 MBA라는 게 많은 돈을 필요로 하거든요. 즉 집안이 좋은 학생들 중에서의 소득격차를 측정한 것일 수도 있습니다. 더 나아가, 이 MBA가 다른데도 아니고 시카고 대학이라는 점도 고려해야겠죠. ㅎ 미국 전역에서도 탑레벨입니다. 그러니, 당연히 굉장히 편향된 표본입니다. 


즉, 금수저 중에서도 머리 가장 좋은 학생들 사이에서는 남녀 소득격차가 '차별' 때문에 발생하지는 않는다 정도로 해석해야겠죠.


이제 마지막으로 다시 영국공무원 이야기로 돌아가보겠습니다(ebook 기준 400~402 페이지).


연구자들은 공무원 1만 7,530명을 7년 반 동안 추정 조사했다. 연구자들은 "낮은 직위의 남자 공무원은 높은 직위에 있는 남자 공무원 보다 키가 작았고, 키에 비해 몸무게가 더 나갔고, 혈압과 혈당이 높았고, 흡연량이 많은 데다 여가시간 동안의 신체활동은 적었다. 


하지만 이 모든 요인을 참작한 다음에도 직위와 관련된 심혈관질환 사망률은 여전히 높았다"라고 결론을 내린다.


예. 남의 의사에 따라 순식간에 흔들리는.. 그런 일자리에 오래 일하면 일찍 죽습니다. 


암튼.. 이상의 긴 사례와 분석에서 보듯, 통계학은 대단히 흥미로운 학문이며.. 또한 매우 실천적인 의미를 지닙니다. 이래도 통계학 공부 안하시겠습니까? 


즐거운 독서, 행복한 인생되세요~


벌거벗은 통계학

작가
찰스 윌런
출판
책읽는수요일
발매
2013.10.25.
평점

리뷰보기