"세상에서 가장 쉬운 통계학입문" - 독서 후기

저자 : 고지마 히로유키
옮김 : 박주영


 한 5~6년 전인가, 회사에서 진행된 "통계스터디"에서 사용했던 교제. 그 때는 "데이터분석"과는 별개의 업무를 진행하고 있어, 나에게는 기본소양을 넓힌다는 생각으로 접했던 책이다. 그때 잠시 보고 책장에 고이 모셔놓았던 책이기도 하다.

 지금은 나와는 상관없을 줄 알았던, "데이터"를 다루고 있고, "통계" 관련 전공을 수료하지 않은 나로서는 뭔가 기본을 잡아주는게 필요하지 않을까 싶어서 다시 읽게 되었다. 사실 과거 스터디를 진행한 강사 분이 "이건 정말 쉬운거예요~ 어렵지 않아요~"라고 했던 말이 아직도 기억에 남는다. 그런데도 그때 난 책의 반을 넘기지 못했던거 같은데 말이다.

 지금 짧게나마 "데이터"를 다루고 살다보니, 그 때 강사님의 말이 어느정도는 이해는 된다.
 평균/분산/표준편차 까지는 말이다.

 통계학도 "기술통계" 라는 부분과 "추리통계" 라는 영역으로 구성되어 있다는 내용도 알게되었다.

  • 기술통계 = 관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술
    • 도수분포표, 히스토그램, 평균값, 표준편차 등등
  • 추리통계 = 통계학 방법과 확률 이론을 섞은 것. '전체를 파악할 수 없을 정도의 큰 대상'이나 '아직 일어나지 않은, 미래에 일어날 일'에 관해 추측하는 것
    • 부분으로 전체를 추측한다. 선거 속보, 지구온난화의 예상, 주가예상, 금융상품/보험상품 가격 책정 등 

 내가 업무를 진행하면서, "기초통계량"이라는 표현을 많이 사용했었는데, 이 "기초통계량"이라는 부분들이 대부분은 "기술통계"에 해당하는 통계량이였다.

 나는 이 책을 통해 통계학을 조금이나마 이해한듯하다. 가령, 분포를 기준으로 설명을 해보자면 이렇다. 난 정규분포, T분포, 카이제곱분포 라는 말은 들어보았다. 하지만, 이것이 의미하는 것이 분포하는 모양이 대칭이냐, 비대칭이냐, 완만하냐, 아니냐 정도가 다른 것으로만 이해를 했다. 이렇게 생각한 이유는 머신러닝을 공부하면서 Feature들의 모델 최적화를 위해 정규분포화가 필요했고, 분포들의 모양을 보고 정규분포형태로 변환 가능한 방식 ( Log scale 과 같은 )을 선택하는 접근만을 고민했기 때문이다. 뭐 이게 완전 틀렸다고 보는것은 아니나, 해당 분포들이 왜 만들어지게 되었는지에 대한 고민이나 관심은 없었던거 같다.

 이 책에서는 정규분포와 카이제곱분포, T분포가 어떤 의미로 탄생되었는지, 어떤 의미로 활용할 수 있는지를 "통계학" 초보자인 나도 이해하기 쉽게 설명을 해주고 있다. 그리고 그런 방법들을 통해 "구간추정"이라는 것을 하고, 그 값들을 이용해 가설을 기각할 것인지, 아닐지를 판단한다고 한다. 실제 업무에서도 이런 가설 검정 과정은 필요하고, 그 방법론으로 사용해도 좋은 내용이라고 생각한다.

 이 책에서 아쉬운게 있다면, 정규분포를 띄는 항목만을 가정하여 책을 기술하고 있는데, 이것은 저자가 의도한 내용이다.  비모수적인 항목이나 확률에 관한 부분들을 다룰 때 초보인 독자들이 이해하기 어려울 수도 있다고 생각한듯하다. 그런 걸 감안하더라도, 이 책은 통계학 관련 입문 서적으로는 좋은 책이라고 생각한다.

 Data Scientist 로 한걸음 더 다가간듯한 느낌~


댓글

이 블로그의 인기 게시물

JTDS&Mabatis 에서 MSSQL NVARCHAR 처리

"구글이 목표를 달성하는 방식 OKR" - 독서 후기

Lecture 2 "Supervised Learning Setup Continued" -Cornell CS4780 SP17