결론부터 말하자면 만족스럽게 읽은 책이다

데분가 취업준비를 하면서, 지금 나는 어떤 부분이 부족한걸까 어떤 부분을 보완해야 할까하는

생각에 자주 잠기곤 한다

 

학원을 다니며 데이터 분석 스킬부터 배우기 시작하면서

(그것조차 끝물에는 따라가기 어렵긴 했다,, 딥러닝,,🤦‍♀️)

테크닉 부분에만 신경이 쏠려있던 나를 다시한번 생각하게 만들어준 책이라고 생각한다

 

현업에서 일하는 김팀장이 데이터 분석 직무를 새로 맡게되면서

비즈니스 상황에 맞는 분석 기법을 이해하기 쉽게 설명해준다

'이런 상황에서는 이렇기 때문에 이렇게 분석해야하는구나'

여러 프로젝트를 진행하면서 주제에 맞게 데이터를 처리하고 머신러닝 모델을 돌려봤지만

실제 회사에서 벌어질 수 있는 상황과 데이터 기반 의사결정은 어떻게 이루어지는 것인지

찍먹 정도 가능했다

 


✍️ 이 책에서 내가 저장하는 내용들

  • 데이터를 분석하는 목적은 일반적으로 2가지이다.
    예측(Prediction)은 결과를 맞히는 것, 추론(Inference)은 원인과 결과 사이의 관계를 분석하는 것

 

  • 학문에 따라 달라지는 용어들

 

  • 원인과 결과 간 관계를 분석하는 방법에는 회귀분석이 있다.
    - 결과값이 수치형으로 나오는 경우에는 회귀방법론 
    예) t-검정, 분산 분석, 선형 회귀
    - 결과값이 범주형으로 나오면 분류방법론
    예) 로지스틱 회귀, 판별 분석, 서포트 벡터 머신(SVM), 의사결정나무, k-최근접 이웃(KNN)

 

  • 선형 회귀나 로지스틱 회귀는 여러 변수 간의 관계를 동시에 분석해주지만, 액션 플랜을 수립하는 기준을 제시하지는 X
    매출액 1억원 이상, 고객 만족도 4.5 이상, 고객 미팅 100회 이상인 직원에게 해외 연수를 보낸다는 식의 기준을 정해 현장에서
    액션 플랜을 세우기 위해서의사결정나무 방법론
    *의사결정나무에는Decisiontreeclassifier,  Decisiontreeregressor
    종속변수가 범주형이면 분류나무, 종속변수가 수치형이면 회귀나무 선택

 

  • 2와 1 비슷 -> 상관관계를 중요시(비슷한 판매 패턴)하면 피어슨 상관거리
    3과 1 비슷 -> 절대적인 양을 중요시(절대적인 판매량이 비슷)하면 유클리드 거리

 

  • 센서로 측정한 측정치가 많으면 데이터의 분포가 정규 분포에 가까워져서 데이터 가공 없이 바로 분석 가능
    but 센서가 많으면 '차원의 저주' => 주성분 분석 진행

 

  • 왜도와 정규분포 모양

 

'Reference > Books' 카테고리의 다른 글

[ 책 리뷰 ] 그로스해킹  (0) 2023.01.30
[ 책 리뷰 ] 데이터 문해력  (1) 2023.01.13

+ Recent posts