본문 바로가기
Work/데이터분석

타이타닉 데이터 분석

by jaunnnngs21 2022. 5. 12.

데이터 분석 관련 개념도 정리해서 올려야하는데, 아무래도 직접 데이터 분석했는 것들을 정리하는데 손이 먼저 간다.

 

발표영상 >>

 

 

글정리>>

 

일단, 타이타닉 데이터를 받았을 때 데이터 전체적으로 파악하기위해 head를 찍어보았다.

 

결측치를 확인했을때 Age와 Cabin에서 발견.

Age는 분포를 보니 중심이 치우쳐 진 것 같아 평균값이 아닌 중심값을 넣기로 결정했고

Cabin은 결측치가 너무 많아 삭제하기로 결정함. 

삭제할 데이터 삭제하고, categorical 변수 변환으로 객실 등급을 나눠줌.

데이터 정리는 이정도로만 했고, EDA시작!

생각을 해봤을 때 전체 생존율을 계산해서 어떤 집단의 해당 생존율과 비교를 하면 좋겠다고 생각.(일종의 기준점을 세운다고 생각)

전체 생존율은 대략 38% 이므로 이 기준으로 높은지 적은지 예측해볼 수 있음.

생존여부에 따른 나이분포를 시각화 해봄.

파란색이 생존, 핑크색이 비생존.

확실히 20대 밑으로 생존율이 높아보이고 30대에 사망률이 높아보이긴하지만

나이 결측치를 중간값으로 넣어서 별로 의미 없어보인다고 생각. 

시각화로도 충분히 보이긴 했지만, 실제 생존율이 궁금해 계산을 해봄.

그리고 10대 20대 이런식으로 좀 구분하고 싶어서 10으로 나눈 몫을 활용해 구분해봄.

실제로 구해보니 10세 미만은 확실히 생존율이 높아보였고 나머지 연령은 별반 차이없이 비슷해보임.

남여비율과 객실 등급도 실제로 생존율을 비교해봄.

생존과 각 변수들의 계수값을 구했고 강한 상관관계를 따지기 보단 음,양 정도로 구분이 가능해보임.

생각을 해보니 나이를 임의로 내가 데이터를 조작한 거 같아 확인차 표준화해서 확인해봄.

값이 조금 다르긴하나 음,양 상관관계는 같음.

값의 차이가 조금 나긴하나 비슷해보이고 정확도도 같았답

(정확도가 똑같이 나와서 이상하다고 생각했지만 선형분석에서는 충분히 가능한 일이라고 피드백 받음!)

아주 정확하게 변수평가를 해보았다.  확인을 해보니 Fare, Parch는 의미없는 것으로 확인함.

confusion matrix를 계산해보았고 이를토대로 평가지표를 계산함.

전체적으로 그래도 좋게 나온 것 같다고 생각함.

내친김에 ROC커브 까지 그려보았고 면적까지 계산해봄.

 

1보다 좀 떨어지긴하지만 나쁘지 않다고 생각함!

발표영상도 있는데 편집하는데로 추가할 계획!

 

 

더 자세한 코드는 깃을 참고!

 

https://github.com/jaunnnngs/DATA_Analysis/blob/main/2022%20AI/220510/%EC%A9%A1%EC%93%B0_%ED%83%80%EC%9D%B4%ED%83%80%EB%8B%89%20%EC%83%9D%EC%A1%B4%EB%A5%A0%20%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%A0%84%EC%B2%98%EB%A6%AC(22020510).ipynb 

 

GitHub - jaunnnngs/DATA_Analysis

Contribute to jaunnnngs/DATA_Analysis development by creating an account on GitHub.

github.com