본문 바로가기

Work/데이터분석3

데이터 시각화(Data visualization) 데이터 시각화는 가장 낮은 수준의 분석이지만, 잘 사용한다면 복잡한 분석보다도 더 효율적이라고 한다. 빅데이터 분석, EDA를 할 때는 시각화는 필수이다. * 필요 개념 1) 모집단(population)과 표본집단(sample) - population : 분석 목표에 해당하는 '전체 대상' - sample : 모집단에서 추출된, 모집단의 부분 집합 표본집단으로부터 모집단의 특성을 추정하기 위해 통계학적 기법들을 사용함. 1) 단일 변수에 대한 분포를 확인 할 때 - histogram: 도수분포표 시각화 # Histogram # setosa - petal length df[df['variety'] == 'Setosa']['petal.length'].plot.hist() plt.show() - density.. 2022. 5. 22.
타이타닉 데이터 분석 데이터 분석 관련 개념도 정리해서 올려야하는데, 아무래도 직접 데이터 분석했는 것들을 정리하는데 손이 먼저 간다. 발표영상 >> 글정리>> 일단, 타이타닉 데이터를 받았을 때 데이터 전체적으로 파악하기위해 head를 찍어보았다. 결측치를 확인했을때 Age와 Cabin에서 발견. Age는 분포를 보니 중심이 치우쳐 진 것 같아 평균값이 아닌 중심값을 넣기로 결정했고 Cabin은 결측치가 너무 많아 삭제하기로 결정함. 삭제할 데이터 삭제하고, categorical 변수 변환으로 객실 등급을 나눠줌. 데이터 정리는 이정도로만 했고, EDA시작! 생각을 해봤을 때 전체 생존율을 계산해서 어떤 집단의 해당 생존율과 비교를 하면 좋겠다고 생각.(일종의 기준점을 세운다고 생각) 전체 생존율은 대략 38% 이므로 이 .. 2022. 5. 12.
데이터 분석엔 어떤 것을 공부하는게 유리할까? 수학 전공자 입장에서 데이터분석을 공부하면서 느낀 점을 정리해본다. 일단 다양한 모델들을 공부하게 된다. 이 때, 기존에 이미 개발되어있는 모델들을 가져다 쓰는 것 뿐만 아니라 다루는 데이터마다 어떤 모델이 더 낫을지 기존 모델을 어떻게 재구성해서 사용하면 좀 더 유의미한 값을 도출해낼 수 있을지를 고민을 많이 하게 된다. 그래서 관련 모델들과 다룰 데이터에 대한 이해도 높을 수록 데이터를 잘 분석할 수 있는 것 같다. 탑재되어 있으면 좋을 만한 것 들은 여러가지가 있지만 세 개정도로 요약해보면 . . . 일단 첫번째!!!! 기본적인 통계 개념. 기본적인 통계 개념이라고 하면 보통 통계학개론 + a 정도라고 생각한다. 물론 처음부터 이걸 다알고 시작한다면 아주 좋겠지만...관련 전공이 아니면 솔직히 힘이.. 2022. 5. 11.