내일배움캠프_QAQC 트랙 1기/강의 요약

[내일배움캠프] 데이터 분석 종합반 1주차

hyewonnnn 2024. 12. 12. 18:33

[ 수업 목표 ]

1. 익숙한 엑셀을 통해 데이터 분석 구조에 대해 이해할 수 있다

 

2. 파이썬과 라이브러리 개념에 대해 이해할 수 있다

 

3. 각 데이터 간의 상관관계 분석을 할 수 있다

 


 

[ 데이터 분석 종합반 커리큘럼 ]

 

[ 주제 ]

 타이타닉 사망자의 비밀 파헤치기

 

[ 사건 배경 ]

 생존자 인터뷰를 하다 느낀 건데 부유한 인원들이 그렇지 않은 사람보다 많은 것 같스비다.

 배 안에서 어떤 부당한 일이 있었던 건 아닌지 걱정이군요

 왜 그런건지, 조치를 취해야 하진 않을지 조사해주세요!

 

   획득한 정보 : 탑승자 데이터 (사망 여부 포함)

 

[ 가설 ]

 첫째_ 정말 요금과 생존이 관계가 있을까?

  • 부유한 사람은 높은 요금을 냈을 확률이 높겠죠?

둘째_ (관계가 있다면) 왜 관계가 있는지 진상을 파악하자!

 

 

[ 데이터 분석하기 ]

 

1. 데이터 분석 준비하기

 

  ( 1 ) 데이터 가져오기

  ( 2 ) 데이터 살펴보기 ( 표 확인 후 어떤 부분을 볼 지, 고려사항 확인 )

  ( 3 ) 데이터 다듬기

 

       - - - - - - - - > 데이터 전처리 과정

                                 - 엑셀로 공백 제거하기 ( '필터' 기능 사용하여 공백 제외 )

 

 최종 분석 이유 : 생존율이 무엇에 연관이 있었는지

                          그 중에서도 가설 "요금과 좌석 등급이 생존율에 큰 영향을 미쳤을 것이다" 확인

                          즉, 생존율을 올리는 것은 무엇이었을까?

 

 

2. 데이터 분석하기

 

( 1 ) 확장 프로그램 사용

   - XLMiner Analysis ToolPak 사용

   - Correlationo ( 상관관계 분석 )

    : 어떤 결과가 어떤 인자로부터 영향을 주고 있는지 확인

   - 분석 결과의 값 확인

분석 결과

 

  - 빨간 네모 칸의 값은 Survived 항목이 Pclass 값에 얼마나 영향을 주는지 나타내는 값이다

 

 

 ( 2 ) 분석 결과 시각화

   - 데이터 분석 범위 지정 후 차트 만들기

   - 필요한 계열만 선택 후 맞춤 설정으로 데이터 라벨 등 선택

생존율과 다른 요소들 간의 상관관계 그래프

 

 - 음수, 양수와 상관 없이 숫자가 클 수록 상관 관계가 큰 편이라고 생각하면 된다

  • 양수일 경우 : 한 변수가 증가함에 따라 다른 변수도 증가하는 경향을 보이는 것
  • 음수일 경우 : 한 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것

 - 그렇다면 생존과 관련이 있다고 보여지는 요소들은?

     성별, 배의 등급, 요금

 

 

3. 최종 결론 내기

 

 ( 1 ) 가설 검증 하기

     가설 1 : 요금은 생존과 상관이 있을 것이다 ( 0 )

     가설 2 : 탐승 등급 또한 생존과 상관이 있을 것이다 ( 0 )

 

 ( 2 ) 최종 결론

 

   요금과 탑승 등급 모두 생존률과 관계가 있다

 

 

 

[ 데이터 분석의 기본 구조 ] 

  1.  문제 정의 및 가설 설정하기
  2. 데이터 분석 기본 세팅 하기
  3. 데이터 분석하기
  4. 분석 결과 시각화 하기
  5. 최종 결론 내리기

 

 

[ 파이썬 기초 지식 엿보기 ] 

파이썬은 사람이 컴퓨터와 말을 쉽게 하도록 도와주는 '번역팩' 과 비슷한 것이다

영어 번역기 = 파이썬

 

1. 라이브러리란,

    데이터 분석시, 특정한 동작을 할 수 있게 하는 코드 모음집이라고 생각하면 된다

 

   개발자들은 같은 기능의 코드를 반복적으로 써야 하는 수고로움을 덜기 위해,

   자주 쓰이는 '특정 기능을 하나의 라이브러리로 만들어 코드 작성의 효율성' 을 높였다

 

 1) pandas

  데이터를 여러 가지 방법으로 다룰 수 있게 도와주는 파이썬 라이브러리

  • 엑셀 뿐만 아니라, 여러 종류의 형태 데이터 파일을 읽어 낼 수 있다
  • 우리가 필요한 데이터를 자르고 붙일 수 있다
  • 결함이 있는 데이터를 도려낼 수 있다 (결측치 제거)
  • 원하는 데이터를 뽑아 내기 위한 필터링 작업도 가능하다

 

 2 ) matplotilb

 

 데이터를 시각화 해주는 라이브러리

  • matplotlib 을 이용하여 만들 수 있는 차트 미리보기

출처 : matplotilb 공식 홈페이지

 


 

[ 1주차 숙제 ]

 

 당뇨병 발생에 가장 많은 영향을 미치는 요소를 찾아봅시다

분석 결과
시각화 자료

데이터 분석 결과, 당뇨병 발병에 가장 큰 영향을 미치는 요소는 " Glucose " 입니다.