내일배움캠프_QAQC 트랙 1기/강의 요약

[내일배움캠프] 통계학 기초 1주차

hyewonnnn 2025. 1. 16. 21:03

수업 목표

  • 데이터 분석에 있어서 통계가 왜 중요한지를 배웁니다
  • 기술통계와 추론통계에 대한 개념을 이해하고 각각의 차이점을 설명할 수 있습니다
  • 통계분석 방법의 다양한 종류에 대해서 배웁니다

 

1. 데이터 분석에서 통계가 중요한 이유

  • 데이터를 요약하고 패턴을 발견할 수 있다
  • 추론을 통해 결론을 도출화하는 과정을 돕는다
  • 데이터 기반의 의사결정을 내릴 수 있다
  • 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요함

 

2. 기술통계와 추론통계

1) 기술 통계

: 데이터를 요약하고 설명하는 통계 방법

  • 주로 평균, 중앙값, 분산, 표준편차 등을 사용
  • 데이터를 특정 대표값으로 요약 - 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
  • 단, 데이터 중 예외(이상치)라는 것은 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님
  • 평균 (Mean)
    • 데이터의 일반적인 경향을 파악하는 데 유용
    • 데이터를 더한 후 데이터의 개수로 나누어 계산
  • 중앙값 (Midian)
    • 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
    • 이상치(예외적인 값)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 방법
  • 분산 (Variance)
    • 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정
    • 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여 있음을 의미
    • 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 값
  • 표준편차 (Standard Deviation)
    • 분산에 제곱근을 취하여 계산
    • 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 펴져 있음을 의미
  • 분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱 단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환

 

2) 추론 통계

 : 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법

  • 주로 신뢰구간, 가설검정 등을 사용
  • 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심
  • 신뢰구간 (Confidence Interval)
    • 모집단의 평균이 특정 범위 내에 있을 것이라는 확률
    • 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미
  • 가설검정 (Hypothesis Testing)
    • 모집단에 대한 가설을 검증하기 위해 사용됨
    • 귀무가설(H0) : 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설 (변화가 없다, 효과가 없다 등)
    • 대립가설(H1) : 반대 가설로 주장하는 바를 나타냄 (변화가 있다, 효과가 있다)
    • p-value 를 통해 귀무가설을 기각할지 여부를 결정
  • 기술 통계 - 회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산
  • 추론 통계 - 일부 고객의 설문조사를 통해 전체 고객의 만족도를 추정

 

3. 다양한 분석 방법

1) 위치 추정

 : 평균, 중앙값이 대표적인 위치 추정 방법

  예) 학생들의 시험 점수에서 평균 점수, 중간 점수를 계산

 

 2) 변이 추정

 : 데이터들이 서로 얼마나 다른지 확인하는 방법

   분산, 표준편차, 범위(range) 등을 사용

  • 범위란?
    • 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도
    • 범위를 통해 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악 가능
    • 범위(R) = 최대값 - 최소값

 3) 데이터 분포 탐색

 : 데이터의 값들이 어떻게 이루어져 있는지 확인

  히스토그램과 상자 그림(Box plot)은 데이터의 분포를 시각적으로 표현하는 대표적인 방법

  예) 시험 점수의 분포를 히스토그램과 상자 그림으로 표현

 

 4) 이진 데이터와 범주 데이터 탐색

 : 데이터들이 서로 얼마나 다른지 확인하는 방법

  최빈값(개수가 제일 많은 값)을 주로 사용

  파이그림과 막대 그래프는 이진 데이터와 범주 데이터의 분포를 표현하는 대표적인 방법

  예) 고객 만족도 설문에서 만족/불만족의 빈도 분석

 

 5) 상관 관계

 : 데이터들끼리 서로 관련이 있는지 확인하는 방법

  상관계수는 두 변수 간의 관계를 측정하는 방법

  상관계수를 계수를 계산해서 -1이나 1에 가까워지면 강력한 상관 관계를 가지며, 0에 가까울수록 상관관계가 없음

 

 * 인과관계 vs 상관관계

: 상관관계는 두 변수 간의 관계를 나타내며, 인과관계는 한 변수가 다른 변수에 미치는 영향을 나타냄

 예) 아이스크림 판매량과 익사 사고 수 간의 상관관계는 높지만, 인과관계는 아님

 

 6) 두 개 이상의 변수 탐색

 : 여러 데이터들끼리 서로 관련이 있는지 확인 -> 다변량 분석

 예) sns.pairplot(df)