수업 목표
- 데이터 분석에 있어서 통계가 왜 중요한지를 배웁니다
- 기술통계와 추론통계에 대한 개념을 이해하고 각각의 차이점을 설명할 수 있습니다
- 통계분석 방법의 다양한 종류에 대해서 배웁니다
1. 데이터 분석에서 통계가 중요한 이유
- 데이터를 요약하고 패턴을 발견할 수 있다
- 추론을 통해 결론을 도출화하는 과정을 돕는다
- 데이터 기반의 의사결정을 내릴 수 있다
- 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요함
2. 기술통계와 추론통계
1) 기술 통계
: 데이터를 요약하고 설명하는 통계 방법
- 주로 평균, 중앙값, 분산, 표준편차 등을 사용
- 데이터를 특정 대표값으로 요약 - 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
- 단, 데이터 중 예외(이상치)라는 것은 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님
|
2) 추론 통계
: 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법
- 주로 신뢰구간, 가설검정 등을 사용
- 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심
|
- 기술 통계 - 회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산
- 추론 통계 - 일부 고객의 설문조사를 통해 전체 고객의 만족도를 추정
3. 다양한 분석 방법
1) 위치 추정
: 평균, 중앙값이 대표적인 위치 추정 방법
예) 학생들의 시험 점수에서 평균 점수, 중간 점수를 계산
2) 변이 추정
: 데이터들이 서로 얼마나 다른지 확인하는 방법
분산, 표준편차, 범위(range) 등을 사용
- 범위란?
- 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도
- 범위를 통해 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악 가능
- 범위(R) = 최대값 - 최소값
3) 데이터 분포 탐색
: 데이터의 값들이 어떻게 이루어져 있는지 확인
히스토그램과 상자 그림(Box plot)은 데이터의 분포를 시각적으로 표현하는 대표적인 방법
예) 시험 점수의 분포를 히스토그램과 상자 그림으로 표현
4) 이진 데이터와 범주 데이터 탐색
: 데이터들이 서로 얼마나 다른지 확인하는 방법
최빈값(개수가 제일 많은 값)을 주로 사용
파이그림과 막대 그래프는 이진 데이터와 범주 데이터의 분포를 표현하는 대표적인 방법
예) 고객 만족도 설문에서 만족/불만족의 빈도 분석
5) 상관 관계
: 데이터들끼리 서로 관련이 있는지 확인하는 방법
상관계수는 두 변수 간의 관계를 측정하는 방법
상관계수를 계수를 계산해서 -1이나 1에 가까워지면 강력한 상관 관계를 가지며, 0에 가까울수록 상관관계가 없음
* 인과관계 vs 상관관계
: 상관관계는 두 변수 간의 관계를 나타내며, 인과관계는 한 변수가 다른 변수에 미치는 영향을 나타냄
예) 아이스크림 판매량과 익사 사고 수 간의 상관관계는 높지만, 인과관계는 아님
6) 두 개 이상의 변수 탐색
: 여러 데이터들끼리 서로 관련이 있는지 확인 -> 다변량 분석
예) sns.pairplot(df)
'내일배움캠프_QAQC 트랙 1기 > 강의 요약' 카테고리의 다른 글
[내일배움캠프] 통계학 기초 3주차 (3) | 2025.01.21 |
---|---|
[내일배움캠프] 통계학 기초 2주차 (3) | 2025.01.17 |
[내일배움캠프] 엑셀보다 쉽고 빠른 SQL 5주차 (1) | 2025.01.07 |
[내일배움캠프] 엑셀보다 쉽고 빠른 SQL 4주차 (0) | 2025.01.07 |
[내일배움캠프] 엑셀보다 쉽고 빠른 SQL 3주차 (1) | 2025.01.07 |