[내일배움캠프] 통계학 기초 3주차

내일배움캠프_QAQC 트랙 1기/강의 요약

[내일배움캠프] 통계학 기초 3주차

hyewonnnn 2025. 1. 21. 19:01

수업 목표

각각의 유의성 검정 방법들에 대해 이해하고 특징을 파악한다
신뢰구간과 가설검정의 관계에 대해 설명할 수 있다
제 1종 오류와 제 2종 오류에 대해 이해하고 구분할 수 있다

1. A/B 검정

두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법
마케팅, 웹사이트 디자인 등에서 많이 사용됨
사용자들을 두 그룹으로 나누고 각 그룹에 다른 버전을 제공한 후, 반응을 비교
일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교
두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인

2. 가설 검정

: 데이터가 특정 가설을 지지하는지 검정하는 것이 포인트!

표본 데이터를 통해 모집단의 가설을 검증하는 과정 즉, 데이터가 특정 가설을 지지하는지 평가하는 과정
귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정
- 확증적 자료분석 : 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석
- 탐색적 자료분석(EDA) : 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것
단계
1. 귀무가설(H0)과 대립가설(H1) 설정
2. 유의수준(α) 결정
3. 검정통계량 계산
4. p- 값과 유의수준 비교
5. 결론 도출
예시
- 새로운 약물이 기존 약물보다 효과가 있는지 검정
- 귀무가설 : 새로운 약물은 기존 약물과 큰 차이 없다 / 대립가설 : 새로운 약물이 기존 약물에 비해 효과 있다

1) 통계적 유의성

결과가 우연히 발생한 것이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
p 값은 귀무가설이 참일 경우 관찰된 통계치가 나올 확률을 의미
일반적으로 p 값이 0.05 미만이면 결과를 통계적으로 유의미하다고 판단

2) p-값

귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
일반적으로 p-값이 유의수준(α -> 보통 0.05 사용)보다 작으면 귀무가설을 기각

3) p-값을 통한 유의성 확인

p-값이 0.03이라면, 3%의 확률로 우연히 이러한 결과가 나올 수 있음 -> 귀무가설 기각
일반적으로 0.05 이하라면 유의성이 있다고 봄

4) 신뢰구간과 가설검정

신뢰구간 : 특정 모수(ex.평균)가 포함될 범위를 제공
가설검정 : 모수가 특정 값과 같은지 다른지 테스트

3. t 검정

: 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법

독립표본 t 검정 : 두 독립된 그룹의 평균을 비교
- 두 클래스의 시험 성적 비교
대응표본 t 검정 : 동일한 그룹의 사전/사후 평균을 비교
- 다이어트 전후 체중 비교

4. 다중검정

여러 가설을 동시에 검정하는 방법, 하지만 오류가 발생할 수 있음
각 검정마다 유의수준을 조정하지 않으면 제 1종 오류(귀무가설이 참인데 기각하는 오류) 발생 확률 증가
보정 방법
- 본페로니 보정(대표적인 보정 방법), 튜키 보정, 던넷 보정, 윌리엄스 보정 등
- adjusted_alpha = alpha / len(p_value). -> alpha(유의수준)을 p-값의 개수로 나눔

5. 카이제곱검정

: 범주형 데이터의 분석에 사용

적합도 검정
- 관찰된 분포와 기대된 분포가 일치하는 지 검정
- p 값이 높으면 데이터가 귀무 가설에 잘 맞음 → 관찰된 데이터와 귀무가설이 적합
- p 값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음 → 관찰된 데이터와 귀무가설이 부적합
- 주사위의 각 면이 동일한 확률로 나오는지 검정
독립성 검정
- 두 범주형 변수 간의 독립성을 검정
- p 값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음
- p 값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음
- 성별과 직업 만족도 간의 독립성 검정

6. 제 1종 오류와 제 2종 오류

1) 제 1종 오류

귀무가설이 참인데 기각하는 오류
잘못된 긍정(아무런 영향이 없는데 영향이 있다고 하는 것 → 위양성)
α를 경계로 귀무가설을 기각하기 때문에 제1종 오류가 α만큼 발생
유의수준(α)을 정함으로써 제 1종 오류 제어 가능

2) 제 2종 오류

귀무가설이 거짓인데 기각하지 않는 오류
잘못된 부정(영향이 있는데 영향이 없다고 하는 것 → 위음성)
제 2종 오류가 일어나는 확률은 β로 정의
제 2종 오류가 일어나지 않을 확률은 검정력(1-β)로 정의
하지만, 이를 직접 통제할 수는 없음
- 그나마 표본 크기 n이 커질 수록 β가 작아짐
- α와 β는 상충관계에 있어서 너무 낮은 α를 가지게 되면 β는 더욱 높아짐 → α를 너무 낮추지 않도록 주의

3) 예시

새로운 약물이 효과가 있는데 없다고 결론 내리는 것 (제 1종 오류)
효과가 있는데 없다고 결론 내리는 것 (제 2종 오류)

'내일배움캠프_QAQC 트랙 1기 > 강의 요약' 카테고리의 다른 글

[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 심화 1주차 (0)	2025.02.19
[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 기초 (2)	2025.02.18
[내일배움캠프] 통계학 기초 2주차 (3)	2025.01.17
[내일배움캠프] 통계학 기초 1주차 (2)	2025.01.16
[내일배움캠프] 엑셀보다 쉽고 빠른 SQL 5주차 (1)	2025.01.07

현재글[내일배움캠프] 통계학 기초 3주차

@hyt1023.log, 평가, 머신러닝, Feature Engineering, 팀프로젝트, 프로젝트, 태양광, 발표, 통계적 분석, overfitiing, 파이썬, 과적합, 바이오 #단일클론항체 #품질관리 #품질 #제약 #내일배움캠프, 약물 중독, EDA, Python, velog 추천, 태양광발전,

Today :
Yesterday :

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

hyewonnnn 님의 블로그

[내일배움캠프] 통계학 기초 3주차

수업 목표

'내일배움캠프_QAQC 트랙 1기 > 강의 요약' 카테고리의 다른 글

'내일배움캠프_QAQC 트랙 1기/강의 요약'의 다른글

티스토리툴바

[내일배움캠프] 통계학 기초 3주차

수업 목표

'내일배움캠프_QAQC 트랙 1기 > 강의 요약' 카테고리의 다른 글

'내일배움캠프_QAQC 트랙 1기/강의 요약'의 다른글

관련글

티스토리툴바