[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 기초

내일배움캠프_QAQC 트랙 1기/강의 요약

[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 기초

hyewonnnn 2025. 2. 18. 16:47

수업 목표

머신러닝에 대한 기본을 알고 실습환경을 구축해봅시다.
머신러닝의 기본! 회귀분석이 무엇인지, 평가척도는 무엇인지 알아봅시다.
범주형 데이터를 맞추는 분류 분석에 대해서 알아봅시다.

1. 머신러닝이란?

- 머신러닝(Machine Learning, ML)은 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리, 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론

- AI ⊃ 머신러닝 ⊃ 딥러닝

AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템
Machine Learning : 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘
Deep Learning : 인공신경망을 이용한 머신러닝
Data Science : AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합 학문
Data Analysis : 데이터 집계, 통계 분석, 머신러닝을 포함한 행위

- 머신러닝이 발전한 이유

: 데이터 처리 기술의 발전 -> 서비스 / 저장매체 가격의 하락

1) 머신러닝의 종류

upervised Leaning(지도 학습)
Unsupervised Learning(비지도 학습)
Reinforcement Learning(강화 학습)

2) 머신러닝 적용 분야

금융: 신용평가, 사기탐지, 주식 예측
헬스케어: 질병 예측, 환자 데이터 분석
이커머스: 고객 구매 패턴 분석, 추천 시스템, 가격 최적화, 장바구니 분석
자연어처리: 번역, 챗봇, 텍스트분석
이미지 & 영상처리: 얼굴인식, 이미지 생성

3) 머신러닝 실습 소프트웨어

Visual Studio Code(a.k.a vscode)
1. Microsoft가 제공하는 소스 코드 에디터. Python 외에도 R, C, Java등 현존하는 대부분 프로그래밍 언어를 제공하며, Copilot 등 다양한 extension이 있는 것이 장점입니다. 로컬 컴퓨터 자원을 사용하기 때문에 사용하는 컴퓨터 환경에 따라 머신러닝 모델 사용이 느릴 수 있습니다.
Google Colab
1. Google이 만든 Jupyter Notebook환경으로, 무료로 GPU 등 고사양의 환경을 이용할 수 있습니다. 다만, 사용할 수 있는 리소스가 임의로 설정되어, 딥러닝 모델 등 리소스를 많이 사용하려면 과금이 필수로 요구 됩니다.
Anaconda
1. 데이터 과학 및 머신러닝 분야에 적합한 Python과 R의 패키지/의존성 및 배포를 편리하게 해주는 오픈 소스 패키지입니다. 데이터 과학에 초점이 맞춰져 있으며, 역시 로컬 컴퓨터 자원을 사용합니다.

2. 회귀분석 - 선형회귀

방정식을 배운 머신이는 몸무게와 키의 데이터를 획득했다. 일정하게 증가하는 패턴이 있어서 미리 몸무게를 알면 키를 알 수 있을 것이라고 생각했다.

머신이는 3개의 그래프를 그려보니, 아무래도 초록색, 파란색 직선보다는 빨간색 그래프가 적절한 것 같다. 하지만 이렇게 대강 직선을 그리다 보면 적절한 그래프를 찾기 어려울 것 같아 고민이 빠졌다.
머신이는 하나의 생각을 떠 올렸다. 바로 직선과 점의 간의 거리를 계산하는 것이다. 이를 Error 라고 정의하고 최소의 Error인 직선을 그리면 된다고 생각했다.
- 방법1) 실제 데이터 값 - 직선의 예측 값 = Error
  - 문제1) 선분을 기준으로 위에 있는 데이터 거리를 계산하면 양수가 되고, 반대로 아래에 있는 것은 음수가 된다. 이 경우 모든 에러를 합치면 서로 상쇄. 따라서, 음수를 양수로 만들기 위해 제곱.
- 방법2) 각각 Error를 제곱하여 모두 더하기
  - 문제2) 데이터 추가시, 데이터가 늘어날 수록 에러는 값이 커질 수 밖에 없으므로 데이터의 개수로 나눔. 또한, 데이터가 제곱이 되어 있던 것을 줄이기 위해 루트를 씌우기로 함.
- 방법3) 전체 에러 합에 데이터의 개수로 나누기

1) 선형회귀 용어 정리

Y는 종속 변수, 결과 변수
X는 독립 변수, 원인 변수, 설명 변수
통계학에서 사용하는 선형회귀 식
- Y = β₀ + β₁X + ε
- β₀ : 편향(Bizs) / β₁ : 회귀계수 / ε : 오차(에러), 모델이 설명하지 못하는 Y의 변동성

2) 회귀분석의 평가지표

- MSE(Mean Squared Error, 평균 제곱 오차)

방법1) 에러 = 실제 데이터 - 예측 데이터로 정의하기
방법2) 에러를 제곱하여 모두 양수로 만들기, 다 합치기
방법3) 데이터만큼 나누기

- RMSE : MSE에 Root를 씌워 제곱 된 단위를 다시 맞추기

- MAE : 절댓값을 이용하여 오차 계산하기

- R Square

: 전체 모형에서 회귀선으로 설명할 수 있는 정도

3) 다중 선형회귀

4) 수치형 데이터 vs 범주형 데이터

수치형 데이터
- 연속형 데이터 : 두 개의 값이 무한한 개수로 나누어진 데이터 (키, 몸무게)
- 이산형 데이터 : 두 개의 값이 유한한 개수로 나누어진 데이터 (주사위 눈, 나이)
범주형 데이터
- 순서형 자료 : 자료의 순서 의미가 있음 (학점, 등급)
- 명목형 자료 : 자료의 순서가 의미가 없음 (혈액형, 성별)

5) 회귀 실습

(1) 범주형 데이터 인코딩

(2) 훈련 & 학습

(3) 예측

(4) 평가

6) 선형회귀 정리

선형회귀의 가정
- 선형성(Linearity) : 종속 변수(Y)와 독립 변수(X) 간에 선형 관개가 존재해야 함.
- 등분산성(Homoscedasticity) : 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함. 즉, 오차가 특정 패턴을 보여서는 안 되며, 독립 변수의 값에 상관없이 일정해야 함.
- 정규성(Normality) : 오차 항은 정규 분포를 따라야 함.
- 독립성(Independence) : X 변수는 서로 독립적이야 함.

다중공선성 문제
- 변수가 많아지면 서로 연관이 있는 경우가 많아지고, 이처럼 회귀분석에서 독립변수(X) 간의 강한 상관관계가 나타나는 것을 다중공선성(Multicolinearity) 문제라고 한다.
- 서로 상관관계가 높은 변수 중 하나만 선택(산점도 혹은 상관관계 행렬
- 두 변수를 동시에 설명하는 차원축소(Principle Component Analysis, PCA)를 실행하여 변수 1개로 축소

pairplot 기능을 이용한 산점도

heatmap을 이용한 상관관계 행렬

PCA를 이용한 차원축소

선형회귀의 장점
- 직관적이며 이해하기 쉽다. X-Y 관계를 정량화 할 수 있다.
- 모델이 빠르게 학습된다.(가중치 계산이 빠르다)
선형회귀의 단점
- X-Y 간의 선형성 가정이 필요하다.
- 평가지표가 평균(mean) 포함 하기에 이상치에 민감하다.
- 범주형 변수를 인코딩시 정보 손실이 일어난다.
선형회귀 숙제

선형회귀_숙제.ipynb

0.15MB

3. 분류분석 - 로지스틱회귀

1) 로지스틱 함수

범주형 Y에서 선형함수의 한계 - X가 연속형 변수이고, Y가 특정 값이 될 확률이라고 설정한다면, 왼쪽 그림과 같이 선형으로 설명하기 어려운 경우가 생긴다. 확률은 0과 1 사이인데, 예측 값이 확률 범위를 넘어갈 수 있음.

- 오즈비(odds ratio)는 실패확률 대비 성공 확률로, 도박사들이 자주 쓰는 개념
- 도박이 성공할 확률이 80%라면, 오즈비는 80% / 20% = 4, 1번 실패하면 4번은 딴다.
  - 오즈비(odds ratio) = P / (1-P)
- P는 확률 값으로 0과 1 사이인데, P가 증가할수록 오즈비가 급격하게 증가하기 때문에 너무 확률이 급격히 등가하고 선형성을 따르지 않게 되므로 로그를 써서 이를 완화
  - Logit = log(P / (1-P) )
- 오즈비보다 로짓의 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게 됨
- 분류 모델임에도 로지스틱"회귀"라고 불리는 이유가 이것

로지스틱 함수 - 시그모이드 함수 중 하나로 값을 계산하면 확률이 도출된다.

로짓의 장점은 어떤 값을 가져오더라도 반드시 특정 사건이 일어날 확률(Y 값이 특정 값일 확률)이 0과 1로 들어오게 하는 특징을 갖음

로지스틱 함수는 가중치 값을 안다면 X 값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률 계산 가능
확률 0.5를 기준으로 그보다 높으면 사건이 일어남(P(Y)=1), 그렇지 않으면 사건이 일어나지 않음(P(Y)=0)으로 판단하여 분류 예측에 사용

2) 분류 평가 지표

- 정확도와 F1-Score

정확도의 한계
- 예측 모델: 무조건 환자가 음성(정상인)이라고 판정
- 100명의 환자 입실, 95명은 음성(정상), 5명은 양성(암 환자)
- 위에 따르면 암 예측 모델의 정확도는 95%
- 정확도는 매우 높아 보이지만, 실제로 양성(암 환자)는 하나도 맞추지 못 함
혼돈행렬(Confusion Matrix) - 실제 값과 예측 값에 대한 모든 경우의 수를 표현하기 위한 2X2 행렬

표기법
- 실제와 예측이 같으면 True / 다르면 False
- 예측을 양성으로 했으면 Positive / 음성으로 했으면 Negative
해석
- TP: 실제로 양성(암 환자)이면서 양성(암 환자) 올바르게 분류된 수
- FP: 실제로 음성(정상인)이지만 양성(암 환자)로 잘못 분류된 수
- FN: 실제로 양성(암 환자)이지만 음성(정상인)로 잘못 분류된 수
- TN: 실제로 음성(정상인)이면서 음성(정상인)로 올바르게 분류된 수
지표

1. 정밀도(Precision): 모델이 양성 1로 예측한 결과 중 실제 양성의 비율(모델의 관점)	2. 재현율(Recall): 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비율(데이터의 관점)
3. f1-Score: 정밀도와 재현율의 조화 평균	4. 정확도(Accuracy)

3) 로지스틱회귀 정리

장점 : 직관적이며 이해가 쉽다.
단점 : 복잡한 비선형 관계를 모델링하기 어려울 수 있다.

4. 모델링 기본 마무리

선형회귀와 로지스틱회귀의 공통점
- 모델 생성이 쉬움
- 가중치(혹은 회귀계수)를 통한 해석이 쉬운 장점이 있음
- X 변수에 범주형, 수치형 변수 둘 다 사용 가능
선형회귀와 로지스틱 분류 차이점

실제로 데이터의 모델링은 데이터 사이언스 업무의 아주 일부분이며, 대부분 데이터의 수집과 전처리에 아주 많은 시간을 쓰게 된다.
전체 데이터 분석 프로세스

'내일배움캠프_QAQC 트랙 1기 > 강의 요약' 카테고리의 다른 글

[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 심화 2주차 (0)	2025.02.21
[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 심화 1주차 (0)	2025.02.19
[내일배움캠프] 통계학 기초 3주차 (3)	2025.01.21
[내일배움캠프] 통계학 기초 2주차 (3)	2025.01.17
[내일배움캠프] 통계학 기초 1주차 (2)	2025.01.16

현재글[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 기초

과적합, velog 추천, @hyt1023.log, 머신러닝, 발표, 파이썬, 평가, 태양광, 프로젝트, 통계적 분석, Feature Engineering, EDA, 태양광발전, 바이오 #단일클론항체 #품질관리 #품질 #제약 #내일배움캠프, 팀프로젝트, overfitiing, 약물 중독, Python,

Today :
Yesterday :

Today :
Yesterday :

hyewonnnn 님의 블로그