내일배움캠프_QAQC 트랙 1기/강의 요약 23

[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 심화 2주차

회귀, 분류 모델링 심화 선형회귀와 로지스틱 회귀 외에 자주 쓰는 알고리즘을 알아봅시다.1. 의사결정나무와 랜덤 포레스트 (1) 의사결정나무  : 의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법명칭루트 노드(Root Node): 의사결정나무의 시작점. 최초의 분할조건리프 노드(Leaf Node): 루트 노드로부터 파생된 중간 혹은 최종 노드분류기준(criteria): sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류불순도(impurity)불순도 측정 방법 중 하나 인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스), 1은 완전한 불순도(노드의 샘플의 균등하게..

[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 심화 1주차

수업 목표예측 모델링에 필요한 전체 프로세스를 이해해 봅시다.1. 데이터 수집- 데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python을 통해 추출하고 리포팅, 머신러닝을 통한 예측을 담당Data SourceOLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터Web/Log: 사용자의 로그데이터Data Lake: 원시 형태의 다양한 유형의 데이터를 저장Data Wareh..

[내일배움캠프] 머신러닝의 이해와 라이브러리 활용 기초

수업 목표머신러닝에 대한 기본을 알고 실습환경을 구축해봅시다.머신러닝의 기본! 회귀분석이 무엇인지, 평가척도는 무엇인지 알아봅시다.범주형 데이터를 맞추는 분류 분석에 대해서 알아봅시다.1. 머신러닝이란?- 머신러닝(Machine Learning, ML)은 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리, 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론- AI ⊃ 머신러닝 ⊃ 딥러닝AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning : 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep Learning : 인공신경망을 이용한 머신러닝Data Science : AI를 포괄하여 통계학과 ..

[내일배움캠프] 통계학 기초 3주차

수업 목표각각의 유의성 검정 방법들에 대해 이해하고 특징을 파악한다신뢰구간과 가설검정의 관계에 대해 설명할 수 있다제 1종 오류와 제 2종 오류에 대해 이해하고 구분할 수 있다 1. A/B 검정두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법마케팅, 웹사이트 디자인 등에서 많이 사용됨사용자들을 두 그룹으로 나누고 각 그룹에 다른 버전을 제공한 후, 반응을 비교일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인 2. 가설 검정: 데이터가 특정 가설을 지지하는지 검정하는 것이 포인트!표본 데이터를 통해 모집단의 가설을 검증하는 과정 즉, 데이터가 특..

[내일배움캠프] 통계학 기초 2주차

수업 목표모집단과 표본에 대해서 이해하고 각각에 대해 설명할 수 있다각각의 분포에 대한 개념과 특징을 설명할 수 있다표본오차와 신뢰구간에 대해 이해하고 있다 1. 모집단과 표본모집단 : 관심의 대상이 되는 전체 집단. ex) 한 국가의 모든 성인표본 : 모집단에서 추출한 일부. ex) 그 국가의 성인 중 일부를 조사표본을 사용하는 이유현실적인 제약비용과 시간접근성대표성표본의 대표성 : 표본에서 얻은 결과를 모집단 전체에 일반화할 수 있다 (모집단의 특성 반영)데이터 관리데이터 처리의 용이성데이터 품질 관리 : 오류나 이상값을 식별하여 수정 가능모델 검증 용이모델 적합도 테스트 : 표본 데이터를 사용하여 통계적 모델을 검증할 수 있음전수 조사 : 모집단 전체를 조사하는 방법. 대규모일 경우 비용과 시간이 ..

[내일배움캠프] 통계학 기초 1주차

수업 목표데이터 분석에 있어서 통계가 왜 중요한지를 배웁니다기술통계와 추론통계에 대한 개념을 이해하고 각각의 차이점을 설명할 수 있습니다통계분석 방법의 다양한 종류에 대해서 배웁니다 1. 데이터 분석에서 통계가 중요한 이유데이터를 요약하고 패턴을 발견할 수 있다추론을 통해 결론을 도출화하는 과정을 돕는다데이터 기반의 의사결정을 내릴 수 있다기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요함 2. 기술통계와 추론통계1) 기술 통계: 데이터를 요약하고 설명하는 통계 방법주로 평균, 중앙값, 분산, 표준편차 등을 사용데이터를 특정 대표값으로 요약 - 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음단, 데이터 중 예외(이상치)라는 것은 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 ..

[내일배움캠프] 엑셀보다 쉽고 빠른 SQL 5주차

수업 목표데이터에서 예상하지 못한 값이 나왔을 때 (이상한 값, 값이 없음 등), 분석에 적절하게 처리한다SQL로 엑셀에서 자주 사용하는 형태의 데이터를 만든다업무에 활용할 수 있는 다양한 SQL 심화 문법을 익힌다 1. 조회한 데이터에 아무 값이 없다면?1) 없는 값을 제외하기 : My sql 에서는 사용할 수 없는 값일 때 해당 값을 연산에서 제외함 -> 0으로 간주  따라서,  명확하게 연산을 지정해주기 위해 null 문법을 이용한다select a.order_id,       a.customer_id,       a.restaurant_name,       a.price,       b.name,       b.age,       b.genderfrom food_orders a left join c..

[내일배움캠프] 엑셀보다 쉽고 빠른 SQL 4주차

수업 목표Subquery를 활용하여 복잡한 연산을 수행한다Join을 활용하여 여러 개의 테이블에 있는 데이터를 한 번에 조회하고 연산한다 1. 여러 번의 연산을 한 번의 SQL문으로 수행하기 (Subquery) 1) Subquery가 필요한 경우여러 번의 연산을 수행해야 할 때조건문에 연산 결과를 사용해야 할 때조건에 Query 결과를 사용하고 싶을 때 2) Subquery문의 기본 구조select column1, special_columnfrom    ( /* subquery */    select column1, column2 special_column    from table1    ) aselect column1, column2from table1where column1 = (select col1..

[내일배움캠프] 엑셀보다 쉽고 빠른 SQL 3주차

수업 목표Query 결과를 업무에 바로 사용할 수 있도록 문자(워딩)를 다듬는다수치계산 및 문자를 다듬을 때, 조건별로 다르게 적용한다수치계산과 문자 연산이 되지 않는 경우를 배우고, 에러를 수정한다 1. 필요한 문자 포맷이 다를 때, SQL로 가공하기 (REPLACE, SUBSTRING, CONCAT) 1) Replace (특정 문자를 다른 문자로 바꾸기) : 식당 명의 'Blue Ribbon'을 'Pink Ribbon'으로 바꾸기  replace(바꿀 컬럼, 현재 값, 바꿀 값)select restaurant_name "원래 상점명",       replace(restaurant_name, 'Blue', 'Pink') "바뀐 상점명"from food_orderswhere restaurant_name ..

[내일배움캠프] 데이터 전처리 & 시각화 4주차

수업 목표데이터 시각화를 어떤 목적으로 해야할 지를 이해하고 데이터를 시각화하는 방법을 학습한다 1. 데이터 시각화의 목적 패턴 발견 및 이해 : 데이터 시각화는 데이터 내의 숨겨진 패턴을 발견하고, 이해하는 데 도움을 준다. 그래프나 차트를 통해 데이터의 특징을 시각적으로 파악할 수 있다.의사 결정 지원 : 시각화는 복잡한 데이터를 이해하고 결정을 내리는 데 도움을 준다. 시각화를 통해 정보를 명확하게 전달하여 의사 결정 과정을 지원한다.효과적인 커뮤니케이션 : 시각화는 데이터 분석 결과를 다른 사람들과 공유하거나 설명 할 때 유용하다. 데이터를 시각적으로 보여주면 이해하기 쉽고 기억하기 쉬운 형태로 전달할 수 있다. 2. Matplotlib파이썬에서 시각화를 위한 라이브러리 중 하나로, 다양한 종류의..