Giter Club home page Giter Club logo

study-math's Introduction

Data Analysis and Math

Summary of mathematical concepts and Python libraries commonly used in data analysis

  • 패스트캠퍼스 데이터사이언스 스쿨의 정규과정인 김도형 박사님의 수학강의를 교재와 강의노트를 함께 요약하고 축약된 의미들은 이해한 바데로 풀어서 정리함
  • <김도형의 데이터사이언스 스쿨> 을 바탕으로 추가적인 지식인 필요한 수학개념, 정리, 코드구현 등은 구글링, Documents, API 등을 참고하여 확장함

1. 데이터 사이언스 개괄

1-1. 수학

numpy와 선형대수

  • numpy, 스칼라, 벡터, 텐서, 행렬의 의미와 기호, 행렬의 연산과 성질, 연립방정식

고급선형대수

  • 기하학에서 선형대수의 사용, 고윳값분해, 특잇값분해를 응용하여 주성분분석, 이미지변환 등을 할 수 있다.

sympy와 미적분

  • 머신러닝에서의 함수의 의미, 미적분 공식, 심볼릭 연산으로 미적분하기, 행렬의 미적분, 변분법 사용

scipy와 최적화

  • 최적화 문제와 최대경사법으로 최적화문제 풀기, 사이파이패키지 사용하여 최적화 문제풀기
  • 라그랑주 승수법으로 등식제한조건, 부등식제한조건이 있는 최적화 문제풀기
  • 머신러닝 분야의 LP문제와 QP 문제

pgmpy와 확률론

  • 확률의 수학적 정의, 빈도주의 및 베이지안 확률의 의미
  • 확률분포함수의 정의, 머신러닝에서의 확률이론과 조건부확률
  • 베이즈정리, 피지엠파이 패키지를 이용하여 확률분포 구현하기, 베이즈추정 하기

확률변수와 상관관계

  • 확률변수를 사용한 데이터모형, 기댓값과 분산의 의미, 분산의 기댓값
  • 이산분포 : 베르누이분포, 이행분포, 카테고리분포, 다항분포
  • 연속분포 : 가우시안정규분포, 스튜던트분포, 카이제곱분포, F분포
  • 확률모수 모형 분포 : 베타분포, 디리클레분포, 감마분포

scipy와 확률분포

  • 확률변수의 상관관계, 다변수 정규분포 모형, 조건부 기댓값의 의미
  • 머신러닝의 응용분야인 예측에서의 조건부기댓값의 의미

추정과 검정

  • 데이터기반 판단법, 데이터기반 의사결정인 검정의 의미, 사이파이를 사용한 검정방법
  • 가능도의 의미, 최대가능도 추정법을 사용한 확률분포의 모수추정
  • 모수추정의 불확실성, 베이즈 정리와 베이지안 모수추정법

엔트로피

  • 엔트로피과 지니계수, 확률변수의 정보량과 엔트로피의 관계
  • 쿨벡라이블러발산, 크로스엔트로피를 사용한 확률분호의 유사성 비교

1-2. 머신러닝

  • 회귀문제와 분류문제 : 지도학습
  • 클러스터링 : 비지도학습

1-3. 딥러닝

  • 프레임워크 : 텐서플로우, 파이토치, 케라스 등
  • 인공신경망 구축 :
    • CNN 모형 : 이미지 처리
    • RNN 모형 : 문서 처리
    • GAN 모형 : 이미지 생성

2. 목차

1. 넘파이와 선형대수(numpy and linear algebra)

  • 데이터와 행렬
    • 스칼라, 벡터, 행렬, 텐서
    • 전치연산, 전치행렬
    • 특수한 벡터와 행렬 : 영벡터, 일벡터, 정방행렬, 대각행렬, 항등행렬, 대칭행렬
  • 벡터와 행렬의 연산
    • 요소별연산
    • 브로드캐스팅
    • 선형조합
    • 내적
    • 내적관련 연산
      • 가중합
      • 가중평균
      • 유사도
      • 선형회귀모형
      • 제곱합
    • 잔차
    • 잔차의 크기(RSS)
    • 부분행렬
    • 행렬의 성질
  • 행렬의 성질
    • 부호 : 양의 정부호, 양의 준정부호
    • 크기 : 놈, 대각합, 행렬식
  • 선형연립방정식과 영행렬
    • 선형연립방정식
    • 역행렬 : 계산, 성질, 여러가지 공식
    • 선형연립방정식과 선형예측모델의 관계
    • 최소자승문제
    • 의사역행렬

2. 고급 선형대수(Advanced linear algebra)

  • 선형대수와 해석기하
    • 벡터의 기하학적 의미 : 벡터의 길이
    • 단위벡터
    • 벡터의 선형조합
    • 벡터의 차
    • 유클리드 거리
    • 직교, 정규직교, 코사인 유사도
    • 벡터의 성분과 분해 : 투영성분과 직교성분
    • 직선의 방정식
    • 직선과 점의 거리
  • 좌표와 변환
    • 선형종속과 선형독립
    • 선형종속의 3가지 예
    • 랭크(rank) : 열랭크, 행랭크, 풀랭크, 로우랭크행렬
    • 랭크와 역행렬
    • 벡터공간과 기저벡터
      • 벡터공간
      • 선형독립과 기저벡터의 관계
      • 정규직교인 기저벡터와 벡터공간
    • 표준기저벡터
    • 좌표 : 변환행렬, 좌표변환
    • 이미지 변환
  • 고윳값 분해
    • 고윳값과 고유벡터
    • 고유분해의 의미
    • 특성방정식
    • 고윳값과 대각합, 행렬식의 관계
    • 대각화 : 대각화와 선형독립
    • 고윳값과 역행렬의 관계
    • 대칭행렬과 고유분해 : 랭크-1행렬
    • 대칭행렬과 고윳값의 부호
    • 분산행렬 : 부호, 역행렬과의 관계
    • 고유분해의 성질
  • 특잇값 분해
    • 특잇값과 특이벡터 : 왼쪽 특이벡터, 오른쪽 특이벡터
    • 특잇값분해와 행렬의 크기 : 세로형, 가로형, 축소형
    • 특잇값분해와 고윳값분해의 관계
  • 근사문제
    • 1차원 근사문제
    • 1차원 근사문제의 의미와 풀이
    • 랭크-1 근사문제
    • k차원 근사문제
    • 랭크-k 근사문제

3. 주성분 분석(PCA)

  • PCA의 의미
  • PCA의 기능
  • PCA의 수학적 의미
    • 차원축소와 벡터공간 투영의 관계
    • 역변환행렬의 기능
    • 최적화식을 사용한 PCA 풀이 : 랭크-k차원 근사문제

4. 데이터분석과 함수(Function)

  • 함수
    • 연속과 불연속
    • 역함수
  • 데이터 분석에 사용되는 10가지 함수
    • 다항식 함수
    • 최대함수와 최소함수
    • 렐루 함수
    • 지수함수
    • 로지스틱 함수
    • 로그 함수
    • 소프트 플러스 함수
    • 다변수 함수
    • 분리가능 다변수 함수
    • 다변수 다출력 함수 : 소프트맥스 함수
  • 함수의 이동
  • 함수의 스케일링

5. 데이터분석과 미분(Differentiation)

  • 데이터분석에서의 미분의 의미
    • 예측모형의 성능과 미분
  • 미분
    • 기울기
    • 그래프에서의 기울기
    • 수치미분
    • 미분 가능
  • 미분공식
    • 기본미분공식 : 상수미분, 거듭제곱미분, 지수미분, 로그미분
    • 선형조합법칙
    • 곱셉법칙
    • 연쇄법칙
  • 2차 도함수
    • 도함수의 기울기 : 볼록과 오목
  • 편미분
  • 다변수함수의 연쇄법칙
  • 2차 편미분
  • 접선의 방정식

6. 적분, 행렬의 미분, 범함수(Integral, Matrix differentiation, Functional)

  • 적분
    • 부정적분
    • 편미분과 부정적분
    • 다차도함수와 다중적분
  • 정적분
    • 미적분학의 기본정리(fundamental theorem calculus)
    • 다변수 정적분
    • 수치이중적부
    • 다차원함수의 단일정적분
  • 행렬의 미분
    • 벡터를 스칼라로 미분
    • 행렬을 스칼라로 미분
    • 스칼라를 벡터로 미분
    • 스칼라를 행렬로 미분
    • 벡터를 벡터로 미분
    • 벡터를 행렬로 미분
  • 그레디언트 벡터
    • 스칼라를 벡터로 미분하면 그레디언트 벡터
    • 그레디언트 벡터와 기울기
    • 테일러 전개식
  • 행렬의 미분법칙 5가지
    • 선형모형의 미분
    • 이차형식의 미분 : 벡터를 스칼라로 미분, 벡터를 벡터로 미분
    • 행렬과 벡터의 곱의 미분
      • 자코비안 행렬
    • 헤시안 행렬
      • 스칼라를 행렬로 미분
    • 행렬곱의 대각성분의 미분
    • 행렬식의 로그의 미분
  • 범함수
    • 범함수의 표기
    • 범함수의 계산
    • 변분법
    • 범함수와 테일러 전개
    • 범함수의 도함수
    • 그레디언트 부스팅의 도함수
    • 오일러 라그랑주 공식
    • 최적제어(optional control)
    • GAN

7. 최적화(optimization)

  • 데이터분석의 목표
  • 최적화 기초
    • 최적화 문제
    • 목적함수
    • 그리드서치와 수치적 최적화
    • 기울기 필요조건
    • 최대경사법(steepest gradient decendant)
      • 스텝사이즈
      • 진통현상
    • 뉴턴방법(newton method)
    • 준뉴턴방법(quasi-newton method)
    • 여러가지 최적화 방법론들
    • 전역최적화
    • 컨벡스 문제
  • 제한조건이 있는 최적화 문제
    • 등식제한 조건
    • 라그랑주 승수법
    • 라그랑주 승수의 의미
    • 부등식 제한조건과 최적화
    • 카르시 쿤터커 조건(KKT)
  • 선형계획법과 이차계획법 문제
    • 선형계획법(linear programming, LP문제)
    • 이차계획법(quadratic programming, QP문제)

8. 확률론(probability)

  • 집합
    • 원소
    • 집합의 크기
    • 집합의 종류 : 합집합, 교집합, 전체집합, 부분집합, 여집합, 공집합
    • 합집합과 교집합의 분배법칙
  • 확률의 수학적 정의와 의미
    • 표본공간, 확률표본
    • 사건
  • 확률
    • 콜모고로프의 공리
    • 확률과 함수의 관계
    • 확률과 확률값
  • 확률의 의미
    • 빈도주의적 관점(frequentist)
    • 베이지안 관점(bayesian)
  • 확률의 4가지 성질
    • 공집합의 확률
    • 여집합의 확률
    • 포함-배제 원리
    • 전체확률의 법칙
  • 확률분포 함수
    • 확률질량함수(pmf)
    • 누적분포함수(cdf)
    • 확률밀도함수(pdf)
  • 결합확률과 조건부확률
    • 베이지안 확률론
    • 결합확률(joint probability)
    • 주변확률(marginal probability)
    • 조건부확률(conditional probability)
    • 사건의 독립
    • 조건부확률과 사건의 관계
    • 사슬법칙
  • 확률변수
  • 베이즈 정리
    • 베이즈 정리의 의미
    • 베이즈 정리의 확장 1
    • 멀티클래스 분류
    • 베이즈 정리의 확장 2

9. 확률변수와 상관관계(randomvalue and correlation)

  • 확률변수와 상관관계
    • 확률적 데이터의 의미
    • 분포
  • 기술통계
    • 표본평균
    • 표본중앙값
    • 표본최빈값
    • 단봉분포, 다봉분포
    • 대칭분포
    • 표본분산, 표본표준편차, 비편향 표본분산
    • 표본비대칭도
    • 표본첨도
    • 표본모멘트
  • 확률변수
    • 이산확률변수
    • 연속확률변수
    • 확률변수의 의미
    • 확률변수와 현실데이터의 관계
    • 확률변수를 사용한 데이터 분석의 의미
  • 기댓값과 확률변수의 변환
    • 기댓값(expectation)
    • 확률변수의 변환
    • 기댓값의 성질
    • 통계량(statistics)
    • 기댓값과 표본평균의 관계
  • 확률분포의 분산
    • 분산 : 이산확률변수의 분산, 연속확률변수의 분산
    • 분산의 성질
    • 두 확률변수의 합의 분산
  • 확률변수와 독립과 종속
  • 표본평균의 분산
  • 표본분산의 기댓값
  • 비대칭도(skewness)
  • 첨도(kurtosis)
  • 모멘트(moment)
  • 다변수 확률변수
    • 결합확률질량함수(joint pmf)
    • 주변확률질량함수(marginal pmf)
    • 결합누적확률분포함수(joint cumulative proba distribution function)
    • 결합확률밀도함수(joint pdf)
    • 주변확률밀도함수(marginal pdf)
    • 조건부확률밀도함수(conditional pdf)
  • 독립과 상관
  • 반복시행
  • 조건부 확률분포
  • 독립확률변수의 기댓값과 분산
  • 공분산과 상관계수
    • 표본공분산
    • 표본상관계수
    • 상관계수의 성질
    • 비선형상관관계
    • 앤스콤 데이터와 상관관계
    • 다변수 확률변수의 표본공분산
    • 다변수 확률변수의 공분산
  • 조건부기댓값과 예측문제
    • 조건부기댓값
    • 예측문제의 의미
    • 조건부기댓값의 성질, 법칙
    • 조건부 분산
    • 전체분산의 법칙
    • 편향-분산 상충(bias-variance tradeoff)

10. 사이파이로 공부하는 확률분포(scipy for proba distribution)

  • 확률분포의 종류
    • 이산확률분포 : 범주값 출력
      • 베르누이분포
      • 이항분포
      • 카테고리분포
      • 다항분포
    • 연속확률분포 : 연속값 출력
      • 정규분포
      • 중심극한정리
      • 통계량
      • 데이터간의 상관관계 : 스튜던트t분포, 카이제곱분포, F분포
    • 베이즈 추정 : 베타분포, 감마분포, 디리클레분포
  • 사이파이의 기능
    • 확률분포 클래스
    • 모수지정
    • 확률분포 메서드
  • 베르누이분포와 이항분포
    • 베르누이분포, 모멘트
    • 이항분포, 모멘트
    • 모수추정
    • 베르누이 분포의 활용 : 스펨메일 필터링
  • 카테고리분포와 다항분포
    • 카테고리 확률변수, 모멘트
    • 다중분류 문제
    • 다항분포
  • 정규분포와 중심극한정리
    • 정규분포, 가우스 정규분포, 표준 정규분포
    • 로그정규분포
    • Q-Q플롯
    • 중심극한 정리
    • 통계량 분포 : z통계량
    • 잡음(disturbance)
  • 스튜던트 t분포
  • t통계량
  • 카이제곱분포
  • F분포
  • 선형회귀분석에서의 확률분포의 활용
  • 다변수 정규분포
    • 다변수정규분포와 고윳값 분해
    • 다변수정규분포와 조건부확률분포
    • 다변수정규분포의 주변확률분포
  • 베타분포
  • 감마분포
  • 디리클레분포
  • 베이지안 추정

11. 추정과 검정(estimation and testing)

  • 확률분포의 추정
    • 확률분포 결정 과정
    • 모수추정 방법론(parameter estimation)
    • 모멘트 방법(method of moment)
  • 최대가능도 추정법(MLE)
    • 가능도 함수(likelihood function)
    • 정규분포의 가능도 함수
    • 베르누이분포의 가능도 함수
    • 로그가능도함수
    • 최대가능도 방법과 라그랑주 승수법
    • 베르누이 분포의 최대가능도 모수추정
    • 카테고리분포의 최대가능도 모수추정
    • 정규분포의 최대가능도 모수추정
    • 다변수 정규분포의 최대가능도 모수추정
  • 베이즈 추정법(bayesian estimation)
    • 베이즈 추정법의 원리
    • 모수적 방법
    • 비모수적 방법
    • 베이즈 추정법을 사용한 베르누이 분포의 모수추정
    • 베이즈 추정법의 장점
    • 베이즈 추정법을 사용한 카테고리분포의 모수추정
    • 베이즈 추정법을 사용한 정규분포의 모수추정
  • 검정
    • 가설과 검정
    • 귀무가설(null hypothesis)
    • 대립가성(alternative hypothesis)
    • 검정통계량
    • 베르누이분포 확률변수
    • 정규분포 확률변수와 분산의 관계
    • 유의확률(p-value)
    • 검정과 유의확률의 관계
    • 단측검정 유의확률
    • 우측검점 유의확률
    • 좌측검정 유의확률
    • 유의수준과 기각역
    • 검정방법론 정리
  • scipy : 카이제곱검정
  • scipy : 카이제곱 독립검정
  • scipy : 단일표본 z검정
  • scipy : 단일표본 t검정
  • scipy : 독립표본 t검정
  • scipy : 대응표본 t검정
  • scipy : 등분산 검정
    • 바틀렛, 레빈, 플리그너
  • scipy : 정규성 검정
    • 콜모고로프-스미르노프 검정
    • 샤피로 윌크 검정
    • 옴니버스 검정
    • 자크베라 검정

12. 엔트로피(entropy)

  • 엔트로피
    • 엔트로피의 정의
    • 수학적 의미
    • 엔트로피의 성질
    • 엔트로피의 추정
    • 가변길이 인코딩
    • 엔트로피의 최대화
    • 조건부 엔트로피 : 결합엔트로피, 조건부 엔트로피
  • 교차엔트로피와 쿨벡-라이블러 발산
    • 교차엔트로피(cross entropy)
    • 분류성능 측정
    • 로그손실
    • 카테고리 로그손실
    • 교차엔트로피 계산
    • 쿨벡-라이블러 발산(kullback-leibler divergence)
    • 상대 엔트로피
    • 가변길이 인코딩과 쿨벡-라이블러 발산
  • 상호정보량(mutual information)
    • 상호정보량과 상관관계
    • 이산확률변수의 상호정보량
  • 최대정보 상관계수(maximum information coefficient MIC)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.