Giter Club home page Giter Club logo

ref_datascience's Introduction

Google Colab

  • 모델링에서 가장 중요한 하이퍼파라미터 : Learning rate, scheduler

data

kaggle

  • 2010년 설립된 예측 모델 및 분석 대회 플랫폼
  • 다양한 기업의 실제 데이터와 분석 사례있음
  • 기업/단체는 문제를 해결하고 데이터 사이언티스트는 실력을 확인할 수 있는 기회 제공

community

resources


deep learning framework

  • TensorFlow: 다양한 플랫폼으로 확장 중
    • tensorflow hub : ML엔지니어들이 finetuning 할 수 있는 model, weight, layer 공유
    • tensorboard
  • Pytorch : 진입 장벽이 낮고 속도가 빠름
  • Caffe2 : from Facebook
    • PyTorch vs Caffe2
      • Application: It is mainly meant for the purpose of production
        • applications involving large-scale image classification and object detection
      • Model deployment : run on any platform once coded (more developer-friendly)
      • Flexible: PyTorch is much more flexible
  • MarConvNet : MATLAB 환경에 익숙한 연구원들에게 좋음

Data Science library

  • Numpy, SciPy : for analysis
  • Matplotlib : for data visualization
  • TensorFlow : for Machine Learning
  • tqdm
    • 진행상황을 표시하는 바
    • 반복문에서 사용하면 어느정도로 진행했는지 알 수 있어서 좋음
  • re
    • 분석을 위해 문자열 리스트 정형화
    • 공백문자 제거, 필요 없는 문장 부호 제거, 대소문자 맞추기 : re.sub('[!#?]','',value)
    • 문자열.strip() : 문자열에서 양쪽 끝에 있는 공백과 \n 기호를 삭제, 중간에 존재하는 것은 제거 X
    • 문자열.title() : 첫 글자 대문자

NLP

  • KoNLPy : 한국어 정보처리를 위한 파이썬 패키지

wandB

  • tensorboard와 비슷한데 훨씬 더 많은 기능 제공
    • tensorflow, pytorch 등 사용하면서 어떤 걸로 logging 하면 좋을지 모르겠을 때
    • cloud 기반으로 집과 오피스 등 여러 곳에서 수시로 확인하고 싶을 때
    • hardware 에러 체크하고 싶을 때 (GPU 쓰다 보면 처음 보는 에러 발생해서 죽는 경우 있는데 그때 보통 hardware 에러)
  • basic (free)
  • experiments - try a live colab : research용 tool
  • DOCS : 설명 잘 되어 있음

Hydra

  • 여러 hyperparameter configuration 관리하기 위한 open source tool
  • configuration을 여러 개의 파일(.py)로 쪼갰을 때 효율적
  • tool이 OmegaConf와 거의 비슷

Pytorch Lightning

  • pytorch를 효율적으로 활용하기 위함
  • pytorch lightning 쓰면 코드가 깔끔하고 작업 시간도 감소
    • GPU를 두 개 이상 사용하거나, 모델을 분산처리 하는 등을 하려면 pytorch는 tensorflow 대비 코딩이 어려워지기 때문
    • i.e. multi GPU training 할 때 pytorch에서는 몇 번 GPU 썼는지 CUDA를 코드에 써야 하는데 그런 작업 필요 없음

cloud platform

  • aws : 초기 클라우드 시장 점령
  • Google CloudPlatform : 공개적 마케팅 중
  • Microsoft Azure : B2B 중심으로 자리잡음

Memo

  • Mathematics in Markdown
  • Modeling : ① Neural Network : overfitting -> ② SVM : learning time too long -> ③ Ensemble ex) bagging(rf), boosting, NN + RF

ref_datascience's People

Contributors

reasonmii avatar

Stargazers

 avatar  avatar Shinyoung Kim avatar  avatar h2y avatar DevKang avatar rogbook avatar Seobin Yun avatar 이상봉 avatar Dave avatar  avatar  avatar countifs avatar EuiYul Song avatar  avatar  avatar  avatar

Watchers

 avatar

ref_datascience's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.