Giter Club home page Giter Club logo

3.credit_score_prediction's Introduction

3.Credit_Score_Prediction (German Dataset)

1. Resumen:
Exploración de los datos relacionados con el Riesgo Crediticio (Credit Score), entendimiento de la distribución de sus variables, patrones y finalmente planteamiento de varios modelos de predicción y selección del que presente mejor ajuste. Se exploraron modelos como Random Forest, XGBoost y Gaussian Naive Bayes. Dicho esto, se empleó el tercer modelo (GNB) como el definitivo para hacer las predicciones y su posterior implementación.

2. Contexto
El dataset original está compuesto por 1000 observaciones y 20 variables categóricas preparadas por el Dr. Hofman. Para algoritmos que requieren variables numéricas, Strathclyde University produjo el archivo "german.data-numeric". En este caso se analizará el dataset filtrado por Leonardo Ferreira. En este conjunto de datos, cada entrada representa a una persona que recibe un crédito de un banco. Cada persona se clasifica como riesgo crediticio bueno o malo según el conjunto de atributos. El enlace al conjunto de datos original se puede encontrar a continuación.

3. Contenido del dataset
Era casi imposible comprender el conjunto de datos original debido a su complicado sistema de categorías y símbolos. Por lo tanto, el autor de este dataset preparó un script de Python para convertirlo en un archivo CSV legible. Los atributos seleccionados son:

1.Edad (numérica)
2.Sexo (Categórica: masculino, femenino)
3.Empleo (Numérica: 0 = no calificado y no residente, 1 = no calificado y residente, 2 = calificado, 3 = altamente calificado)
4.Vivienda (Categórica: propio, alquilado o gratis)
5.Cuentas de ahorro (Categórica: pequeño, moderado, bastante rico, rico)
6.Cuenta corriente(Numérica, en DM - Marca Alemana)
7.Monto del crédito (Numérica, in DM)
8.Duración (Numérica, en meses)
9.Propósito (Categórica: auto, muebles / equipo, radio / TV, electrodomésticos, reparaciones, educación, negocios, vacaciones / otros)
10.Riesgo (Variable objetivo categórica: Riesgo bueno o malo)

Dataset
https://www.kaggle.com/kabure/predicting-credit-risk-model-pipeline/data?select=german_credit_data.csv

Nota: Algunas gráficas construidas con la librería plotly, se pueden visualizar en Jupyter Notebook. Es algo que debo corregir para poder visualizarlas en esta plataforma (Github).

3.credit_score_prediction's People

Contributors

viviblue2020 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.