Giter Club home page Giter Club logo

tesis's Introduction

Tesis de Licenciatura

Scripts

  • users_sc.py: Llama a users.py para todas las provincias con los argumentos pasados por parámetro.

  • users.py: Realiza una búsqueda de usuarios de twitter en la provincia indicada por parámetro.

  • Corpus.py: Realiza una búsqueda de todos los tweets de cada usuario.

  • datosUsuarios.py: Separa el conjunto de train de test. Guarda los datos de train en train/ y los de test en test/

  • textos.py: Tokeniza todos los tweets y arma un listado de palabras por provincia con su cantidad de ocurrencias, fnorm y pvalor del ztest entre la cantidad de ocurrencias de cada palabra entre par de provincias. Separa los conjuntos de palabras por regiones dialectales.

  • getlines.py: Genera el csv con la columna maxDif que representa la máxima diferencia de frecuencias normalizadas para cada palabra.

Datos

  • users/ todos los usuarios recolectados con las búsquedas geolocalizadas.

  • tweets/: todos los tweets, en arrays de json. Datos crudos

Los archivos *_tweets.json tienen los tweets segmentados por provincia. Los archivos .dat indican la cantidad acumulada de tweets según voy agregando usuarios (podemos ignorarlos)

  • train/ tiene los datos de desarrollo.

train_provincia.csv tiene los tweets reducidos de la siguiente manera:

tweet_id, user_id, text

train_provincia_dict.json tiene el bag of words de los tweets train_provincia_users_dict.json tiene un diccionario de palabras a user_ids (los que usaron dicha palabra)

  • test/ tiene los datos de validación, pero sólo en formato csv (lo demás no lo hicimos)

tesis's People

Contributors

daleman avatar finiteautomata avatar

Stargazers

Martín Ezequiel Langberg avatar  avatar  avatar

Watchers

 avatar James Cloos avatar  avatar

Forkers

finiteautomata

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.