-
users_sc.py
: Llama ausers.py
para todas las provincias con los argumentos pasados por parámetro. -
users.py
: Realiza una búsqueda de usuarios de twitter en la provincia indicada por parámetro. -
Corpus.py
: Realiza una búsqueda de todos los tweets de cada usuario. -
datosUsuarios.py
: Separa el conjunto de train de test. Guarda los datos de train entrain/
y los de test entest/
-
textos.py
: Tokeniza todos los tweets y arma un listado de palabras por provincia con su cantidad de ocurrencias, fnorm y pvalor del ztest entre la cantidad de ocurrencias de cada palabra entre par de provincias. Separa los conjuntos de palabras por regiones dialectales. -
getlines.py
: Genera el csv con la columna maxDif que representa la máxima diferencia de frecuencias normalizadas para cada palabra.
-
users/
todos los usuarios recolectados con las búsquedas geolocalizadas. -
tweets/
: todos los tweets, en arrays dejson
. Datos crudos
Los archivos *_tweets.json
tienen los tweets segmentados por provincia.
Los archivos .dat
indican la cantidad acumulada de tweets según voy agregando usuarios (podemos ignorarlos)
train/
tiene los datos de desarrollo.
train_provincia.csv
tiene los tweets reducidos de la siguiente manera:
tweet_id, user_id, text
train_provincia_dict.json
tiene el bag of words de los tweets
train_provincia_users_dict.json
tiene un diccionario de palabras a user_ids
(los que usaron dicha palabra)
test/
tiene los datos de validación, pero sólo en formatocsv
(lo demás no lo hicimos)