Giter Club home page Giter Club logo

datasets's Introduction

datasets

Este repositorio contiene las fuentes de datos utilizadas por DATADISTA.COM en reportajes y proyectos de investigación y datos. Puedes reutilizarlos para elaborar nuevas historias, análisis, proyectos o visualizaciones siempre y cuando nos cites como fuente.

Si quieres avisarnos de tus reutilizaciones o tienes cualquer duda, puedes ponerte en contacto con nosotros en [email protected] o en Twitter en @datadista.

NECESITAMOS TU AYUDA PARA PODER SEGUIR HACIENDO ESTE TRABAJO DIARIO. SUSCRÍBETE A DATADISTA POR 4 EUROS AL MES O 36 EUROS/AÑO Y RECIBE NUESTRA NEWSLETTER SEMANAL

datasets's People

Contributors

adelgadob avatar ccamara avatar dariocp avatar fcojavt avatar jj avatar joscani avatar mserranom avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

datasets's Issues

Casos en los que la serie no crece monotonamente

Lo primero, gracias por el trabajo realizado.

Hay varios casos en los que el valor de casos acumulados decrece respecto el día anterior,
¿alguna forma de interpretar esto?¿suponemos que ese día no se ha medido correctamente?

Te listo los casos por si ayuda:

Alta Andalucia
         dia  alta
2 2020-03-18    38
3 2020-03-19    33
4 2020-03-20    72
         dia  alta
5 2020-03-21    72
6 2020-03-22    38
7 2020-03-23    50

Alta Canarias
         dia  alta
3 2020-03-19     9
4 2020-03-20     6
5 2020-03-21     7

Alta Cantabria
          dia  alta
13 2020-03-29    25
14 2020-03-30    24
15 2020-03-31    35

Alta Extremadura
         dia  alta
6 2020-03-22     8
7 2020-03-23     6
8 2020-03-24     8

Alta Galicia
         dia  alta
2 2020-03-18     7
3 2020-03-19     4
4 2020-03-20     5

Alta Madrid
         dia  alta
2 2020-03-18   951
3 2020-03-19   941
4 2020-03-20  1186

Resultado Andalucia
         dia  resultado
6 2020-03-04         13
7 2020-03-05         12
8 2020-03-06         21

Resultado Aragon
         dia  resultado
2 2020-02-29          1
3 2020-03-01          0
4 2020-03-02          0

Resultado Baleares
          dia  resultado
15 2020-03-13         30
16 2020-03-14         28
17 2020-03-15         28

Resultado Canarias
          dia  resultado
9  2020-03-07         18
10 2020-03-08         17
11 2020-03-09         22

Resultado Galicia
          dia  resultado
13 2020-03-11         39
14 2020-03-12         35
15 2020-03-13         85

Uci Canarias
         dia  uci
6 2020-03-12    3
7 2020-03-13    2
8 2020-03-16    9

Error in dataset nacional_covid19_rango_edad.csv

Hi Datadista,

In the first place thanks for the great work.

I have made a visualization (Power BI report) of the data in dataset nacional_covid19_rango_edad.csv, see:

https://worktimesheet2014.blogspot.com/2020/03/coronavirus-covid-19-in-spain-power-bi.html

and I think this dataset has an error: the value '43739' for Age-group should probably be 10-19 (years), as for most other Age-groups I see 6 rows in the table and for this one just 4. Is that correct?

BTW: if you want to add my blog-post to the page where you list all websites that make use of your dataset, great.

saludos,

Maarten van Reek (Dutchman living in Madrid)

Datos por rango de edad y sexo

Hola, solo tenemos los datos a partir del 23 de marzo no? antes de eso no se publicaban los datos? no sabemos como evoluciona la curva desde el 8 M hasta el 23 no?

gracias!! enhorabuena por el trabajo

Column Data Format Changed

Hello,

I just noticed that today all the column data changed format, previously was DD/MM/YYYY and now YYYY-MM-DD . Is it going to be this the new one?

Thanks,
Marco

La data esta con ; y no me permite leerla

Hola gracias por tu contribucion, estoy tratando de ver la data que tu subes pero me sale con el separador ; lo que evita que la vea, es posible corregir el error muchas gracias.

Saludos.

Inconsistencia en el dato de casos confirmados en Baleares por Covid19 el 14/03/2020 y 15/03/2020

El Ministerio de Sanidad ha actualizado las cifras de casos confirmados el 14/03/2020 y 15/03/2020 en Baleares con 28 casos. El 13/03/2020 reportó 30 casos en Baleares.

Puestos en contacto con Sanidad nos indican que son los datos facilitados por las CCAA al CAES. Sin embargo, la Consejería de Sanidad de Baleares ha reportado de manera independiente 44 casos el 14/03/2020 y 55 casos el 15/03/2020.

Inconsistencias del 9/3/2020

Solo para que lo tengáis presente.
Según la actualización 39B (del 9/3/2020 a las 18.00), el número de casos en España es de 1204, pero en el informe correspondiente de la Organización Mundial de la Salud el número es 1024. Teniendo en cuenta que los demás días las cifras coinciden, es posible que haya habido un baile en los dígitos. Para saber cuál es el bueno habría que sumar los de las comunidades autónomas, pero el informe 39B no los aporta.
La OMS publica sus datos a las 10 a.m. CET, por lo que recoge los que publica España a las 18.00 del día anterior. (El informe de la OMS en cuestión es el 50, correspondiente a las 10 a.m. CET del 10 de marzo.)

datos02

Inconsistencia en el dato de fallecidos en Madrid por Covid19 el 14/03/2020

El Ministerio de Sanidad ha actualizado las cifras de fallecidos el 14/03/2020 a las 12h con toda la información remitida por las comunidades autónomas hasta las 11h. La Comunidad de Madrid remitió 89 fallecidos. A las 13:30h, Madrid ha confirmado en una nota de prensa 133 fallecidos.

Por consistencia en los datos, vamos a mantener los 89 en el dataset ccaa_covid19_fallecidos.csv hasta su actualización oficial por parte de Sanidad.

Datos variación total de fallecidos: datos agregados (con + sin covid)

Hola,
Me pregunto si podría ayudarme a encontrar los datos de fallecidos totales en España o en una región concreta, durante una jornada determinada (por ejemplo ayer). Mi objetivo es poder medir la variabilidad de fallecimientos totales, es decir, cuánto está incrementando el número de fallecidos totales con respecto a la media de fallecidos, en lugar de con respecto a los casos detectados de Covid. ¿Podría ayudarme a obtener este dato? Gracias

Uso de datos nacional_covid19_rango_edad.csv para ver evolución

Primero de todo, felicitaros por la información que estáis publicando.

Partiendo de el tiempo de incubación del virus es de 2 a 14 días, con una media de 5 días. Los datos que ofrecéis son interesantes para valorar como está funcionando el confinamiento.
Podría servirnos para ver como han crecido los datos por franjas de edad desde que comenzó el confinamiento. Distribuyendo por franjas entre los que no han podido salir de casa (0-19), los que han podido salir de casa por diversos casos (20-59), la franja entre trabajadores y jubilados (60-69) y los mayores de 70 que deberían haberse quedado en casa o solo salir para comprar, médico o pasear perro.
El primer número son los casos el 23/03/20, el segundo los casos del 27/03/20 y el tercero el incremento de casos entre las dos fechas.
0-19 años: 350 casos a 493 casos, incremento de un 40,8%
20-59: 9541 casos a 16858 casos, incremento de un 76,6%
60-69: 2916 casos a 5633 casos, incremento de un 93%
+70: 6152 casos a 11625 casos, incremento de un 83%

El incremento total sería del 80%

Los datos de los casos de cada día, son inferiores a los casos reportados en otros archivos ( p.e. el día 23/03/2020 en este archivo hay 18959 casos, mientras que oficialmente son 33089, por lo que entiendo que no se pueden utilizar para valorar como funciona el confinamiento. No sé si existe la posibilidad de que puedan coincidir los datos de los casos totales

Además, hay la variable de que por encima de los 75 años puede haber un porcentaje importante de casos producidos en residencias.

Nuevos casos?

¿por qué no hay una columna de nuevos casos diarios? Es cierto que es un dato que se puede sacar de restando de dia a dia, pero no sé si con esta fórmula se obtiene un dato fiable.

Errores en los valores del fichero nacional_covid19_rango_edad.csv del 2020-04-06

Se han introducido varios errores en los valores referentes al 2020-04-06 del fichero nacional_covid19_rango_edad.csv debido a valores a los que les faltan dígitos después del punto de unidades de millar.

Datos erróneos detectados:
ambos:
40-49: hospitalizados 4.34
50-59: hospitalizados 6.84
70-79: confirmados 14.3
80-89: hospitalizados 7.79

hombres:
40-49: hospitalizados 2.62
70-79: confirmados 8.41
Total: fallecidos 3.13

¿Inconsistencia entre informe 77 del 16.04.2020 e informe 78 del 17.04.2020?

La cifra de nuevos recuperados y fallecidos entre el informe 77 y el informe 78 no corresponde con las cifras en esos informes.

  • El informe 77 indica 19140 fallecidos y 74797 recuperados.
  • El informe 78 indica 19478 fallecidos (585 nuevos) y 72963 recuperados (3502 nuevos).

Pero si hacemos la resta entre los dos informes debiesen ser 338 nuevos fallecidos (no 585) y un número negativo de recuperados. ¿Alguien sabe de dónde proviene esta anomalía? Gracias.

Incongruencia de Datos Oficiales de Madrid 23/03/2020

Hola,

No sé si estoy haciendo mal los cálculos, por lo que os pido ayuda. En teoría, el número de casos activos (A) debería de ser A = Co - Cu - Fa, siendo "Co" los casos confirmados, "Cu" el número de curados y "Fa" el número de fallecidos. Para los datos de Madrid de 23/03/2020 (aunque pasa en más días) hay 7.249 casos activos. Sin embargo, dicen que hay 9.561 hospitalizados, lo cual no puede ser ya que el número es mayor que los propios activos. ¿Sabéis si estoy haciendo yo mal los cálculos o es un error del Ministerio de Sanidad?

Muchas gracias y un saludo,

Evolución de casos UCI

Buenas tardes,

Tenía la duda de si se conoce si los datos de ingresados en la UCI que se muestran las bases de datos son los acumulados o son los actualmente ingresados en la UCI. Muchas gracias.

Calidad dato nacional_covid19_rango_edad.csv

Me pregunto cómo de fiables son estos datos, especialmente los fallecimientos.
Entiendo que son datos acumulados, pero aun así, no parecen ser correctos.

Ejemplo:
Fallecimientos ambos sexos 25/03: 918 casos
Si es acumulado, está mal porque llevamos más de 3000 muertes, y 918 muertes en un día, no parece una cifra correcta, ya que según otra información nos movemos alrededor de los 450 diarios.

Nuevos datos Instituto Carlos III

El Instituto Carlos III ha empezado a publicar a finales de esta semana un CSV con los datos a nivel de CCAA: https://covid19.isciii.es/resources/serie_historica_acumulados.csv

Lo positivo:

  • Es un formato accesible aunque es necesario su normalización
  • Permite rellenar los días tanto a nivel nacional como de CCAA que faltan

Lo negativo:

  • No incluye datos de acumulados altas ni otro datos como grupos de edad, sexo, etc.
  • Los datos entre 2020-02-20 y 2020-03-16 difieren en muchas CCAA respecto a los publicados por el Ministerio de Sanidad. A partir del 2020-03-17 ya son iguales, lo que parece que es una coordinación interna en la toma de la información a raíz de la entrada en vigor de la Orden que obliga a las CCAA a remitir estos datos a las 21h a Sanidad.
  • El Instituto Carlos III utiliza el día de recopilación de datos como el día de publicación datos, mientras que nosotros, siguiendo el criterio del ministerio de Sanidad consideramos el día de publicación. Esto hace que los datos para 2020-03-27 sea para ICIII los del 2020-03-26

Abro este issue para llegar a un consenso con el resto de reutilizadores. Las opciones son:

  1. Incorporar los datos entre 2020-02-20 y 2020-03-16 del ICIII como los válidos
  2. Cambiar todas las fechas a los datasets para poner como fecha de los datos el día de toma de datos.
  3. Dejarlo todo como está e incorporar este dataset normalizado en fechas, códigos de CCAA en csv en columnas y csv formato largo como un dataset independiente.

¿Qué opináis?

csv fallecidos: error datos Cataluña?

En los archivos ccaa_covid19_fallecidos.csv y ccaa_covid19_fallecidos_long.csv los datos de fallecidos (que son datos acumulados) del día 17 son inferiores a los de los dos días anteriores

Estabilidad de los ficheros CSV

Primero de todo, muchas gracias por hacer estos recursos disponibles para todos. Me parece una iniciativa estupenda.

Hasta ahora, estaba intentando analizar los ficheros PDF de la situación actual de manera automática. Por desgracia, el formato de las tablas cambia casi todos los días así que mis scripts no eran muy estables.

Puesto que uds. ya estáis haciendo esto, me parece más sencillo usar sus datos en vez de reinventar la rueda, así que ahora estoy empleando sus archivos CSV en mi proyecto.

Mi pregunta es: ¿cómo de estable es el formato y la URL de sus ficheros CSV? Añadir columnas no supone un problema, pero renombrarlas, quitarlas, o cambiar la URL de los ficheros haría que la ingestión de datos para mi proyecto fallase. Entiendo que esto es algo que hacéis de manera gratuita para el resto de nosotros, así que no espero una garantía completa, pero me gustaría saber si tienen algún mecanismo para comunicar a los usuarios de sus datos si algo va a cambiar de manera que rompa la compatibilidad de previos formatos.

Csv con fecha de últimas actualizaciones

Hola, muchas gracias por la info.

Estaría bien incluir un csv pra saber las últimas modificaiones de los archivos. De esa manera podríamos cargar solo los archivos que se han modificado:

Archivo Fecha Modificacion
ccaa_covid19_casos.csv 2020-03-23 12:45:15
ccaa_covid19_altas.csv 2020-03-23 11:30:00

El formato de fecha podría variar al que considerárais oportuno. La hora sería necesario.

¿Qué os parece?

Quitar totales de CSV

Se podrían eliminar las filas con totales de los CSV? Añaden pasos a la limpieza de datos, que se pueden agregar facilmente cuando se necesitan.

Gracias

datos desde el 16-03

Perdonadme esta duda que me corroe.
Como sabéis, desde la actualización 47, los datos que se ofrecen son los consolidados a las 21h del día anterior. ¿No sería más fiel a la realidad asignar al día 16-03 11178 casos y seguir a partir de ahí? De modo que:
2020-03-17: 13716
2020-03-18: 17147
2020-03-19: 19980
Hasta ese cambio los datos sí se correspondían con el día del informe, aunque fuera hasta las 13h, pero ahora son justo los del día anterior.
¿O es que el informe que se publicaba a las 13h en realidad solo tenía datos del día anterior y hemos estado siempre con un día de desfase?

Gracias.

Los casos del día 8

¿No sería conveniente, aunque fuera por temas de complitud, poner como día 9 los del boletín 39B y como día 8 los del boletín 39?
También: ¿qué pasa con los datos del día 7?

fecha duplicada

Hola, gracias por el currazo.

He visto que en la fila de hoy en el archivo nacional_covid19.csv los datos de hoy viene con la fecha de ayer, lo que significa que hay dos filas con una misma fecha. No es un problema grave, pero para que lo sepáis.

Captura de pantalla 2020-04-21 a las 11 34 48

Un saludo.

Inconsistencia de datos de fallecidos 8 y 9 de marzo

El Departamento de Seguridad Nacional (DSN), con datos de Sanidad publicó 17 muertos para el día 8 de marzo con 2 de los fallecidos en Aragón: https://www.dsn.gob.es/gl/actualidad/sala-prensa/coronavirus-covid-19-08-marzo-2020

El día 9 de marzo, el DSN publicó 16 muertos en el texto, pero la suma de los casos suman 17. Siendo los mismos que el 8 de marzo con 2 de los fallecidos en Aragón: https://www.dsn.gob.es/gl/actualidad/sala-prensa/coronavirus-covid-19-09-marzo-2020

El Ministerio de Sanidad el 9 de marzo en su informe de actualización 39 publicó el dato de 16 fallecidos con 1 fallecido en Aragón: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Actualizacion_39_COVID-19.pdf

El Gobierno de Aragón anunció el 6 de marzo el primer fallecido: http://www.aragonhoy.net/index.php/mod.noticias/mem.detalle/id.256994/prev.1

El Gobierno de Aragón anunció el 8 de marzo su segundo fallecido:
http://www.aragonhoy.net/index.php/mod.noticias/mem.detalle/id.257023/prev.1

Por ese motivo hemos decidido modificar en el dataset nacional el número de fallecidos aportados por Sanidad para el 9 de marzo de 16 a 17 fallecidos. También se ha modificado de 1 a 2 fallecidos en Aragón para el 9 de marzo en el dataset de fallecidos por CCAA.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.