Datasets para Exploración
Algunos juegos de datos (dataset) que me parecen interesantes para "jugar" con diferentes visualizaciones
Estos son algunos de los datasets que me parecen interesantes para explorar y desarrollar visualizaciones de datos
US Energy Information Administration
Sitio base: EIA Data
La EIA contiene muchos sets de datos sobre la industria del petróleo, sobre todo referido a Estados Unidos, entre otras cosas, podemos ver producción de petróleo crudo, refinados (gasolinas, y otros combustibles), pero también hay información internacional como los precios spot del petróleo en otras regiones del mundo. Los datos se actualizan con regularidad
Los siguientes son algunos de los datasets de la EIA que me parecen más relevantes:
- Spot Prices. Se puede utilizar para hacer visualizaciones de series de tiempo, o predicciones sobre los precios futuros
- Imports by Area of Entry. Además de hacer las visualizaciones de las series de tiempo, se pueden hacer mapas de calor por regiones de Estados Unidos
- Crude Oil Proved Reserves, Reserves Changes, and Production. Es una serie de tiempo de publicación anual, que se puede usar para visualizar la evolución de las reservas Probadas (1P) de Estados Unidos
Datos abiertos del Gobierno de México
Mediante la iniciativa de Datos Abiertos del Gobierno Mexicano (https://datos.gob.mx) podemos acceder a información de muchas secretarías, desgraciadamente no toda la información está muy limpia, pero esto puede ser una ventaja para aprender cómo limpiar cierto tipo de datos, antes de hacer una visualización. Algunas series históricas que me gustan son las siguientes:
Energía
- Producción de petróleo crudo por entidad federativa (Estado de la República Mexicana
- Precio público ponderado de productos petrolíferos seleccionados. En esta serie podemos ver los precios en metros cúbicos de diferentes productos petrolíferos (combustibles). Es una serie ideal para compararla contra una serie de inflación en el INPC y ver si existe alguna relación. ¿Qué suben primero, los combustibles o los precios generales?
- Usuarios de energía eléctrica por tarifa. Esta serie tiene los precios de la energía eléctrica y el número de consumidores desde 2005. Desgraciadamente en la serie no indica explícitamente el año al que pertecen los datos, por lo que hay que hacer algo de limpieza
- Producción de gas natural por regiones marítimas y campos seleccionados. Al igual que los datos anteriores, carece de información sobre el año al que pertenece el dato, así que hay que hacer suposiciones
- Generación bruta de electricidad por tecnología. Este dataset contiene la información de la producción de energía en México desde 2004, sería interesante hacer una visualización de la producción, en conjunto con anotaciones sobre los eventos importantes que ocurrieron en esta materia en el país
Turismo
- Actividad Hotelera en Centros Turísticos Seleccionados Este es un GRAN trabajo para limpieza de datos, la información entregada está en formato de un dashboard de Excel, por lo que obtener la información para nuestras visualizaciones es un reto interesante.
- Oferta de alojamiento por categoría. Nuevamente es un reporte en formato de Dashboard, pero del que se puede sacar la información que requerimos de manera sencilla
- Generación de reportes de Datatur. Se trata de una herramienta que genera reportes de la información que existe en Turismo. Estos reportes se pueden bajar en formato de Excel y CSV para hacer nuestras visualizaciones.
- Estadía promedio de los turistas nacionales y extranjeros por entidad federativa y año. Aquí hay datos para jugar, pero no sé que tan fiables sean. No se informa de cuál fue la metodología para determinar que una persona que visita Puebla es un turista 🤦
INEGI
- Índice Nacional de Precios al Consumidor
- API del banco de indicadores. Contiene un generador de consultas que puede regresar los datos en formato JSON a través de un API. Para utilizar el API se requiere registro
Otros
- Accidentes de Tránsito Terrestre en Zonas Urbanas y Suburbanas. Estos datos son inmensos, la información de un año mide más 100MB en formato .csv, con información super interesante del tipo de vehículo involucrado en el accidente, sexo del responsable, edad, si venía con aliento alcohólico, etc.
- Patentes otorgadas a titulares mexicanos por área tecnológica. Una serie que muestra la cantidad de patentes que se obtienen en México por año 🙁
- Solicitudes de Invenciones por Entidad Federativa
. Datos de 2017 a 2019, que requieren de mucha limpieza para convertirlos a una serie utilizable. Sin duda en México el centralismo es absoluto. - Patentes por Nacionalidad del Titular
Otros Datasets
- Happiness and Alcohol Consumption. Este dataset contiene el consumo de alcohol en varios paises en 2016, adicionalmente incluye el HDI y el PIB per cápita
- Indice GINI (Banco Mundial). El índice GINI mide la inequidad en un país. ¿Cómo se relacionará con la evolución del Producto Interno Bruto?
- DataBank (Banco Mundial). Multiples series de tiempo sobre desarrollo mundial, permite hacer reportes y bajar los datos para su análisis particular, la serie más común es la del PIB anual por país que se encuentra bajo los World Development Indicators
- Climate Change: Earth Surface Temperature Data. Contiene la temperatura promedio de muchos países y ciudades desde 1743. Requiere de limpieza de datos para homologar nombres de países, eliminar países que ya no existen, u otros que han cambiado de nombre.
- Illegal Immigrants Arrested by US Border Patrol. El dataset contiene información de algunos años sobre las detenciones que se hacen en los estados fronterizos de los Estados Unidos por temas relacionados a la migración ilegal
- FIFA 20 complete player dataset. Excelente dataset con la información de las estadísticas de FIFA de EA Sports de más de 18,000 jugadores desde el FIFA 15 hasta el FIFA 20, ideal para hacer gráficas de progresión en los diferentes atributos que hacen a un super jugador, así como identificar promesas en ascenso.
- Madden 2019 Ultimate Team Dataset. Parecido al anterior, pero de los mejores jugadores de la NFL, no es tan grande, porque solo son los jugadores que puedes seleccionar en el modo de juego MUT (Madden Ultimate Team)
- Military Spending of Countries. Base de datos con los gastos de defensa de 200 países de 1960 a 2019
- Video Game Sales with Ratings. Una base de datos con las ventas de juegos en todo el mundo, clasificados por desarrollador, regiones mundiales, rating de la MPAA y categoría de juego. Contiene las ventas y los ratings de cada juego.