Análisis de Interrupciones Aéreas

El Proceso de Ciencia de Datos

1️⃣

Extracción de Datos (Extract)

Obtenemos nuestro dataset directamente desde la fuente ("Airline Disruptions Dataset") en Kaggle. Los datos contienen cancelaciones, redirecciones y el impacto de los pasajeros a lo largo de diversos continentes.

import pandas as pd
df = pd.read_csv("airline_losses_estimate.csv")

2️⃣

Limpieza y Transformación (Transform)

Aplicamos técnicas de depuración profunda: eliminamos valores faltantes, homogeneizamos tipos de datos numéricos y creamos variables derivadas como "impact_level" para clasificar el impacto base.

df = df.dropna()
df["cancelled_flights"] = df["cancelled_flights"].astype(int)

3️⃣

Carga de Información (Load)

Un dataset completamente impoluto está listo para el modelado y consumo por sistemas Business Intelligence (AppSheet) o paneles interactivos interactivos profesionales con Streamlit y Plotly.

df.to_csv("cleaned_dataset.csv")

Análisis Exploratorio y Descubrimientos

📊 Distribución y Frecuencias

Notamos que algunos países y aerolíneas absorben el impacto mucho peor que otros. Mediante Histogramas y Boxplots comprobamos que el número de incidentes graves se focaliza en regiones hiper-densas en tráfico.

🌍 Mapa de Calor Financiero

Los mapas de dispersión geográfica revelan a simple vista dónde las aerolíneas acumulan pérdidas millonarias: Asia y Medio Oriente, mientras la relación entre vuelos cancelados y pérdidas no es siempre líneal, dependerá drásticamente de los costos de combustible adicional.

🤖 Análisis Predictivo

¿Qué pasa si mañana hay 15 vuelos cancelados de improviso? Usamos modelos predictivos con Machine Learning (Regresión Lineal Simple) integrados a nuestro portal Streamlit interactivo para prever las pérdidas operativas con total fluidez.