El Proceso de Ciencia de Datos
Extracción de Datos (Extract)
Obtenemos nuestro dataset directamente desde la fuente ("Airline Disruptions Dataset") en Kaggle. Los datos contienen cancelaciones, redirecciones y el impacto de los pasajeros a lo largo de diversos continentes.
df = pd.read_csv("airline_losses_estimate.csv")
Limpieza y Transformación (Transform)
Aplicamos técnicas de depuración profunda: eliminamos valores faltantes, homogeneizamos tipos de datos numéricos y creamos variables derivadas como "impact_level" para clasificar el impacto base.
df["cancelled_flights"] = df["cancelled_flights"].astype(int)
Carga de Información (Load)
Un dataset completamente impoluto está listo para el modelado y consumo por sistemas Business Intelligence (AppSheet) o paneles interactivos interactivos profesionales con Streamlit y Plotly.
Análisis Exploratorio y Descubrimientos
📊 Distribución y Frecuencias
Notamos que algunos países y aerolíneas absorben el impacto mucho peor que otros. Mediante Histogramas y Boxplots comprobamos que el número de incidentes graves se focaliza en regiones hiper-densas en tráfico.
🌍 Mapa de Calor Financiero
Los mapas de dispersión geográfica revelan a simple vista dónde las aerolíneas acumulan pérdidas millonarias: Asia y Medio Oriente, mientras la relación entre vuelos cancelados y pérdidas no es siempre líneal, dependerá drásticamente de los costos de combustible adicional.
🤖 Análisis Predictivo
¿Qué pasa si mañana hay 15 vuelos cancelados de improviso? Usamos modelos predictivos con Machine Learning (Regresión Lineal Simple) integrados a nuestro portal Streamlit interactivo para prever las pérdidas operativas con total fluidez.