Ejercicio de programación con Pandas: Análisis de datos de eventos deportivos con Pandas en Python
0h 40m
Ejercicio proyecto de Pandas sobre análisis de datos de eventos y asistencias para practicar con Python y certificarse en Pandas.
Deberás trabajar con tres conjuntos de datos que contienen información sobre los siguienters puntos:
- Eventos deportivos: datos como el nombre del evento, la fecha, ubicación y el número total de asistentes.
- Aficionados: datos demográficos como la edad, género y lugar de residencia de los aficionados que asistieron a los eventos.
- Promociones publicitarias: información sobre las promociones realizadas, incluyendo el medio publicitario utilizado, el presupuesto y la duración de la promoción.
Tu misión será realizar la limpieza de datos, combinarlos y responder a preguntas críticas de negocio como cuál fue el evento más exitoso en términos de asistencia, qué medio publicitario fue el más efectivo y qué grupo de edad es el más frecuente en los eventos. Además, deberás realizar algunas transformaciones adicionales para medir el impacto de las promociones y la duración de las mismas.
A continuación te ofrecemos las pautas que debes seguir, ¡toma nota!
1. Preparar el entorno de trabajo
- Crea un nuevo archivo Jupyter Notebook llamado
analisis_eventos.ipynb
.
2. Importar las librerías necesarias
- Importa las librerías Pandas que necesitarás para realizar el análisis.
3. Cargar los datos (lectura y procesamiento de datos con Pandas)
- Utiliza Pandas para cargar los archivos CSV:
eventos.csv
,aficionados.csv
ypromociones.csv
. Guarda los datos en tres DataFrames distintos.
4. Limpieza de datos
- Elimina las filas con valores nulos en los DataFrames para asegurarte de trabajar con datos completos. Utiliza el método
dropna()
.
5. Combinación de los DataFrames
- Para poder analizar los datos en conjunto, deberás combinarlos. Utiliza
merge()
ojoin()
para combinar los DataFrames de eventos, aficionados y promociones. Elige la columnaid_evento
para relacionar las tablas.
6. Responde las siguientes preguntas de negocio
- ¿Cuál es el evento con mayor asistencia total?
- Usa
max()
en la columnaasistentes_totales
para identificar el evento con mayor número de asistentes.
- Usa
- ¿Qué rango de edad asiste más frecuentemente a los eventos?
- Utiliza
pd.cut()
para agrupar a los aficionados en rangos de edad y luego cuenta cuántos aficionados hay en cada grupo.
- Utiliza
- ¿Qué medio publicitario ha generado mayor impacto en términos de asistencia?
- Crea una columna
impacto_promoción
que divida el número de asistentes totales por el presupuesto de la promoción y agrupa pormedio_publicitario
.
- Crea una columna
- ¿Cuál es la ubicación de residencia que más aficionados aporta a los eventos?
- Usa
groupby()
para sumar los aficionados por ubicación de residencia.
- Usa
7. Exportación de los resultados:
- Guarda el DataFrame resultante con todas las transformaciones y análisis en un archivo CSV llamado
reporte_eventos.csv
utilizando la funcióndf.to_csv()
.
Más ejercicios de programación con Pandas
Evalúa tus conocimientos en Pandas con más ejercicios de programación de tipo Test, Puzzle, Código y Proyecto con VSCode.
Introducción e instalación de pandas
Operaciones de filtrado, búsqueda y ordenación
Operaciones de cadena de texto y categóricas
Tratamiento de valores faltantes
Manipulación de DataFrames
Codificación de variables categóricas a numéricas
Tipos de datos en DataFrames
Identificar y corregir errores y duplicados
Operaciones matemáticas y estadísticas
Evaluación código conocimiento general de Pandas
Evaluación multirespuesta Conocimiento general de Pandas
Integración de Pandas con Matplotlib
Operaciones con fechas
Entrada de datos externos y salida de datos con Pandas
Identificar y corregir outliers
Series
Integración de Pandas con Seaborn
Operaciones de conjuntos
Identificación de valores faltantes
Certificados de superación de Pandas
Supera todos los retos de Pandas y obtén certificados de superación para mejorar tu currículum y empleabilidad.
Tecnologías de este ejercicio de programación
Entornos de desarrollo para este ejercicio
Visual Studio Code
GitHub