Pandas: Evaluación Pandas
Aprende Pandas y certifícate como científico/a de datos utilizando DataFrames y manipulación de datos en Python con Aprende técnicas de manipulación de datos en Pandas. Descubre cómo transformar y organizar tus datos eficientemente con esta poderosa bibli
Aprende Pandas GRATIS y certifícateA continuación encontrarás ejercicios prácticos, breves y enfocados en los conceptos clave que se esperan dominar en una certificación o entrevista técnica relacionada con ciencia de datos y pandas.
Ejercicio 1: crear y analizar un DataFrame
Objetivo: Comprobar habilidades básicas de creación y análisis inicial de datos.
Ejercicio:
Crea un DataFrame llamado ventas_df
con tres columnas: producto
, cantidad
y precio_unitario
. El DataFrame debe tener al menos 4 filas. Luego, obtén estadísticas descriptivas básicas y muestra los primeros registros del DataFrame.
Habilidades evaluadas:
- Creación de DataFrames
- Uso de métodos básicos (
describe()
,head()
)
Ejemplo solución:
import pandas as pd
datos = {'producto': ['libro', 'lápiz', 'cuaderno', 'borrador'],
'cantidad': [20, 100, 50, 75],
'precio_unitario': [15.50, 0.50, 3.0, 1.5]}
ventas_df = pd.DataFrame(datos)
print(ventas_df.head())
print(ventas_df.describe())
Ejercicio 2: selección y filtrado de datos
Objetivo: Verificar competencias en filtrado avanzado y manejo de índices.
Ejercicio:
A partir del DataFrame ventas_df
, selecciona únicamente los productos cuya cantidad vendida sea mayor o igual a 50 unidades. Además, establece la columna producto
como índice del DataFrame resultante.
Ejemplo solución:
ventas_filtradas = ventas_df[ventas_df['cantidad'] >= 50].set_index('producto')
Ejercicio 3: manejo de datos faltantes
Objetivo: Evaluar el manejo correcto y eficiente de datos faltantes.
Ejercicio:
Dado un DataFrame df_clientes
con valores faltantes en las columnas edad
y ciudad
, rellena los valores faltantes en edad
con la media y en ciudad
con el texto "Sin ciudad"
.
Ejemplo solución:
media_edad = df_clientes['edad'].mean()
df_clientes['edad'] = df_clientes['edad'].fillna(media_edad)
df_clientes['ciudad'] = df_clientes['ciudad'].fillna('Sin ciudad')
Ejercicio 2: eliminar duplicados
Objetivo: Medir competencias en identificación y eliminación de datos duplicados.
Ejercicio:
Supón un DataFrame llamado df_usuarios
que contiene duplicados según la columna email
. Elimina dichos duplicados conservando únicamente la primera aparición del registro.
Ejemplo solución:
df_usuarios_limpio = df_usuarios.drop_duplicates(subset=['email'], keep='first')
Ejercicio 3: integración NumPy y pandas
Objetivo: Evaluar la habilidad para realizar operaciones matemáticas usando NumPy y transformar resultados en DataFrames pandas.
Ejercicio:
Genera un array de NumPy con números enteros aleatorios entre 1 y 100, con dimensiones 5x4. Convierte este array en un DataFrame de pandas llamado df_aleatorio
. Calcula la media de cada columna del DataFrame.
Ejemplo solución:
import numpy as np
datos = np.random.randint(1, 101, size=(5,4))
df_aleatorio = pd.DataFrame(datos, columns=['A', 'B', 'C', 'D'])
medias = df_aleatorio.mean()
Ejercicio 4: agrupar y resumir datos con pandas
Objetivo: Medir conocimientos de agrupaciones y agregaciones en pandas.
Ejercicio:
Dado un DataFrame llamado ventas
, que contiene información de ventas con columnas categoria
, producto
y cantidad
, agrupa los datos por categoría y calcula el total de unidades vendidas por cada una.
Ejemplo solución:
resumen_ventas = ventas.groupby('categoria')['cantidad'].sum()
Ejercicio 5: integración con Matplotlib
Objetivo: Comprobar la capacidad para generar gráficos básicos directamente desde pandas.
Ejercicio:
Dado un DataFrame temperaturas
con columnas fecha
y temp_max
, crea un gráfico lineal con la fecha en el eje X y la temperatura máxima (temp_max
) en el eje Y. Personaliza el gráfico con título y etiquetas claras.
Ejemplo solución:
import matplotlib.pyplot as plt
temperaturas.plot(x='fecha', y='temp_max', kind='line', marker='o', figsize=(10,5))
plt.title('Temperatura máxima por fecha')
plt.xlabel('Fecha')
plt.ylabel('Temperatura (°C)')
plt.show()
Ejercicio 5: visualización avanzada con Seaborn
Objetivo: Comprobar habilidades en creación rápida de gráficos estadísticos avanzados.
Ejercicio:
A partir de un DataFrame df_iris
con columnas especie
, sepal_length
y sepal_width
, crea un diagrama de cajas (boxplot
) con Seaborn que muestre la distribución del ancho de sépalo (sepal_width
) para cada especie (indicada en la columna especie
).
Ejemplo solución:
import seaborn as sns
import matplotlib.pyplot as plt
sns.boxplot(x='especie', y='sepal_length', data=df_iris)
plt.title('Distribución del largo del sépalo por especie')
plt.show()
Ejercicio 6: tratamiento de outliers en pandas
Objetivo: Demostrar conocimiento en detección y eliminación de valores extremos.
Ejercicio:
Dado un DataFrame llamado df_salarios
, detecta y elimina valores extremos (outliers) en la columna salario
utilizando el método del rango intercuartílico (IQR).
Ejemplo solución:
Q1 = df['salario'].quantile(0.25)
Q3 = df['salario'].quantile(0.75)
IQR = Q3 - Q1
df_sin_outliers = df_salarios[(df_salarios['salario'] >= Q1 - 1.5 * IQR) &
(df_salarios['salario'] <= Q3 + 1.5 * IQR)]
Ejercicio 7: transformar y limpiar texto con regex
Objetivo: Demostrar el uso avanzado de regex con pandas.
Ejercicio:
Tienes un DataFrame llamado clientes_df
con una columna telefono
. Los números están en diferentes formatos. Utiliza expresiones regulares para estandarizar todos los números telefónicos eliminando cualquier carácter no numérico.
Ejemplo solución:
clientes_df['telefono'] = clientes_df['telefono'].str.replace(r'\D+', '', regex=True)
Buenas prácticas para evaluación con pandas
Al prepararte para una certificación en ciencia de datos con pandas, recuerda estas recomendaciones clave:
- Realiza siempre copias antes de modificar datos.
- Usa nombres de variables y columnas claros y autodescriptivos.
- Aplica métodos eficientes y propios de pandas para optimizar rendimiento.
- Practica regularmente la integración con NumPy, Matplotlib y Seaborn para abordar cualquier tipo de ejercicio práctico con seguridad.
«La práctica continua de ejercicios reales es la mejor forma de dominar pandas y prepararse para certificaciones técnicas y entrevistas en ciencia de datos.»
Lecciones de este módulo de Pandas
Lecciones de programación del módulo Evaluación Pandas del curso de Pandas.
Ejercicios de programación en este módulo de Pandas
Evalúa tus conocimientos en Evaluación Pandas con ejercicios de programación Evaluación Pandas de tipo Test, Puzzle, Código y Proyecto con VSCode.