Pandas: Evaluación Pandas

Aprende Pandas y certifícate como científico/a de datos utilizando DataFrames y manipulación de datos en Python con Aprende técnicas de manipulación de datos en Pandas. Descubre cómo transformar y organizar tus datos eficientemente con esta poderosa bibli

Aprende Pandas GRATIS y certifícate

A continuación encontrarás ejercicios prácticos, breves y enfocados en los conceptos clave que se esperan dominar en una certificación o entrevista técnica relacionada con ciencia de datos y pandas.


Ejercicio 1: crear y analizar un DataFrame

Objetivo: Comprobar habilidades básicas de creación y análisis inicial de datos.

Ejercicio:
Crea un DataFrame llamado ventas_df con tres columnas: producto, cantidad y precio_unitario. El DataFrame debe tener al menos 4 filas. Luego, obtén estadísticas descriptivas básicas y muestra los primeros registros del DataFrame.

Habilidades evaluadas:

  • Creación de DataFrames
  • Uso de métodos básicos (describe(), head())

Ejemplo solución:

import pandas as pd

datos = {'producto': ['libro', 'lápiz', 'cuaderno', 'borrador'],
         'cantidad': [20, 100, 50, 75],
         'precio_unitario': [15.50, 0.50, 3.0, 1.5]}

ventas_df = pd.DataFrame(datos)
print(ventas_df.head())
print(ventas_df.describe())

Ejercicio 2: selección y filtrado de datos

Objetivo: Verificar competencias en filtrado avanzado y manejo de índices.

Ejercicio:
A partir del DataFrame ventas_df, selecciona únicamente los productos cuya cantidad vendida sea mayor o igual a 50 unidades. Además, establece la columna producto como índice del DataFrame resultante.

Ejemplo solución:

ventas_filtradas = ventas_df[ventas_df['cantidad'] >= 50].set_index('producto')

Ejercicio 3: manejo de datos faltantes

Objetivo: Evaluar el manejo correcto y eficiente de datos faltantes.

Ejercicio:
Dado un DataFrame df_clientes con valores faltantes en las columnas edad y ciudad, rellena los valores faltantes en edad con la media y en ciudad con el texto "Sin ciudad".

Ejemplo solución:

media_edad = df_clientes['edad'].mean()
df_clientes['edad'] = df_clientes['edad'].fillna(media_edad)
df_clientes['ciudad'] = df_clientes['ciudad'].fillna('Sin ciudad')

Ejercicio 2: eliminar duplicados

Objetivo: Medir competencias en identificación y eliminación de datos duplicados.

Ejercicio:
Supón un DataFrame llamado df_usuarios que contiene duplicados según la columna email. Elimina dichos duplicados conservando únicamente la primera aparición del registro.

Ejemplo solución:

df_usuarios_limpio = df_usuarios.drop_duplicates(subset=['email'], keep='first')

Ejercicio 3: integración NumPy y pandas

Objetivo: Evaluar la habilidad para realizar operaciones matemáticas usando NumPy y transformar resultados en DataFrames pandas.

Ejercicio:
Genera un array de NumPy con números enteros aleatorios entre 1 y 100, con dimensiones 5x4. Convierte este array en un DataFrame de pandas llamado df_aleatorio. Calcula la media de cada columna del DataFrame.

Ejemplo solución:

import numpy as np

datos = np.random.randint(1, 101, size=(5,4))
df_aleatorio = pd.DataFrame(datos, columns=['A', 'B', 'C', 'D'])

medias = df_aleatorio.mean()

Ejercicio 4: agrupar y resumir datos con pandas

Objetivo: Medir conocimientos de agrupaciones y agregaciones en pandas.

Ejercicio:
Dado un DataFrame llamado ventas, que contiene información de ventas con columnas categoria, producto y cantidad, agrupa los datos por categoría y calcula el total de unidades vendidas por cada una.

Ejemplo solución:

resumen_ventas = ventas.groupby('categoria')['cantidad'].sum()

Ejercicio 5: integración con Matplotlib

Objetivo: Comprobar la capacidad para generar gráficos básicos directamente desde pandas.

Ejercicio:
Dado un DataFrame temperaturas con columnas fecha y temp_max, crea un gráfico lineal con la fecha en el eje X y la temperatura máxima (temp_max) en el eje Y. Personaliza el gráfico con título y etiquetas claras.

Ejemplo solución:

import matplotlib.pyplot as plt

temperaturas.plot(x='fecha', y='temp_max', kind='line', marker='o', figsize=(10,5))
plt.title('Temperatura máxima por fecha')
plt.xlabel('Fecha')
plt.ylabel('Temperatura (°C)')
plt.show()

Ejercicio 5: visualización avanzada con Seaborn

Objetivo: Comprobar habilidades en creación rápida de gráficos estadísticos avanzados.

Ejercicio:
A partir de un DataFrame df_iris con columnas especie, sepal_length y sepal_width, crea un diagrama de cajas (boxplot) con Seaborn que muestre la distribución del ancho de sépalo (sepal_width) para cada especie (indicada en la columna especie).

Ejemplo solución:

import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x='especie', y='sepal_length', data=df_iris)
plt.title('Distribución del largo del sépalo por especie')
plt.show()

Ejercicio 6: tratamiento de outliers en pandas

Objetivo: Demostrar conocimiento en detección y eliminación de valores extremos.

Ejercicio:
Dado un DataFrame llamado df_salarios, detecta y elimina valores extremos (outliers) en la columna salario utilizando el método del rango intercuartílico (IQR).

Ejemplo solución:

Q1 = df['salario'].quantile(0.25)
Q3 = df['salario'].quantile(0.75)
IQR = Q3 - Q1

df_sin_outliers = df_salarios[(df_salarios['salario'] >= Q1 - 1.5 * IQR) &
                             (df_salarios['salario'] <= Q3 + 1.5 * IQR)]

Ejercicio 7: transformar y limpiar texto con regex

Objetivo: Demostrar el uso avanzado de regex con pandas.

Ejercicio:
Tienes un DataFrame llamado clientes_df con una columna telefono. Los números están en diferentes formatos. Utiliza expresiones regulares para estandarizar todos los números telefónicos eliminando cualquier carácter no numérico.

Ejemplo solución:

clientes_df['telefono'] = clientes_df['telefono'].str.replace(r'\D+', '', regex=True)

Buenas prácticas para evaluación con pandas

Al prepararte para una certificación en ciencia de datos con pandas, recuerda estas recomendaciones clave:

  • Realiza siempre copias antes de modificar datos.
  • Usa nombres de variables y columnas claros y autodescriptivos.
  • Aplica métodos eficientes y propios de pandas para optimizar rendimiento.
  • Practica regularmente la integración con NumPy, Matplotlib y Seaborn para abordar cualquier tipo de ejercicio práctico con seguridad.

«La práctica continua de ejercicios reales es la mejor forma de dominar pandas y prepararse para certificaciones técnicas y entrevistas en ciencia de datos.»

Empezar curso de Pandas

Lecciones de este módulo de Pandas

Lecciones de programación del módulo Evaluación Pandas del curso de Pandas.

Ejercicios de programación en este módulo de Pandas

Evalúa tus conocimientos en Evaluación Pandas con ejercicios de programación Evaluación Pandas de tipo Test, Puzzle, Código y Proyecto con VSCode.