Ejercicio de programación con Pandas: Identificar y corregir errores y duplicados

Código
Práctica
0h 15m

Aprende a identificar y corregir valores erróneos en un DataFrame de Pandas con Python, incluyendo valores NaN, fuera de rango y con formato incorrecto. Mejora la calidad de tus datos con este ejercicio.

Dado un DataFrame de Pandas con las siguientes columnas:

  • Altura: debe contener solo valores positivos y menores de 300.
  • Peso: debe contener únicamente valores numéricos.
  • Ingreso: debe contener valores numéricos, representando ingresos en una moneda específica.
  • Fecha_Compra: debe estar en un formato de fecha válido (YYYY-MM-DD).
  • Producto: no debe tener valores duplicados.

Realiza las siguientes tareas:

  1. Corrige los valores fuera de rango en la columna Altura (valores negativos y mayores a 300).
  2. Convierte la columna Peso a tipo numérico, reemplazando los valores no numéricos con NaN.
  3. Convierte la columna Ingreso a tipo numérico, asegurándote de que los valores estén en formato numérico, reemplazando cualquier error con NaN.
  4. Convierte la columna Fecha_Compra a tipo datetime, reemplazando los valores que no se puedan convertir con NaT (Not a Time).
  5. Identifica y elimina las filas que contengan valores NaN en cualquiera de las columnas.
  6. Elimina cualquier fila duplicada basada en la columna Producto.
  7. Imprime el DataFrame limpio.
Empezar ejercicio de programación

Todos los ejercicios de programación de Pandas

Evalúa tus conocimientos con ejercicios de programación en Pandas de tipo Test, Puzzle, Código y Proyecto con VSCode.

Certificados de superación de Pandas

Supera todos los retos de Pandas y obtén estos certificados de superación para mejorar tu currículum y tu empleabilidad.

Tutorial para resolver este ejercicio de programación

pandas

Pandas

Identificar y corregir errores y duplicados

Limpieza y preparación de datos

Otros tutoriales de programación con Pandas