Descripción
Reto de tokenización personalizada.
En este ejercicio de programación, te centrarás en aplicar una función de tokenización personalizada usando Scikit-Learn para preprocesar un conjunto de datos de texto en español. Utilizarás el conjunto de datos de mensajes de correo electrónico proporcionado por Scikit-Learn y definirás una función que:
- convierte el texto a minúsculas,
- elimina signos de puntuación,
- conserva acentos,
- y excluye cualquier token que contenga números.
Instrucciones:
Carga de datos:
- Utiliza el conjunto de datos
fetch_20newsgroups
, disponible en Scikit-Learn. - Filtra el subconjunto de datos relacionados con categorías de correos electrónicos.
Tokenización personalizada:
Guarda tu progreso
Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.
Más de 25.000 desarrolladores ya confían en CertiDevs
- Define una función personalizada que convierta cada mensaje a minúsculas y elimine signos de puntuación excepto los acentos.
- Filtra los tokens que contienen números, asegurando que solo palabras alfabéticas permanezcan.
Vectorización:
- Implementa un
CountVectorizer
con la función de tokenización personalizada que has definido. - Aplica el vectorizador para transformar los textos preprocesados y obtener una representación numérica.
Resultados:
- Imprime las primeras cinco características obtenidas (tokens) de la matriz de características numéricas.
Solución al ejercicio
¡Desbloquea la solución completa!
Completa el examen para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.
Practica con exámenes de ScikitLearn
Mejora tus habilidades con cientos de exámenes de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.
Retroalimentación
Aprende de tus errores
Progreso
Mide tu avance
Certificación
Valida tus habilidades
Únete a miles de desarrolladores mejorando sus habilidades