Descripción
Reto de tokenización personalizada.
En este ejercicio de programación, te centrarás en aplicar una función de tokenización personalizada usando Scikit-Learn para preprocesar un conjunto de datos de texto en español. Utilizarás el conjunto de datos de mensajes de correo electrónico proporcionado por Scikit-Learn y definirás una función que:
- convierte el texto a minúsculas,
- elimina signos de puntuación,
- conserva acentos,
- y excluye cualquier token que contenga números.
Instrucciones:
Carga de datos:
- Utiliza el conjunto de datos
fetch_20newsgroups
, disponible en Scikit-Learn. - Filtra el subconjunto de datos relacionados con categorías de correos electrónicos.
Tokenización personalizada:
Guarda tu progreso
Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.
Más de 25.000 desarrolladores ya confían en CertiDevs
- Define una función personalizada que convierta cada mensaje a minúsculas y elimine signos de puntuación excepto los acentos.
- Filtra los tokens que contienen números, asegurando que solo palabras alfabéticas permanezcan.
Vectorización:
- Implementa un
CountVectorizer
con la función de tokenización personalizada que has definido. - Aplica el vectorizador para transformar los textos preprocesados y obtener una representación numérica.
Resultados:
- Imprime las primeras cinco características obtenidas (tokens) de la matriz de características numéricas.
Solución al ejercicio de programación en ScikitLearn
¡Desbloquea la solución completa!
Completa el ejercicio de programación en ScikitLearn para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.
Practica con ejercicios de programación en ScikitLearn
Mejora tus habilidades con cientos de ejercicios de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.
Asistente de IA
Aprende de tus errores
Progreso
Mide tu avance
Certificación
Valida tus habilidades
Únete a miles de desarrolladores mejorando sus habilidades en ScikitLearn