Preprocesamiento de textos para NLP

Código
Avanzado
ScikitLearn
Curso de ScikitLearn
30 min
200 XP
Actualizado: 28/02/2025

¡Programa y certifícate!

Asistente de IA
Solución de código
Certificado
Empezar ejercicio

Descripción

Reto de tokenización personalizada.

En este ejercicio de programación, te centrarás en aplicar una función de tokenización personalizada usando Scikit-Learn para preprocesar un conjunto de datos de texto en español. Utilizarás el conjunto de datos de mensajes de correo electrónico proporcionado por Scikit-Learn y definirás una función que:

  • convierte el texto a minúsculas,
  • elimina signos de puntuación,
  • conserva acentos,
  • y excluye cualquier token que contenga números.

Instrucciones:

Carga de datos:

  • Utiliza el conjunto de datos fetch_20newsgroups, disponible en Scikit-Learn.
  • Filtra el subconjunto de datos relacionados con categorías de correos electrónicos.

Tokenización personalizada:

Guarda tu progreso

Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.

Progreso guardado
Asistente IA
Ejercicios
Iniciar sesión gratis

Más de 25.000 desarrolladores ya confían en CertiDevs

  • Define una función personalizada que convierta cada mensaje a minúsculas y elimine signos de puntuación excepto los acentos.
  • Filtra los tokens que contienen números, asegurando que solo palabras alfabéticas permanezcan.

Vectorización:

  • Implementa un CountVectorizer con la función de tokenización personalizada que has definido.
  • Aplica el vectorizador para transformar los textos preprocesados y obtener una representación numérica.

Resultados:

  • Imprime las primeras cinco características obtenidas (tokens) de la matriz de características numéricas.

Solución al ejercicio de programación en ScikitLearn

Contenido bloqueado

¡Desbloquea la solución completa!

Completa el ejercicio de programación en ScikitLearn para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.

solution.js
JavaScript
1 function solveChallenge ( input ) {
2 // Algoritmo optimizado O(n log n)
3 const data = parseInput ( input );
4 const sorted = data . sort (( a , b ) => a - b );
5
6 // Aplicar técnica de dos punteros
7 let left = 0 , right = sorted . length - 1 ;
8 const result = [];
9
10 while ( left < right ) {
11 const sum = sorted [ left ] + sorted [ right ];
12 if ( sum === target ) {
13 result . push ([ sorted [ left ], sorted [ right ]]);
14 left ++; right --;
15 } else if ( sum < target ) {
16 left ++;
17 } else {
18 right --;
19 }
20 }
21
22 return result ;
23 }
Código completo
Explicaciones
Mejores prácticas
+1.200 developers han resuelto este ejercicio de programación

Practica con ejercicios de programación en ScikitLearn

Mejora tus habilidades con cientos de ejercicios de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.

Asistente de IA

Aprende de tus errores

Progreso

Mide tu avance

Certificación

Valida tus habilidades

Únete a miles de desarrolladores mejorando sus habilidades en ScikitLearn

⭐⭐⭐⭐⭐
4.9/5 valoración