Preprocesamiento de textos para NLP

Código
Avanzado
ScikitLearn
ScikitLearn
30 min
200 XP
Actualizado: 28/02/2025

¡Practica y certifícate!

Retroalimentación
Soluciones
Certificado
Comenzar

Descripción

Reto de tokenización personalizada.

En este ejercicio de programación, te centrarás en aplicar una función de tokenización personalizada usando Scikit-Learn para preprocesar un conjunto de datos de texto en español. Utilizarás el conjunto de datos de mensajes de correo electrónico proporcionado por Scikit-Learn y definirás una función que:

  • convierte el texto a minúsculas,
  • elimina signos de puntuación,
  • conserva acentos,
  • y excluye cualquier token que contenga números.

Instrucciones:

Carga de datos:

  • Utiliza el conjunto de datos fetch_20newsgroups, disponible en Scikit-Learn.
  • Filtra el subconjunto de datos relacionados con categorías de correos electrónicos.

Tokenización personalizada:

Guarda tu progreso

Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.

Progreso guardado
Asistente IA
Ejercicios
Iniciar sesión gratis

Más de 25.000 desarrolladores ya confían en CertiDevs

  • Define una función personalizada que convierta cada mensaje a minúsculas y elimine signos de puntuación excepto los acentos.
  • Filtra los tokens que contienen números, asegurando que solo palabras alfabéticas permanezcan.

Vectorización:

  • Implementa un CountVectorizer con la función de tokenización personalizada que has definido.
  • Aplica el vectorizador para transformar los textos preprocesados y obtener una representación numérica.

Resultados:

  • Imprime las primeras cinco características obtenidas (tokens) de la matriz de características numéricas.

Solución al ejercicio

Contenido bloqueado

¡Desbloquea la solución completa!

Completa el examen para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.

solution.js
JavaScript
1 function solveChallenge ( input ) {
2 // Algoritmo optimizado O(n log n)
3 const data = parseInput ( input );
4 const sorted = data . sort (( a , b ) => a - b );
5
6 // Aplicar técnica de dos punteros
7 let left = 0 , right = sorted . length - 1 ;
8 const result = [];
9
10 while ( left < right ) {
11 const sum = sorted [ left ] + sorted [ right ];
12 if ( sum === target ) {
13 result . push ([ sorted [ left ], sorted [ right ]]);
14 left ++; right --;
15 } else if ( sum < target ) {
16 left ++;
17 } else {
18 right --;
19 }
20 }
21
22 return result ;
23 }
Código completo
Explicaciones
Mejores prácticas
+1.200 developers han resuelto este ejercicio de programación

Practica con exámenes de ScikitLearn

Mejora tus habilidades con cientos de exámenes de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.

Retroalimentación

Aprende de tus errores

Progreso

Mide tu avance

Certificación

Valida tus habilidades

Únete a miles de desarrolladores mejorando sus habilidades

⭐⭐⭐⭐⭐
4.9/5 valoración