Clasificación de Texto con Scikit Learn

Código
Avanzado
ScikitLearn
ScikitLearn
30 min
200 XP
Actualizado: 28/02/2025

¡Practica y certifícate!

Retroalimentación
Soluciones
Certificado
Comenzar

Descripción

Construye un clasificador Naive Bayes para datos de texto desbalanceados usando Scikit-Learn.

En este reto, tendrás que construir un clasificador Naive Bayes multinomial para identificar categorías de texto a partir de un conjunto de datos desbalanceado. Identificar correctamente las clases con menor frecuencia es crucial para mejorar el rendimiento del modelo, por lo que te proporcionamos un dataset que podrás utilizar para aplicar técnicas de balanceo de clases mediante Scikit-Learn.

Utilizaremos el dataset de noticias 20 Newsgroups de Scikit-Learn, particularmente las categorías 'sci.space' y 'rec.sport.baseball'. Este dataset ya está desbalanceado y es ideal para el reto.

Carga del dataset:

  • Utiliza la función fetch_20newsgroups de Scikit-Learn para cargar las categorías mencionadas.

Division y vectorización:

  • Divide el dataset en conjuntos de entrenamiento y prueba asegurando la proporción adecuada de las clases.
  • Vectoriza los documentos de texto usando el vectorizador TF-IDF.

Preprocesamiento de datos desbalanceados:

Guarda tu progreso

Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.

Progreso guardado
Asistente IA
Ejercicios
Iniciar sesión gratis

Más de 25.000 desarrolladores ya confían en CertiDevs

  • Maneja el desbalanceo de clases ajustando los pesos de las clases o mediante técnicas de sobremuestreo como SMOTE o RandomOverSampler de imblearn.

Creación yentrenamiento del modelo:

  • Implementa un clasificador Naive Bayes Multinomial sobre los datos procesados.

Predicción y evaluación del modelo:

  • Realiza predicciones sobre el conjunto de prueba y evalúa el modelo usando el F1-score ponderado.

Resultados:

  • Presenta el F1-score obtenido y justifica la eficacia de las técnicas utilizadas para manejar el desbalance de clases.

Solución al ejercicio

Contenido bloqueado

¡Desbloquea la solución completa!

Completa el examen para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.

solution.js
JavaScript
1 function solveChallenge ( input ) {
2 // Algoritmo optimizado O(n log n)
3 const data = parseInput ( input );
4 const sorted = data . sort (( a , b ) => a - b );
5
6 // Aplicar técnica de dos punteros
7 let left = 0 , right = sorted . length - 1 ;
8 const result = [];
9
10 while ( left < right ) {
11 const sum = sorted [ left ] + sorted [ right ];
12 if ( sum === target ) {
13 result . push ([ sorted [ left ], sorted [ right ]]);
14 left ++; right --;
15 } else if ( sum < target ) {
16 left ++;
17 } else {
18 right --;
19 }
20 }
21
22 return result ;
23 }
Código completo
Explicaciones
Mejores prácticas
+1.200 developers han resuelto este ejercicio de programación

Practica con exámenes de ScikitLearn

Mejora tus habilidades con cientos de exámenes de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.

Retroalimentación

Aprende de tus errores

Progreso

Mide tu avance

Certificación

Valida tus habilidades

Únete a miles de desarrolladores mejorando sus habilidades

⭐⭐⭐⭐⭐
4.9/5 valoración