Representación de texto y extracción de características

Código
Avanzado
ScikitLearn
ScikitLearn
30 min
200 XP
Actualizado: 28/02/2025

¡Practica y certifícate!

Retroalimentación
Soluciones
Certificado
Comenzar

Descripción

Reto de extracción de características con CountVectorizer y TF-IDF en Scikit-Learn.

En este reto, se espera que los estudiantes implementen una pipeline en la que puedan transformar una colección de documentos de texto en una representación numérica utilizando técnicas del modelo de bolsa de palabras, y que aplique posteriormente una clasificación básica usando un clasificador de Naive Bayes. El desafío será utilizar tanto CountVectorizer como TfidfVectorizer para observar las diferencias y su impacto en la clasificación de los documentos de ejemplo.

Carga de datos: Carga un conjunto de documentos de ejemplo o utiliza datos proporcionados internamente en el código en forma de lista de cadenas. Puedes usar estos datos, la lista documents como si fuera una entrada “X” y la lista categories como si fuera una salida “y”:

documents = [
    "cats and dogs",
    "lions and tigers",
    "apples and bananas",
    "oranges and lemons",
    "pet food for cats and dogs",
    "the zoo has lions and tigers",
    "fruit salad with apples and bananas",
    "freshly squeezed oranges and lemons"
]
categories = ["pets", "animals", "fruits", "fruits", "pets", "animals", "fruits", "fruits"]

Aplicar CountVectorizer: Implementa el uso del CountVectorizer para transformar los documentos en una matriz de conteo de palabras.

  • Imprime el vocabulario y la matriz de conteos resultante.

Aplicar TF-IDF Vectorizer: Ahora, transforma la misma colección de documentos utilizando TfidfVectorizer para obtener la representación TF-IDF.

Guarda tu progreso

Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.

Progreso guardado
Asistente IA
Ejercicios
Iniciar sesión gratis

Más de 25.000 desarrolladores ya confían en CertiDevs

  • Imprime el vocabulario y la matriz TF-IDF resultante.

Entrenamiento del clasificador: Implementa un Pipeline que integre el TfidfVectorizer seguido por un clasificador MultinomialNB.

  • Utiliza una colección de documentos y categorías predefinidas para entrenar el modelo.

Evaluación del modelo: Evalúa el rendimiento del modelo clasificador entrenado realizando predicciones sobre un nuevo conjunto de documentos y compara los resultados con las etiquetas verdaderas.

Solución al ejercicio

Contenido bloqueado

¡Desbloquea la solución completa!

Completa el examen para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.

solution.js
JavaScript
1 function solveChallenge ( input ) {
2 // Algoritmo optimizado O(n log n)
3 const data = parseInput ( input );
4 const sorted = data . sort (( a , b ) => a - b );
5
6 // Aplicar técnica de dos punteros
7 let left = 0 , right = sorted . length - 1 ;
8 const result = [];
9
10 while ( left < right ) {
11 const sum = sorted [ left ] + sorted [ right ];
12 if ( sum === target ) {
13 result . push ([ sorted [ left ], sorted [ right ]]);
14 left ++; right --;
15 } else if ( sum < target ) {
16 left ++;
17 } else {
18 right --;
19 }
20 }
21
22 return result ;
23 }
Código completo
Explicaciones
Mejores prácticas
+1.200 developers han resuelto este ejercicio de programación

Practica con exámenes de ScikitLearn

Mejora tus habilidades con cientos de exámenes de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.

Retroalimentación

Aprende de tus errores

Progreso

Mide tu avance

Certificación

Valida tus habilidades

Únete a miles de desarrolladores mejorando sus habilidades

⭐⭐⭐⭐⭐
4.9/5 valoración