Scikit Learn TfidfVectorizer y CountVectorizer en código

Ejercicio de programación: Representación de texto y extracción de características

Este ejercicio de programación está diseñado para poner a prueba tus conocimientos en Scikit Learn. Es un ejercicio avanzado que pondrá a prueba tus conocimientos expertos.

Tipo: Ejercicio de código 30 minutos estimados 200 puntos de experiencia

Información adicional del ejercicio

Reto de extracción de características con CountVectorizer y TF-IDF en Scikit-Learn.

Contenido del ejercicio

En este reto, se espera que los estudiantes implementen una pipeline en la que puedan transformar una colección de documentos de texto en una representación numérica utilizando técnicas del modelo de bolsa de palabras, y que aplique posteriormente una clasificación básica usando un clasificador de Naive Bayes. El desafío será utilizar tanto CountVectorizer como TfidfVectorizer para observar las diferencias y su impacto en la clasificación de los documentos de ejemplo.

Carga de datos: Carga un conjunto de documentos de ejemplo o utiliza datos proporcionados internamente en el código en forma de lista de cadenas. Puedes usar estos datos, la lista documents como si fuera una entrada "X" y la lista categories como si fuera una salida "y":

documents = [
    "cats and dogs",
    "lions and tigers",
    "apples and bananas",
    "oranges and lemons",
    "pet food for cats and dogs",
    "the zoo has lions and tigers",
    "fruit salad with apples and bananas",
    "freshly squeezed oranges and lemons"
]
categories = ["pets", "animals", "fruits", "fruits", "pets", "animals", "fruits", "fruits"]

Aplicar CountVectorizer: Implementa el uso del CountVectorizer para transformar los documentos en una matriz de conteo de palabras.

Imprime el vocabulario y la matriz de conteos resultante.

Aplicar TF-IDF Vectorizer: Ahora, transforma la misma colección de documentos utilizando TfidfVectorizer para obtener la representación TF-IDF.

Imprime el vocabulario y la matriz TF-IDF resultante.

Entrenamiento del clasificador: Implementa un Pipeline que integre el TfidfVectorizer seguido por un clasificador MultinomialNB.

Utiliza una colección de documentos y categorías predefinidas para entrenar el modelo.

Evaluación del modelo: Evalúa el rendimiento del modelo clasificador entrenado realizando predicciones sobre un nuevo conjunto de documentos y compara los resultados con las etiquetas verdaderas.

Lección relacionada

Este ejercicio está relacionado con la lección "Representación de texto y extracción de características" de Scikit Learn. Te recomendamos revisar la lección antes de comenzar.

Ver lección relacionada

Más ejercicios de Scikit Learn

Explora más ejercicios de programación en Scikit Learn para mejorar tus habilidades y obtener tu certificación.

Ver más ejercicios de Scikit Learn

Explora el curso completo de Scikit Learn

Descubre más contenido de Scikit Learn con lecciones, ejercicios y módulos organizados para tu aprendizaje.

Módulo: NLP

Ver todas las lecciones y ejercicios de este módulo

Lecciones de Scikit Learn

Aprende los conceptos fundamentales con tutoriales detallados

Ejercicios de Scikit Learn

Practica con más ejercicios de programación

Módulos de Scikit Learn

Explora todos los módulos del curso organizados por temas

Curso completo de Scikit Learn

Ver el temario completo con todos los contenidos del curso

Todas las tecnologías

Explora todos los cursos de programación disponibles

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Scikit Learn es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear ejercicios prácticos y contenido educativo de calidad para desarrolladores de todos los niveles.

Solución al ejercicio de programación en Scikit Learn

Contenido bloqueado

¡Desbloquea la solución completa!

Completa el ejercicio de programación en Scikit Learn para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.

solution.js

JavaScript

1 function solveChallenge ( input ) {

2 // Algoritmo optimizado O(n log n)

3 const data = parseInput ( input );

4 const sorted = data . sort (( a , b ) => a - b );

6 // Aplicar técnica de dos punteros

7 let left = 0 , right = sorted . length - 1 ;

8 const result = [];

10 while ( left < right ) {

11 const sum = sorted [ left ] + sorted [ right ];

12 if ( sum === target ) {

13 result . push ([ sorted [ left ], sorted [ right ]]);

14 left ++; right --;

15 } else if ( sum < target ) {

16 left ++;

17 } else {

18 right --;

19 }

20 }

22 return result ;

23 }

Código completo

Explicaciones

Mejores prácticas

+1.200 developers han resuelto este ejercicio de programación

Practica con ejercicios de programación en Scikit Learn

Mejora tus habilidades con cientos de ejercicios de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.

Asistente de IA

Aprende de tus errores

Progreso

Mide tu avance

Certificación

Valida tus habilidades

Ver curso completo

Ejercicios de programación en Scikit Learn: Práctica y Certificación

Los ejercicios de programación son fundamentales para dominar Scikit Learn. Este ejercicio está diseñado para poner a prueba tus conocimientos prácticos y ayudarte a consolidar lo aprendido en las lecciones teóricas. La práctica constante con ejercicios de programación es la clave para convertirte en un desarrollador experto.

¿Por qué resolver ejercicios de programación?

Resolver ejercicios de programación en Scikit Learn te permite:

Aplicar conocimientos teóricos: Poner en práctica los conceptos aprendidos en las lecciones de Scikit Learn.
Identificar áreas de mejora: Descubrir qué conceptos necesitas reforzar en tu aprendizaje de Scikit Learn.
Prepararte para certificaciones: Los ejercicios te preparan para obtener certificados profesionales en Scikit Learn.
Mejorar tu perfil profesional: Demostrar tus habilidades prácticas en Scikit Learn.

Metodología de aprendizaje

Nuestros ejercicios de programación están diseñados siguiendo una metodología probada de aprendizaje progresivo. Cada ejercicio en Scikit Learn está cuidadosamente estructurado para llevar tus habilidades al siguiente nivel. Comenzamos con conceptos fundamentales y avanzamos gradualmente hacia desafíos más complejos que reflejan situaciones reales del desarrollo de software profesional.

Certificación y validación de conocimientos

Al completar ejercicios de programación, no solo mejoras tus habilidades técnicas, sino que también puedes obtener certificados que validan tu expertise en Scikit Learn. Estos certificados son reconocidos por empresas y pueden ser una gran adición a tu perfil profesional de LinkedIn o tu CV como desarrollador.

Los ejercicios están alineados con los estándares de la industria y cubren desde conceptos básicos hasta técnicas avanzadas de programación en Scikit Learn. Cada ejercicio incluye casos de prueba y ejemplos prácticos que te ayudarán a comprender mejor cómo aplicar lo aprendido en proyectos reales.