Ejercicio de programación con ScikitLearn: Representación de texto y extracción de características

Código
Práctica
0h 30m

Aprende a aplicar técnicas de extracción de características textuales utilizando Scikit-Learncon TfidfVectorizer para NLP. Este reto implica el uso de CountVectorizer, TF-IDF y clasificadores básicos.

En este reto, se espera que los estudiantes implementen una pipeline en la que puedan transformar una colección de documentos de texto en una representación numérica utilizando técnicas del modelo de bolsa de palabras, y que aplique posteriormente una clasificación básica usando un clasificador de Naive Bayes. El desafío será utilizar tanto CountVectorizer como TfidfVectorizer para observar las diferencias y su impacto en la clasificación de los documentos de ejemplo.

Carga de datos: Carga un conjunto de documentos de ejemplo o utiliza datos proporcionados internamente en el código en forma de lista de cadenas. Puedes usar estos datos, la lista documents como si fuera una entrada “X” y la lista categories como si fuera una salida “y”:

documents = [
    "cats and dogs",
    "lions and tigers",
    "apples and bananas",
    "oranges and lemons",
    "pet food for cats and dogs",
    "the zoo has lions and tigers",
    "fruit salad with apples and bananas",
    "freshly squeezed oranges and lemons"
]
categories = ["pets", "animals", "fruits", "fruits", "pets", "animals", "fruits", "fruits"]

Aplicar CountVectorizer: Implementa el uso del CountVectorizer para transformar los documentos en una matriz de conteo de palabras.

  • Imprime el vocabulario y la matriz de conteos resultante.

Aplicar TF-IDF Vectorizer: Ahora, transforma la misma colección de documentos utilizando TfidfVectorizer para obtener la representación TF-IDF.

  • Imprime el vocabulario y la matriz TF-IDF resultante.

Entrenamiento del clasificador: Implementa un Pipeline que integre el TfidfVectorizer seguido por un clasificador MultinomialNB.

  • Utiliza una colección de documentos y categorías predefinidas para entrenar el modelo.

Evaluación del modelo: Evalúa el rendimiento del modelo clasificador entrenado realizando predicciones sobre un nuevo conjunto de documentos y compara los resultados con las etiquetas verdaderas.

Empezar ejercicio de programación

Todos los ejercicios de programación de ScikitLearn

Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.

Regresión SVM con SVR

scikit-learn
Código

Ajuste de hiperparámetros

scikit-learn
Código

Pipelines y Validación Cruzada

scikit-learn
Código

Preprocesamiento de datos desbalanceados

scikit-learn
Código

Pipelines con ColumnTransformer

scikit-learn
Código

Validación y evaluación de modelos

scikit-learn
Código

Preprocesamiento de datos de series temporales

scikit-learn
Código

Identificación y tratamiento de valores faltantes

scikit-learn
Código

Ingeniería de características para series temporales

scikit-learn
Código

Introducción a la clasificación

scikit-learn
Código

Transformación y escalado de series temporales

scikit-learn
Código

Extracción de características

scikit-learn
Código

Clasificación KNN KNeighborsClassifier

scikit-learn
Código

Regresión con algoritmos de conjunto

scikit-learn
Código

Regresión lineal

scikit-learn
Código

Reducción de la dimensionalidad con PCA

scikit-learn
Código

Clasificación con algoritmos de conjunto

scikit-learn
Código

Clasificación SVM con SVC

scikit-learn
Código

Escalado de datos

scikit-learn
Código

Clustering jerárquico

scikit-learn
Código

Análisis de sentimiento

scikit-learn
Código

Validación y evaluación de modelos en series temporales

scikit-learn
Código

Regresión KNN KNeighborsRegressor

scikit-learn
Código

Técnicas de validación cruzada

scikit-learn
Código

Introducción al preprocesamiento de datos

scikit-learn
Código

Exportar e importar Pipelines

scikit-learn
Código

Preprocesamiento de textos para NLP

scikit-learn
Código

Clasificación con árboles DecisionTreeClassifier

scikit-learn
Código

Selección de Características

scikit-learn
Código

Introducción a la regresión

scikit-learn
Código

Clasificación con regresión logística en Scikit Learn

scikit-learn
Código

Ingeniería de Características

scikit-learn
Código

Clustering con KMeans

scikit-learn
Código

Introducción al análisis de series temporales

scikit-learn
Código

Codificación de variables categóricas

scikit-learn
Código

Clasificación de Texto con Scikit Learn

scikit-learn
Código

Métricas de Regresión

scikit-learn
Código

Aprendizaje automático

scikit-learn
Puzzle

Clustering de densidad con DBSCAN

scikit-learn
Código

Métricas de clasificación

scikit-learn
Código

Técnicas avanzadas de extracción de características

scikit-learn
Código

Creación de pipelines básicos

scikit-learn
Código

Particionamiento de datos

scikit-learn
Código

Normalización de datos

scikit-learn
Código

Regresión con árboles DecisionTreeRegressor

scikit-learn
Código

Introducción e instalación de Scikit Learn

scikit-learn
Código

Preprocesamiento de datos con pipelines

scikit-learn
Código

Introducción a pipelines

scikit-learn
Código

Tutorial para resolver este ejercicio de programación

scikit-learn

ScikitLearn

Representación de texto y extracción de características

NLP

Otros tutoriales de programación con ScikitLearn

Aprendizaje Automático

scikit-learn

Introducción Y Entorno

Introducción E Instalación

scikit-learn

Introducción Y Entorno

Introducción Al Preprocesamiento De Datos

scikit-learn

Preprocesamiento De Datos

Identificación Y Tratamiento De Valores Faltantes

scikit-learn

Preprocesamiento De Datos

Escalado De Datos

scikit-learn

Preprocesamiento De Datos

Normalización De Datos

scikit-learn

Preprocesamiento De Datos

Codificación De Variables Categóricas

scikit-learn

Preprocesamiento De Datos

Ingeniería De Características

scikit-learn

Preprocesamiento De Datos

Selección De Características

scikit-learn

Preprocesamiento De Datos

Extracción De Características

scikit-learn

Preprocesamiento De Datos

Particionamiento De Datos

scikit-learn

Preprocesamiento De Datos

Preprocesamiento De Datos Desbalanceados

scikit-learn

Preprocesamiento De Datos

Introducción A La Regresión

scikit-learn

Regresión

Regresión Lineal

scikit-learn

Regresión

Regresión Knn Kneighborsregressor

scikit-learn

Regresión

Regresión Svm Con Svr

scikit-learn

Regresión

Regresión Con Árboles Decisiontreeregressor

scikit-learn

Regresión

Regresión Con Algoritmos De Conjunto

scikit-learn

Regresión

Introducción A La Clasificación

scikit-learn

Clasificación

Clasificación Con Regresión Logística

scikit-learn

Clasificación

Clasificación Knn Kneighborsclassifier

scikit-learn

Clasificación

Clasificación Svm Con Svc

scikit-learn

Clasificación

Clasificación Con Árboles Decisiontreeclassifier

scikit-learn

Clasificación

Clasificación Con Algoritmos De Conjunto

scikit-learn

Clasificación

Reducción De La Dimensionalidad Con Pca

scikit-learn

Aprendizaje No Supervisado

Clustering Con Kmeans

scikit-learn

Aprendizaje No Supervisado

Clustering Jerárquico

scikit-learn

Aprendizaje No Supervisado

Clustering De Densidad Con Dbscan

scikit-learn

Aprendizaje No Supervisado

Preprocesamiento De Textos Para Nlp

scikit-learn

Nlp

Clasificación De Texto Con Scikit Learn

scikit-learn

Nlp

Análisis De Sentimiento

scikit-learn

Nlp

Técnicas Avanzadas De Extracción De Características

scikit-learn

Nlp

Introducción Al Análisis De Series Temporales

scikit-learn

Series Temporales

Preprocesamiento De Datos De Series Temporales

scikit-learn

Series Temporales

Ingeniería De Características Para Series Temporales

scikit-learn

Series Temporales

Transformación Y Escalado De Series Temporales

scikit-learn

Series Temporales

Validación Y Evaluación De Modelos En Series Temporales

scikit-learn

Series Temporales

Validación Y Evaluación De Modelos

scikit-learn

Validación De Modelos

Técnicas De Validación Cruzada

scikit-learn

Validación De Modelos

Métricas De Regresión

scikit-learn

Validación De Modelos

Métricas De Clasificación

scikit-learn

Validación De Modelos

Ajuste De Hiperparámetros

scikit-learn

Validación De Modelos

Introducción A Pipelines

scikit-learn

Pipelines Y Despliegue

Creación De Pipelines Básicos

scikit-learn

Pipelines Y Despliegue

Preprocesamiento De Datos Con Pipelines

scikit-learn

Pipelines Y Despliegue

Pipelines Y Validación Cruzada

scikit-learn

Pipelines Y Despliegue

Pipelines Con Columntransformer

scikit-learn

Pipelines Y Despliegue

Exportar E Importar Pipelines

scikit-learn

Pipelines Y Despliegue