Ejercicio de programación con ScikitLearn: Clasificación de Texto con Scikit Learn
0h 30m
Desarrolla un clasificador de texto Naive Bayes manejando datos desbalanceados con Scikit-Learn en este reto avanzado de NLP.
En este reto, tendrás que construir un clasificador Naive Bayes multinomial para identificar categorías de texto a partir de un conjunto de datos desbalanceado. Identificar correctamente las clases con menor frecuencia es crucial para mejorar el rendimiento del modelo, por lo que te proporcionamos un dataset que podrás utilizar para aplicar técnicas de balanceo de clases mediante Scikit-Learn.
Utilizaremos el dataset de noticias 20 Newsgroups de Scikit-Learn, particularmente las categorías 'sci.space' y 'rec.sport.baseball'. Este dataset ya está desbalanceado y es ideal para el reto.
Carga del dataset:
- Utiliza la función
fetch_20newsgroups
de Scikit-Learn para cargar las categorías mencionadas.
Division y vectorización:
- Divide el dataset en conjuntos de entrenamiento y prueba asegurando la proporción adecuada de las clases.
- Vectoriza los documentos de texto usando el vectorizador TF-IDF.
Preprocesamiento de datos desbalanceados:
- Maneja el desbalanceo de clases ajustando los pesos de las clases o mediante técnicas de sobremuestreo como
SMOTE
oRandomOverSampler
de imblearn.
Creación yentrenamiento del modelo:
- Implementa un clasificador Naive Bayes Multinomial sobre los datos procesados.
Predicción y evaluación del modelo:
- Realiza predicciones sobre el conjunto de prueba y evalúa el modelo usando el F1-score ponderado.
Resultados:
- Presenta el F1-score obtenido y justifica la eficacia de las técnicas utilizadas para manejar el desbalance de clases.
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Ajuste de hiperparámetros
Pipelines y Validación Cruzada
Preprocesamiento de datos desbalanceados
Pipelines con ColumnTransformer
Validación y evaluación de modelos
Preprocesamiento de datos de series temporales
Identificación y tratamiento de valores faltantes
Ingeniería de características para series temporales
Introducción a la clasificación
Transformación y escalado de series temporales
Extracción de características
Clasificación KNN KNeighborsClassifier
Regresión con algoritmos de conjunto
Regresión lineal
Reducción de la dimensionalidad con PCA
Clasificación con algoritmos de conjunto
Clasificación SVM con SVC
Escalado de datos
Clustering jerárquico
Análisis de sentimiento
Validación y evaluación de modelos en series temporales
Regresión KNN KNeighborsRegressor
Técnicas de validación cruzada
Introducción al preprocesamiento de datos
Exportar e importar Pipelines
Preprocesamiento de textos para NLP
Clasificación con árboles DecisionTreeClassifier
Selección de Características
Introducción a la regresión
Clasificación con regresión logística en Scikit Learn
Ingeniería de Características
Clustering con KMeans
Introducción al análisis de series temporales
Codificación de variables categóricas
Métricas de Regresión
Aprendizaje automático
Clustering de densidad con DBSCAN
Métricas de clasificación
Técnicas avanzadas de extracción de características
Creación de pipelines básicos
Particionamiento de datos
Normalización de datos
Regresión con árboles DecisionTreeRegressor
Introducción e instalación de Scikit Learn
Preprocesamiento de datos con pipelines
Representación de texto y extracción de características
Introducción a pipelines
Tutorial para resolver este ejercicio de programación
ScikitLearn
Clasificación de Texto con Scikit Learn
NLP