Ejercicio de programación con ScikitLearn: Técnicas avanzadas de extracción de características
1h 0m
Enfréntate al reto de aplicar word embeddings y pipelines en Scikit Learn siguiendo nuestras detalladas instrucciones. Desarrolla e innova en tu modelado NLP.
En este reto, aplicarás tus conocimientos sobre palabra embeddings y pipelines para integrarlos dentro de Scikit Learn. Vamos a utilizar los embeddings de GloVe para representar un conjunto de datos textuales, que luego se utilizarán para entrenar un modelo de clasificación binaria. Trabajarás con el conjunto de datos fetch_20newsgroups
proporcionado por Scikit Learn, que contiene una colección de noticias agrupadas en 20 categorías diferentes.
Carga del dataset: Utiliza fetch_20newsgroups
para cargar el conjunto de datos. Escoge las categorías comp.sys.mac.hardware
y rec.motorcycles
para ser tus etiquetas.
Carga de embeddings preentrenados: Descarga y carga los embeddings de GloVe preentrenados disponibles online en Kaggle (e.g., glove.6B.50d.txt) en un diccionario para su fácil manejo.
Creación de un transformador de embeddings: Implementa un transformador personalizado que convierta el texto del conjunto de datos en representaciones vectoriales usando los embeddings de GloVe cargados.
Definición del pipeline de Scikit Learn: Diseña un pipeline que incluya el transformador de embeddings y un clasificador como LogisticRegression
.
Entrenamiento y evaluación del modelo: Entrena tu modelo con el conjunto de entrenamiento y evalúa su rendimiento en el conjunto de prueba mostrando la precisión del modelo.
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Ajuste de hiperparámetros
Pipelines y Validación Cruzada
Preprocesamiento de datos desbalanceados
Pipelines con ColumnTransformer
Validación y evaluación de modelos
Preprocesamiento de datos de series temporales
Identificación y tratamiento de valores faltantes
Ingeniería de características para series temporales
Introducción a la clasificación
Transformación y escalado de series temporales
Extracción de características
Clasificación KNN KNeighborsClassifier
Regresión con algoritmos de conjunto
Regresión lineal
Reducción de la dimensionalidad con PCA
Clasificación con algoritmos de conjunto
Clasificación SVM con SVC
Escalado de datos
Clustering jerárquico
Análisis de sentimiento
Validación y evaluación de modelos en series temporales
Regresión KNN KNeighborsRegressor
Técnicas de validación cruzada
Introducción al preprocesamiento de datos
Exportar e importar Pipelines
Preprocesamiento de textos para NLP
Clasificación con árboles DecisionTreeClassifier
Selección de Características
Introducción a la regresión
Clasificación con regresión logística en Scikit Learn
Ingeniería de Características
Clustering con KMeans
Introducción al análisis de series temporales
Codificación de variables categóricas
Clasificación de Texto con Scikit Learn
Métricas de Regresión
Aprendizaje automático
Clustering de densidad con DBSCAN
Métricas de clasificación
Creación de pipelines básicos
Particionamiento de datos
Normalización de datos
Regresión con árboles DecisionTreeRegressor
Introducción e instalación de Scikit Learn
Preprocesamiento de datos con pipelines
Representación de texto y extracción de características
Introducción a pipelines
Tutorial para resolver este ejercicio de programación
ScikitLearn
Técnicas avanzadas de extracción de características
NLP