Ejercicio de programación con ScikitLearn: Análisis de sentimiento
0h 30m
Desarrolla un modelo de análisis de sentimiento con Scikit-Learn siguiendo este reto de programación estructurado con explicación e instrucciones claras utilizando NLTK para NLP.
En este reto, se utilizará Scikit-Learn para desarrollar un modelo de análisis de sentimiento aplicando técnicas de preprocesamiento y vectorización de texto.
Usarás un conjunto de datos para entrenar y evaluar el modelo y seguirás un flujo de trabajo para convertire los textos en vectores numéricos, aplicar modelos de clasificación y medir su desempeño.
Carga de datos: Utiliza el conjunto de datos de "Movie Reviews" disponible en la librería nltk.corpus
de NLTK. Descarga los datos necesarios y extrae las opiniones.
Preprocesamiento: Implementa funciones para manejar negaciones y normalizar repetiticiones. Utiliza herramientas como nltk
para tokenizar, y regex
para transformar el texto para que el modelo lo entienda mejor.
Vectorización: Convierte los textos usando TfidfVectorizer
de Scikit-Learn. Configura el vectorizador para capturar n-gramas y aplica preprocesamiento personalizado.
División del dataset: Separa el dataset en entrenamiento y prueba usando train_test_split
con un 80% de datos para entrenamiento.
Creación del modelo: Aplica el modelo de MultinomialNB
de Scikit-Learn para clasificar los textos en positivos y negativos.
Entrenamiento del modelo: Ajusta el modelo con los datos de entrenamiento.
Evaluación: Mide el rendimiento del modelo utilizando precisión (accuracy_score
) y genera un reporte de clasificación con classification_report
.
Predicción: Utiliza el modelo para predecir la polaridad de nuevas reseñas de películas que no estén en el set de entrenamiento.
Programa el código en tu entorno local y pégalo en nuestro editor para evaluarlo.
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Ajuste de hiperparámetros
Pipelines y Validación Cruzada
Preprocesamiento de datos desbalanceados
Pipelines con ColumnTransformer
Validación y evaluación de modelos
Preprocesamiento de datos de series temporales
Identificación y tratamiento de valores faltantes
Ingeniería de características para series temporales
Introducción a la clasificación
Transformación y escalado de series temporales
Extracción de características
Clasificación KNN KNeighborsClassifier
Regresión con algoritmos de conjunto
Regresión lineal
Reducción de la dimensionalidad con PCA
Clasificación con algoritmos de conjunto
Clasificación SVM con SVC
Escalado de datos
Clustering jerárquico
Validación y evaluación de modelos en series temporales
Regresión KNN KNeighborsRegressor
Técnicas de validación cruzada
Introducción al preprocesamiento de datos
Exportar e importar Pipelines
Preprocesamiento de textos para NLP
Clasificación con árboles DecisionTreeClassifier
Selección de Características
Introducción a la regresión
Clasificación con regresión logística en Scikit Learn
Ingeniería de Características
Clustering con KMeans
Introducción al análisis de series temporales
Codificación de variables categóricas
Clasificación de Texto con Scikit Learn
Métricas de Regresión
Aprendizaje automático
Clustering de densidad con DBSCAN
Métricas de clasificación
Técnicas avanzadas de extracción de características
Creación de pipelines básicos
Particionamiento de datos
Normalización de datos
Regresión con árboles DecisionTreeRegressor
Introducción e instalación de Scikit Learn
Preprocesamiento de datos con pipelines
Representación de texto y extracción de características
Introducción a pipelines
Tutorial para resolver este ejercicio de programación
ScikitLearn
Análisis de sentimiento
NLP