Este repositorio contiene dos etapas del proyecto: Entrenamiento del modelo y Pruebas de Inferencia.
| Notebook | Visualizar en Colab (Recomendado) |
|---|---|
| 1. Entrenamiento (Training) | |
| 2. Inferencia (Inference) |
Clasificación semántica de reseñas de películas (IMDB) utilizando el estado del arte en Procesamiento de Lenguaje Natural (NLP). Este proyecto implementa Deep Learning y Transfer Learning mediante el modelo BERT para entender el contexto y matices del lenguaje humano mejor que los modelos tradicionales.
- Deep Learning: PyTorch / TensorFlow, Transformers (Hugging Face).
- NLP: Tokenization (BERT Base Uncased), Word Embeddings.
- Hardware: Aceleración por GPU.
- Tokenización: Procesamiento de texto crudo para adaptarlo a la entrada de BERT (CLS/SEP tokens, padding).
- Embeddings: Extracción de representaciones vectoriales densas utilizando un modelo BERT pre-entrenado.
- Entrenamiento: Clasificador (Regresión Logística/NN) entrenado sobre los embeddings para distinguir entre reseñas positivas y negativas.
- Inferencia: Pruebas con textos inéditos para validar la generalización.
El uso de BERT permitió capturar sarcasmo y dobles negaciones, superando significativamente a los enfoques basados en frecuencia de palabras (TF-IDF).
Este proyecto utiliza un subconjunto del dataset público IMDB Movie Review Dataset.
💡 Nota de Visualización: GitHub a menudo tiene problemas renderizando notebooks complejos. Por favor, usa los botones de "Open in Colab" de la tabla superior para ver el código y las gráficas correctamente.