TensorFlow: Introducción a GANs, Arquitectura, Entrenamiento y Aplicaciones

Introducción a las GANs

Las redes generativas adversariales (GANs) surgen como un enfoque para la creación de datos sintéticos a partir de datos reales. Su esencia radica en la competencia entre dos modelos que cooperan indirectamente: uno genera muestras que intentan pasar por verdaderas y otro evalúa si dichas muestras logran o no parecerse a los datos reales.

En el contexto de investigación en aprendizaje profundo, las GANs han demostrado su versatilidad para tareas que requieren generar nuevas instancias con un alto grado de realismo. Este avance se apoya en la idea de que la retroalimentación entre ambos modelos (generador y evaluador) impulsa al generador a mejorar progresivamente la calidad de sus producciones.

Entre las características más destacadas de las GANs se incluyen:

La generación de contenido apto para diferentes tipos de datos, como imágenes, secuencias de audio o texto.
La posibilidad de aprovechar el proceso adversarial para refinar la distribución que el generador aprende.
La capacidad de trabajar con grandes conjuntos de datos sin necesidad de etiquetado exhaustivo, puesto que su objetivo se fundamenta en la distinción entre muestras reales y generadas.

A continuación se muestra un pequeño ejemplo en Python, donde se define un vector latente que podría servir de entrada para un generador en un entorno de TensorFlow:

import tensorflow as tf

# Ejemplo conceptual: Definición de un vector latente para una GAN
vector_latente = tf.random.normal(shape=(1, 100))

print("Vector latente:", vector_latente)

Este vector latente suele inicializarse con valores aleatorios y posteriormente se transforma en datos que aspiran a mimetizar el conjunto real. De este modo, se persigue que el modelo aprenda a crear nuevos ejemplos que resulten difíciles de distinguir de los originales.

Arquitectura de las GANs: generador y discriminador

En una arquitectura de GAN, el modelo generador produce ejemplos sintéticos a partir de un espacio latente, mientras el discriminador juzga la autenticidad de esos ejemplos. El objetivo principal es que el generador refinado logre engañar al discriminador de manera progresiva, pero cada uno de ellos cumple funciones bien diferenciadas dentro de la red.

El generador parte de un vector latente y lo transforma en datos que imitan aquellos del conjunto original. Para modelos basados en imágenes, se suelen usar capas de deconvolución o transposed convolution con activaciones adecuadas para lograr un alto nivel de detalle. Es frecuente incorporar normalizaciones, como BatchNormalization, y unidades lineales rectificadas o variantes como LeakyReLU para estabilizar el flujo de gradiente en redes profundas.

El discriminador es esencialmente un clasificador binario que recibe ejemplos reales o creados, y emite una probabilidad de autenticidad. Su diseño tiende a utilizar capas convolucionales o densas reduciendo gradualmente la dimensionalidad. Se considera apropiado añadir mecanismos de regularización que mitiguen el sobreajuste, especialmente cuando se usan conjuntos de datos de gran tamaño.

Un ejemplo de generator y discriminator en Python con TensorFlow podría definirse de la siguiente manera:

import tensorflow as tf

def build_generator(latent_dim):
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.InputLayer((latent_dim,)))
    model.add(tf.keras.layers.Dense(256, activation='relu'))
    model.add(tf.keras.layers.Reshape((16, 16, 1)))
    model.add(tf.keras.layers.Conv2DTranspose(64, (3,3), strides=(2,2), padding='same', activation='relu'))
    model.add(tf.keras.layers.Conv2DTranspose(1, (3,3), strides=(2,2), padding='same', activation='tanh'))
    return model

def build_discriminator(input_shape):
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.InputLayer(input_shape))
    model.add(tf.keras.layers.Conv2D(64, (3,3), strides=(2,2), padding='same'))
    model.add(tf.keras.layers.LeakyReLU(alpha=0.2))
    model.add(tf.keras.layers.Flatten())
    model.add(tf.keras.layers.Dense(1, activation='sigmoid'))
    return model

# Ejemplo de construcción
generador = build_generator(100)
discriminador = build_discriminator((64, 64, 1))

print("Resumen del generador:", generador.summary())
print("Resumen del discriminador:", discriminador.summary())

Cada capa se elige para manejar con eficacia la complejidad propia de datos como imágenes o secuencias. De esta forma, se construyen las dos piezas fundamentales de una GAN sin imponer restricciones sobre el tipo de información con la que se desee trabajar.

Entrenamiento de las GANs

Para entrenar correctamente una GAN se necesita equilibrar las actualizaciones del generador y el discriminador dentro de un mismo ciclo de optimización. Se suelen definir dos optimizadores separados, uno específico para los parámetros del generador y otro para los del discriminador. El discriminador aprende a distinguir entre ejemplos reales (etiquetados como 1) y ejemplos sintéticos (etiquetados como 0), mientras que el generador intenta producir muestras cada vez más convincentes para “engañar” al discriminador.

En cada iteración, se toma un lote de datos reales desde el conjunto de entrenamiento y un lote de vectores latentes aleatorios; el generador procesa estos vectores para producir ejemplos falsos. Luego, el discriminador recibe tanto los datos reales como los falsos y se computa una función de pérdida que traduce cuán bien discrimina ambas clases. Acto seguido, se realiza el cálculo de gradientes y la actualización de los pesos para refinar la capacidad de distinguir entre real y generado.

El generador, por su parte, no percibe datos reales de manera directa, sino que enfoca su optimización en maximizar la tasa de falsos positivos que recibe del discriminador. Cada paso alterna la retropropagación de errores: primero se ajusta el discriminador congelando el generador, y después se ajusta el generador congelando el discriminador. A continuación se muestra un ejemplo con Python y TensorFlow para ilustrar un paso de entrenamiento individual, asumiendo que se tienen los lotes reales y que “generador” y “discriminador” ya están construidos:

import tensorflow as tf

# Ejemplo de paso de entrenamiento para una GAN
cross_entropy = tf.keras.losses.BinaryCrossentropy(from_logits=False)

@tf.function
def train_step(real_images, batch_size, latent_dim, generator, discriminator, g_optimizer, d_optimizer):
    # Generar ruido aleatorio y crear muestras falsas
    noise = tf.random.normal([batch_size, latent_dim])
    fake_images = generator(noise, training=True)
    
    # Entrenamiento del discriminador
    with tf.GradientTape() as tape_d:
        real_preds = discriminator(real_images, training=True)
        fake_preds = discriminator(fake_images, training=True)
        
        # Pérdida del discriminador
        d_loss_real = cross_entropy(tf.ones_like(real_preds), real_preds)
        d_loss_fake = cross_entropy(tf.zeros_like(fake_preds), fake_preds)
        d_loss = d_loss_real + d_loss_fake
    
    grads_d = tape_d.gradient(d_loss, discriminator.trainable_variables)
    d_optimizer.apply_gradients(zip(grads_d, discriminator.trainable_variables))
    
    # Entrenamiento del generador
    with tf.GradientTape() as tape_g:
        generated_images = generator(noise, training=True)
        disc_output = discriminator(generated_images, training=True)
        
        # Pérdida del generador (intenta confundir al discriminador)
        g_loss = cross_entropy(tf.ones_like(disc_output), disc_output)
    
    grads_g = tape_g.gradient(g_loss, generator.trainable_variables)
    g_optimizer.apply_gradients(zip(grads_g, generator.trainable_variables))
    
    return g_loss, d_loss

Para mejorar la estabilidad del entrenamiento se pueden incorporar técnicas como:

El uso de label smoothing, consistente en hacer que las etiquetas reales se representen con 0.9 en lugar de 1.
La normalización por lotes en capas internas para evitar gradientes explosivos.
El ajuste cuidadoso de la tasa de aprendizaje en ambos modelos, a menudo con un ratio más conservador para el discriminador.
La evaluación periódica con un conjunto de vectores latentes fijos para monitorizar la calidad de las muestras generadas.

Aplicaciones de las GANs

Las GANs se han utilizado para el procesamiento y generación de imágenes sintéticas que logran una calidad visual muy cercana a la de los conjuntos reales. Como ejemplo, han facilitado la producción de ilustraciones originales y la modificación controlada de fotografías, aplicando cambios de estilo o retocando secciones específicas sin necesidad de un etiquetado exhaustivo.

Otra aplicación esencial gira en torno a la generación de datos sintéticos con fines de privacidad: es posible crear registros que retengan propiedades estadísticas del conjunto original, pero sin compartir información sensible. Este enfoque permite a los equipos de investigación disponer de un volumen de ejemplos mayor, reduciendo los riesgos de exponer datos personales.

En el ámbito de la síntesis de texto y audio, las GANs apoyan la creación automatizada de voces realistas y la redacción de secuencias que pueden nutrir sistemas de traducción o asistentes virtuales. Además, cuando se integran con modelos de lenguaje, abren la puerta a métodos de corrección y generación de contenido multimodal, combinando características de audio, imagen y texto.

Para la industria, una ventaja significativa surge en la ampliación de conjuntos de entrenamiento (data augmentation). Al contar con ejemplos adicionales, los modelos pueden generalizar mejor y aprender patrones más robustos, lo que se traduce en un desempeño superior en escenarios de reconocimiento, clasificación u otras tareas supervisadas. En este sentido, se pueden aplicar transformaciones de diversa índole que enriquezcan la variedad de muestras:

Variaciones de iluminación y color para entrenar sistemas de visión artificial.
Creación de secuencias de audio que simulan diferentes entornos de grabación.
Adaptación de imágenes de satélite con distinta resolución para clasificación de zonas geográficas.

Una implementación típica para generar nuevas muestras, asumiendo que se dispone de un modelo previamente entrenado y un vector de entrada aleatorio en Python, podría verse así:

import tensorflow as tf

def generar_muestras(modelo_preentrenado, num_ejemplos, dim_latente):
    ruido = tf.random.normal([num_ejemplos, dim_latente])
    muestras_sinteticas = modelo_preentrenado(ruido, training=False)
    return muestras_sinteticas

# Uso de la función con un modelo extenso y un vector latente de 100 características
muestras = generar_muestras(modelo_preentrenado=generador, num_ejemplos=5, dim_latente=100)

De esta forma, cualquiera que necesite información adicional para mejorar la diversidad del conjunto de datos, refinar la calidad de patrones o generar contenido audiovisual puede aprovechar la flexibilidad de las GANs para ajustarse a distintos fines prácticos.

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, TensorFlow es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Más tutoriales de TensorFlow

Explora más contenido relacionado con TensorFlow y continúa aprendiendo con nuestros tutoriales gratuitos.

Ver más tutoriales de TensorFlow Explorar todas las tecnologías

Aprendizajes de esta lección

Comprender el concepto de competencia entre generador y discriminador.
Diseñar arquitecturas básicas de generador y discriminador en TensorFlow.
Implementar un ciclo de entrenamiento con pérdida y optimización para GANs.
Explorar técnicas para estabilizar el entrenamiento y mejorar la calidad generativa.
Conocer aplicaciones prácticas de las GANs en imágenes, texto y datos sintéticos.