Apple Research revive una técnica olvidada para revolucionar la generación de imágenes con IA. Apple ha presentado una alternativa sorprendente a los modelos de IA más populares del momento. En lugar de apoyarse en la difusión o los modelos autorregresivos tradicionales, la compañía está recuperando una técnica olvidada: los flujos normalizadores. Y no se trata solo de nostalgia matemática: según sus últimos estudios, podrían ser más eficaces, rápidos y prácticos para generar imágenes con mayor control y eficiencia.

¿Qué son los flujos normalizadores?

Los flujos normalizadores (normalizing flows o NF) son modelos de IA que transforman datos reales en ruido estructurado de forma reversible. A diferencia de otros métodos, permiten calcular la probabilidad exacta de cada imagen generada, lo que les confiere una ventaja importante en términos de control y precisión estadística.

Su desventaja histórica ha sido la calidad visual. Las imágenes creadas por modelos basados en flujos solían parecer borrosas o poco detalladas en comparación con las producidas por modelos de difusión o transformers. Apple busca revertir esa percepción con dos nuevas propuestas.

TarFlow: una nueva vida para los flujos gracias a los Transformers

En el primer artículo titulado “Los flujos normalizadores son modelos generativos capaces”, Apple introduce TarFlow (Transformer AutoRegressive Flow), un modelo que incorpora bloques Transformer para sustituir las antiguas capas artesanales de los modelos NF tradicionales.

TarFlow genera imágenes directamente desde los valores de píxeles, sin convertirlas antes en tokens, lo que permite evitar las pérdidas asociadas a la compresión simbólica. Esto es una diferencia sutil pero poderosa frente a modelos como GPT-4o, que trata las imágenes como secuencias de tokens textuales.

Aunque TarFlow logra mejoras notables, aún enfrenta desafíos a gran escala. Apple reconoce que, al generar directamente píxeles, el modelo consume muchos recursos cuando se trata de resoluciones más altas. Para eso, desarrollaron un segundo modelo.

STARFlow: el modelo escalable de Apple para imágenes de alta resolución

En su segundo estudio, titulado “STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis”, Apple presenta STARFlow, una evolución directa de TarFlow. La principal innovación es el uso del espacio latente. En lugar de generar directamente cada píxel, STARFlow crea una versión comprimida de la imagen, que luego es refinada por un decodificador hasta alcanzar la resolución deseada. Esto reduce significativamente la carga de procesamiento, sin comprometer el detalle visual.

Además, STARFlow puede trabajar con lenguaje natural gracias a la integración con modelos como Gemma. Esto permite a los usuarios generar imágenes a partir de descripciones textuales sin necesidad de construir un sistema de lenguaje desde cero.

Comparación con GPT-4o de OpenAI

Apple y OpenAI buscan superar los límites de la difusión, pero sus enfoques difieren profundamente. GPT-4o trata las imágenes como flujos de tokens, igual que el texto. Este modelo multicanal puede generar texto, imágenes y audio con la misma arquitectura. Su flexibilidad es impresionante, pero tiene costos: es lento para generar imágenes grandes y consume muchos recursos, algo manejable solo en centros de datos.

Por otro lado, Apple está enfocada en modelos que puedan ejecutarse eficientemente en dispositivos personales. Al usar transformadores en flujos normalizadores y evitar la generación token a token, Apple prioriza la eficiencia energética, el rendimiento local y la privacidad.

Una visión a futuro

Con TarFlow y STARFlow, Apple no solo demuestra que los flujos normalizadores aún tienen mucho que ofrecer, sino que también redefine su posible aplicación en dispositivos de uso cotidiano. En lugar de competir directamente con el poder en la nube de OpenAI, Apple apuesta por modelos optimizados para el iPhone y otros productos de su ecosistema.

Los estudios aún están en fase académica, pero marcan una dirección clara: Apple quiere llevar la generación de imágenes por IA directamente al bolsillo del usuario, con precisión, eficiencia y sin depender de servidores externos.

Quieres comprar un iPhone, iPad, MacBook o cualquier dispositivo tecnológico al mejor precio, en este canal se publican las mejores ganas y ofertas.