Noticias - Apple

Apple entrena un modelo de lenguaje para entender videos largos de manera eficiente

Por

Apple ha presentado un avance importante en el campo de la inteligencia artificial aplicada al video. Sus investigadores desarrollaron SlowFast-LLaVA-1.5 (SF-LLaVA-1.5), una familia de modelos de lenguaje multimodal capaz de analizar y comprender videos de larga duración de forma más eficiente que alternativas mucho más grandes. El estudio ya está disponible en arXiv y el modelo se liberó en código abierto en GitHub y Hugging Face.

Índice

El reto de los LLM con video

Cuando un modelo de lenguaje se entrena para procesar video, debe:

Dividir el material en cuadros (frames).
Aplicar visión por computadora para extraer características visuales.
Analizar cómo esas características cambian en el tiempo.
Alinear todo con lenguaje para poder describir o razonar sobre el video.

El problema es que analizar todos los cuadros de un video es ineficiente. La mayoría son repetitivos, lo que genera enormes cantidades de datos duplicados. Eso puede saturar la ventana de contexto del LLM, es decir, la memoria máxima que el modelo puede manejar antes de perder información.

El enfoque de Apple: SlowFast-LLaVA-1.5

Para superar estas limitaciones, Apple tomó como base SlowFast-LLaVA, un modelo que combina dos flujos de análisis:

Flujo lento (Slow stream): menos cuadros, más detalle (para entender la escena).
Flujo rápido (Fast stream): más cuadros, menos detalle (para seguir el movimiento).

Primero, Apple lo entrenó con imágenes para fortalecer el razonamiento visual. Después, lo expuso a imágenes y videos de forma conjunta, utilizando únicamente datasets públicos. El resultado fue SF-LLaVA-1.5, disponible en tres escalas de parámetros: 1B, 3B y 7B.

Resultados: supera a modelos más grandes

Según los investigadores, el modelo logra:

Rendimiento superior en tareas de video, incluso frente a modelos de mayor tamaño.
Nuevo estado del arte en benchmarks de video largo como LongVideoBench y MLVU.
Buen desempeño en tareas de imágenes, incluyendo razonamiento matemático, OCR y escenarios con abundante texto.

Lo más interesante es que incluso la versión más pequeña, de 1B parámetros, consiguió superar a competidores mucho más pesados.

Limitaciones actuales

El sistema de Apple limita la entrada a 128 cuadros por video:

96 cuadros para el flujo rápido.
32 cuadros para el flujo lento.

Esto significa que en clips largos puede perder cuadros clave o malinterpretar la velocidad de reproducción. Los investigadores señalan que ajustar todos los parámetros del modelo aún es un desafío por el alto costo en memoria de GPU, aunque mencionan posibles mejoras con técnicas de optimización como Stochastic BP.

Un paso estratégico: IA abierta y eficiente

La combinación de eficiencia, uso exclusivo de datasets públicos y apertura del modelo al ecosistema open-source sugiere que Apple quiere posicionarse como un jugador relevante no solo en IA de consumo (Apple Intelligence), sino también en IA de investigación y desarrollo académico. El modelo SF-LLaVA-1.5 ya está disponible en GitHub y Hugging Face, lo que permitirá a investigadores y desarrolladores probarlo y extenderlo a nuevas aplicaciones.

Con este avance, Apple demuestra que no busca únicamente competir en asistentes personales de IA, sino también liderar la investigación en modelos multimodales. SlowFast-LLaVA-1.5 no solo establece un nuevo estándar en comprensión de video, sino que lo hace con un enfoque eficiente, reproducible y abierto.