Apple ha dado un paso importante en el campo de la inteligencia artificial con el lanzamiento de Pico-Banana-400K, un dataset de investigación de 400.000 imágenes diseñado para mejorar los modelos de edición de imágenes guiada por texto.

Lo más curioso es que, según el estudio publicado por el equipo de investigación de Apple, el conjunto de datos fue construido utilizando los modelos Gemini-2.5 de Google, en particular el modelo Gemini-2.5-Flash-Image, también conocido como Nano-Banana.

Un proyecto de investigación abierto y colaborativo

El estudio, titulado “Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing”, se encuentra disponible en arXiv, y el dataset completo puede descargarse libremente desde GitHub bajo una licencia de investigación no comercial.

Esto significa que puede utilizarse libremente con fines académicos o de investigación en IA, aunque no está permitido su uso comercial. Con este movimiento, Apple busca fomentar la innovación abierta en un área donde la mayoría de los conjuntos de datos son privados o limitados.

“A pesar de los avances recientes, la investigación abierta sigue limitada por la falta de datasets de edición a gran escala, de alta calidad y completamente compartibles”, señalan los investigadores de Apple.

Por qué Apple creó Pico-Banana-400K

Uno de los principales problemas que enfrentan los modelos de edición de imágenes mediante texto es la falta de datos consistentes y variados. Los datasets existentes suelen provenir de generaciones sintéticas de modelos propietarios o de conjuntos humanos limitados, lo que genera desequilibrios de contenido y problemas de calidad.

Pico-Banana-400K busca resolver eso ofreciendo un conjunto equilibrado y curado de imágenes con instrucciones textuales diversas, ideal para entrenar y evaluar modelos de IA generativa en tareas de edición visual.

Cómo se construyó el dataset

El proceso comenzó con la selección de fotografías reales del conjunto público OpenImages, asegurando una amplia representación de personas, objetos y escenas con texto. Luego, los investigadores de Apple crearon 35 tipos de modificaciones posibles, agrupadas en ocho categorías de edición, como:

  • Pixel & Photometric: aplicar filtros como vintage o agregar grano de película.
  • Human-Centric: convertir a una persona en una figura estilo Funko Pop.
  • Scene Composition: cambiar las condiciones climáticas (soleado, lluvioso, nevado).
  • Object-Level Semantic: mover un objeto o alterar su relación espacial.
  • Scale: realizar acercamientos o ampliaciones.

Cada imagen original se combinó con una instrucción textual y se procesó mediante Nano-Banana (Gemini-2.5-Flash-Image) para generar la versión editada. Luego, otro modelo —Gemini-2.5-Pro— evaluó la calidad y precisión de cada resultado, aprobando o descartando las imágenes según el cumplimiento de la instrucción.

 iOSMac Apple lanza Pico-Banana-400K: un dataset de 400.000 imágenes para entrenar modelos de edición con IA

Qué contiene Pico-Banana-400K

El resultado final es un conjunto con tres tipos principales de datos:

  • Ediciones simples (single-turn edits): una imagen editada con una sola instrucción.
  • Secuencias de edición múltiple (multi-turn edits): ediciones acumulativas tras varias instrucciones.
  • Pares de comparación (preference pairs): ejemplos de resultados exitosos frente a fallidos, útiles para enseñar a los modelos qué evitar.
    Este formato permite entrenar modelos más robustos y realistas, capaces de entender instrucciones complejas y replicar ediciones precisas.

Un impulso para la próxima generación de modelos de IA

Aunque el propio Apple reconoce que el modelo de Google tiene limitaciones en la edición espacial fina o el trabajo con tipografía, la compañía confía en que Pico-Banana-400K se convertirá en una base sólida para futuras investigaciones.

Su objetivo: mejorar los modelos de edición de imágenes guiada por texto, haciéndolos más precisos, controlables y accesibles. El dataset ya está disponible públicamente, marcando un hito inusual en la estrategia de investigación de Apple, tradicionalmente más reservada.

Con Pico-Banana-400K, Apple no solo refuerza su presencia en el terreno de la IA generativa, sino que también apuesta por la ciencia abierta. Al combinar su experiencia técnica con el poder de modelos de Google, la empresa demuestra un enfoque colaborativo para impulsar la próxima generación de herramientas creativas basadas en inteligencia artificial.

Los investigadores y desarrolladores interesados pueden acceder al estudio en arXiv.org y descargar el dataset completo desde GitHub, iniciando así nuevas exploraciones en la frontera de la edición de imágenes con IA.

Quieres comprar un iPhone, iPad, MacBook o cualquier dispositivo tecnológico al mejor precio, en este canal se publican las mejores ganas y ofertas.