Künstliche Intelligenz, die Bilder nicht nur analysieren, sondern auch erstellen und bearbeiten kann, erfordert normalerweise mehrere spezialisierte Systeme. Apple geht mit UniGen 1.5 einen anderen Weg und vereint alle drei Fähigkeiten in einem einzigen Modell.

Die Grundlage von UniGen

Bereits im Mai dieses Jahres präsentierte ein Forscherteam von Apple das ursprüngliche UniGen-System. Das multimodale Sprachmodell konnte sowohl Bilder verstehen als auch neue Bilder erzeugen, ohne dafür auf separate Modelle zurückgreifen zu müssen. Was damals noch fehlte, war die Fähigkeit zur Bildbearbeitung.

Genau diese Lücke schließt nun UniGen 1.5. Das erweiterte Modell beherrscht jetzt alle drei Disziplinen innerhalb eines einheitlichen Systems. Was sich einfach anhört, stellt in der Praxis eine erhebliche technische Herausforderung dar, denn das Verstehen und das Generieren von Bildern erfordern grundlegend unterschiedliche Herangehensweisen. Die Forscher argumentieren jedoch, dass ein vereinheitlichtes Modell von seinem eigenen Bildverständnis profitiert und dadurch bessere Ergebnisse bei der Generierung erzielt.

Ein mehrstufiger Trainingsansatz

Eine der größten Hürden bei der KI-gestützten Bildbearbeitung liegt im Verständnis komplexer Anweisungen. Besonders wenn Änderungen subtil oder sehr spezifisch ausfallen, tun sich viele Modelle schwer damit, die gewünschten Anpassungen korrekt umzusetzen.

UniGen 1.5 begegnet diesem Problem mit einem neuen Trainingsschritt namens Edit Instruction Alignment. Bevor das Modell weiter optimiert wird, lernt es zunächst, eine detaillierte textuelle Beschreibung des gewünschten Endergebnisses zu erstellen. Auf Basis des Originalbildes und der Bearbeitungsanweisung entwickelt das System ein inneres Verständnis davon, wie das fertige Bild aussehen soll. Dieser Zwischenschritt hilft dem Modell, die beabsichtigte Bearbeitung besser zu verinnerlichen.

Der vielleicht wichtigste Beitrag der Forschungsarbeit liegt in der Trainingsmethode. Das Modell lernt dabei aus seinen Fehlern und verbessert sich schrittweise durch gezieltes Feedback. Das war bisher problematisch, weil Bearbeitungen von minimalen Anpassungen bis hin zu kompletten Transformationen reichen können.

Die Ergebnisse sprechen für sich. In mehreren Industriebenchmarks, die messen, wie gut Modelle Anweisungen befolgen, visuelle Qualität erhalten und komplexe Bearbeitungen bewältigen, erreicht UniGen 1.5 Spitzenwerte. Bei GenEval und DPG-Bench übertrifft es aktuelle Methoden wie BAGEL und BLIP3o deutlich. Im Bereich Bildbearbeitung liegt es mit proprietären Modellen wie GPT-Image-1 auf Augenhöhe.

Bekannte Schwächen

Trotz der beeindruckenden Leistungen hat UniGen 1.5 noch mit einigen Einschränkungen zu kämpfen. Die Textgenerierung innerhalb von Bildern bereitet dem Modell Schwierigkeiten, da der leichtgewichtige Decoder die feinen strukturellen Details von Buchstaben nicht präzise kontrollieren kann. Auch die Identitätskonsistenz stellt unter bestimmten Umständen ein Problem dar. Zudem können sich bei wiederholten Bearbeitungen desselben Motivs Details wie Fellstruktur oder Federfarbe unbeabsichtigt verändern.

Die vollständige Studie ist auf arXiv verfügbar.