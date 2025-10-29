Apple hat mit Pico-Banana-400K einen neuen Datensatz präsentiert, der KI-Systeme bei der textbasierten Bildbearbeitung deutlich verbessern soll. Die Forscher aus Cupertino stellen mit dem Set 400.000 sorgfältig kuratierte Bilder zur Verfügung, die gezielt für das Training von Bildbearbeitungsmodellen entwickelt wurden.

Das Problem aktueller Datensätze

Das Problem liegt weniger an der grundsätzlichen Leistungsfähigkeit aktueller KI-Modelle. Viele Systeme können bereits beeindruckende Bearbeitungen vornehmen. Apple identifiziert jedoch einen Engpass beim Training dieser Modelle. Existierende Trainingsdaten basieren oft nicht auf echten Fotografien, was die Entwicklung präziserer Algorithmen bremst. Genau hier setzt der neue Datensatz an und bietet eine substantielle Grundlage aus authentischem Bildmaterial.

Aufbau und Qualitätskontrolle

Pico-Banana-400K gliedert sich in 35 verschiedene Bearbeitungstypen über acht Kategorien hinweg. Das Spektrum reicht von simplen Farbkorrekturen bis hin zu komplexen Stilwandlungen, die Menschen beispielsweise in Pixar-Charaktere oder LEGO-Figuren verwandeln. Jedes Bild durchlief Apples eigenes Qualitätssystem, wobei Googles Gemini-2.5-Pro die Ergebnisse nach Instruktionstreue und technischer Qualität bewertete.

Der Datensatz umfasst drei spezialisierte Teilbereiche: 258.000 Einzelbearbeitungen für grundlegendes Training, 56.000 Vergleichspaare zwischen gelungenen und misslungenen Bearbeitungen sowie 72.000 Sequenzen mit mehreren aufeinanderfolgenden Bearbeitungsschritten.

Interessanterweise nutzte Apple für die Erstellung des Datensatzes Googles Gemini-2.5-Flash-Image-Modell (auch bekannt als Nano-Banana), das erst vor wenigen Monaten erschien. Die Tests offenbarten dessen Schwächen. Während globale Stiländerungen in 93 Prozent der Fälle funktionierten, scheiterten präzise Aufgaben wie das Verschieben von Objekten oder Textbearbeitungen häufig. Die Erfolgsrate sank hier unter 60 Prozent.

Verfügbarkeit für Entwickler

Apple stellt den kompletten Datensatz kostenlos für die nicht-kommerzielle Forschung auf GitHub bereit. Damit können Entwickler auf eine solide Basis zugreifen, um leistungsfähigere Bildbearbeitungs-KIs zu trainieren.