MGIE: Neues KI-Modell von Apple bearbeitet Bilder auf der Grundlage von Texteingaben

Wie VentureBeat berichtet, hat Apple ein fortschrittliches KI-Modell namens MGIE vorgestellt, das für die Bearbeitung von Bildern durch Anweisungen in natürlicher Sprache entwickelt wurde. Das innovative Tool kann auf der Grundlage von Texteingaben komplexe Aufgaben wie das Freistellen sowie die Generierung von Objekten übernehmen, Farbkorrekturen vornehmen und vieles mehr.

Fortschritte bei der KI-gesteuerten Bildbearbeitung

Das MGIE-Modell nutzt komplexe Sprachmodelle (Multimodal Large Language Models, MLLMs), um Benutzerbefehle für die Fotobearbeitung zu verstehen und auszuführen. Benutzer können per Texteingabe verschiedene Bildaspekte ändern, einschließlich globaler Fotoverbesserungen wie Helligkeit, Kontrast und künstlerische Effekte oder Bearbeitungen wie die Änderung der Größe, Farbe oder Textur bestimmter Bildteile.

Darüber hinaus bietet MGIE Modifikationen im Stil von Photoshop und ermöglicht das Zuschneiden, Freistellen und Drehen von Objekten sowie das Hinzufügen von Filtern. Es kann sogar Hintergründe ändern und Bilder zusammenführen. Benutzer können beispielsweise darum bitten, „eine Pizza gesünder aussehen zu lassen“, woraufhin das Modell Gemüsebeläge hinzufügt. Zudem können Personen mithilfe von MGIE einfach aus dem Hintergrund eines Fotos entfernt werden. Ein weiteres Beispiel: Den Befehl „Mach den Himmel blauer“ interpretiert MGIE als: „Identifiziere und maskiere den Himmel, dann erhöhe die Sättigung in diesem Bereich um 20 Prozent“.

Apple arbeitete mit Forschern der University of California zusammen, um MGIE zu entwickeln. Die Arbeit wurde auf der International Conference on Learning Representations (ICLR) 2024 vorgestellt. Zudem ist das Modell auf GitHub verfügbar und umfasst den Code, die Daten und die vortrainierten Modelle.

Die Veröffentlichung folgt den jüngsten Fortschritten von Apple im Bereich der KI-Forschung. Berichten zufolge entwickelt Apple sein eigenes generatives KI-Modell namens „Ajax“, das mit OpenAIs GPT-3 und GPT-4 konkurrieren soll. Es arbeitet mit 200 Milliarden Parametern, was auf ein hohes Maß an Komplexität und Fähigkeiten im Bereich des Sprachverständnisses und der Generierung schließen lässt. Das System zielt darauf ab, die Entwicklung von maschinellem Lernen bei Apple zu vereinheitlichen, was auf eine umfassendere Strategie zur tieferen Integration von KI in Apples Ökosystem hindeutet.

MGIE: Neues KI-Modell von Apple bearbeitet Bilder auf der Grundlage von Texteingaben

07. Feb 2024 | 19:33 Uhr | 0 Kommentare

Fortschritte bei der KI-gesteuerten Bildbearbeitung

0 Kommentare

Schreibe einen Kommentar Antworten abbrechen