Apple hat mit Ferret-UI ein generatives KI-System entwickelt, das Anwendungsbildschirme erkennen und interpretieren kann. Der zugehörige Forschungsbericht beschreibt ein multimodales Sprachmodell (Multimodal Large Language Model, MLLM), welches das KI-Verständnis über Text hinaus auf Anwendungsoberflächen erweitert und die Fähigkeiten von Apples Software erheblich verbessern könnte.

Apples Ferret-UI

Die Entwicklung von Ferret-UI befasst sich mit den Herausforderungen des Verständnisses von App-Bildschirmen und der Interaktion. Das KI-Modell könnte die Entwicklung von Benutzeroberflächen, die Barrierefreiheit und die Art und Weise, wie Benutzer mit Siri interagieren, grundlegend verändern.

Traditionelle Large Language Models (LLMs) wie ChatGPT stützen sich auf Textinformationen, die überwiegend aus dem Internet stammen. MLLMs zielen jedoch darauf ab, nicht-textliche Inhalte wie Bilder, Videos und Audio zu erfassen. Eine große Hürde für diese Modelle ist das Verständnis der Bildschirme mobiler Apps, das durch unterschiedliche Seitenverhältnisse und das Vorhandensein kleiner, aber wichtiger Elemente wie Icons und Schaltflächen erschwert wird. Außerdem erfordert die dynamische Natur von Apps eine KI, die mit sich verändernden Oberflächen interagieren kann, anstatt nur statische Bilder zu analysieren.

Ferret-UI stellt laut Apple in diesem Bereich einen großen Fortschritt dar. Das System wird auf eine Vielzahl von UI-Aufgaben trainiert, von der Erkennung von Symbolen und Text bis hin zum Verständnis komplexer Interaktionen und Funktionalitäten innerhalb von Apps. Dieses Training ermöglicht es Ferret-UI, App-Bildschirme in jeder Auflösung zu analysieren, Details zu erfassen und visuelle Merkmale für eine bessere Interpretation hervorzuheben.

App-Verbesserungen und Barrierefreiheit

Die Bedeutung von Ferret-UI geht über die bloße Verbesserung von Siri hinaus. Erstens bietet es ein Werkzeug für die Benutzeroberflächenbewertung, mit dessen Hilfe Entwickler die Benutzerfreundlichkeit von Apps effizienter als mit herkömmlichen Methoden bewerten können. Zweitens birgt es ein erhebliches Potenzial zur Verbesserung der Zugänglichkeit, indem es sehbehinderten Nutzern eine intuitivere Möglichkeit bietet, App-Bildschirme zu verstehen und zu navigieren. Anstatt jedes Element auf dem Bildschirm vorzulesen, könnte Ferret-UI beispielsweise den Inhalt und die verfügbaren Aktionen zusammenfassen und so die Interaktion für Nutzer mit Sehbehinderungen vereinfachen.

KI-gesteuerte Benutzeroberfläche

Die spannendste Aussicht sind jedoch die fortgeschrittenen Fähigkeiten, die Siri dadurch freisetzen könnte. Stellt euch vor, ihr gebt Siri den Auftrag, einen Flug nach bestimmten Kriterien zu buchen, und Siri navigiert nahtlos durch die App, um die Aufgabe selbstständig zu erledigen. So könnte die KI die App fernsteuern, ähnlich wie es ein Experte über eine Remote-Verbindung machen würde.

Eine Umsetzung von Ferret-UI werden wir in iOS 18 sicher noch nicht sehen. Die Forschungsarbeit gibt jedoch schon jetzt einen Einblick in die Zukunft. Auch wenn Apple eher auf die technischen Errungenschaften als auf die potenziellen Einsatzmöglichkeiten eingeht, sind die Möglichkeiten enorm. Apples Entwicklung von Ferret-UI könnte den Weg für intelligentere, intuitivere Interaktionen in allen Anwendungen ebnen und so die Benutzerfreundlichkeit und Zugänglichkeit erheblich verbessern.

