Multimodales Training: Apples Ansatz zur Verbesserung von KI-Systemen

Apple hat neue Methoden entwickelt, um große Sprachmodelle sowohl mit Text als auch mit Bildern zu trainieren, wodurch Apple-Produkte durch leistungsfähigere und anpassungsfähigere KI-Systeme erheblich verbessert werden könnten. Die Ergebnisse stehen in einer Forschungsarbeit auf arxiv.org zur Verfügung und zeigen, dass die Kombination verschiedener Arten von Trainingsdaten und Modellarchitekturen zu Spitzenleistungen in einer Reihe von KI-Anwendungen führen kann.

Fotocredit: Apple

Der Weg zu leistungsfähigeren KI-Systemen

Im Fokus der Arbeit steht die Leistung bei der Arbeit mit Bildunterschriften und der Ableitung natürlicher Sprache. Dass KI-Modelle trainiert werden müssen, ist bekannt – Apple verdeutlicht jedoch in der Arbeit, wie wichtig ein vielfältiger Datensatz ist. So zeigt die Forschungsarbeit, dass eine Mischung aus Bild-Beschriftungspaaren, Text und verschachtelten Bild-Text-Daten eine signifikante Verbesserung ermöglicht und somit für die Entwicklung fortschrittlicher KI-Modelle entscheidend ist.

Die Forscher fanden auch heraus, dass die Wahl des Bildkodierers und die Auflösung der Eingabebilder einen großen Einfluss auf die Leistung des KI-Modells haben. „Wir zeigen, dass der Bildkodierer zusammen mit der Bildauflösung und der Anzahl der Bildtoken einen erheblichen Einfluss hat, während das Design des Vision-Language-Connectors von vergleichsweise vernachlässigbarer Bedeutung ist“, so die Forscher. Dies deutet darauf hin, dass eine fortgesetzte Skalierung und Verfeinerung der visuellen Komponenten dieser multimodalen Modelle der Schlüssel zu weiteren Leistungssteigerungen sein wird.

Das größte Modell von Apple mit 30 Milliarden Parametern zeigte bemerkenswerte kontextbezogene Lernfähigkeiten, die es ihm ermöglichten, komplexe logische Aufgaben mit minimalen Eingaben zu bewältigen. Dies deutet auf das Potenzial dieser KI-Systeme hin, komplexere Probleme der realen Welt effektiv zu lösen. Damit ist Apple einen Schritt näher an dem gesetzten Ziel, im Rennen um die besten KI-Modelle aufzuschließen.

Apples Engagement für die KI-Entwicklung

Apple investiert Berichten zufolge jährlich 1 Milliarde US-Dollar, um seine Position im Bereich KI zu stärken. Zu den wichtigsten Initiativen des Unternehmens gehört die Entwicklung eines Sprachmodell-Frameworks namens „Ajax“. Das Modell arbeitet angeblich mit 200 Milliarden Parametern, was auf ein hohes Maß an Komplexität und Fähigkeiten im Bereich des Sprachverständnisses und der Generierung schließen lässt. Das System zielt darauf ab, die Entwicklung von maschinellem Lernen bei Apple zu vereinheitlichen, was auf eine umfassendere Strategie zur tieferen Integration von KI in Apples Ökosystem hindeutet.

Doch bevor „Ajax“ im vollen Umfang zum Einsatz kommen wird, werden wir zunächst aller Voraussicht kleinere Neuerungen kennenlernen. Beispielsweise wird erwartet, dass die Spotlight-Suche über den derzeitigen Umfang hinausgeht. So soll das System komplexere Aufgaben ausführen und tiefer mit anderen Anwendungen interagieren. So könnten bestimmte Funktionen von Anwendungen direkt über die Suchleiste aufgerufen werden. Darüber hinaus soll Spotlight komplizierte Suchanfragen verarbeiten und detaillierte sowie kontextbezogene Antworten geben. Dies wäre ein bedeutender Unterschied zu der derzeitigen Rolle von Spotlight, die sich weitgehend auf das Starten von Apps und die Websuche beschränkt.

Multimodales Training: Apples Ansatz zur Verbesserung von KI-Systemen

19. Mrz 2024 | 7:11 Uhr | 0 Kommentare

Der Weg zu leistungsfähigeren KI-Systemen

Apples Engagement für die KI-Entwicklung

(via VentureBeat)

0 Kommentare

Schreibe einen Kommentar Antworten abbrechen