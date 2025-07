Apple hatte zur WWDC25 nicht nur neue Funktionen vorgestellt, sondern auch einen umfassenden technischen Bericht veröffentlicht, der tiefe Einblicke in die Entwicklung seiner neuesten KI-Sprachmodelle bietet. Nun hat sich 9to5Mac dem Bericht gewidmet und erklärt, wie die Modelle trainiert, optimiert und bewertet wurden. Die Erkenntnisse sind nicht nur technisch spannend, sondern geben auch Aufschluss darüber, wie Apple seine KI-Strategie langfristig positioniert.

Kleineres Modell, clevere Aufteilung

Das lokal auf dem Gerät laufende KI-Modell umfasst rund 3 Milliarden Parameter und ist in zwei logische Blöcke unterteilt. Block 1 enthält 62,5 Prozent der Transformer-Schichten. Hierbei handelt es sich um eine spezielle Art von neuronalen Netzwerken, die sich durch ihre Fähigkeit auszeichnen, die Beziehungen zwischen einzelnen Teilen einer Eingabe effizient zu modellieren. Man könnte sagen, dass wir es hier mit dem Rückgrat der modernen KI zu tun haben.

In Block 2 befinden sich die restlichen 37,5 Prozent der Transformer-Schichten des lokalen KI-Modells. Allerdings wurden dort die sogenannten Key- und Value-Projektionen weggelassen. Diese Projektionen sind normalerweise dafür zuständig, Informationen innerhalb des Modells zu speichern und weiterzugeben, was man mit einem Kurzzeitgedächtnis vergleichen könnte. Durch den Verzicht darauf benötigt Block 2 weniger Speicher und ermöglicht eine schnellere Verarbeitung des ersten Tokens. Gleichzeitig gibt Apple an, dass die Modellqualität dadurch nicht leidet.

Diese Art der Aufteilung zeigt, wie gezielt Apple versucht, rechenintensive Aufgaben auch auf Geräten mit begrenztem Speicher effizient umzusetzen. Interessanterweise hatte das Unternehmen bereits früher mit Modellen experimentiert, die Teile zwischen RAM und Flash-Speicher auslagern.

Cloud-Modell mit innovativer Architektur

Für seine Server-Modelle hat Apple eine neue Architektur entwickelt, die für die hauseigene Private Cloud Compute-Plattform konzipiert wurde. Der Ansatz heißt Parallel-Track Mixture-of-Experts (PT-MoE). Dabei handelt es sich im Kern um ein System, bei dem mehrere Expertenmodelle parallel arbeiten. Hierbei wird je nach Kontext nur der passende Teil aktiviert. Das spart Ressourcen und beschleunigt die Antwortzeiten.

Apple kombinierte dafür eine eigens entwickelte Variante von Transformer-Netzen mit MoE-Schichten. Anders als klassische Transformer, die Informationen linear durch eine Kette von Schichten verarbeiten, arbeitet Apples Modell über mehrere parallele Pfade. Innerhalb dieser Pfade wechseln sich Standard- und Experten-Schichten ab. Die Experten-Schichten reagieren nur, wenn ihre Kompetenz gefragt ist. Eine spezielle Technik sorgt zusätzlich für eine ausgewogene Gewichtung zwischen lokalem Kontext und übergreifendem Verständnis.

Das Ergebnis ist laut Apple ein modulares System, das trotz seiner Komplexität effizient arbeitet und gleichzeitig die notwendige Intelligenz mitbringt, um vielseitige Aufgaben zu bewältigen.

Mehrsprachigkeit deutlich verbessert

Ein zentraler Kritikpunkt an Apple Intelligence war bisher die eingeschränkte Sprachunterstützung. Im neuen Modell hat Apple diesen Aspekt deutlich ausgebaut. Der Anteil mehrsprachiger Trainingsdaten wurde von 8 auf 30 Prozent erhöht, darunter sowohl natürliche als auch synthetisch erzeugte Inhalte.

Diese Erweiterungen zeigen bereits Wirkung. Apple berichtet von klaren Leistungssteigerungen bei nicht-englischen Benchmarks. Die Evaluation erfolgte durch Muttersprachler, mit Fokus auf sprachliche Natürlichkeit und kontextbezogene Genauigkeit. Praktisch bedeutet das, dass Funktionen wie die Schreibassistenz künftig in mehr Sprachen besser funktionieren dürften.

Datenquellen

Die Trainingsdaten für die Modelle stammen aus mehreren Quellen. Hauptsächlich wurden öffentlich zugängliche Webinhalte über den Apple-Bot gesammelt.

Zusätzlich kamen lizenzierte Inhalte zum Einsatz. Zwar nennt Apple keine Namen, doch frühere Berichte deuten auf Partnerschaften mit Medienhäusern wie Condé Nast oder NBC News hin. Ein weiterer Teil der Daten entstand synthetisch. Hierzu zählen speziell generierte Inhalte zu Themen wie Code, Mathematik oder multimodalen Aufgaben. Auch visuelle Daten spielten eine Rolle. Über zehn Milliarden Bild-Text-Paare, inklusive OCR-analysierter Screenshots und handschriftlicher Notizen, flossen in das Training ein.

Apples KI-Weg

Apple mag beim Thema KI später gestartet sein als andere Tech-Giganten. Diesen Vorsprung aufzuholen, wird nicht einfach sein. Der technische Bericht macht jedoch deutlich, dass das Unternehmen konsequent arbeitet und dabei einen klaren Fokus auf Datenschutz und Systemeffizienz legt. Die gewählten Ansätze sind insbesondere im Bereich lokaler Modelle und der skalierbaren Cloud-Architektur nicht nur durchdacht, sondern auch zukunftsfähig.