Wenn Branchengrößen wie Apple und NVIDIA zusammenarbeiten, bahnt sich in der Regel etwas Großes an. So auch im Fall von ReDrafter – einer von Apple entworfene Methode zur LLM-Texterstellung, die deutlich schneller sein soll als alles, was wir bisher gesehen haben. In einem Blogbeitrag widmet sich Apples Entwicklungsteam dem Thema und stellt bei der Gelegenheit eine neue Partnerschaft mit NVIDIA vor.

Apples ReDrafter trifft auf NVIDIA TensorRT-LLM
Anfang dieses Jahres stellte Apple erstmals ReDrafter vor, eine neuartige Technologie zur Verbesserung der Texterzeugung durch LLMs (Large Language Models). Die Technologie ist nicht nur schnell, sie ist auch auf „dem neuesten Stand der Technik“, wie es Apple ausdrückt.
Das Ergebnis ist eine schnellere und intelligentere Methode für LLMs, kohärente und relevante Texte zu produzieren. Apple hat ReDrafter sogar als Open Source zur Verfügung gestellt, um Entwicklern einen Vorgeschmack auf das zu geben, was möglich ist.
Das Potenzial von ReDrafter ist beeindruckend, aber Apple hat sich nicht damit zufriedengegeben und NVIDIA mit ins Boot geholt, um die Technologie in TensorRT-LLM zu integrieren. TensorRT-LLM ist ein optimierter Deep-Learning-Beschleuniger von NVIDIA, der speziell entwickelt wurde, um LLMs auf GPUs effizient auszuführen. Somit erhält der ohnehin schon leistungsstarke Motor, um es bildlich auszudrücken, einen Turbolader. Um dieses Kunstwerk zu ermöglichen, fügte NVIDIA neue Operatoren zu TensorRT-LLM hinzu und verbesserte damit die Fähigkeit, komplexe Modelle und fortschrittliche Dekodierungstechniken zu verarbeiten.
Erste Benchmarks zeigen die Leistungsfähigkeit auf: Die Verwendung von ReDrafter in TensorRT-LLM auf NVIDIA-GPUs hat die Geschwindigkeit der Token-Generierung während der Greedy-Decodierung verdreifacht, einem Prozess, bei dem das Modell bei jedem Schritt das wahrscheinlichste Wort auswählt.
Für Entwickler von maschinellem Lernen, die mit NVIDIA-Grafikprozessoren arbeiten, ist dies eine großartige Entwicklung. Durch die Integration von ReDrafter in den Arbeitsablauf lässt sich die Texterzeugung in Anwendungen beschleunigen, ganz gleich, ob man einen Chatbot erstellt, eine Suchmaschine betreibt oder Echtzeit-Übersetzungstools entwickelt. Für den Endbenutzer bedeutet dies schnellere Antworten in Kundendienst-Bots oder KI-gestützte Schreibwerkzeuge.
Schnellere Geschwindigkeiten bedeuten auch, dass weniger Grafikprozessoren benötigt werden, was sowohl die Rechenkosten als auch den Stromverbrauch senkt. Einfach ausgedrückt: Apples Technologie macht LLMs nicht nur schneller, sondern auch effizienter.
0 Kommentare