Apples Forschungsteam für maschinelles Lernen hat in Zusammenarbeit mit der Nanjing University und der Hong Kong University of Science and Technology ein leistungsstarkes neues KI-System namens Matrix3D vorgestellt. Das fortschrittliche Modell soll neue Maßstäbe in der 3D-Rekonstruktion setzen, indem es mit nur drei Fotos präzise und detaillierte 3D-Szenen erzeugt.

Vom Foto zum 3D-Modell

Matrix3D basiert auf der Photogrammetrie. Im Rahmen der Technologie werden Fotos verwendet, um 3D-Formen oder -Räume zu ermitteln und nachzubilden. Traditionelle Systeme stützen sich oft auf mehrere separate Modelle für Aufgaben wie Lagebestimmung und Tiefenvorhersage. Diese aufgesplitterten Systeme können zu inkonsistenten Ergebnissen und einer langsameren Verarbeitung führen.

Matrix3D verfolgt hingegen einen einheitlicheren Ansatz. Es fasst alle benötigten Einzelschritte in einer einzigen Architektur zusammen. Das Modell verarbeitet die Eingabebilder, die Kameraeinstellungen wie Winkel und Brennweite sowie alle verfügbaren Tiefeninformationen in einem integrierten Durchgang. Dieses Design führt zu einer effizienteren Leistung und besserer Ausgabequalität.

Ein besonders innovativer Teil von Matrix3D ist die Art und Weise, wie es trainiert wurde. Bereits während des Trainings wurden Teile der Eingabedaten absichtlich ausgeblendet. Dadurch war das Modell gezwungen, die fehlenden Teile vorherzusagen, was wiederum seine Fähigkeit, Kontext und Struktur zu verstehen, schärfte. Dank dieses Ansatzes ist Matrix3D auch dann äußerst effektiv, wenn es Zugang zu wenigen oder unvollständigen Trainingsmustern hat.

Daraus ergibt sich die wohl beeindruckendste Eigenschaft von Matrix3D. So kann das KI-Modell aus nur drei Eingabebildern detaillierte 3D-Rekonstruktionen erstellen. Egal, ob es sich um die Modellierung einzelner Objekte oder komplexer Umgebungen handelt, die Ergebnisse sind überzeugend realistisch. Das eröffnet spannende Möglichkeiten, insbesondere für Geräte wie der Apple Vision Pro, wo immersive digitale Inhalte anhand von wenigen Fotos erzeugt werden könnten.

Um die Zusammenarbeit und Transparenz zu fördern, hat das Forschungsteam die Ergebnisse auf arXiv veröffentlicht und den Matrix3D-Quellcode auf GitHub zur Verfügung gestellt. Außerdem hat das Team eine spezielle Webseite eingerichtet, auf der ihr Beispielvideos ansehen und mit verschiedenen 3D-Szenen interagieren könnt.