Auf der Entwicklerkonferenz I/O 2024 hat Google seine Fortschritte im Bereich der Künstlichen Intelligenz vorgestellt. Vor einem Jahr enthüllte das Unternehmen seine Pläne für die Gemini-Modelle, die Text, Bilder, Videos und Code verarbeiten können. Google hat rund um Gemini einiges Neues in petto, darunter Project Astra, welches Konversationen in Echtzeit führen kann und das Gemini Nano Modell, das immer ein Ohr offen hat und damit durchaus Fragen zum Datenschutz aufwirft.

Neue Suchfunktionen in Google Fotos

Eine bemerkenswerte Neuerung ist eine neue Suchfunktion in Google Fotos. Diese erlaubt es Nutzern, ihre Fotos gezielt nach bestimmten Inhalten zu durchsuchen. Der neue Tab am unteren Rand der Fotos-App wird zunächst an Google One-Abonnenten in den USA ausgerollt. Nutzer können über das Symbol des Gemini-Sterns Fragen zu ihren Fotos stellen oder nach spezifischen Bildern suchen, wie etwa nach dem Kennzeichen eines Autos oder den ersten Schwimmversuchen des Kindes. Diese generative Verarbeitung ermöglicht eine detailliertere und vielseitigere Bildersuche.

Erweiterte KI-Funktionen für Android

Google erweitert zudem die KI-Funktionen auf Android-Geräten. Die „Circle to Search“-Funktion wird ausgebaut und soll Schülern bei ihren Hausaufgaben helfen. Durch das Einkreisen von Fragen können diese von der KI Schritt für Schritt beantwortet werden. Zunächst sind einfache Physik- und Matheaufgaben vorgesehen, später im Jahr sollen auch komplexere Probleme unterstützt werden. Eine weitere Neuerung ist die Integration von Gemini Advanced, die es ermöglicht, Antworten zu Inhalten von PDFs direkt zu erhalten, ohne lange scrollen zu müssen.

Integration in Chrome und Gmail

Google plant auch die Integration von Gemini in den Chrome-Browser. Dies ermöglicht die Erstellung von Texten, wie Social-Media-Beiträge oder Produktbewertungen, direkt in den dafür vorgesehenen Textfeldern. In der Gmail-App wird Gemini ebenfalls eingebunden, wodurch E-Mails zusammengefasst und kontextbezogene Antwortvorschläge gegeben werden können. Die Funktionen sind zunächst für Abonnenten von Google Workspace und Google One AI Premium verfügbar und sollen später für eine breitere Nutzerbasis zugänglich gemacht werden.

Project Astra

Mit Project Astra wird Google weitere Möglichkeiten der KI einführen. Project Astra zeigt multimodales Verständnis und kann Konversationen in Echtzeit führen. In einer Demo wurde die Fähigkeit der KI demonstriert, das Kamerabild zu verarbeiten und sich an Details zu erinnern. Dies könnte sogar dabei helfen, verlegte Gegenstände wiederzufinden. So kann sich das System beispielsweise merken, wo auf einem Tisch eine Brille liegt und diese Information später abrufen.

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden. Mehr Informationen Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Gemini Nano

Das neue Modell Gemini Nano, das auf ausgewählten Pixel-Geräten verfügbar sein wird, ermöglicht die Verarbeitung von Texteingaben, Bildern, Geräuschen und gesprochener Sprache. TalkBack von Android wird dadurch verbessert, was detailliertere Bildbeschreibungen ermöglicht. Die neue Funktion kann auch während eines Anrufs potenzielle Betrugsmuster erkennen und warnen, was unweigerlich zu Diskussionen über den Schutz der Privatsphäre führen dürfte.

Gemini 1.5 Pro

Gemini 1.5 Pro wurde verbessert und ist in der Lage, komplexere und nuanciertere Anweisungen zu befolgen, einschließlich des Analysieren von Dokumenten mit einem Umfang von bis zu 1.500 Seiten oder einer Stunde an Videoinhalten. Mit Gemini kann in Google Messages interagiert werden, und Abonnenten von Gemini Advanced können eine neue mobile Konversationsfunktion nutzen, die das Sprechen mit Gemini noch intuitiver macht. Individuelle Versionen von Gemini, Gems genannt, sind ebenfalls für Abonnenten verfügbar. Die Gems können als personalisierte Assistenten eingesetzt werden, die bei Workouts helfen, Rezepte liefern und mehr.

Gemini 1.5 Flash

Google kündigte auch Gemini 1.5 Flash an, eine leichtgewichtige Version seines Gemini Pro KI-Modells. Gemini Flash ist effizienter, kostengünstiger und hat eine geringere Latenz. Google gibt an, dass Gemini 1.5 Flash in der Lage ist, eine „beeindruckende Qualität“ für seine Größe zu liefern und sich bei Zusammenfassungen, Chat-Anwendungen, Bild- und Videobeschriftungen sowie der Datenextraktion aus langen Dokumenten auszeichnet.

Sie sehen gerade einen Platzhalterinhalt von Facebook. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden. Mehr Informationen Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Sie sehen gerade einen Platzhalterinhalt von Instagram. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden. Mehr Informationen Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren