Google hat gestartet Gemini 2, ein hochentwickeltes KI-Modell, das die Fähigkeit der Benutzer verbessert, mit Technologie zu interagieren. Diese Ankündigung, die während einer Presseveranstaltung gemacht wurde, hebt die Fähigkeiten von Gemini 2 bei der Aufgabenausführung, den Konversationsfähigkeiten und dem multimodalen Verständnis hervor, was einen bedeutenden Fortschritt in der KI-Technologie darstellt.
Google bringt Gemini 2 auf den Markt: Eine neue Ära für KI-Assistenten
Demis Hassabis, CEO von Google DeepMind, bemerkte, dass Gemini 2 als virtueller Assistent fungiert, der in der Lage ist, „Aufgaben auf den Computern eines Benutzers und im Internet zu planen und auszuführen“. Das Modell soll Benutzern helfen, verschiedene Aktivitäten nahtlos zu verwalten, und möglicherweise den Weg zur künstlichen allgemeinen Intelligenz (AGI) ebnen, indem es menschenähnliche kognitive Funktionen nachahmt. Sundar Pichai, CEO von Google, betonte das Engagement des Unternehmens für die Entwicklung „agentischer Modelle“, die die Welt besser verstehen und besser agieren können, und wies auf erhebliche Investitionen hin, die im vergangenen Jahr getätigt wurden.
Gemini 2 enthält verbesserte „multimodale“ Funktionen, die es der KI ermöglichen, Audio und Video effektiver zu analysieren und gleichzeitig anspruchsvolle Gespräche zu führen. Durch die Demonstration dieser Fähigkeiten könnte Gemini 2 die Funktionsweise von Personal Computing neu definieren und möglicherweise Zeit durch automatisierte Aufgaben wie die Buchung von Flügen und die Verwaltung von Dokumenten sparen. Es bestehen jedoch weiterhin Herausforderungen hinsichtlich der Fähigkeit der Technologie, offene Befehle fehlerfrei zu verarbeiten, was zu kostspieligen Fehlern führen könnte.
Spezialisierte KI-Agenten für Codierung und Datenwissenschaft gehören ebenfalls zum Werkzeugkasten von Gemini 2 und ermöglichen es Benutzern, komplexe Programmieraufgaben zu bewältigen, die über die Fähigkeiten früherer Modelle hinausgehen. Im Gegensatz zu vorherrschenden KI-Tools, die sich auf die grundlegende Code-Vervollständigung konzentrieren, können diese Agenten umfassende Aufgaben wie das Einchecken von Code in Repositorys und die Erleichterung der Datenanalyse durchführen.
Project Mariner: Neuer Ansatz zur Webnavigation
Um die Fähigkeiten von Gemini 2 zu demonstrieren, hat Google Project Mariner eingeführt, eine experimentelle Chrome-Erweiterung, die Nutzer bei der Navigation im Web unterstützt. In einer kürzlich durchgeführten Demonstration wurde der KI-Agent damit beauftragt, eine Mahlzeit zu planen, indem er autonom zur Website eines Supermarkts navigierte, sich anmeldete, Artikel in einen Warenkorb legte und sogar Ersatz vorschlug, wenn bestimmte Artikel nicht verfügbar waren. Hassabis beschrieb Mariner als einen Forschungsprototyp, der Benutzerinteraktionen mit KI neu gestaltet und auf alltägliche Aufgaben abzielt.
Gemini wurde ursprünglich im Dezember 2023 als Teil der Strategie von Google eingeführt, mit ChatGPT von OpenAI zu konkurrieren, das für seinen Nutzen bei KI-gestützten Erlebnissen Anerkennung fand. Mit der Einführung von Gemini 2 positioniert Google sein Modell nun ebenso leistungsfähig wie die Angebote von OpenAI und zielt darauf ab, das Sucherlebnis durch KI-gesteuerte Funktionalitäten zu verbessern.
Google hat außerdem die neueste Version von Project Astra enthüllt, einer experimentellen Initiative, die es Gemini 2 ermöglicht, die Umgebung eines Benutzers über eine Smartphone-Kamera zu interpretieren. Während des Tests zeigte Gemini 2 seine Fähigkeit, Weinflaschen zu erkennen und geografische Informationen, Preise und Geschmacksmerkmale aus dem Internet bereitzustellen. Hassabis äußerte den Wunsch, Astra zu einem ultimativen Empfehlungssystem zu entwickeln, das in der Lage ist, Interessen über verschiedene Domänen hinweg zu verknüpfen, um die Benutzererfahrung zu verbessern.
Der Fokus auf den Speicher in Gemini 2 ermöglicht es der KI, Erkenntnisse über Benutzerpräferenzen zu behalten, wobei Google den Benutzern versichert, dass sie ihre Daten verwalten können, einschließlich Löschfunktionen. Bei Tests mit Astra zeigte die KI eine beeindruckende Anpassungsfähigkeit, indem sie den Gesprächskontext beibehielt und gleichzeitig auf Unterbrechungen reagierte.
Sicherheit und Zuverlässigkeit von KI-Agenten
Da die Funktionalität von Gemini 2 erweitert wird, betont Google, wie wichtig es ist, Sicherheit und Zuverlässigkeit zu gewährleisten. Während die Agenten vielversprechend sind, ergeben sich potenzielle Risiken aus der Art und Weise, wie Benutzer mit den Systemen und den von ihnen bereitgestellten Daten interagieren. Project Mariner enthält Eingabeaufforderungen, die eine Benutzerbestätigung erfordern, bevor vertrauliche Aktionen ausgeführt werden, und schützt so vor unbefugten Transaktionen.
Google geht proaktiv auf Sicherheitsbedenken ein, indem es mit internen und externen Experten zusammenarbeitet, um die mit der KI-Nutzung verbundenen Risiken zu bewerten. Dazu gehört die Erforschung von Maßnahmen, um einen Missbrauch der Plattform durch böswillige Aufforderungen oder Anweisungen zu verhindern und so die Nutzer vor potenziellen Bedrohungen wie Betrug oder Phishing-Angriffen zu schützen.
Die Veröffentlichung von Gemini 2 durch Google markiert einen entscheidenden Moment in der Weiterentwicklung der KI, da das Unternehmen weiterhin Benutzererfahrungen und Feedback verfolgt. Der Weg zu AGI verläuft mit jeder Entwicklungsphase schrittweise und beleuchtet die laufende Forschung, die zukünftige Iterationen der Technologie beeinflussen könnte. Während die Untersuchungen zu Benutzerinteraktionen und -reaktionen fortgesetzt werden, scheinen die nächsten Schritte für Gemini 2 und die damit verbundenen Projekte genau beobachtet zu werden.
Bildnachweis: Google
Der Beitrag „Googles Gemini 2.0“ ist da: Multimodal und mächtig erschien zuerst auf TechBriefly.
Source: Googles Gemini 2.0 ist da: Multimodal und mächtig