Das als Google Muse AI bekannte künstliche Intelligenzsystem wurde heute offiziell vorgestellt. Basierend auf seiner Verwendung von paralleler Dekodierung und einem kleinen, diskreten latenten Raum behauptet das neue Text-zu-Bild-Umwandlungsmodell, schneller als bestehende Alternativen zu sein. Die Macher von Google Muse AI behaupten, dass ihre Kreation Fotos auf einem Qualitätsniveau erzeugen kann, das mit den Besten der Besten vergleichbar ist.
Wir präsentieren Museein Text-to-Image-Transformer-Modell, das eine hochmoderne Bilderzeugungsleistung erzielt und gleichzeitig wesentlich effizienter als Diffusions- oder autoregressive Modelle ist.
Google Muse-KI-Team
Was ist die Google Muse-KI?
Das Team behauptet, dass Google Muse AI eine große Verbesserung gegenüber früheren Text-zu-Bild-Umwandlungsmodellen wie Imagen und DALL-E 2 darstellt. Muse verwendet die Texteinbettung eines großen Sprachmodells, um auf einem maskierten Modellierungsjob im diskreten Token-Raum (LLM) trainiert zu werden ).
Muse ist in der Lage, Tokens in Bildern zu erkennen, die nach Belieben getarnt wurden. Aufgrund der Verwendung diskreter Tokens und geringerer Anforderungen an die Stichprobengröße verspricht Muse, Pixelraum-Diffusionsmodelle wie Imagen und DALL-E 2 zu schlagen. Das Modell generiert eine kostenlose Zero-Shot-, maskenfreie Bearbeitung, indem es Bild-Tokens als Reaktion wiederholt neu abtastet zu einer Aufforderung.
Bezogen auf MUSE‘s Benchmarks sind die Inferenzzeiten von Muse deutlich niedriger als die der Konkurrenzmodelle.
Modell | Auflösung | Inferenzzeit (↓) |
Stabile Diffusion 1.4 | 512×512 | 3,7 Sek |
Teil-3B | 256×256 | 6,4 Sek |
Bildn | 256×256 | 9,1 Sek |
Bildn | 1024×1024 | 13,3 s |
Muse-3B | 256×256 | 0,5 Sek |
Muse-3B | 512×512 | 1,3 Sek |
Im Gegensatz zu Parti und anderen autoregressiven Modellen nutzt Muse die parallele Dekodierung. Um qualitativ hochwertige Bilder zu produzieren und visuelle Konzepte wie Objekte, ihre räumlichen Beziehungen, Haltung, Kardinalität usw. zu erkennen, muss ein LLM, der bereits unterrichtet wurde, Englisch auf einer granularen Ebene verstehen. Das Modell muss nicht umgedreht werden, damit Muse Inpainting, Outpainting und maskenlose Bearbeitung unterstützt.
KI-Funktionen von Google Muse
Muse ist ein schnelles, hochmodernes Modell zum Generieren und Ändern von Bildern aus Text und verfügt über mehrere nützliche Funktionen, darunter:
- Text-zu-Bild-Generierung
- Als Reaktion auf Texteingaben generiert Googles künstliche Intelligenz (KI) Muse schnell qualitativ hochwertige Grafiken (1,3 s für eine Auflösung von 512 × 512 oder 0,5 s für eine Auflösung von 256 × 256 auf TPUv4).
- Zero-Shot, maskenfreie Bearbeitung
- Das KI-Modell von Google Muse bietet uns eine kostenlose Zero-Shot-, maskenfreie Bearbeitung, indem Bild-Tokens als Reaktion auf eine Textanweisung wiederholt abgetastet werden.
- Wenn Sie ein Bild ändern, ermöglicht Ihnen die maskenlose Bearbeitung, mehrere Objekte mit einer einfachen Texteingabeaufforderung zu manipulieren.
- Zero-Shot Inpainting/Outpainting
- Googles Muse AI ist kostenlos und verfügt über maskenbasierte Bearbeitungsfunktionen (Inpainting und Outpainting). Durch das Anwenden einer Maske auf eine Bearbeitung wird diese funktionell äquivalent zu einer neuen Generation.
Sehen Sie sich die besten KI-Tweet-Generatoren an, mit denen Sie wie Elon Musk twittern können.
Details zum Google Muse AI-Modell
Sie können den Trainingsablauf von Googles Muse AI unten überprüfen:
Das Google-Team verwendet zwei verschiedene VQGAN-Tokenizer-Netzwerke, eines für Fotos mit geringer Qualität und eines für Bilder mit hoher Auflösung. Transformatoren mit niedriger Auflösung („Basis“) und hoher Auflösung („Superres“) werden mit den unmaskierten Token und T5-Texteinbettungen trainiert, um die maskierten Token vorherzusagen.
Für detailliertere Informationen zu Google Muse AI klicken Sie auf Hier.
KI-Tools, die wir erklärt haben
Obwohl einige „Nein zu KI-generierten Bildern“ sagen, kommt fast jeden Tag ein neues KI-Tool in unser Leben, wie zum Beispiel:
- Ausgeglichene KI
- Kaktus-KI
- OpenAI Point-E
- Uberduck-KI
- QQ Andere Dimension Ich
- MyHeritage KI-Zeitmaschine
- Metas Cicero-KI
- Begriff KI
- Meta Galactica-KI
- NovelAI
- Erstelle-ein-Video-Meta-KI
- DALL-E 2
- Wombo-Traum
- Googles DreamBooth-KI
- Stabile Diffusion
Bleib dran für mehr!
Source: Google Muse AI: Funktionen, Beispiele und mehr