Die Google DreamBooth-KI ist da. Neu veröffentlichte Technologien wie OpenAIs DALL-E 2 oder StabilityAIs Stable Diffusion und Midjourney erobern das Internet bereits im Sturm. Jetzt ist es an der Zeit, die Ergebnisse anzupassen. Doch wie? Die Boston University und Google lieferten die Antworten, und wir haben sie für Sie detailliert beschrieben.
DreamBooth hat die Fähigkeit, das Thema eines Bildes zu erkennen, es aus seinem ursprünglichen Kontext zu dekonstruieren und es dann präzise in einen neuen gewünschten Kontext zu synthetisieren. Darüber hinaus kann es mit aktuellen KI-Bildgeneratoren verwendet werden. Erfahren Sie mehr über KI-gestützte Vorstellungskraft, indem Sie weiterlesen.
Google DreamBooth AI erklärt
Google stellte DreamBooth vor, ein neues Text-to-Image-Diffusionsmodell. Google DreamBooth AI kann eine Vielzahl von Bildern des vom Benutzer gewählten Themas unter verschiedenen Bedingungen erstellen, indem eine Textaufforderung als Anweisung verwendet wird.
DreamBooth, eine revolutionäre Methode zum Modifizieren stark vortrainierter Text-zu-Bild-Modelle, wurde von einem Forschungsteam der Boston University und Google entwickelt. Insgesamt ist die Idee ziemlich einfach: Sie wollen das Sprach-Vision-Wörterbuch so erweitern, dass seltene Token-IDs mit einem bestimmten Thema verbunden werden, das der Benutzer erstellen möchte.
Hauptmerkmale von Google DreamBooth AI:
- Mit 3-5 Fotos kann DreamBooth AI ein Text-zu-Bild-Modell verbessern.
- Mit DreamBooth AI können vollständig originelle fotorealistische Bilder des Motivs erstellt werden.
- Darüber hinaus ist die DreamBooth-KI in der Lage, Bilder eines Motivs aus verschiedenen Perspektiven zu erstellen.
Das Hauptziel des Modells besteht darin, den Benutzern die erforderlichen Werkzeuge zur Verfügung zu stellen, um fotorealistische Darstellungen der Instanzen ihres gewählten Themas zu erstellen und sie mit dem Text-zu-Bild-Diffusionsmodell zu verbinden. Infolgedessen scheint diese Methode für die Zusammenfassung von Problemen unter einer Vielzahl von Umständen effektiv zu sein.
Googles DreamBooth verfolgt einen etwas anderen Ansatz als andere kürzlich veröffentlichte Text-zu-Bild-Tools wie z DALL-E 2, Stabile Diffusionund Zwischendurch indem Benutzern mehr Kontrolle über das Themenbild ermöglicht wird und dann das Verbreitungsmodell mithilfe textbasierter Eingaben gesteuert wird.
DreamBooth kann das Thema auch mit nur wenigen Eingabefotos aus verschiedenen Kameraperspektiven zeigen. Künstliche Intelligenz (KI) kann die Qualitäten des Themas vorhersehen und sie in einer textgeführten Navigation synthetisieren, auch wenn die Eingabefotos keine Daten zum Thema aus verschiedenen Blickwinkeln liefern.
Dieses Modell kann die Fotografien auch synthetisieren, um andere Stimmungen, Accessoires oder Farbänderungen unter Verwendung von Sprachhinweisen zu erzeugen. Mit diesen Funktionen bietet DreamBooth Google AI den Nutzern noch mehr Personalisierung und kreative Freiheit.
Der DreamBooth-Artikel „DreamBooth: Feinabstimmung von Text-zu-Bild-Diffusionsmodellen für die subjektgesteuerte Generierung“ behauptet, dass sie ein neuartiges Problem und einen neuen Ansatz bieten:
- Subjektgesteuerte Generierung ist ein neues Thema.
Ausgehend von ein paar hastig aufgenommenen Bildern des Motivs besteht das Ziel darin, neue Darstellungen des Motivs in verschiedenen Umgebungen zu erstellen und gleichzeitig seine zentralen visuellen Eigenschaften in hoher Wiedergabetreue zu bewahren.
Anwendungen von Google DreamBooth-KI
Die wichtigsten KI-Anwendungen von Google DreamBooth sind wie folgt:
- Rekontextualisierung
- Kunstwiedergaben
- Ausdrucksmanipulation
- Neuartige Ansichtssynthese
- Ausstattung
- Eigentumsänderung
Sind Sie bereit, sich von PhotoShop zu trennen? Untersuchen wir sie genauer anhand der instruktiven Bilder, die von erstellt wurden Nataniel Ruiz und die DreamBooth-Crew.
Rekontextualisierung
Indem dem trainierten Modell eine Phrase zugeführt wird, die die eindeutige Kennung und das Klassennomen enthält, kann DreamBooth AI einzigartige Bilder für eine bestimmte Subjektinstanz erstellen. Anstatt den Hintergrund zu modifizieren, kann DreamBooth AI das Motiv in innovativen, bisher nicht gesehenen Haltungen, Artikulationen und Szenenstrukturen erzeugen. realistische Schatten und Reflexionen sowie die Interaktion des Motivs mit benachbarten Objekten. Dies zeigt, dass ihre Strategie mehr bietet, als nur relevante Informationen zu extrapolieren oder abzurufen.
Kunstwiedergaben
Wenn man die Möglichkeit hat, zwischen „einer Statue von a [V] [class noun] Im Style von [great sculptor]“ und „ein Gemälde von a [V] [class noun] Im Style von [famous painter],” Welches würdest du nehmen? Mit DreamBooth AI können originelle kreative Darstellungen erstellt werden.
Diese Aufgabe unterscheidet sich insbesondere von der Stilübertragung, bei der die Semantik der Quellszene erhalten bleibt, während der Stil eines anderen Bildes auf die Originalszene angewendet wird. Im Gegensatz dazu kann die KI je nach kreativem Stil große Szenenänderungen mit Motivinstanzdetails und Identitätserhaltung erreichen.
Ausdrucksmanipulation
Mit Hilfe der Methode von Google DreamBooth AI können neue Bilder des Motivs mit anderen Gesichtsausdrücken als im ursprünglichen Bildersatz erstellt werden.
Neuartige Ansichtssynthese
Google DreamBooth AI kann das Thema aus einer Reihe einzigartiger Perspektiven darstellen. Beispielsweise kann DreamBooth AI unter Verwendung verschiedener Kamerawinkel neue Bilder derselben Katze erstellen, die mit zuverlässig detaillierten Fellmustern ausgestattet sind.
Obwohl das Modell nur vier Frontalfotos der Katze hat, kann die DreamBooth-KI Informationen aus der Klasse ableiten, bevor sie diese kreativen Standpunkte erstellt, obwohl sie dieselbe Katze noch nie von der Seite, von unten oder von oben gesehen hat.
Ausstattung
Der faszinierende Aspekt der Fähigkeit von DreamBooth AI, Objekte zu verschönern, ergibt sich aus der starken kompositorischen Vorstufe des Generationsmodells. Zur Veranschaulichung wird das Modell mit einem Satz der Form „a [V] [class noun] Verschleiß [accessory]“. Dadurch ist es uns möglich, verschiedene Gegenstände ansprechend am Hund anzubringen.
Eigentumsänderung
DreamBooth AI ist in der Lage, die Eigenschaften der betroffenen Instanz zu ändern. Ein Farbadjektiv könnte im Beispielsatz „a [color adjective] [V] [class noun]“. Dies kann zu frischen, lebendigen Beispielen des Themas führen. Es gibt ein paar Anforderungen, aber diese Eigenschaften erklären auch, wie man DreamBooth AI nutzt.
Verwenden Sie die Google DreamBooth-KI?
Die DreamBooth-KI-Technik verwendet als Eingabe eine kleine Anzahl von Fotos (normalerweise sind 3-5 Bilder ausreichend) eines Themas (z. B. eines bestimmten Hundes) und des damit verbundenen Klassennamens (z. B. „Hund“). Anschließend wird ein optimiertes und „personalisiertes“ Text-zu-Bild-Modell erstellt, das eine eindeutige Identität für das Thema codiert. Um die Themen in verschiedenen Kontexten zu synthetisieren, kann DreamBooth AI dann die eindeutige Identifikation bei der Inferenz in verschiedene Phrasen einfügen. Bei drei bis fünf Bildern des Motivs können Sie eine Text-zu-Bild-Diffusion in zwei Schritten anpassen:
- Eine Textaufforderung mit einem bestimmten Code und dem Namen der Klasse, zu der das Thema gehört (z. B. „ein Bild von a [T] Hund“) wird verwendet, um das Text-zu-Bild-Modell mit niedriger Auflösung zu verbessern. Darüber hinaus verwenden sie einen klassenspezifischen vorherigen Erhaltungsverlust, der die semantische Priorität des Modells für die Klasse nutzt und sie dazu ermutigt, eine Reihe von Beispielen zu generieren, die Mitglieder der Klasse des Subjekts sind, indem sie den Klassennamen in die Texteingabeaufforderung einfügen (z , „ein Bild von einem Hund“).
- Wir erreichen eine hohe Wiedergabetreue, indem wir die Superauflösungskomponenten unter Verwendung von Paaren von niedrig- und hochaufgelösten Fotografien aus unserem Eingangsbildsatz abstimmen.
Die erste Dreambooth wurde mit gemacht Bildn‘s Text-zu-Bild-Paradigma. Das Modell und die Gewichte von Imagen sind jedoch nicht verfügbar. Anhand einiger Beispiele ermöglicht Dreambooth on Stable Diffusion Benutzern jedoch, ein Text-zu-Bild-Modell anzupassen.
Wie verwende ich Google Dreambooth AI bei Stable Diffusion?
Um DreamBooth AI für Stable Diffusion zu verwenden, befolgen Sie die folgenden Schritte:
- Befolgen Sie die Einrichtungsanweisungen im Textual Inversion-Repository oder im ursprünglichen Stable Diffusion-Repository, um Ihre LDM-Umgebung einzurichten.
- Zur Feinabstimmung eines stabilen Diffusionsmodells müssen Sie die vortrainierten stabilen Diffusionsmodelle erhalten und deren Anweisungen befolgen. Sie können Gewichte von herunterladen Umarmendes Gesicht.
- Bereiten Sie eine Reihe von Bildern für die Regularisierung vor, wie es die Feinabstimmungsmethode von Dreambooth erfordert.
- Sie können mit dem folgenden Befehl üben:
1
2
3
4
5
6
7
8
|
python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml -t --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt -n <job name> --gpus 0, --data_root /root/to/training/images --reg_data_root /root/to/regularization/images --class_word <xxx> |
Generation
Nach dem Training kann der Befehl verwendet werden, um personalisierte Beispiele zu erhalten.
1
2
3
4
5
6
7
|
python scripts/stable_txt2img.py --ddim_eta 0.0 --n_samples 8 --n_iter 1 --scale 10.0 --ddim_steps 100 --ckpt /path/to/saved/checkpoint/from/training --prompt "photo of a sks <class>" |
Insbesondere ist class> das Klassenwort – Klassenwort für Training – und sks ist der Bezeichner (der, wenn Sie ihn ändern möchten, durch Ihre Wahl ersetzt werden sollte). Weitere Informationen finden Sie unter GitHub-Seite für DreamBooth Stable Diffusion.
Einschränkungen der Dreambooth-KI
Die Einschränkungen von DreamBooth AI sind wie folgt:
- Sprachdrift
- Überanpassung
- Erhaltungsverlust
Untersuchen wir sie genauer.
Sprachdrift
Das Erstellen von Iterationen im Thema mit einem hohen Detaillierungsgrad wird durch die Eingabeaufforderung behindert. DreamBooth kann den Kontext des Themas ändern, es gibt jedoch Probleme mit dem Rahmen, wenn das Modell das eigentliche Thema ändern möchte.
Überanpassung
Ein weiteres Problem ist, wenn das Ausgabebild zu stark an das Originalbild angepasst wird. Das Thema wird möglicherweise nicht bewertet oder mit dem Kontext der hochgeladenen Bilder kombiniert, wenn nicht genügend Eingabefotos vorhanden sind. Dies tritt auch auf, wenn ein Kontext für eine ungerade Generation abgefragt wird.
Erhaltungsverlust
Die Unfähigkeit, Bilder von selteneren oder komplexeren Themen zu synthetisieren, sowie eine unterschiedliche Thementreue, die zu halluzinogenen Verschiebungen und diskontinuierlichen Qualitäten führen kann, sind weitere Einschränkungen. Der Eingabekontext ist häufig im Thema der Eingabebilder enthalten.
Gesellschaftliche Auswirkungen der KI
Das Ziel des DreamBooth-Projekts ist es, Benutzern ein praktisches Werkzeug zur Verfügung zu stellen, um persönliche Themen (Tiere, Objekte) in einer Vielzahl von Umgebungen zu synthetisieren. Während Standard-Text-zu-Bild-Algorithmen beim Synthetisieren von Bildern aus Wörtern möglicherweise auf bestimmte Aspekte ausgerichtet sind, hilft dies dem Benutzer, die von ihm gewählten Themen besser nachzubilden. Allerdings können böswillige Parteien versuchen, Benutzer zu täuschen, indem sie ähnliche Bilder verwenden. Verschiedene generative Modellmethoden oder Inhaltsmodifikationstechniken weisen dieses allgegenwärtige Problem auf.
Fazit
Die meisten Text-zu-Bild-Modelle benötigen Millionen von Parametern und Bibliotheken, um Ausgaben aus einer einzigen Texteingabe zu erstellen. DreamBooth erleichtert es Benutzern, Inhalte zu erhalten und zu verwenden, indem sie einfach die Eingabe von drei bis fünf Themenbildern zusammen mit einem schriftlichen Hintergrund benötigen.
Die charakteristischen Qualitäten des Themas können daher bewahrt werden, während das trainierte Modell die materialistischen Aspekte des Themas, die aus den Bildern gelernt wurden, wiederverwendet, um sie in anderen Umgebungen und Blickwinkeln zu replizieren. Die meisten Text-zu-Bild-Konvertierungsalgorithmen basieren auf bestimmten Schlüsselwörtern und können bestimmte Attribute bei der Anzeige von Bildern priorisieren. Benutzer von DreamBooth können fotorealistische Ergebnisse erzielen, indem sie ihre ausgewählte Person in einer einzigartigen Umgebung oder einem einzigartigen Szenario sehen. Also hör jetzt auf zu warten. Probieren Sie es jetzt!
Wir hoffen, dass Ihnen dieser Artikel über die Verwendung von Google Dreambooth AI bei Stable Diffusion gefallen hat. Wenn Sie dies getan haben, werden Sie sicher auch gerne einige unserer anderen Artikel lesen, wie z.
Source: Wie verwende ich Google Dreambooth AI bei Stable Diffusion?