Der Bereich der KI hat mit der Einführung von CogVideoX-5B große Veränderungen erlebt. Dieses von Forschern der Universität Tsinghua und Zhipu AI entwickelte KI-Modell könnte die Art und Weise verändern, wie Videos erstellt werden, und die Landschaft digitaler Inhalte verändern. Was ist CogVideoX-5B und warum ist es so beliebt?
CogVideoX-5B ist anders, weil es zugänglich ist und beeindruckende Fähigkeiten besitzt. Dieses Modell kann aus einfachem Text qualitativ hochwertige Videos mit einer Länge von bis zu sechs Sekunden erstellen. Dies hat große Auswirkungen. Das Modell ist Open Source, sodass es von Entwicklern weltweit verwendet werden kann. Dies erleichtert jedem die Erstellung von Videos.
CogVideoX-5B ist nicht zu empfehlen.https://t.co/e3bNKp3adp
Ein flauschiges weißes Kätzchen mit einer rosa Schleife um den Hals spielt auf einem Kissen neben einem sonnenbeschienenen Fenster. Sein weiches Fell leuchtet im Licht. Die Szene beginnt aus geringer Entfernung und wird allmählich näher herangezoomt, während das Kätzchen mit einem kleinen Finger schlägt … pic.twitter.com/1x1y3mqFA6
— 布留川英一 / Hidekazu Furukawa (@npaka123) 28. August 2024
Wie funktioniert es im CogVideoX-5B?
Das CogVideoX-5B Modell hat 5 Milliarden ParameterDas Modell kann Videos produzieren bei Auflösung 720×480 Und 8 Bilder pro Sekunde. Dieses Modell ist nicht das beste, aber es ist immer noch gut, vor allem weil es Open Source ist.
Der Erfolg des CogVideoX-5B ist auf mehrere technische Innovationen zurückzuführen. Das Modell verwendet eine 3D-Variations-Autoencoder (VAE) zur Komprimierung von Videodaten, wodurch die Generierung Hochwertige Ergebnisse. Es verwendet auch ein „Experte Transformator” mit adaptiven LayerNormwodurch das Modell Text differenzierter interpretieren kann, was zu genaueren und stimmigeren Videos führt.
Die Entscheidung, CogVideoX-5B als Open-Source zu veröffentlichen, ist ein großer Schritt für die KI. Die Forscher von Tsinghua Universität Und Zhipu KI haben ihren Code und ihre Modellgewichte öffentlich gemacht, was es anderen erleichtert, fortschrittliche Videogenerierungstechnologie zu verwenden. Das bedeutet, dass Entwickler jetzt mit KI-generierten Videoinhalten experimentieren können. Dieser Open-Source-Ansatz könnte in vielen Branchen zu neuen Tools und Anwendungen führen.
Erstellt von CogVideoX-5B! pic.twitter.com/Y22zcg8fBA
— F-AI (@faiAI0) 28. August 2024
CogVideoX-5B: Vergleich und Hersteller
Das CogVideoX-5B ist nicht das erste Text-zu-Video-Modell, aber es erweist sich als eines der einflussreichsten. Es übertraf Konkurrenten wie VideoCrafter-2.0 Und OpenSora. Dies ist auf neue Techniken zurückzuführen, die von den Entwicklern verwendet wurden. Forscher der Tsinghua-Universität und Zhipu KI haben ein Tool entwickelt, das die Produktion und Nutzung digitaler Inhalte verändern könnte.
Erste Schritte mit CogVideoX-5B
Sie können das CogVideoX-5B-Modell kostenlos verwenden und damit experimentieren. Hier ist eine einfache Anleitung für den Einstieg:
- Besuchen Sie das GitHub-Repository: Der CogVideoX-5B-Code und die Modellgewichte sind eingeschaltet GitHub. Laden Sie sie auf Ihren Computer herunter.
- Einrichten Ihrer Umgebung: Stellen Sie sicher, dass Sie über die richtigen Tools zum Ausführen des Modells verfügen. Dazu können bestimmte Versionen von Python und Bibliotheken wie PyTorch.
- Ausführen des Modells: Geben Sie Textaufforderungen ein und generieren Sie Videos mithilfe der Anweisungen im Repository.
- Experimentieren und innovieren: Wenn Sie die Grundlagen beherrschen, probieren Sie unterschiedliche Textaufforderungen aus, um zu sehen, was das Modell kann.
CogVideoX-5B (txt2vid) wurde zum kostenlosen Blender-Add-on Pallaidium hinzugefügt: #b3d pic.twitter.com/ynBupL2TKT
— tintwotin (@tintwotin) 27. August 2024
So testen Sie CogVideoX-5B online
Wenn Sie CogVideoX-5B nicht herunterladen möchten, können Sie es online über Hugging Face ausprobieren. Hier ist eine Anleitung zur Verwendung der Demo:
- Besuchen Sie die Demoseite: Gehen Sie zum CogVideoX-5B Umarmungsgesichtsraum.
- Geben Sie Ihre Texteingabeaufforderung ein: Im “PromptBeschreiben Sie im Feld „“ das Video, das Sie erstellen möchten. Für optimale Ergebnisse sollten es weniger als 200 Wörter sein.
- Verbessern Sie Ihre Eingabeaufforderung (optional): Klicken Sie auf „Eingabeaufforderung verbessern“, um Ihre Eingabe zu verfeinern und die ursprüngliche Eingabeaufforderung zu überschreiben.
- Einen Inferenz-Seed festlegen (optional): Um die Zufälligkeit der Videogenerierung zu steuern, geben Sie eine positive Zahl in das Feld „Inference Seed“ ein. Wenn Sie einen zufälligen Seed bevorzugen, lassen Sie den Wert so
-1
.
- Zusätzliche Funktionen aktivieren (optional):
- Super-Auflösung: Aktivieren Sie dieses Kontrollkästchen, um das Video von 720×480 auf 1440×960 hochzuskalieren.
- Frame-Interpolation: Aktivieren Sie diese Option, um die Videoausgabe durch Erhöhung der Bilder pro Sekunde (von 8 FPS auf 16 FPS) zu verbessern.
- Generieren Sie Ihr Video: Wenn Sie fertig sind, klicken Sie auf „Video generieren“. Das Modell erstellt basierend auf Ihrer Eingabeaufforderung ein kurzes Video.
- Sehen Sie sich das Video an: Sobald das Video generiert wurde, können Sie es auf der Seite in der Vorschau anzeigen. Passen Sie die Eingaben an und versuchen Sie es erneut, um das gewünschte Ergebnis zu erzielen.
CogVideoX-5B und ähnliche Produkte
Das CogVideoX-5B ist ein weiteres KI-Modell, das die Möglichkeiten der digitalen Inhaltserstellung verändert. Weitere bemerkenswerte Modelle sind Runways Videogenerierungstools Luma AI, VideoCrafter2und Pika Labs. Jedes Modell hat seine Stärken, aber die neue KI ist Open Source, was ihre Verwendung erleichtert und mehr Menschen die Möglichkeit gibt, an ihrer Entwicklung mitzuwirken.
Dieses Unternehmen ist ein wichtiger Schritt nach vorne bei KI-generierten Videos. Sein Open-Source-Ansatz macht die Nutzung für alle einfacher und trägt dazu bei, dass es immer besser wird. Je mehr Menschen es nutzen, desto vielfältiger, dynamischer und zugänglicher wird die Videoerstellung.
Bildnachweis: CogVideoX
Source: Wie CogVideoX-5B die Videoerstellung für immer revolutionieren wird