MiniMax hat MMX-CLI veröffentlicht, eine Node.js-basierte Befehlszeilenschnittstelle für seine KI-Plattform, die Entwicklern und KI-Agenten den direkten Zugriff auf generative Funktionen ermöglicht.
MMX-CLI bewältigt die Herausforderungen, mit denen LLM-basierte Agenten (Large Language Model) konfrontiert sind, die Schwierigkeiten haben, Medien ohne zusätzliche Integrationsebenen zu generieren. Die neue Schnittstelle ermöglicht es Benutzern, verschiedene Funktionen zur Mediengenerierung direkt als Shell-Befehle aufzurufen, sodass keine Modellkontextprotokolle erforderlich sind.
Die Schnittstelle integriert die Funktionen von MiniMax in sieben Befehlsgruppen: mmx-Text, mmx-Bild, mmx-Video, mmx-Sprache, mmx-Musik, mmx-Vision und mmx-Suche. Jeder Befehl bietet spezifische Funktionen, die auf Entwickler und KI-Anwendungen zugeschnitten sind.
Der mmx-Textbefehl unterstützt Multi-Turn-Chat und zielt auf bestimmte MiniMax-Modellvarianten ab. Standardmäßig wird MiniMax-M2.7 verwendet, was erweiterte Textgenerierungsaufgaben ermöglicht. Der Befehl „mmx image“ ermöglicht die Bildgenerierung aus Texteingabeaufforderungen und bietet Optionen für Seitenverhältnis und Motivkonsistenz über mehrere Ausgaben hinweg. Diese Funktion unterstützt Arbeitsabläufe, die visuelle Kontinuität erfordern. Der mmx-Videobefehl nutzt MiniMax-Hailuo-2.3 zur Videogenerierung mit Optionen für synchrone Abfragen oder asynchrone Aufgabenverfolgung. Benutzer können mithilfe der Flags des Befehls einen Eröffnungsrahmen für die Videogenerierung angeben.
Der mmx-Sprachbefehl von MMX-CLI bietet über 30 Text-zu-Sprache-Stimmen. Benutzer können Parameter wie Geschwindigkeit, Lautstärke und Tonhöhe anpassen und gleichzeitig das Timing von Untertiteln unterstützen. Die Eingabe ist auf 10.000 Zeichen begrenzt.
Mit dem mmx-Musikbefehl können Benutzer Musik aus Texteingaben generieren und verschiedene Kompositionsparameter wie Genre und Instrumentierung definieren. Optionen zum Einbetten von Wasserzeichen sind ebenfalls enthalten. Der mmx-Vision-Befehl interpretiert Bilder mithilfe eines Vision-Sprachmodells und ermöglicht es Benutzern so, über Eingabeaufforderungen den Inhalt von Bildern abzufragen.
Der mmx-Suchbefehl erleichtert Websuchen und gibt Ergebnisse entweder im Text- oder JSON-Format zurück. Sowohl die Befehlsstruktur als auch die zugrunde liegende technische Architektur sind für die Benutzerfreundlichkeit in verschiedenen Umgebungen optimiert. MMX-CLI wird hauptsächlich in TypeScript entwickelt und ist mit Node.js 18+ kompatibel. Die Bereitstellung ist unkompliziert und bietet eine strukturierte Fehlerbehandlung sowie Unterstützung für das API-Routing in zwei Regionen.
MiniMax gab an, dass MMX-CLI die Integrationsbarrieren für die KI-Entwicklung erheblich reduziert, indem es ein einheitliches Tool für verschiedene Mediengenerierungsfunktionen bereitstellt. In Kombination mit der einfachen Einrichtung für KI-Agenten optimiert dies den Prozess der Erstellung intelligenter Anwendungen.








