Microsoft hat MAI-Image-1 angekündigt, sein erstes Bildgenerierungsmodell, das vollständig intern entwickelt wurde. Das Unternehmen gab an, dass das Modell „sehr bald“ auf Copilot und Bing Image Creator verfügbar sein wird und derzeit zum Testen auf LMArena verfügbar ist, einer Plattform, auf der Benutzer zwei anonyme Chatbots bewerten und für die beste Antwort stimmen.

Auf der Text-zu-Bild-Bestenliste von LMArena belegte MAI-Image-1 den neunten Platz und erreichte eine Punktzahl von 1.096 Punkten. Zum Vergleich: Googles Gemini-2.5-Flash, auch bekannt als Nano-Banana, erzielte 1.154 Punkte und belegt den zweiten Platz, während das Modell von OpenAI 1.123 Punkte für den siebten Platz erzielte. Angeführt wird die Bestenliste von Hunyuan-image-3.0, einem Modell des chinesischen Technologieunternehmens Hunyuan.

Microsoft gab an, dass sich sein Entwicklungsteam darauf konzentriert habe, sich wiederholende oder allgemein stilisierte Ausgaben mit MAI-Image-1 zu vermeiden. „Wir haben beispielsweise einer strengen Datenauswahl und einer differenzierten Auswertung Priorität eingeräumt, die sich auf Aufgaben konzentriert, die realen kreativen Anwendungsfällen möglichst nahe kommen“, erklärte das Unternehmen und fügte hinzu, dass es das Feedback von Fachleuten aus der Kreativbranche berücksichtigt habe.

Berichten zufolge zeichnet sich das Modell durch die Erstellung von Landschaften und fotorealistischen Bildern aus. Seine Leistung zeichnet sich durch die präzise Erfassung von Details wie Beleuchtung, Schatten und Reflexionen aus, insbesondere im Vergleich zu „vielen größeren, langsameren Modellen“.

Neben MAI-Image-1 hat Microsoft weitere interne Modelle entwickelt, darunter MAI-Voice-1 für die Erzeugung natürlicher Sprache und die Phi-Reihe kleiner Sprachmodelle für effiziente Argumentationsaufgaben. Diese interne Entwicklung erfolgt parallel zur kontinuierlichen finanziellen und infrastrukturellen Unterstützung des Unternehmens für OpenAI.

Der Bereich der KI-Bilderzeugung erlebt derzeit eine Phase hoher Aktivität. Das Modell von OpenAI erlangte kürzlich virale Aufmerksamkeit für seine Fähigkeit, den Kunststil von Studio Ghibli zu imitieren, während Googles „Nano-Banana“ für seine fortschrittlichen Bearbeitungsmöglichkeiten gewürdigt wurde.

Mit LMArena führte AIM einen Vergleich von Microsofts MAI-Image-1, Googles Gemini-2.5-Flash und OpenAIs GPT-image-1 durch. Die Modelle wurden mit einer Aufforderung getestet, die zwei Personen am späten Nachmittag in einem Café an einem Fenster zeigte. Die Bewertung konzentrierte sich darauf, wie jedes Modell mit gemischter Beleuchtung, Reflexionen und dem Realismus von Schatten umging. Benutzer können LMArena besuchen, um diese Modelle mit ähnlichen Eingabeaufforderungen zu testen.