OpenAI veröffentlichte GPT-5.4 am Donnerstag und führte neben den Varianten GPT-5.4 Thinking und GPT-5.4 Pro eine Standardversion ein. Das Unternehmen beschrieb das Modell als sein leistungsfähigstes und effizientestes Grenzmodell für professionelle Arbeit.
Die API-Version unterstützt Kontextfenster mit bis zu 1 Million Token, dem größten von OpenAI verfügbaren. Das Modell weist außerdem eine verbesserte Token-Effizienz auf und löst Probleme mit deutlich weniger Token als sein Vorgänger.
GPT-5.4 erzielte Rekordwerte bei den Computernutzungs-Benchmarks OSWorld-Verified und WebArena Verified. Beim GDPval-Test von OpenAI für Wissensarbeitsaufgaben erreichte es außerdem 83 %.
Laut Brendan Foody, CEO von Mercor, führte das Modell den APEX-Agents-Benchmark von Mercor an, der berufliche Fähigkeiten in den Bereichen Recht und Finanzen testet. Laut Foody zeichnet sich GPT-5.4 durch die Erstellung langfristiger Ergebnisse wie Foliendecks und Finanzmodelle aus und liefert Spitzenleistungen schneller und zu geringeren Kosten als die Konkurrenz.
OpenAI sagte, dass das Modell im Vergleich zu GPT 5.2 mit einer um 33 % geringeren Wahrscheinlichkeit Fehler bei einzelnen Ansprüchen macht. Insgesamt ist die Wahrscheinlichkeit, dass Antworten Fehler enthalten, um 18 % geringer.
Das Unternehmen führte die Tool-Suche ein, um Tool-Aufrufe in der API zu verwalten. Das System sucht bei Bedarf nach Werkzeugdefinitionen und reduziert so den Token-Verbrauch und die Kosten in Systemen mit vielen Werkzeugen.
OpenAI hat eine neue Sicherheitsbewertung hinzugefügt, um die Überwachung der Gedankenkette zu testen. Die Auswertung ergab, dass Täuschung in der GPT-5.4 Thinking-Version weniger wahrscheinlich ist, was darauf hindeutet, dass das Modell nicht in der Lage ist, seine Argumentation zu verbergen.








