Forscher vom MIT CSAIL haben PDDL-INSTRUCT entwickelt, ein Framework zur Befehlsoptimierung, das die mehrstufigen Planungsfähigkeiten großer Sprachmodelle (LLMs) verbessern soll. Die Methode kombiniert eine logische Gedankenkette mit einem externen Planvalidator, um die Generierung logisch gültiger Pläne gegenüber plausiblen, aber falschen Ergebnissen zu erhöhen.

Das Framework trainiert Modelle, um zu erkennen und zu erklären, warum ein Kandidatenplan gescheitert ist. Zu diesen Fehlern können nicht erfüllte Voraussetzungen, falsche Effekte, Rahmenverletzungen oder ein nicht erreichtes Ziel gehören. Dieser Prozess wird mit logischen Gedankenkettenaufforderungen gepaart, die den LLM anleiten, schrittweise Rückschlüsse auf Zustands- und Aktionsübergänge zu ziehen. Dadurch entstehen nachvollziehbare Folgen von Zustand→Aktion→Zustand, geschrieben als ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.

Zur externen Validierung integriert PDDL-INSTRUCT den VAL-Planvalidator, der jeden Schritt des generierten Plans überprüft. Der Validator liefert Feedback, das entweder binär (gültig/ungültig) oder detailliert ist, wobei das detaillierte Feedback zu einer überlegenen Leistung führt. Das System nutzt einen zweistufigen Optimierungsprozess. Die erste Stufe bestraft Fehler in den Argumentationsketten und die zweite Stufe optimiert die endgültige Planungsgenauigkeit.

Das System wurde anhand des PlanBench-Benchmarks bewertet, der Planungsbereiche umfasst, von denen bekannt ist, dass sie LLMs herausfordern, wie Blocksworld, Mystery Blocksworld und Logistics. Im Blocksworld-Bereich erreichte ein optimiertes Llama-3-8B-Modell eine Rate von 94 % bei der Generierung gültiger Pläne. Frühere Modelle hatten auf Mystery Blocksworld eine Gültigkeit von nahezu Null, einer Domäne, in der Prädikatsnamen verschleiert werden, um einen Mustervergleich zu verhindern. PDDL-INSTRUCT erzielte in diesem Bereich eine bis zu 64-fache Verbesserung.

Auch im Bereich Logistik konnten deutliche Leistungssteigerungen verzeichnet werden. In allen Testbereichen lieferte das Framework eine absolute Verbesserung von bis zu 66 % im Vergleich zu nicht abgestimmten Basismodellen. Die Forscher stellten außerdem fest, dass sich die Leistung mit längeren Feedback-Budgets und detaillierteren Ergebnissen des Validators verbesserte.

Die aktuelle Implementierung von PDDL-INSTRUCT gilt für klassische PDDL-Domänen und hängt vom VAL-Validator als externem Orakel ab. Die Ergebnisse zeigen eine Methode zur Verankerung des LLM-Denkens in formaler Semantik zur Verwendung in Agentensystemen, die während der Planung einen Verifizierer einbeziehen können. Die Erweiterung des Frameworks zur Bewältigung langfristiger, zeitlicher, numerischer und kostensensibler Planungsaufgaben bleibt ein Bereich für weitere Arbeiten.