Sie können GPT-4 mit OpenAI Evals verbessern

Treffen Sie OpenAI-Evals. Zusammen mit der Veröffentlichung von GPT-4 veröffentlichte OpenAI auch ein Open-Source-Software-Framework zum Testen der Wirksamkeit seiner KI-Modelle.

Das OpenAI-Team hat eine neue Reihe von Tools namens Evals angekündigt, mit denen jeder Probleme mit den Modellen des Unternehmens melden und Änderungen vornehmen kann.

Wir bieten OpenAI Evals, unser Framework zur automatisierten Bewertung der Leistung von KI-Modellen, Open-Source an, damit jeder zur Verbesserung unserer Modelle beitragen kann.
– Sam Altman (@sama) 14. März 2023

Was ist OpenAI Evaluation?

In einem Blogeintragbeschreibt OpenAI diese Methodik als „Crowdsourcing-Ansatz“ zur Validierung von Modellen.

„Wir verwenden Evals, um die Entwicklung unserer Modelle zu steuern (sowohl um Mängel zu identifizieren als auch Regressionen zu verhindern), und unsere Benutzer können es anwenden, um die Leistung über Modellversionen hinweg zu verfolgen und Produktintegrationen zu entwickeln“, schreibt OpenAI. „Wir hoffen, dass Evals zu einem Mittel wird, um Benchmarks zu teilen und zu sammeln, die eine möglichst breite Palette von Fehlermodi und schwierigen Aufgaben darstellen.“
-OpenAI

Das Ziel des Evals-Projekts von OpenAI ist es, Benchmarks zu konstruieren und auszuführen, die verwendet werden können, um die Wirksamkeit von Modellen wie GPT-4 durch sorgfältige Analyse ihrer Leistung zu bewerten. Mit Evals können Programmierer Fragen anhand von Datensätzen generieren, die Genauigkeit der Antworten eines OpenAI-Modells bewerten und die Wirksamkeit verschiedener Datensätze und Modelle bewerten.

Evals ist nicht nur abwärtskompatibel mit mehreren bekannten KI-Benchmarks, sondern ermöglicht Ihnen auch, neue Klassen zu erstellen, um Ihre eigene Bewertungslogik zu verwenden. Als Benchmark hat OpenAI eine Bewertung von Logikrätseln mit 10 Beispielen für Probleme entworfen, mit denen GPT-4 zu kämpfen hat.

Es ist alles Freiwilligenarbeit, was eine große Enttäuschung ist. Nichtsdestotrotz beabsichtigt OpenAI, Personen, die „hochwertige“ Benchmarks bereitstellen, GPT-4-Zugang zu gewähren, um die Nutzung von Evals zu fördern.

„Wir glauben, dass Evals ein integraler Bestandteil des Prozesses für die Verwendung und den Aufbau unserer Modelle sein werden, und wir freuen uns über direkte Beiträge, Fragen und Feedback.“
-OpenAI

OpenAI, das angekündigt hat, die Verwendung von Verbraucherdaten zum Trainieren seiner Modelle standardmäßig einzustellen, reiht sich in die Reihen derjenigen ein, die sich an Crowdsource gewandt haben, um KI-Modelle mit Evals zu stärken.

Stehst du auf GPT-4? Schauen Sie sich diese an: