Guide Labs, ein in San Francisco ansässiges Startup, kündigte am Montag an die Open-Source-Veröffentlichung von Steerling-8B, einem großen Sprachmodell mit 8 Milliarden Parametern. Das von CEO Julius Adebayo und Chief Science Officer Aya Abdelsalam Ismail gegründete Unternehmen entwickelte das Modell mit einer besonderen Architektur, die darauf ausgelegt ist, jeden vom LLM generierten Token zu seinem spezifischen Ursprung in den Trainingsdaten zurückzuverfolgen. Mit dieser Funktion können Benutzer Referenzmaterialien für sachliche Behauptungen identifizieren oder komplexe Attribute wie Humor und Geschlechterkodierung innerhalb der Modellausgabe analysieren.
Die Entwicklung von Steerling-8B geht auf Forschungsarbeiten zurück, die Adebayo während seiner Doktorarbeit am MIT begann. Im Jahr 2018 war er Mitautor eines viel zitierten Artikels, der zeigte, dass bestehende Methoden zum Verständnis von Deep-Learning-Modellen unzuverlässig sind. Diese grundlegende Arbeit führte zu einer neuen Methodik zum Aufbau von LLMs, die die Interpretierbarkeit direkt in die Struktur des Modells integriert. Anstatt eine Post-hoc-Analyse anzuwenden – was Adebayo als „Neurowissenschaft an einem Modell“ beschreibt – fügt Guide Labs eine Konzeptebene ein, die Daten in nachvollziehbare Kategorien einteilt. Während dieser Ansatz eine stärkere Datenannotation im Vorfeld erfordert, die von anderen KI-Modellen unterstützt wird, schafft er von Grund auf einen transparenten Rahmen.
Trotz der strukturierten Architektur behält Steerling-8B aufkommende Verhaltensweisen bei. Das Team verfolgt sogenannte „entdeckte Konzepte“, die das Modell während des Trainings selbstständig identifiziert. Adebayo nannte Quantencomputing als Beispiel für ein Konzept, das das Modell eigenständig gefunden hatte, und verdeutlichte damit, dass das System nicht ausschließlich auf vorab gekennzeichneten Datenkategorien beruht.
Adebayo befasste sich mit der Komplexität der Kontrolle des Modellverhaltens, insbesondere im Hinblick auf sensible Attribute wie das Geschlecht. „Wenn ich eine Billion Möglichkeiten habe, das Geschlecht zu kodieren, und ich es in 1 Milliarde der 1 Billion Dinge, die ich habe, kodiere, muss man sicherstellen, dass man all diese 1 Milliarde Dinge findet, die ich kodiert habe, und dann muss man in der Lage sein, das zuverlässig ein- und auszuschalten“, sagte Adebayo gegenüber TechCrunch. Er wies darauf hin, dass die aktuellen Modelle zwar eine gewisse Kontrolle ermöglichen, diese jedoch weiterhin fragil ist, und bezeichnete die zuverlässige Verwaltung dieser Kodierungen als „eine der heiligen Gralfragen“ auf diesem Gebiet.
Das Unternehmen identifiziert mehrere praktische Anwendungen für die Interpretierbarkeit von Steerling-8B. In verbraucherorientierten Anwendungen ermöglicht die Architektur Entwicklern, urheberrechtlich geschütztes Material zu blockieren oder Ausgaben im Zusammenhang mit sensiblen Themen wie Gewalt oder Drogenmissbrauch zu kontrollieren. In regulierten Branchen, insbesondere im Finanzwesen, ermöglicht das Modell die Einhaltung von Vorschriften in Bereichen wie der Kreditbewertung, bei denen der Algorithmus angewiesen werden kann, Finanzunterlagen zu berücksichtigen und dabei die Rasse explizit zu ignorieren. Guide Labs hat auch Technologien für die wissenschaftliche Forschung entwickelt und geht damit auf den Bedarf an Erkenntnissen ein, warum Deep-Learning-Modelle bestimmte Ergebnisse liefern, beispielsweise bei Proteinfaltungssimulationen.
Leistungsbenchmarks zeigen, dass Steerling-8B 90 % der Leistungsfähigkeit bestehender, nicht interpretierbarer Modelle erreicht und dabei weniger Trainingsdaten nutzt. Adebayo argumentiert, dass diese Effizienz einen Wandel von der theoretischen Wissenschaft zum praktischen Ingenieurwesen zeigt. „Dieses Modell zeigt, dass das Trainieren interpretierbarer Modelle keine Wissenschaft mehr ist, sondern ein technisches Problem“, sagte Adebayo. „Wir haben die Wissenschaft verstanden und können sie skalieren, und es gibt keinen Grund, warum diese Art von Modell nicht mit der Leistung der Modelle auf Grenzniveau mithalten sollte.“
Guide Labs entstand aus Y Combinator und sicherte sich im November 2024 eine Startfinanzierungsrunde in Höhe von 9 Millionen US-Dollar von Initialized Capital. Die Roadmap des Unternehmens umfasst den Aufbau eines größeren Modells und die Bereitstellung von API- und Agentenzugriff für Benutzer. Adebayo betonte, wie wichtig es sei, die Interpretierbarkeit zu demokratisieren, da KI-Systeme immer leistungsfähiger werden. „Die Art und Weise, wie wir derzeit Modelle trainieren, ist äußerst primitiv, und daher wird die Demokratisierung der inhärenten Interpretierbarkeit tatsächlich langfristig eine gute Sache für unsere Rolle innerhalb der Menschheit sein“, sagte Adebayo. „Da wir nach diesen Modellen suchen, die superintelligent sein werden, möchten Sie nicht, dass jemand in Ihrem Namen Entscheidungen trifft, die für Sie irgendwie mysteriös sind.“







