Das Entwicklungsteam von X hat letzten Monat den Code für seinen „Für Sie“-Empfehlungsalgorithmus veröffentlicht. Elon Musk beschrieb die Veröffentlichung als einen Sieg für Transparenz und erklärte: „Wir wissen, dass der Algorithmus dumm ist und massive Verbesserungen erfordert, aber Sie können zumindest sehen, dass wir darum kämpfen, ihn in Echtzeit und mit Transparenz zu verbessern.“ Musk fügte hinzu: „Kein anderes Social-Media-Unternehmen macht das.“

X ist das einzige große soziale Netzwerk, das Open-Source-Elemente seines Empfehlungsalgorithmus anbietet. Forscher argumentieren jedoch, dass der veröffentlichte Code nur begrenzte Transparenz für das Verständnis des Plattformbetriebs im Jahr 2024 bietet. Der Code ähnelt einer redigierten Version, die im Jahr 2023 veröffentlicht wurde, so John Thickstun, Assistenzprofessor für Informatik an der Cornell University.

Thickstun sagte gegenüber Engadget: „Was mich an diesen Veröffentlichungen beunruhigt, ist, dass sie den Eindruck erwecken, dass sie für die Veröffentlichung von Code transparent seien, und den Eindruck erwecken, dass jemand diesen nutzen könnte.“ Freistellung für irgendeine Art von Prüfungs- oder Aufsichtstätigkeit. Und Tatsache ist, dass das überhaupt nicht möglich ist.“

Nach der Veröffentlichung teilten X-Benutzer ausführliche Threads, in denen sie den Code interpretierten, um den Erstellern Ratschläge zur Verbesserung der Sichtbarkeit zu geben. In einem Beitrag, der mehr als 350.000 Mal aufgerufen wurde, heißt es, dass X „Menschen belohnen wird, die sich unterhalten“ und „die Schwingungen von X erhöhen“. In einem anderen Beitrag mit über 20.000 Aufrufen wurde behauptet, dass das Posten von Videos der Schlüssel sei. In einem dritten Beitrag wurde empfohlen, sich an eine „Nische“ zu halten, weil „der Themenwechsel Ihrer Reichweite schadet“.

Thickstun warnte davor, aus dem Code Strategien zur Viralität abzuleiten. „Sie können unmöglich diese Schlussfolgerungen aus dem ziehen, was veröffentlicht wurde“, sagte er. Der Code enthüllt kleinere Betriebsdetails, wie etwa das Herausfiltern von Inhalten, die älter als einen Tag sind. Thickstun beschrieb viele der Informationen als „nicht umsetzbar“ für die Ersteller von Inhalten.

Eine wesentliche strukturelle Änderung trennt den aktuellen Algorithmus von der Version 2023. Das neue System verwendet ein Grok-ähnliches großes Sprachmodell, um Beiträge zu bewerten. Ruggero Lazzaroni, ein Ph.D. Forscher an der Universität Graz erklärten den Unterschied: „In der vorherigen Version war dies fest codiert: Man hat genommen, wie oft etwas geliked wurde, wie oft etwas geteilt wurde, wie oft etwas geantwortet wurde … und dann hat man darauf basierend eine Punktzahl berechnet und dann den Beitrag basierend auf der Punktzahl eingestuft.“

„Jetzt wird die Punktzahl nicht mehr von der tatsächlichen Anzahl an Likes und Shares abgeleitet, sondern davon, wie wahrscheinlich es ist, dass Grok denkt, dass Sie einen Beitrag mögen und teilen würden“, fuhr Lazzaroni fort. Diese Verschiebung erhöht laut Thickstun die Deckkraft. „So viel mehr Entscheidungen … finden innerhalb neuronaler Black-Box-Netzwerke statt, die sie anhand ihrer Daten trainieren“, sagte er. „Immer mehr Teile der Entscheidungsbefugnis dieser Algorithmen verschwinden nicht nur aus der Öffentlichkeit, sondern sogar aus der Sicht oder dem Verständnis selbst der internen Ingenieure, die an diesen Systemen arbeiten, weil sie in diese neuronalen Netze verlagert werden.“

In der neuen Version werden die zuvor im Jahr 2023 veröffentlichten Details zur Gewichtung von Interaktionen für das Ranking weggelassen. Im Jahr 2023 gab X an, dass eine Antwort 27 Retweets entsprach und eine Antwort, die eine Antwort des ursprünglichen Autors generierte, 75 Retweets entsprach. X hat diese Gewichtungen im neuesten Code unter Berufung auf „Sicherheitsgründe“ geschwärzt.

Der Code liefert keine Informationen zu den Trainingsdaten für das Modell. Mohsen Foroughifar, Assistenzprofessor für Wirtschaftstechnologien an der Carnegie Mellon University, betonte diese Lücke: „Eines der Dinge, die ich wirklich sehen möchte, ist, welche Trainingsdaten sie für dieses Modell verwenden. Wenn die Daten, die zum Training dieses Modells verwendet werden, von Natur aus verzerrt sind, dann könnte das Modell am Ende tatsächlich immer noch verzerrt sein, unabhängig davon, welche Art von Dingen Sie innerhalb des Modells berücksichtigen.“

Lazzaroni, der an einem EU-finanzierten Projekt arbeitet, das Social-Media-Plattformen simuliert, um Empfehlungsansätze zu testen, stellte fest, dass dem Code das Modell selbst fehlt. „Wir haben den Code zum Ausführen des Algorithmus, aber wir haben nicht das Modell, das Sie zum Ausführen des Algorithmus benötigen“, sagte er. Dies hindert Forscher daran, den Algorithmus von X zu reproduzieren.

Das Studium des Algorithmus hat einen Wert, der über die sozialen Medien hinausgeht. Thickstun stellte fest, dass Herausforderungen bei Social-Media-Empfehlungen Probleme bei KI-Chatbots widerspiegeln. „Viele dieser Herausforderungen, die wir auf Social-Media-Plattformen und Empfehlungssystemen sehen, sehen auch bei diesen generativen Systemen auf sehr ähnliche Weise aus“, sagte er. „Man kann also die Art von Herausforderungen, die wir bei Social-Media-Plattformen gesehen haben, auf die Art von Herausforderungen übertragen, die wir bei der Interaktion mit GenAI-Plattformen sehen werden.“

Lazzaroni, der toxische Verhaltensweisen in sozialen Medien simuliert, kritisierte Prioritäten bei der KI-Entwicklung. „KI-Unternehmen„Um den Gewinn zu maximieren, optimieren Sie die großen Sprachmodelle für die Benutzereinbindung und nicht dafür, die Wahrheit zu sagen oder sich um die psychische Gesundheit der Benutzer zu kümmern“, sagte er. „Und das ist genau das gleiche Problem: Sie machen mehr Gewinn, aber die Benutzer bekommen eine schlechtere Gesellschaft, oder sie haben dadurch eine schlechtere psychische Gesundheit.“

Die Veröffentlichung erfolgte letzten Monat, wobei die Version 2023 als früherer Benchmark diente. Wie Musk feststellte, steht der Ansatz von Die Benutzerinterpretationen nahmen sofort zu, obwohl Experten vor den Einschränkungen des Codes gewarnt hatten. Der Übergang zu einem auf neuronalen Netzwerken basierenden Ranking ersetzt explizite Interaktionszählungen durch Modellvorhersagen, wodurch Prozesse weiter verschleiert werden. Schwärzungen decken sowohl Gewichtungen als auch Trainingsdetails ab und schränken die externe Analyse ein.

Thickstun betonte die Auswirkungen des Wandels sowohl auf das interne als auch auf das externe Verständnis. Der Fokus von Foroughifar auf Trainingsdaten unterstreicht das Risiko von Verzerrungen. Lazzaronis Reproduktionsherausforderung blockiert simulationsbasierte Forschung. Diese Elemente mindern insgesamt den Transparenzanspruch der Veröffentlichung, so die Forscher.


Quelle des hervorgehobenen Bildes