Das Leistungsoptimierungsteam von Anthropic bewertet seit 2024 Bewerber. überarbeitet Laut Teamleiter Tristan Hume ist es ein technischer Interviewtest, um KI-gestütztem Betrug entgegenzuwirken. Anthropic führte einen Take-Home-Test für Bewerber durch. Die verbesserten Fähigkeiten der KI-Codierungstools erforderten häufige Überarbeitungen dieses Tests, der die Fähigkeiten der Kandidaten bewerten soll. Tristan Hume, Teamleiter, hat diese Herausforderungen am Mittwoch in einem Blogbeitrag detailliert beschrieben. Hume erklärte: „Jedes neue Claude-Modell hat uns gezwungen, den Test neu zu gestalten.“ Er bemerkte: „Bei gleichem Zeitlimit übertraf Claude Opus 4 die meisten menschlichen Bewerber.“ Anschließend „hat Claude Opus 4.5 sogar diese erreicht“ und bezieht sich auf die stärksten menschlichen Kandidaten. Diese Entwicklung stellte ein erhebliches Problem bei der Beurteilung der Kandidaten dar. Das Fehlen einer persönlichen Aufsicht machte es unmöglich, den Einsatz von KI während des Tests zu verhindern. Hume erklärte: „Unter den Einschränkungen des Take-Home-Tests hatten wir keine Möglichkeit mehr, zwischen der Leistung unserer Spitzenkandidaten und unserem leistungsfähigsten Modell zu unterscheiden.“ Die Verbreitung von KI-Betrug, die bereits in Bildungseinrichtungen auf der ganzen Welt zu beobachten ist, wirkt sich nun auch auf KI-Labore aus. Anthropic verfügt jedoch über besondere Ressourcen, um dieses spezifische Problem anzugehen. Hume entwickelte schließlich einen neuen Test. Diese überarbeitete Bewertung konzentriert sich weniger auf die Hardwareoptimierung, was sie für aktuelle KI-Tools zu einer Herausforderung macht. Als Teil seines Beitrags veröffentlichte er den Originaltest und forderte die Leser auf, alternative Lösungen vorzuschlagen. In dem Beitrag hieß es: „Wenn Sie Opus 4.5 am besten beherrschen, würden wir uns freuen, von Ihnen zu hören.“
Source: Anthropic gestaltet Einstellungstests nach Claude 4.5 neu "Asse" menschliches Interview