OpenAI kündigte die Entwicklung eines großen Sprachmodells namens GPT-Rosalind an, das speziell auf gängige Arbeitsabläufe in der Biologie trainiert wurde. Das nach der Biologin Rosalind Franklin benannte Modell stellt einen speziellen Ansatz zur Analyse biologischer Daten dar und unterscheidet ihn von allgemeineren Modellen, die normalerweise von großen Technologieunternehmen verwendet werden.

Yunyun Wang, Produktleiter für Biowissenschaften bei OpenAI, erklärte, dass GPT-Rosalind erhebliche Hindernisse in der Biologieforschung beseitigt. Die erste Herausforderung ergibt sich aus den riesigen Datensätzen, die durch jahrzehntelange Genomsequenzierung und Proteinbiochemie entstanden sind. Die zweite Herausforderung besteht in der Spezialisierung der vielen Teilgebiete der Biologie, die jeweils durch einzigartige Techniken und spezifische Fachsprache gekennzeichnet sind.

Genetiker können beispielsweise Schwierigkeiten haben, sich in der umfangreichen neurobiologischen Literatur zurechtzufinden, die sich auf bestimmte in Gehirnzellen aktive Gene bezieht. Wang wies darauf hin, dass OpenAI GPT-Rosalind in den 50 häufigsten biologischen Arbeitsabläufen und im Zugriff auf wichtige öffentliche Datenbanken mit biologischen Informationen geschult habe.

Das Modell ist in der Lage, potenzielle biologische Wege vorzuschlagen und Wirkstoffziele zu priorisieren. „Wir verbinden den Genotyp mit dem Phänotyp über bekannte Wege und Regulierungsmechanismen, leiten daraus wahrscheinliche strukturelle oder funktionelle Eigenschaften von Proteinen ab und nutzen dieses mechanistische Verständnis wirklich“, sagte Wang.


Quelle des hervorgehobenen Bildes