So schlecht ist KI im echten Laboralltag

19. Juni 2026 von till in KI News

GPT-Images-2.0

Kurzfassung
▾

Quellen
▾

OpenAI hat mit LifeSciBench einen neuen Praxistest für KI-Modelle in der biowissenschaftlichen Forschung veröffentlicht.
Das neue Modell GPT-Rosalind erreicht im Test den ersten Platz und schlägt Konkurrenten wie Googles Gemini 3.1 Pro.
Trotz des Sieges offenbart die KI noch große Schwächen bei der Verarbeitung von Diagrammen und exakten Berechnungen.

OpenAI – Introducing LifeSciBench

OpenAI misst KI-Modelle künftig an realen Aufgaben aus der Biowissenschaft. Der neue Test »LifeSciBench« zeigt, dass GPT-Rosalind Konkurrenten wie Gemini 3.1 Pro hinter sich lässt. Bei der Analyse komplexer Forschungsdaten stoßen die Modelle allerdings auf Schwierigkeiten. Forschungspraxis statt Multiple Choice Bisherige Tests für Sprachmodelle bestanden in der Wissenschaft oft aus strukturierten Fragen mit eindeutigen Antworten. OpenAI hat LifeSciBench entwickelt, um den tatsächlichen Forschungsalltag abzubilden. Dafür formulierten 173 promovierte Biowissenschaftler insgesamt 750 praxisnahe Aufgaben. Die KI muss unvollständige Beweise interpretieren, Experimente entwerfen oder Fehler in Testreihen finden. Mehr als die Hälfte der Aufgaben erfordert die Arbeit mit zusätzlichen Dateien wie PDFs, Diagrammen oder chemischen Strukturen. + Quelle: OpenAI Neues Modell schlägt die Konkurrenz In der Gesamtwertung erreicht GPT-Rosalind knapp 58 Prozent der möglichen Punkte. Es übertrifft damit sein Vorgängermodell GPT-5.5 sowie Googles Gemini 3.1 Pro, das bei etwa 51 Prozent liegt. Schlusslicht im aktuellen Vergleich ist Grok 4.3 mit rund 40 Prozent. GPT-Rosalind schneidet besonders gut bei der wissenschaftlichen Kommunikation ab. Auch bei der Übertragung von präklinischen Ergebnissen in die klinische Anwendung verzeichnet es deutliche Fortschritte. Das Modell organisiert Beweise effizient und liefert Erklärungen, die für Fachleute nützlich sind. + Quelle: OpenAI Probleme abseits reiner Textverarbeitung Sobald die Aufgaben exakte Berechnungen oder spezifische Ausgaben erfordern, sinkt die Erfolgsquote drastisch. Bei der Erstellung genauer Sequenzen oder Strukturen erreicht GPT-Rosalind lediglich 24 Prozent. Die Verarbeitung von angehängten Dokumenten fällt den Modellen ebenfalls schwer. Besteht eine Aufgabe nur aus Text, löst GPT-Rosalind diese in 45 Prozent der Fälle. Kommen externe Quellen oder Dateien hinzu, fällt der Wert auf 28 Prozent. Die Modelle extrahieren Informationen aus Diagrammen oder großen Sequenzdateien oft fehlerhaft. Ein starkes Abschneiden im Benchmark bedeutet daher noch nicht, dass eine KI im echten Labor verlässliche Ergebnisse liefert. Anzeige

Quelle: www.all-ai.de