• FragRoger
  • Posts
  • Humanity's Last Exam: Was steckt wirklich dahinter?

Humanity's Last Exam: Was steckt wirklich dahinter?

Kann ein Benchmark wirklich aussagen, wie viel Intelligenz in einer KI steckt?

TLDR: Der Benchmark-Test "Humanity's Last Exam" (HLE) zeigt gleichzeitig Fortschritt und die Grenzen aktueller KI-Systeme auf. Während menschliche Expert:innen rund 90% erreichen, schaffen selbst die besten KI-Modelle wie Grok 4 Heavy (50,7%) oder Google Gemini 3 Deep Think (41%) nicht einmal die Hälfte. Aber ein Schweizer Startup Giotto.ai verfolgt derweil einen radikal anderen Ansatz und führt beim ARC-AGI-2-Benchmark - mit einem Bruchteil der Parameter.

Warum wir überhaupt einen KI-Massstab brauchen

Die KI-Branche steht vor einem paradoxen Problem: Moderne Sprachmodelle erreichen auf etablierten Tests wie MMLU oder GPQA Werte über 90%. Das klingt beeindruckend, macht aber präzise Leistungsmessung nahezu unmöglich. Eine Nature-Studie aus dem Jahr 2022 analysierte 1.079 Benchmarks und fand bei 378 davon Sättigungs- oder Stagnationsmuster (Hanna et al., 2022). Die Konsequenz: Fortschritt lässt sich nicht mehr korrekt messen, und das Risiko von Overfitting auf spezifische Benchmark-Eigenschaften steigt.

Genau hier setzt Humanity's Last Exam an. Das Center for AI Safety (CAIS) und Scale AI entwickelten 2024 diesen Benchmark, um die tatsächlichen Grenzen aktueller KI-Systeme sichtbar zu machen. Der Hintergrund: CAIS-Direktor Dan Hendrycks beobachtete, wie Modelle 2021 noch an seinen MATH-Benchmark-Fragen scheiterten – nur um 2024 über 90% zu erreichen. HLE sollte diese Benchmark-Sättigung durchbrechen.

Was macht Humanity's Last Exam so besonders?

Der Benchmark besteht aus rund 2.500 extrem schwierigen, multimodalen Fragen aus über 100 akademischen Disziplinen – von höherer Mathematik über Quantenmechanik bis zu klassischen Sprachen. Fast 1.000 Fachexpert:innen aus 50 Ländern trugen Fragen bei. Der entscheidende Unterschied zu früheren Tests: Nur Fragen, die aktuelle Modelle nicht durch einfache Internetsuche oder Mustererkennung lösen konnten, wurden zugelassen.

Die Bezeichnung "Last Exam" ist dabei durchaus programmatisch gemeint. Die Entwickler:innen argumentieren: Falls KI-Systeme diese Art strukturierter akademischer Fragen meistern, könnte dies das letzte klassische akademische Benchmark-Set sein, das wir erstellen müssen – nicht weil allgemeine künstliche Intelligenz (AGI) erreicht wäre, sondern weil geschlossene Fachfragen dann automatisierbar würden.

Das Bewertungssystem ist bewusst streng gehalten. Jede Frage hat eine eindeutige Antwort – Multiple-Choice oder Kurzantwort. Es gibt keine Teilpunkte. Die Antworten sind online nicht verfügbar, sodass Modelle sich nicht einfach durchsuchen können. Sie müssen tatsächlich denken.

Die aktuellen Spitzenreiter im November 2025

Die Rangliste zeigt ein differenziertes Bild, das genauere Betrachtung verdient:

Grok 4 Heavy (xAI) erreicht 50,7% mit Tools auf dem reinen Text-Subset – das erste Modell überhaupt, das die 50%-Marke knackt. Die Multi-Agenten-Architektur scheint hier entscheidende Vorteile zu bieten.

Kimi K2 Thinking von Moonshot AI kommt auf 44,9% mit Tools und positioniert sich damit als führendes Open-Source-Modell – bemerkenswert für ein Modell ausserhalb der grossen US-Tech-Konzerne.

Google Gemini 3 Deep Think erzielt 41% ohne Tools und ist damit das beste multimodale Modell. Die Leistung entspricht PhD-Niveau in vielen Bereichen.

Gemini 3 Pro erreicht 37,5% ohne Tools – ein Vorsprung von 11 Prozentpunkten gegenüber GPT-5.1.

GPT-5 Pro (OpenAI) kommt auf 31,6% ohne Tools bzw. 41,7% mit Tools und war bis vor kurzem noch Spitzenreiter.

Ein wichtiger Hinweis zur Einordnung: Die Vergleiche sind komplex, da manche Modelle nur auf dem Nur-Text-Subset getestet wurden (wie Grok 4), andere multimodal sind (wie Gemini 3), und Tool-Nutzung (Code-Ausführung, Websuche) die Scores erheblich steigert.

-WERBUNG-

Mehr KI Kompetenz? Inkl. Kompetenznachweis? Dazu haben wir das KI-Update entwickelt, immer jeden Montag Abend für Members und völlig kostenlos jeden 2ten Montagabend zum reinschnuppern. Mehr Infos gibts auf:

Giotto.ai: Der Schweizer Gegenentwurf

Während die grossen Tech-Konzerne um Spitzenplätze bei HLE kämpfen, spielt das Lausanner Startup Giotto.ai in einem völlig anderen Wettbewerb. Das Unternehmen aus dem EPFL Innovation Park führt beim ARC-AGI-2-Benchmark mit 27% – einem Test für abstraktes Denken und allgemeines Schlussfolgern.

Der technische Ansatz unterscheidet sich fundamental von den Milliarden-Parameter-Modellen der Konkurrenz. Giotto nutzt ein 200-Millionen-Parameter-Modell mit Program-Synthesis und symbolischer Suche. Die durchschnittlichen Kosten pro Aufgabe liegen bei 0,20 USD – verglichen mit 0,42 USD und mehr bei den grossen Labs.

Das Interesse ist entsprechend gross: Giotto sucht laut Reuters eine Finanzierungsrunde von über 200 Millionen USD bei einer Bewertung von mehr als einer Milliarde USD. Das Unternehmen erhielt bereits mehrere Übernahmeangebote aus den USA. Co-Founder Aldo Podestà, zuvor bei DeepMind und CERN, positioniert Giotto als "Europas erste kommerziell nutzbare Reasoning-Modelle mit ethischen Garantien".

Der Unterschied zwischen ARC und HLE ist dabei fundamental: ARC testet Adaptionsfähigkeit bei völlig neuen Problemen durch visuelle Puzzles, bei denen KI-Systeme neue Regeln aus minimalen Beispielen ableiten müssen. HLE hingegen misst Tiefe und Breite über bekannte akademische Domänen. Giotto konkurriert also nicht direkt mit Gemini 3 auf HLE, sondern demonstriert eine alternative Vision: effiziente, interpretierbare KI statt massiver Rechenleistung.

Das Kalibrierungsproblem: Wenn KI selbstbewusst falsch liegt

Eine der kritischsten Entdeckungen aus den HLE-Tests betrifft die Kalibrierung der Modelle. Die Analysen zeigen Kalibrierungsfehler von 50 bis 89% – das bedeutet: Modelle geben mit hoher Überzeugung falsche Antworten.

Für den praktischen Einsatz in sensiblen Bereichen wie Medizin, Recht oder Wissenschaft ist das ein erhebliches Risiko. Ein Modell, das seine eigenen Grenzen nicht kennt, kann gefährlicher sein als eines, das schlicht weniger weiss. Die Halluzinationsrisiken bei High-Stakes-Anwendungen sind damit deutlich höher als die reinen Score-Zahlen vermuten lassen.

Die Benchmark-Entwickler:innen prognostizieren übrigens, dass 50% Genauigkeit bis Ende 2025 möglich sein könnte. Das würde eine Automatisierung "harter intellektueller Arbeit" in akademischen Domänen ermöglichen. Ein wichtiger Hinweis: HLE testet strukturierte Fachfragen, nicht offene Forschung oder Kreativität. Selbst hohe HLE-Scores bedeuten nicht AGI.

Die Industrie-Dynamik ist dabei nicht zu unterschätzen. Der Stanford HAI Report 2025 zeigt: 90% bedeutender Modelle kamen 2024 aus der Industrie (gegenüber 60% im Jahr 2023). Die Leistungslücken zwischen den Top-10-Modellen schrumpften von 11,9% auf 5,4%. Das AGI-Narrativ hat eine Marktfunktion - es hält Investitionen in Compute-Infrastruktur am Laufen, die grosse Player brauchen.

Und von wegen Investitionen, vielleicht hast Du sie schon, vielleicht noch nicht, aber hier sind unsere Freebies der letzten Monate:

Unsere aktuellen FREEBIES:

Also investier in deine Intelligenz!

Disclaimer: Dieser Artikel wurde nach meinem eigenen Wissen und dann mit Recherchen mit KI (Perplexity.Ai und Grok.com sowie Gemini.Google.com) manuell zusammengestellt und mit Deepl.com/write vereinfacht. Der Text wird dann nochmals von zwei Personen meiner Wahl gelesen und kritisch hinterfragt. Das Bild stammt von Ideogram.Ai und ist selbst erstellt. Dieser Artikel ist rein edukativ und erhebt keinen Anspruch auf Vollständigkeit. Bitte melde dich, wenn Du Ungenauigkeiten feststellst, danke.

Quellen und weitere Informationen:

Bronsdon, C. (2025, 1. August). Why AI still score low on Humanity's Last Exam. Galileo. https://galileo.ai/blog/humanitys-last-exam-ai-benchmark

Center for AI Safety. (2024). Humanity's Last Exam. https://agi.safe.ai

Google. (2025). Gemini 3. Google Blog. https://blog.google/products/gemini/gemini-3/

Hanna, R., Denny, M., & Martinez, M. (2022). A systematic review of benchmark data and reporting quality. Nature Communications, 13, Article 34591. https://www.nature.com/articles/s41467-022-34591-0

Reuters. (2025, 22. September). Swiss AI startup Giotto.ai seeks funding at over $1 billion valuation. https://www.reuters.com/technology/swiss-ai-startup-giottoai-seeks-funding-over-1-billion-valuation-sources-say-2025-09-22/

Scale AI. (2025). Humanity's Last Exam Results. https://scale.com/blog/humanitys-last-exam-results

Stanford University Human-Centered Artificial Intelligence. (2025). AI Index Report 2025. https://hai.stanford.edu/ai-index/2025-ai-index-report

xAI. (2025). Grok 4. https://x.ai/news/grok-4

Reply

or to participate.