Zurück zur Übersicht
OpenAI legt ein Leitfaden für unabhängige Evaluierungen von Frontier-Modellen vor. Im Zentrum stehen valide Testumgebungen, sogenannte Harnesses, und Prüfungen, die bei agentischen Systemen nicht das Setup statt die Modellleistung messen.
OpenAI hat ein Playbook für vertrauenswürdige Drittprüfungen von Frontier-Modellen veröffentlicht. Der Leitfaden soll unabhängige Evaluierungen systematischer machen und legt den Schwerpunkt auf belastbare Testumgebungen.
Im Kern fordert OpenAI valide Harnesses und klare Validitätsprüfungen, vor allem für agentische Systeme. Solche Modelle lassen sich nach Darstellung des Unternehmens nur dann sinnvoll bewerten, wenn die Tests die tatsächlichen Fähigkeiten abbilden.
Damit rückt eine oft unterschätzte Frage nach vorn: Nicht nur die Modelle müssen besser werden, sondern auch die Messmethoden. Wer KI im Ernstfall einsetzen will, braucht Benchmarks, die mehr leisten als glänzende Scorecards.
Weiterlesen
Die AI XPV Platform startet mit einer von Apollo angeführten 35 Milliarden US Dollar Kapitallösung. Ziel ist nach Angaben der Unternehmen, bis 2028 mehr als 20 Gigawatt KI Rechenkapazität bereitzustellen.
OpenAI gab am 8. Juni 2026 bekannt, einen vertraulichen Entwurf einer S-1 bei der US-Securities and Exchange Commission eingereicht zu haben und rechnet mit einem Leak. Der formale Schritt kann den Weg zu einem möglichen Börsengang ebnen, ein konkreter Zeitplan fehlt jedoch.
Der Generalstaatsanwalt von Florida hat am 1. Juni 2026 eine Zivilklage gegen OpenAI und dessen CEO eingereicht. Die Klage wirft dem Unternehmen unter anderem Verbrauchertäuschung, das Schaffen einer öffentlichen Gefährdung und Verstöße gegen Floridas Verbraucherschutzgesetz vor.
Laut Bericht der Financial Times plant OpenAI eine schrittweise Neuausrichtung von ChatGPT hin zu einer ‚Superapp‘. Die Änderungen zielen auf engere Integration von Codetools, Bildfunktionen und externen Partnerdiensten sowie auf stärkere Monetarisierung vor einem möglichen Börsengang.