Zurück zur Übersicht
Ein am 24. März veröffentlichter Benchmark testet agentische KI in turn-basierten Umgebungen statt mit kurzen Einzelantworten. Laut der Arbeit lösen Menschen alle Aufgaben, während Frontier-Modelle unter 1 Prozent bleiben.
ARC-AGI-3 ist ein neuer Benchmark für agentische KI, der am 24. März veröffentlicht wurde. Im Mittelpunkt stehen offene, mehrstufige Aufgaben in turn-basierten Umgebungen.
Die Arbeit zielt damit auf einen anderen Testtyp als klassische Kurzprompt-Benchmarks. Gemessen werden soll, wie gut Systeme Probleme über mehrere Schritte hinweg ausführen und an veränderte Zustände anpassen.
Nach Angaben der Autoren lösen Menschen 100 Prozent der Aufgaben. Frontier-KI-Systeme bleiben demnach unter 1 Prozent.
Die Veröffentlichung setzt damit einen neuen Referenzpunkt für die Bewertung agentischer Systeme. Der Fokus verschiebt sich von punktueller Demo-Leistung auf robuste mehrstufige Problemlösung unter realistischeren Bedingungen.
Weiterlesen
Production-Benchmarks auf einem neun-Knoten-OCI-Bare-Metal-Cluster mit 72 H100-GPUs zeigen, dass WEKAs NeuralMesh mit Augmented Memory Grid gegenüber DRAM-only-Konfigurationen rund 10× mehr gleichzeitige Nutzer und 10× höheren Token-Durchsatz erreicht.
Das Unternehmen will 555,6 Millionen Class-A-Aktien platzieren und strebt eine Marktkapitalisierung von etwa 1,75 Billionen US-Dollar an. Auffällig ist der Festpreis statt einer Preisspanne, eine Abkehr von gängiger Bookbuilding-Praxis.
Gemini Go ersetzt Assistant Go auf günstigen Geräten und rollt stufenweise per Serverrollout aus. Die Funktion bringt grundlegende Konversation und Gerätesteuerung auf Geräte mit wenig Arbeitsspeicher, rechenintensive Gemini-Funktionen bleiben außen vor.
Die Reserve Bank of India fordert Banken und regulierte Institute auf, bis Ende Juni einen vom Vorstand genehmigten Gap‑Assessment‑Bericht und einen zeitgebundenen Plan zur Abwehr von Cyberrisiken durch Frontier‑KI vorzulegen. Die Anweisung reagiert auf Befürchtungen, dass Modelle wie Anthropics Claude Mythos Schwachstellen in Software schneller finden könnten.
Fable 5 ist ein als Mythos-Klasse bezeichnetes Modell, abgesichert und für die allgemeine Nutzung freigegeben. Das technisch identische Mythos 5 bleibt über Project Glasswing nur ausgewählten Sicherheits- und Infrastrukturpartnern zugänglich.