Die Vorrunde der WM 2026 ist vorbei. Während bereits die ersten Spiele des Sechzehntelfinales laufen, analysieren wir die abgeschlossenen Spiele der Gruppenphase mithilfe der Semantischen Berichtsnavigation in DeltaMaster und wagen für die offenen Spiele des Sechzehntelfinales eine Prognose.
Vorrunde der WM 2026: die Daten
Bei einer Suche nach passenden Daten zur Vorrunde der WM 2026 stieß ich bei Kaggle.com auf eine vielversprechende Sammlung von Daten über Spielverläufe, Ergebnisse, Spieler, Mannschaften, Stadien, Schiedsrichter usw. Die vom zuständigen Autor ebenfalls erstellte Seite FIFA-World-Cup-2026-Dataset auf Github bietet die notwendigen Daten in unterschiedlichen Formaten an.
Für diesen Blog-Artikel zur Analyse der Gruppenphase habe ich mich für die SQLite-Variante entschieden. ChatGPT half mir bei der Modellierung der Relationen.
In unserer Decision Intelligence Software DeltaMaster habe ich mich mit der Datenbank verbunden und einige Berichte angelegt. Im Bericht Events sieht man beispielsweise für jedes Spiel unter Angabe der Minute chronologisch die Ereignisse wie Tore, Assists, Gelbe oder Rote Karten sowie den VAR-Einsatz:
Ereignisse während der Vorrundenspiele (Spiele 1 – 3)
Ich habe die englischen Namen des Datensatzes ohne Änderungen übernommen.
Semantische Berichtsnavigation
Bereits im letzten Blog-Artikel Bundesliga-Tabelle 2025/26 hatte ich die Semantische Berichtsnavigation erwähnt, die im nächsten Release erscheinen wird.
Die Semantische Berichtsnavigation hilft zunächst bei der Suche nach Berichten, die bei der Analyse einer gegebenen Fragestellung hilfreich sein könnten. Sie verwendet unter anderem Berichtsnamen, Kennzahlen und Dimensionen eines Berichtes, um eine semantische Nähe zur Fragestellung zu erkennen.
Zunächst verschaffe ich mir einen kompakten Überblick: Was ist der Inhalt meiner der zu diesem Zeitpunkt angelegten Berichte?
Inhalt meiner bisher angelegten Berichte
Neben dem Bericht Events liefert auch der Bericht [5] Ausführliche Spielstatistiken Angaben, die außer dem Spielergebnis Spielanteile, Anzahl der Schüsse, Fouls usw. enthalten.
Nehmen wir einmal an, dass mich in diesem Blog-Beitrag vor allem spannende Spiele oder überraschende Ergebnisse interessieren.
Events der Vorrundenspiele
Im konkreten Fall frage ich etwa „Welche Berichte geben am besten die Dramatik eines Spiels wieder?“.
Welche Berichte geben am besten die Dramatik eines Vorrundenspiels wieder?
Bei meiner soeben gestellten Frage verweist sie auf den oben bereits gezeigten Bericht Events als potenziell beste Quelle.
Bemerkungen zum Einsatz von KI
Grundsätzlich gilt, dass man alle Berechnungen so weit wie möglich selbst durchführen sollte, um Auffälligkeiten zu finden. Im vorliegenden Beispiel hieße das, Maße zu definieren, die beispielsweise die Anzahl der Führungswechsel, mehrere Tore in kurzen Zeiträumen, Tore erst in der Schlussphase oder Anzahl von Gelben und Roten Karten berücksichtigen.
Dann fasst man anschließend die größten gefundenen Auffälligkeiten in einem verkürzten Bericht zusammen. Nun kommen die LLM an die Reihe und ihre Stärken zur Geltung, und wir überlassen den KI-Modellen die Interpretation und die Einordnung. Wenn man der KI Fragen stellt, zu deren Beantwortung einfachere Berechnungen notwendig sind, beherrschen das die heutigen Modelle zum Großteil, aber es schleichen sich ab und zu Fehler ein, wenn es komplexer wird.
Kontext in der Gruppenphase
Spannung in der Gruppenphase ergibt sich auch aus dem Zusammenspiel der Ergebnisse aller Vorrundenspiele. Ob ein bestimmtes Ergebnis für das Weiterkommen als Dritter in der Vorrundengruppe reicht, wird auch durch die Ergebnisse anderer Gruppen beeinflusst.
Das heißt, spätestens in der dritten Partie der Gruppenphase reicht der isoliert betrachtete Verlauf eines Spiels nicht mehr aus, um die Dramatik korrekt zu bewerten.
Auch müsste der KI zumindest das Regelwerk bekannt sein.
Auf jeden Fall machte man es der KI deutlich einfacher, wenn man etwa eine zusätzliche Variable pro Mannschaft einsetzt, die beispielsweise zumindest die Zustände „sicher ausgeschieden“, „bei diesem Spielstand ausgeschieden“, „in der Schwebe“, „sicher weiter“ und „bei diesem Spielstand weiter“ kennt. Dazu könnte man auch noch eine Minute 0 einführen, um den Ausgangszustand vor dem Spiel zu definieren. Selbst dieser könnte sich aber mit den Ergebnissen anderer Spiele ändern.
Bei den unsicheren Zuständen könnte man weiterhin ausrechnen, wie viele Tore nötig wären, um beispielsweise „bei diesem Spielstand ausgeschieden“ noch in ein Weiterkommen zu verwandeln. Wenn es nur ein einziges Tor wäre, erhöht das die Dramatik.
Gesucht sind also die Echtzeit-Ränge in der Live-Tabelle zu einem Zeitpunkt und die gerade vorhandenen Möglichkeiten der betrachteten Mannschaft, aus eigener Kraft das gesteckte Ziel zu erreichen. Gibt es in einem beliebigen Spiel ein Event, müsste in betroffenen anderen Spielen unter Umständen der Zustand einer Mannschaft geändert werden.
Hierfür bräuchte man aber eine ausgefeiltere Modellierung über die Spiele mehrerer Gruppen hinweg, mit Berücksichtigung der absoluten Zeitangabe, um notwendige Ergebnisse für das Weiterkommen in der momentanen Situation richtig ermitteln zu können. Hat die KI diese Informationen, würde die Dramatik während des Spiels viel besser erkannt werden.
Turbulente Gruppenspiele
Der Einfachheit halber lasse ich in diesem Beitrag die Semantische Berichtsnavigation ohne dieses Zusatzwissen nach einem turbulentes Spiel suchen:
„Kannst Du ein besonders turbulentes und umkämpftes ausgeglichenes Spiel nennen? Hinweis: Tore in der Nachspielzeit nach der 45. Minute bzw. nach der 90. Minute werden im Datensatz immer mit Minute 45 bzw. Minute 90 angegeben. Vermeide die Erwähnung der Minuten 45 und 90“
Ein besonders turbulentes Spiel
Als turbulentes Spiel wurde hier das 3:3 bei Algerien gegen Österreich gewählt, auch ohne die Bedeutung des finalen Spielstands für Österreich zu kennen. Ohne das Tor in der Schlusssekunde wäre Österreich ausgeschieden:
Begründungen, warum das Spiel turbulent war
Soll die KI-Anwendung das Spiel noch treffender beschreiben, bräuchte sie mehr Informationen über den Spielverlauf bzw. Hintergrundwissen. Das sollte man ihr möglichst mundgerecht servieren, sodass die Stärken der LLM zum Ausdruck kommen.
In dem vorliegenden Datensatz werden alle Tore in der Nachspielzeit der ersten Hälfte einheitlich mit Minute 45 und in der Nachspielzeit der zweiten Hälfte einheitlich mit Minute 90 angegeben.
Man beachte meine Ergänzung des Kontexts „Hinweis: Tore in der Nachspielzeit nach der 45. Minute bzw. nach der 90. Minute werden im Datensatz immer mit Minute 45 bzw. Minute 90 angegeben. Vermeide die Erwähnung der Minuten 45 und 90“.
Angabe von Kontext
Ohne meinen Hinweis würde die KI fälschlicherweise annehmen, dass eine wirklich dramatische Anhäufung von Ereignissen in einer einzigen Minute vorliegen würde.
Kontext und Anweisungen, die sitzungsweit gültig sind, müssen nicht jedes Mal neu erwähnt werden. Wir hinterlegen sie besser im Reiter KI bei den Optionen:
Kontext für die Semantische Berichtsnavigation
Damit die Semantische Navigation nicht alle Tore der Nachspielzeit in der 90. Minute ansiedelt, soll sie die konkreten Zahlen 45 und 90 meiden. Allerdings wird nun ein Tor, das tatsächlich in der 90. Minute gefallen ist, fälschlicherweise auch der Nachspielzeit zugerechnet. Sollte man besser von Schlussphase sprechen?
Die beiden Fälle können aufgrund der Datenlage nicht eindeutig unterschieden werden. Es fehlt eine Angabe wie bspw. Minute 90 (+7).
Sei’s drum. Mit den in den Optionen ergänzten KI-Angaben starte ich neu, lasse erst einmal den Bericht Events allgemein interpretieren und frage diesmal nur „Kannst Du ein besonders turbulentes und umkämpftes ausgeglichenes Spiel nennen?“
Match 68 ohne explizite Erwähnung der 90. Minute
In der Tat sehen wir nun nicht mehr die konkrete Angabe der 90. Minute.
Spielbericht eines Vorrundenspiels
Die KI der Semantischen Berichtsnavigation lässt sich auch für ihre ureigene Domäne nutzen: der Generierung von Texten. Beispielsweise soll für das Österreich-Match ein Sportbericht im Stile einer Sportzeitung erstellt werden:
Spielbericht Österreich gegen Algerien
Dieser Zeitungsbericht basiert nur auf [1] Events, also frage ich nach weiteren Berichten, die Informationen beisteuern könnten:
Hilfreiche Berichte zur genaueren Analyse
Der angesprochene Bericht [5] Ausführliche Spielstatistiken hielte die folgenden Informationen – nur für das Spiel 68 abgebildet – parat:
Statistik für Algerien gegen Österreich in Bericht [5]
Bezug auf einen weiteren Bericht
Nun setze ich meinen Chat fort (ohne den Bericht [5] aufzurufen oder auf das Spiel 68 einzuschränken, ich bleibe weiterhin auf Bericht [1]!):
Erweiterter Zeitungsbericht zum Vorrundenspiel
Das hört sich doch halbwegs nach einer realistischen Einschätzung an. Die Erwähnung „Match 68“ müsste man noch streichen und die KI kann hier aber nicht wissen, dass Österreich und Algerien mindestens unentschieden spielen mussten, um die nächste Runde zu erreichen.
Fehler im Datensatz mit KI entdeckt
Übrigens hat mir dieses Kombinieren mehrerer Berichte durch die KI erlaubt, einen Fehler bei der Anlage der Events-Tabelle zu entdecken. Beim Spiel Paraguay gegen USA, das 4:1 für die USA ausging, ergibt die Spielrekonstruktion auf Basis des Berichts Events ein 3:2:
Vorrundenspiel Paraguay – USA: Da passt etwas nicht!
Was ist passiert? Werfen wir einen Blick auf Bericht [1] Events:
Das Eigentor von Paraguay ist falsch verbucht
Das Tor in der 7. Minute hat zwar ein Spieler von Paraguay erzielt, aber es ist ein Eigentor und hätte mit dem Team USA erwähnt werden müssen. Wenn ich etwas im Laufe der Jahre gelernt habe, dann ist das das Folgende: Sei skeptisch bezüglich der Datenqualität erhaltener Daten.
Eigentore stehen in diesem Datensatz bei den Events immer bei der Mannschaft des Schützen, sind aber als solche im Datensatz nicht erkennbar.
Die Ergebnisse der eingesetzten KI-Anwendung können natürlich nur so gut sein wie die zugrundeliegenden Daten. Allerdings habe ich für den monatlichen Blog-Beitrag nicht beliebig viel Zeit und etwaige Fehler werden erst nach einiger Zeit der Beschäftigung mit den Daten sichtbar – wenn überhaupt.
Expected Goals
Der Bericht [5] Ausführliche Spielstatistiken setzt auch das Maß xg (= Expected Goals, auch xGoals) ein, das seit etlichen Jahren bei Spielauswertungen genannt wird. Allerdings hat jedes Wettportal und jede Sportzeitung eine eigene Modell-Variante, sodass sich die Werte für ein Spiel von Publikation zu Publikation unterscheiden.
Für einem einzigen Torschuss gibt xg die über ein angepasstes Modell geschätzte Wahrscheinlichkeit an, dass dieser Schuss zu einem Tor führt.
Dazu wurden Tausende von Spielsituationen per Video ausgewertet und bestimmte Rahmenbedingungen als Variablen in das Modell aufgenommen. Die Variablen werden üblicherweise nicht im Detail genannt – aber Entfernung und Winkel zum Tor, Anzahl der Gegenspieler, Kopfball oder Schuss sind auf jeden Fall dabei.
Wenn also der Stürmer allein und unbedrängt auf das leere Tor zuläuft und noch 1 Meter vor sich hat, könnte der Wert 0,99 sein.
Wenn hingegen ein Torwart versucht, mit einem weiten Abschlag ein Tor zu erzielen, wobei die Spieler der anderen Mannschaft in ihrem Strafraum versammelt sind, liegt der Wert eher bei 0,01.
Die xg-Werte aller Torschüsse werden addiert und ausgewiesen.
Expected Goals sind nur Hilfsgrößen. 10 Schüsse mit Einschätzung 0,1 ergeben den gleichen Wert wie ein Schuss mit 1,0. Während im letzteren Falle mit 100 % Wahrscheinlichkeit 1 Tor erzielt wird, liegt diese Wahrscheinlichkeit für mindestens 1 Tor im ersteren Fall nur bei 1 – 0.9^10 ~ 65 %.
Wenn nun zum Beispiel die xGoals einer Mannschaft deutlich über den tatsächlich erzielten Toren liegt, deutet das auf eine unzureichende Chancenverwertung oder mangelnde Spielerqualität hin.
Ich bin mir nicht sicher, ob bei den verwendeten Modellen der konkrete Spieler, der die Chance hat, berücksichtigt wird. Wahrscheinlich nicht.
Wenn also Dembélé nach innen zieht und den Ball wiederholt mit dem linken Fuß im linken Eck versenkt, ist das garantiert ein Torschuss, dem ein niedriger xGoal-Wert zugeordnet ist, weil ein „normaler“ Spieler den Ball eben nicht verwertet.
Vorrundenspiele mit auffälligen xGoals
Der Bericht [2] Expected Goals zeigt für die 72 Begegnungen der Gruppenphase die jeweiligen xGoals beider Mannschaften und das tatsächliche Spielergebnis.
xGoals und Ergebnisse (Spiele 1 bis 12)
Suchen wir einmal Spiele, bei denen die xGoals nicht so recht zum Spielergebnis passen wollen. Dazu wollen wir ein Maß Shock definieren.
Warum nicht einfach die KI fragen?
„Hast Du Ideen für ein Maß, das bei den Expected Goals die Abweichung des tatsächlichen Resultats von den xGoals misst und besonders große Werte vergibt, wenn die xGoals einen anderen Ausgang vermuten lassen?“
KI-Vorschläge für ein Maß der Abweichung
Die Semantische Berichtsnavigation macht nun einige Vorschläge. Ich entscheide mich für die hier sichtbare richtungs-sensitive Abweichung. Dazu benötige ich eine Formel in SQL:
Formel der richtungssensitiven Abweichung
Konkrete Umsetzung als Kennzahl
Nun lege ich einen benutzerdefinierten Analysewert an und kopiere den Code in das Fenster:

Formel der richtungssensitiven Abweichung
Schließlich wähle ich die Top-5 von Shock in den Ranking-Optionen und erhalte dann die folgende Tabelle und kann nach der Interpretation fragen:
Auffälligste Vorrundenspiele bzgl. xGoals
Mir wird noch angeboten, den Bericht [5] zur zusätzlichen Interpretation zu nutzen. Als Ergebnis erhalte ich weitere Hinweise. Für das Spiel Schweiz gegen Kanada ergibt sich beispielsweise die folgende Ergänzung:
Weitere Erkenntnisse aus Bericht [5] zum Vorrundenspiel Schweiz gegen Kanada
Dieses Vorgehen halte ich für die beste Arbeitsteilung zwischen DeltaMaster und KI. Zunächst wird ein verlässliches und nachvollziehbar definiertes Maß für die Auffälligkeit hergeleitet, hier sogar mit KI-Unterstützung. Die auffälligsten Spiele werden gemäß diesem Maß deterministisch bestimmt und die Semantische Berichtsnavigation interpretiert dann die erhaltene Tabelle.
Zu einem abschließenden Fazit kommt auch die Semantische Berichtsnavigation:
Wie hohe Shock-Werte entstehen
Prognose der Sechzehntelfinalspiele
Zum Zeitpunkt der Erstellung des Modells waren noch 15 Spiele des Sechzehntelfinales offen:
Die zu tippenden Spiele
Lassen wir doch einmal die KI die bisherigen Spiele der Mannschaften analysieren und einen Tipp abgeben. Fangen wir mit Brasilien gegen Japan an:
Brasilien gegen Japan 2:1
Wie man sieht, verwendet die Semantische Berichtsnavigation automatisch passende Berichte der Berichtsliste, wie hier z. B. auch das FIFA-Ranking aus dem Bericht Teams. Wie sehen die Prognosen für die anderen Spiele aus?
Sämtliche Tipps
Zum heutigen Zeitpunkt (1.7.2026) lag die KI mit dem Endergebnis ohne Elfmeterschießen 3 x richtig (bei Brasilien – Japan 2:1, Niederlande – Marokko 1:1 und Elfenbeinküste – Norwegen 1:2), einmal von der Tendenz richtig (Frankreich – Schweden 3:0) und 2 x falsch (Deutschland – Paraguay 1:1 und Mexiko – Equador 2:0).
Um die Stabilität der Tipps besser einschätzen zu können, habe ich die Sitzung insgesamt noch 4 x neu gestartet und jeweils die gleichen Fragen gestellt. Die Ergebnisse ohne Elfmeterschießen waren dann die folgenden:
Stabilität der Tipps
Wie man sieht, sind die Tipps von Durchlauf zu Durchlauf bei der überwiegenden Anzahl von Spielen relativ stabil. Der Wert für den Parameter Temperature ist wohl von unserer Entwicklungsabteilung auf einem niedrigen Niveau angesiedelt. Aber bei Deutschland gegen Paraguay kommt trotz Wiederholung keine Übereinstimmung mit dem tatsächlichen Ergebnis heraus.
Schließlich kann man die Einschätzung der Wahrscheinlichkeiten von der KI selbst vornehmen lassen:
Stabilität des Spielausgangs laut KI
Diese Einschätzung kann allerdings wieder von Durchlauf zu Durchlauf leicht schwanken.
Strategie für das Spiel Schweiz gegen Algerien
Diese Animation zeigt eine Analyse des Spiels Schweiz gegen Algerien aus Trainersicht:
Was sollen wir tun, Trainer?
Selbst ein Vorschlag für die Kabinenansprache kann generiert werden:
Kabinenansprache
Quelle
Die verwendeten Daten werden bei Kaggle.com erwähnt und sind – täglich aktualisiert – unter https://github.com/mominullptr/FIFA-World-Cup-2026-Dataset zu finden. Ich habe den Stand vom 29.6.2026 verwendet.
@dataset{fifa_world_cup_2026,
author = {MD Mominul Islam},
title = {FIFA World Cup 2026 - Live Results & Updated Stats},
year = {2026},
publisher = {Kaggle}
}
Der erwähnte Autor stellt die Daten unter der Lizenz Creative Commons Zero v1.0 Universal (CC0-1.0) Public Domain Dedication zur freien Verfügung.
Wir können keinerlei Garantien geben, dass alle Ergebnisse und Werte korrekt und vollständig sind. Beispielsweise werden Eigentore bei Events fälschlicherweise der Mannschaft des Eigentorschützen zugeordnet und die Liste der ausführlichen Spielstatistiken war zum Zeitpunkt des Downloads (29.6.2026) unvollständig.
























