Juni 20, 2023
Teilen über

Teil III: Datenwissenschaft für den Fußball

Die meisten Fans wissen, dass Fußballmannschaften oft starken Leistungsschwankungen ausgesetzt sind. In der einen Saison scheint eine Qualifikation für die Champions League möglich, was Besuche in einigen der legendärsten Fußballstadien Europas und zusätzliche Einnahmen in Millionenhöhe bedeutet. In der nächsten Saison droht möglicherweise der Abstieg, ein finanzieller Schock, den viele Vereine nur schwer verkraften können. In einer solchen Saison kann der Manager mehrmals ausgetauscht werden. Diese Schwankungen werfen die Frage auf, ob es wirklich möglich ist, die Leistung anhand einiger weniger Spiele zu beurteilen. Im Folgenden erörtern wir eines der einfachsten Modelle zur Vorhersage des Ausgangs von Spielen und einer ganzen Saison. Wir stützen unsere Modellierung auf nur zwei Merkmale, die Tore für (GF) und gegen (GA) jede Mannschaft während einer Saison. Diese Merkmale sind in der Regel in Fußball-Ergebnistabellen aufgeführt.

Die Beispieltabelle auf der linken Seite der folgenden Abbildung bezieht sich auf die Saison 2021/22 der Premier League, an der zwanzig Mannschaften teilnahmen. Das Modell ermöglicht es uns, zu beurteilen, ob eine Mannschaft über mehrere Spiele hinweg zu wenig oder zu viel geleistet hat, indem es die Torwahrscheinlichkeiten für jede Mannschaft über alle gespielten Spiele hinweg vorhersagt.

 
Rechts unten in der Abbildung sind zwei Beispiele aufgeführt. Wir konzentrieren uns auf die Spiele Liverpool gegen Arsenal. Unabhängig davon, welche Mannschaft zu Hause spielt, wird Arsenal mit einer großen Wahrscheinlichkeit von 46 % keine Tore erzielen, während Liverpool mit einer Wahrscheinlichkeit von 27 % am ehesten zwei Tore erzielen wird. Wir testen die prognostizierten Ergebnisse anhand von Spielergebnissen derselben Saison (oben rechts in der Abbildung, Beispielspielergebnis Liverpool 4 - Arsenal 0). 
 
Das Modell ermöglicht es uns auch, die nächste Saison (2022/23) mit einer Genauigkeit vorherzusagen, die mit der von Sportwetten vergleichbar ist. Anhand vergangener Spielzeiten können wir zeigen, dass solche Prognosen überraschend gut funktionieren, so dass die Prognosen für die laufende Saison effektiv funktionieren sollten.

 

Datenaufbereitung und Modellierungslogik

Bevor wir mit der Modellierung beginnen, sollten wir zunächst die Eingabedaten vorbereiten. Das Modell sollte für jede Liga funktionieren, unabhängig von der Anzahl der ausgetragenen Spiele. Daher konstruieren wir skalierbare Messgrößen wie die durchschnittlichen Tore für(gf) und gegen ein Team(ga) pro Spiel und einen Torquotienten (GQ), das Verhältnis von erzielten zu kassierten Toren jeder Mannschaft. Diese Merkmale sind liga- und stichprobenübergreifend vergleichbar (d. h. über einige Spiele oder mehrere Spielzeiten hinweg): 

Kleine Buchstaben bezeichnen Daten für eine einzelne Übereinstimmung. Große Buchstaben werden für Daten verwendet, die über mehrere Übereinstimmungen aggregiert wurden. 

Wenn man gf oder ga über alle Mannschaften mittelt, erhält man die gleiche Zahl g.

Die folgende Abbildung verdeutlicht die enormen Unterschiede bei den Toren für und gegen jede Mannschaft. Mannschaften, die viele Tore schießen, kassieren wenig, und andersherum.  

Daher variiert der rechts in der Abbildung dargestellte Torquotient noch stärker als die Tore für und gegen die einzelnen Mannschaften. 

Der Quotient hat jedoch eine intuitive Bedeutung. So schießt Manchester City beispielsweise fast viermal so viele Tore wie es kassiert, während das Gegenteil für Norwich City gilt. Die Bedeutung der Tordifferenz ist dagegen weniger intuitiv, da sie für eine korrekte Interpretation einen Kontext benötigt, wie die Anzahl der gespielten Spiele und die typische Gesamtzahl der Tore während der Spiele. 

Unsere Hauptaufgabe in diesem Artikel besteht darin, ein Modell zu entwickeln, das vorhersagt, wie viele Tore eine Mannschaft in einem bestimmten Spiel erzielen wird. Ein Beispiel: Wenn Manchester City gegen einen durchschnittlichen Ligagegner wie Aston Villa spielen würde, wäre die beste Vorhersage gf (Manchester City) = 2,6 Tore, da dies die durchschnittliche Anzahl der von Manchester City pro Spiel erzielten Tore ist. Was würden wir erwarten, wenn Manchester City gegen eine Mannschaft mit einer schwachen Verteidigung wie Norwich City spielen würde, die weit unter dem Ligadurchschnitt liegt? Wir könnten unsere Prognose einfach mit dem Quotienten ga (Gegner)/gkorrigieren . Dieser Quotient liegt bei einem durchschnittlichen Ligagegner wie Aston Villa nahe bei 1, bei einem schwachen Gegner wie Norwich City beträgt er jedoch 1,6, wodurch sich die Anzahl der von Manchester City prognostizierten Tore auf 4,1 erhöht. Das einfache Produktmodell formuliert dies in einer kompakten Formel.

Wenn man in dieser Formel Mannschaft und Gegner vertauscht, stellt man fest, dass Norwich City im Durchschnitt etwa 0,3 Tore gegen Manchester City schießen wird. Dies ist gleichzeitig die prognostizierte Anzahl von Toren gegen Manchester City, so dass das gleiche Modell auch für die Vorhersage der Gegentore verwendet werden kann. Die linke Seite der Abbildung unten zeigt die vom Modell vorhergesagte Tordifferenz für jedes Spiel in der Liga.

Auf der rechten Seite der Abbildung sehen wir, wie gut das Modell abschneidet. Für jedes einzelne Spiel der Saison vergleichen wir die gf-Prognose mit der Anzahl der Tore gf, die in dem Spiel tatsächlich erzielt wurden. Der Median ist durch eine horizontale orangefarbene Linie gekennzeichnet, die Kästchen markieren das 25- (unten) und 75-Perzentil (oben). 

Wenn man die Daten aller Spiele zusammenfasst, bei denen etwa ein Tor vorhergesagt wurde, stellt man fest, dass die tatsächlich erzielten Tore meistens null, eins oder zwei waren. In einigen wenigen Fällen wurden sogar bis zu fünf Tore erzielt. Dies zeigt, dass es sehr schwierig ist, die Anzahl der Tore genau vorherzusagen. Vielmehr funktioniert die Vorhersage eher im Durchschnitt. 

Die durchschnittliche Anzahl der Tore, die durch ein grünes Dreieck gekennzeichnet ist, liegt fast genau auf der Identitätslinie gf forecast=gf über den gesamten Plotbereich, was beweist, dass das Modell im Durchschnitt gut funktioniert. 

Es ist möglich, zu modellieren, wie wahrscheinlich es ist, dass die tatsächliche Anzahl der Tore gf bei einer Prognose von gf die verschiedenen Werte null, eins, zwei oder mehr annimmt. Dies hilft, die Unsicherheit der Vorhersage abzuschätzen. Die Einzelheiten sind für das Verständnis der weiteren hier vorgestellten Ergebnisse nicht wichtig. Es reicht aus, die mit einer bestimmten Vorhersage verbundene Standardabweichung zu kennen. Für mathematisch interessierte Leser werden daher in einem Kasten Details zur Zielverteilung dargestellt. 

Ein Exkurs für Zahlenjongleure: Die Torverteilung

Wir behandeln die Prognoseunsicherheit, indem wir die Anzahl der Tore mit einer Poisson-Verteilung um die gf-Prognose herum modellieren. Die folgende Abbildung zeigt Daten, die sich auf den ersten und dritten Bereich in der obigen Abbildung beziehen. Sie zeigt, dass die Poisson-Verteilung für diesen Zweck gut geeignet ist, da die Unterschiede zwischen der Poisson-Verteilung und der Verteilung der Matchdaten gering sind. Die Poisson-Verteilung spielt eine wichtige Rolle in allen Arten von Zählstatistiken, z. B. bei der Beschreibung radioaktiver Zerfallsstatistiken oder von Teilchenkollisionsereignissen in der Physik. Daher ist sie für Zählungszwecke gut geeignet. Diese Verteilung hängt nur von einem Parameter ab, der gleichzeitig mit dem Mittelwert und der Varianz der Verteilung identisch ist. Setzt man diesen Parameter auf die Vorhersage gf, so erhält man die Wahrscheinlichkeit p, dass gf einen bestimmten Wert annimmt: 

Berechnen wir die Unsicherheit der Eingangsmerkmale GF und GA. Wenn wir davon ausgehen, dass die Offensiv- und Defensivqualität jeder Mannschaft im Laufe der Saison konstant bleibt, sind die Spielergebnisse immer noch vom Zufall abhängig. Selbst ein Spitzenteam kann manchmal gegen einen Abstiegskandidaten null Tore erzielen. Für ein einzelnes Spiel wissen wir aus den Eigenschaften der Poisson-Verteilung:  

Mittelwert(gf)=Varianz(gf)=gf Prognose. Wenn man den Mittelwert(gf) über alle Spiele einer Mannschaft mittelt, erhält man gf(Mannschaft). Bei der Berechnung wird die gf-Vorhersage für jedes Spiel einzeln durch die Formel für das Definitionsprodukt ersetzt. Dieses Ergebnis zeigt uns, dass unser Modell die Selbstkonsistenzprüfung besteht. Die Varianz dieses Durchschnittswerts ist gf(Mannschaft)/Pld, unter Anwendung des zentralen Grenzwertsatzes. Das 68%ige Konfidenzintervall für die tatsächliche intrinsische Offensivkraft einer Mannschaft ist daher

Dieses Konfidenzintervall gilt für die Gaußsche Grenze großer Zahlen, aber die Annäherung funktioniert gut bei etwa GF(team)= gf (team) Pld=10.

Ergebnisse der Modellierung

Die nachstehende Abbildung bezieht sich auf die Saison 2018/19 der Premier League. Sie wurde ausgewählt, weil es die letzte Saison war, die nicht von COVID-19 betroffen war. Für drei Spitzenmannschaften, drei mittelmäßige Mannschaften und die drei Absteiger wird die Endplatzierung der Mannschaft angegeben.

Wir sehen, wie unser Modell der Zielvorhersage es uns ermöglicht, die Unsicherheit von Zielzählungen zu berechnen:

Die Fehlerbalken geben die Intervalle an 

wo die geschätzten durchschnittlichen Tore pro Spiel der Mannschaft zu finden sind. Diese Bereiche entsprechen einem Konfidenzintervall von 68 %. 

Auf der rechten Seite der Abbildung sehen wir einen klaren Heimvorteil für vier der neun Mannschaften in der Offensive (mehr Tore zu Hause als auswärts erzielt) und für zwei Mannschaften in der Defensive (weniger Gegentore zu Hause als auswärts).

Bei den Toren der beiden führenden Mannschaften überschneiden sich die Fehlerbalken, was bedeutet, dass es keinen statistisch signifikanten Unterschied in der Offensivqualität dieser beiden Mannschaften gibt (links in der Abbildung). Das Gleiche gilt für die Gegentore, und in der Tat haben beide Teams fast die gleiche Punktzahl erreicht (Manchester City mit 98 Punkten, Liverpool mit 97 Punkten). Im Vergleich zu ihnen hatte Chelsea eine deutlich schwächere Offensive und Defensive, wobei sich die Fehlerbalken sogar mit denen mittelmäßiger Mannschaften überschnitten, was bedeutet, dass Chelsea auf einem niedrigeren Niveau spielte. 

Die mittelmäßigen Mannschaften liegen alle auf dem gleichen Niveau, und ihre Offensive ist deutlich besser als die der Absteiger. Der letzte Tabellenplatz von Chelsea war eindeutig nur aufgrund der hervorragenden Heimergebnisse möglich, während die Auswärtsergebnisse auf dem Niveau mittelmäßiger Mannschaften lagen. 

In der Saison 2020/21, die stark von COVID-19 betroffen war, wurden die meisten Spiele ohne Zuschauer ausgetragen. Aus der nachstehenden Abbildung geht hervor, dass dieser Modus den Heimvorteil untergrub. 

Mannschaften, die normalerweise auf einen starken Heimvorteil bauen, hatten sogar einen "Auswärtsvorteil", so dass Liverpool auswärts mehr Tore schoss als zu Hause und Manchester United auswärts weniger Tore kassierte als zu Hause. 

Wenn wir die Leistung eines neuen Managers beispielsweise in den ersten acht Spielen seiner Amtszeit bewerten wollen, könnte es sein, dass der Manager Pech hat und in dieser Zeit nur gegen Spitzenteams spielt. In diesem Fall wäre zu erwarten, dass die Mannschaft weniger Tore schießt und mehr kassiert als im Durchschnitt. Die Lösung wäre, die Ergebnisse mit der prognostizierten Anzahl der Tore zu vergleichen, wie in der folgenden Abbildung für die Saison 2018/19. 

Auf der linken Seite ist ein Szenario mit Spielen gegen Gegner aus der besseren Hälfte der Liga dargestellt. Ein anderes Szenario mit Gegnern aus der schwächeren Hälfte ist auf der rechten Seite dargestellt. 

Die Fehlerbalken sind im Vergleich zu früheren Zahlen viel größer, da wir es jetzt mit einer kleineren Stichprobe zu tun haben als in einer vollen Saison mit 38 Spielen. 

Alle Mannschaften werden gegen die schwächeren Mannschaften mehr Tore erzielen und weniger Gegentore kassieren als gegen die stärkeren Mannschaften. Der größte Unterschied besteht darin, dass Manchester City gegen die schwächeren Mannschaften (Tabellenplätze 14 bis 17) fast ein Tor mehr pro Spiel erzielt als gegen die stärkeren Mannschaften (Tabellenplätze 4 bis 7). Tatsächlich hat Manchester City gegen die schwächeren Mannschaften sogar mehr als ein Tor mehr pro Spiel erzielt. 

In dieser acht Spiele umfassenden Stichprobe gibt es keine Mannschaft, die eindeutig über- oder unterdurchschnittlich abschneidet. Die stärkste Überperformance zeigt Fulham gegen die schwächeren Teams, die im Vergleich zur Prognose fast ein Tor mehr pro Spiel erzielten. Dies könnte darauf hindeuten, dass Fulham versucht hat, gegen den Abstieg zu kämpfen, indem es die Spiele gegen andere Abstiegskandidaten ernster genommen hat. Eine solche Strategie wirkt sich doppelt aus, da sie Fulhams Punktezahl erhöht und die Punktezahl der Gegner verringert, die noch hinter Fulham zurückfallen könnten. Dennoch ist das Ergebnis nicht schlüssig. Fehlerbalken, die sich leicht überlappen, haben eine Eintrittswahrscheinlichkeit von mehr als 1/20, so dass es bei Toren für und gegen die 9 angezeigten Mannschaften wahrscheinlich ist, dass wir einen solchen Fall nur zufällig beobachten können. Ein solches Ergebnis könnte jedoch immer noch auf einen echten zugrunde liegenden Effekt hindeuten, der mit weiteren statistischen Tests auf der Grundlage weiterer Merkmale bewertet werden könnte. 

In einem letzten Schritt wollen wir sehen, wie die Prognosen in den folgenden Saisons abschneiden. Die folgende Abbildung zeigt Prognosen für zwei verschiedene Spielzeiten auf der Grundlage der Ergebnisse der vorangegangenen Saison. In beiden Fällen wurden die drei abgestiegenen Mannschaften einfach durch die neu hinzugekommenen Mannschaften ersetzt, die die Tore und Gegentore dieser Mannschaften aus der Vorsaison übernommen haben. Der Trend lässt sich gut reproduzieren. 

Abweichungen der gebündelten Ergebnisse von der perfekten Identität spiegeln Veränderungen in der Qualität der Mannschaft im Laufe der Zeit wider. Je besser die Vorhersage ausfällt, desto stärker ist die Kontinuität aller Teams von einer Saison zur nächsten. Diese Tatsache könnte auch zum Vergleich von Spielzeiten mit einem größeren zeitlichen Abstand dazwischen genutzt werden, um Veränderungen in der Liga im Laufe der Zeit zu beobachten. 

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass wir ein einfaches Modell zur Vorhersage der Anzahl der Tore während der Spiele auf der Grundlage von zwei Merkmalen entwickelt haben: die Tore für und gegen die Mannschaft während der gesamten Saison. Dieses Modell ermöglichte es uns, die Unsicherheit der Ergebnisse zu bewerten. Außerdem konnten wir damit prüfen, ob es einen signifikanten Heimvorteil gibt und ob die Mannschaften in mehreren Spielen zu schlecht oder zu gut abschneiden, wobei die Gegner ein schlechtes Abbild der gesamten Liga sein können, da sie entweder alle Spitzenteams oder alle Abstiegskandidaten sind. Das Modell zeigt auch eine gute Leistung bei der Vorhersage der nächsten Saison. 

Mit diesem Modell lassen sich noch viele weitere Erkenntnisse gewinnen, so dass wir eine kleine Reihe weiterer Artikel hinzufügen können:

  • Erkennen einer signifikanten Über- oder Unterperformance von Teams mit oder ohne einen bestimmten Spieler auf dem Platz, mit einem neuen Manager oder zu Beginn einer Saison. 
  • Die Wahrscheinlichkeit, ein Spiel zu gewinnen, unentschieden zu spielen oder zu verlieren, und die erwartete Anzahl der pro Spiel erzielten Punkte hängen auf einfache Weise von den Torquoten der beteiligten Mannschaften ab. 
  • Die Wahrscheinlichkeit, dass eine Mannschaft absteigt oder sich für die Champions League qualifiziert, kann anhand von virtuellen Saisonläufen geschätzt werden -> Modellierung des finanziellen Risikos. 
  • Wie sich eine verstärkte Offensive mit einem zusätzlichen Stürmer in zusätzlichen Punkten niederschlägt und die Wahrscheinlichkeit der Qualifikation für die Champions League erhöht, kann mit dem Modell quantifiziert werden. 
  • Nutzung der Prognosen für Sportwetten und Vergleich mit den Quoten der Wettbüros. 

Datenwissenschaft & Fußball

Dieser Artikel ist Teil einer dreiteiligen Serie, die sich mit Datenwissenschaft im Zusammenhang mit Fußball beschäftigt.

Um mehr über Datenwissenschaft im Fußball zu erfahren, können Sie auch diese Artikel lesen:

Teil I: Die Dekonstruktion einer erfolgreichen Saison

Teil II: Bewertung von Fußballspielern

Einzelheiten

Titel: Schlechte Leistung oder Pech? Wie sich die Qualität von Angriff und Verteidigung und die Ungewissheit auf die Ergebnisse im Fußball auswirken
Autor:
DAIN StudiosDaten & KI Strategieberatung
Veröffentlicht in ,
Aktualisiert am 27. Januar 2024