2 élections très différentes, même performance pour les simulations

- 20 juillet 2014

Les élections au Québec et en Ontario ont été fort différentes à tout point de vue. La situation a été remarquablement stable en Ontario tout au long de la campagne (bien que les sondages variaient beaucoup; je parle ici de la moyenne) alors que la campagne Québécoise a été marquée par un constant déclin du PQ et une remontée de dernière minute de la CAQ. Au Québec, le gouvernement minoritaire sortant n’a pas réussi à remporter une majorité et a même perdu l’élection alors qu’en Ontario, les Libéraux ont réussi à décrocher leur majorité. Aussi, alors que les sondages au Québec ont fait une bonne job (sur-estimant légèrement le PQ), ils étaient pas mal dans le champ en Ontario (surtout en utilisant les « likely voters » des diverses maisons de sondages). Tout ça pour dire qu’il y a bien peu de chose en commun entre ces deux élections, si ce n’est une victoire Libérale à la fin.

Or, les probabilités du modèle (obtenues via simulations) ont en fait connu des performances très similaires. Je ne parle pas ici du nombre de comtés prédits correctement (à ce petit jeu là, les performances en me basant sur les sondages étaient fort similaires alors qu’avec les vraies pourcentages, le modèle a bien mieux fait en Ontario. L’absence de CAQ, kryptonite de mon modèle au Québec, aide bien sûr considérablement). Je parle ici de représenter l’incertitude qui existait. Je parle ici du fait que si le modèle prédit qu’un candidat remportera son comté 75% du temps, alors 25% des candidats dans cette situation se doivent de perdre sur le long terme (long terme étant bien sûr bien davantage que sur une simple élection).

Il existe plusieurs mesures de modèles probabilistes, mais une mesure connue et simple est le « Brier score« . J’en avais déjà parlé lors mon port-mortem au Québec. L’idée du Brier score est de punir les prédictions de deux manières: si le modèle a fait le bon choix dans un comté mais n’avait pas les chances de gagner à 100%, alors il y a une petite erreur. Dans mon exemple, si un candidat était projeté gagnant avec 75% de chances et qu’il a finalement remporté son comté, le Brier score sera de 1-0.75=0.25 au carré. À l’inverse, imaginons que le candidat ait finalement perdu, alors dans ce cas, le score sera de 0.75 au carré. Ainsi, la seule manière d’avoir un Brier parfait (donc zéro) est d’avoir tous les gagnants à 100% et tous les perdants à 0%. Il est bien sûr difficile, voire impossible, d’être aussi parfait au Canada. Si vous projetez l’élection présidentielle au États-Unis, cela est déjà bien plus possible (bien des États ne sont absolument pas en jeu). La beauté du Brier score est de punir les prédictions qui étaient justes mais avec un faible niveau de confiance (ainsi, vous ne pouvez pas tenter de juste parler de courses serrées partout dans l’espoir de n’avoir jamais tort).

Quoiqu’il en soit, lors de l’élection Québécoise, le Brier score de mes prédictions avait été de 8.2%. Un résultat bien loin des différents modèles aux États-Unis, mais encore une fois, prédire le résultat de 125 comtés en se basant sur les % provinciaux est bien plus complexe et incertain que de prédire les résultats dans 50 états avec de nombreux sondages dans chacun d’entre eux.

Et en Ontario? Aussi incroyable que cela puisse paraître, le Brier score a été de… 8.1%! J’ai refait les calculs deux fois pour être sûr.

Il faut bien se rendre compte que ces deux Brier scores n’ont pas la même valeur pour les mêmes raisons. Au Québec, les erreurs sont essentiellement provenues de la performance incroyable de la CAQ dans le 450. En Ontario, les erreurs sont essentiellement dues aux sondages.

Aussi, le modèle continue d’avoir eu raison dans les comtés projetés à 100% (ou alternativement, 0%). En d’autres mots, après 4 élections dans 3 provinces (dont 2-3 où les sondages n’ont de loin pas prédit les résultats correctement), aucun des candidats projetés avec 0% de chances de gagner n’a finalement remporté son comté. Et tous les candidats projetés à 100% ont gagné. C’est passé bien proche en Ontario dans le comté de Durham. Le candidat Libéral n’y avait que 0.4% de chances de gagner et il a finalement remporté ce siège. Le modèle avait les Conservateurs en avance par 16 points! Il faut dire que le candidat Cosnervateur avait remporté ce comté par 20 points en 2011. Ainsi, entre les erreurs des sondages et des effets locaux, ce comté a bien failli couler mon modèle. Pour rappel, au Québec, la plus grande surprise était bien moins impressionnante avec le candidat CAQ dans Masson qui avait environ 5% de chances de gagner. Rappelez-vous qu’il est normal que certains candidats projetés gagnants avec de si faibles chances gagnent de temps à autres. Sinon ils devraient être projetés à 0%.

Au final, les probabilités continuent de prouver qu’elles fonctionnent. Cependant, il semble qu’il me faudra ajouter un petit peu d’incertitude pour les candidats projetés entre 40 et 60% de chances. Après 4 élections, j’ai que les candidats qui étaient projetés avec moins de 50% de chances ne font pas forcément pires que ceux projetés juste au-dessus de 50%. Une petite correction sera apportée d’ici l’élection fédérale

prédictions coupe du monde vs LNH

- 10 juillet 2014

Après une demi-finale incroyable (Brésil vs Allemagne) et une vraiment plate (Argentine vs Pays-Bas), nous voici avec les deux équipes encore en lice pour remporter le trophée. À l’inverse de la phase de groupe, les matchs à élimination directe n’ont quasiment réservé aucune surprise. Dans les faits, la victoire allemande représente le seul cas où le favori n’a pas gagné (et encore, Bloomberg avait l’Allemagne légèrement favorite). Cela veut dire que les modèles de prédictions ont bien mieux fait qu’au début, malgré que Nate Silver fait remarquer à juste titre que si tous les favoris gagnent, cela représente en soit une grosse surprise!

Depuis le début de cette coupe du monde, j’ai émis ma critique concernant les probabilités de certains matchs et résultats. En particulier, je ne comprends pas comment le Brésil pouvait être vu comme ayant près de 50% de chances de gagner cette coupe alors que l’Argentine ou l’Allemagne n’étaient qu’à 10% environ. Bien sûr, vu que nous n’avons pas 1000 coupes du monde (ou la même coupe dans 1000 univers parallèles), nous ne saurons jamais si ces probabilités étaient justes ou non. Mais le foot (ou soccer) reste un jeu où il y a une très grande incertitude et certaines de ces probabilités ne représentaient absolument pas cela. Les sites de paris avaient, dans le cas du Brésil, une situation bien plus serrée.

Qui est favori pour la finale? FiveThirtyEight donne 61% de chances aux allemands, Bloomberg a la même équipe gagnante mais seulement à 50.9%. Goldman Sachs n’a pas de mise à jour pour la finale, du moins pas actuellement. En utilisant le classement Elo, l’Allemagne part favorite à environ 58%.

Quoiqu’il en soit, et peu importe si certains de ces modèles avaient potentiellement un effet « jouer à la maison » trop important pour le Brésil, ils restent tous intéressants et valides. En particulier, ces probabilités sont bien plus pertinentes que celles souvent évoquées pour la NHL et les séries. La différence étant que ces modèles classent les équipes selon divers critères et font des simulations. Quand on dit qu’une équipe a 60% de chances de gagner, on parle bien de l’équipe actuelle, avec sa force et son niveau de jeu courant. Dans la LNH, la plupart du temps, nous n’avons que des probabilités historiques. Par exemple: une équipe classée 8e n’a remporté la coupe qu’une seule fois (les Kings en 2012). C’est un chiffre intéressant en soit, mais cela ne représente pas vraiment les chances qu’une équipe classée 8e gagne la coupe. Après tout, en utilisant cette logique, les Kings avaient 0% de chances en 2012.

Un bon exemple est quand une équipe tire de l’arrière 0-3 dans une série. Dans toute l’histoire de la NHL, seuls 4 équipes ont finalement remporté leur séries. Sur ces 4, nous en avons deux récentes (Flyers contre Boston et cette année, Kings vs Sharks). Avant cette année, les chances (en se basant sur les résultats passés) étaient de 3 sur 175, soit moins de 2%. Mais encore une fois, cela ne s’applique pas vraiment aux Kings. Ce que je veux dire, c’est que les LA Kings n’avaient pas vraiment 1.7% de chances de gagner 4 matchs de suite. Ce 1.7% indique simplement que dans le passé, seulement 1.7% des équipes ont fait une telle remontée.

Pour établir les vraies chances, il nous faudrait avoir un modèle et classer les LA Kings et San Jose Sharks. Une fois cela fait, nous pourrions faire des simulations et voir combien de fois, sur 1000 simulations par exemple, les Kings gagnent 4 fois de suite. Même sans modèle, on peut faire un simple calcul: Imaginons que Sharks et Kings étaient à peu près égaux. Le classement de la saison régulière indique que les Sharks étaient supérieurs mais en même temps, on peut facilement argumenter que les Kings sont meilleurs en séries et ont davantage d’expérience. Dans ce cas-là, les chances de gagner un match sont de 50-50.

Lorsque les Kings étaient menés 0-3, les chances de gagner 4 matchs de suite étaient ainsi de 0.5*0.5*0.5*0.5=0.025 ou 6.25%. J’assume ici l’indépendance des résultats d’un match à l’autre, ce qui est une hypothèse importante. Néanmoins, nous voyons que ce simple calcul augmente considérablement les chances des Kings de remonter la pente. Cela reste improbable (tel que ça devrait l’être!), mais pas autant qu’avant. Il s’agît ici d’un modèle super simple (le terme modèle n’est probablement même pas adapté) mais au moins nous essayons de représenter l’incertitude actuelle. Avec davantage de temps et de données, on peut facilement imaginer avoir un modèle cohérent.

Mener 3-0 dans une série n’est plus la même chose qu’avant. Aujourd’hui, mener 3-0 est plus souvent le signe d’avoir été chanceux (dans le sens d’avoir eu les bons rebonds, une déviation,  une pénalité au bon moment, etc) lors des trois premiers matchs plutôt que le fait d’être complètement supérieur à l’autre équipe. Cela veut dire que les remontée de 0-3 à 3-3 ou 4-3 devraient arriver plus fréquemment avec la parité dans la LNH.

À ma connaissance, il n’existe pas actuellement de modèles ou sites de prédictions offrant des probabilités similaires à ce que nous voyons pour la coupe du monde et cela est regrettable. Je pourrais peut-être essayer.

Élections partielles fédérales et l’effet Justin Trudeau

- 29 juin 2014

Ce lundi, nous avons 4 élections partielles. 2 en Ontario (Scarborough-Agincourt et Trinity-Spadina) et 2 en Alberta (Fort-McMurray-Athabasca et Macleod). Nous avons aussi un tout nouveau sondage d’Angus-Reid avec un échantillon massif de 6000 observations. Celui-ci est intéressant car Libéraux et Conservateurs y sont quasiment à égalité alors que le NPD n’est pas loin derrière. Une situation bien différente d’il y a 1 an où Justin Trudeau et son parti étaient largement en tête.

Nous avons également des sondages dans 3 de ces comtés grâce à Forum.

Les deux élections en Alberta ne devraient absolument pas causer de surprises et les Conservateurs devraient conserver les deux sièges. On parle de comtés remportés avec plus de 70% du vote en 2011.

Les deux comtés ontariens sont de loin plus intéressants. Dans Scarborough-Agincourt, le PLC y avait remporté l’une de ses rares victoires en 2011. Malgré un effet Trudeau moins important qu’après son élection, il reste que le PLC est plus élevé provincialement en Ontario qu’en 2011 (où il avait terminé 3e). Ainsi, les Libéraux se doivent de conserver ce siège. Sauf que les sondages Forum montrent une course plus serrée que ça, en grande partie due à un NPD très faible qui semble bénéficier le PCC. Les élections partielles sont généralement marquées par une abstention plus importante et plus sélective. Dans le cas présent, on peut imaginer que les électeurs néo-démocrates savent que ce comté ne peut pas être gagné et n’iront pas voter. Il reste que le PLC y est projeté gagnant tant en utilisant le modèle qu’en regardant le sondage Forum. Conclusion: victoire libérale.

La vraie course est dans Trinity-Spadina où la député sortante, Olivia Chow (femme du défunt  Jack Layton) a démissionné afin de se lancer dans la course à la mairie de Toronto. Aussi, ce comté va en fait disparaître d’ici la prochaine élection générale en raison de la nouvelle carte électorale, ce qui rend cette élection un peu étrange. Les sondages Forum donnent tous un large avance au PLC devant le NPD. Le modèle, en se basant sur les % provinciaux, a plutôt une victoire facile du NPD. Bien sûr, le modèle ne tient pas (encore) en compte le fait qu’Olivia Chow était une candidate vedette et bénéficiait d’un effet personnel. Cependant, si vous regardez l’historique des résultats dans cette circonscription, vous voyez que le NPD ne l’a pas toujours remportée facilement. Ce n’est qu’en 2011, avec l’effondrement des Libéraux, que madame Chow a vraiment gagné par une large marge.

La question est vraiment de savoir quel était l’effet Olivia Chow. Je dirais que les résultats de 2006 et 2008 sont probablement les plus révélateurs pour la situation présente. En particulier, entre 06 et 08, Olivia Chow avait perdu des votes (tout comme son parti à l’échelle de la province). Ainsi, l’effet Chow n’était pas forcément si important (avant 2011 du moins). Et les % provinciaux de 2006 et 2008 ne sont pas trop loin de ceux du sondage Angus-Reid (le NPD étan cependant plus élevé dans le sondage).

Tout ça pour dire que cette élection pourrait être très serrée. Le parti de Thomas Mulcair ne voudra pas perdre ce comté symbolique. Quant aux Libéraux, il s’agît là d’une victoire potentielle importante.

Au final, et en tenant compte que la participation est plus faible lors d’élections partielles (surtout la veille de la fête du Canada…) et que les sondages par comté sont moins fiables (souvenons-nous des sondages Forum dans Brandons-Souris qui donnaient le PLC gagnant par genre 30 points alors que ce candidat avait finalement perdu de peu), il est très difficile de faire une prédiction.

Aussi, le sondage Angus-Reid est intéressant tant au niveau national avec essentiellement une course à 3 (qui avantagerait grandement les Conservateurs) mais également au Québec. En effet, le NPD y est largement en tête (38%) alors que le PLC se retrouve à seulement 27%. Encore une fois, l’effet Trudeau est en train de diminuer rapidement. Quant au Bloc, à 19%, il est stable. L’arrivée du nouveau chef ne semble pas avoir aidé. Il faut dire que ce dernier n’est de loin pas le choix consensuel qui aiderait le Bloc a redevenir le premier parti dans la Belle Province. Je posterai sur le sujet sous peu.

Coupe du monde: place aux matchs à élimination

- 28 juin 2014

La semaine passée, je faisais une revue des différents modèles de prédictions pour la coupe du monde. L’un des constats était que ces prédictions n’avaient pas été très bonnes, du moins au moment où j’écrivais mon billet.

Une semaine plus tard et la phase de groupe terminée, la situation ne s’est pas vraiment arrangée. Goldman’s Sachs a correctement prédit seulement 36% des matchs et 9 des 16 équipes se qualifiant pour les 8e de finale. Bloomberg, dont je parlais la semaine passée déjà, n’a pas vraiment amélioré sa situation avec les derniers matchs dans chaque groupe. Lors de ceux-ci, il n’a correctement prédit que 7 matchs sur 16 (par correctement prédit, je parle de prédire qui gagnerait ou s’il y aurait un match nul)! Quant à Nate Silver, il a correctement prédit 9 des 16 équipes qualifiées pour le prochain tour. Si l’on se souvient que certaines de ces prédictions étaient vraiment faciles (il était évident que l’Argentine ou la Colombie se qualifieraient par exemple en raison de la faiblesse des autres équipes dans leur groupe), 9 sur 16 n’est vraiment pas extraordinaire. Bien sûr, il y a eu de vraies surprises. Le Costa Rica sortant de l’un des groupes de la mort et en tête en plus n’était tout simplement pas prévisible. Mais la Suisse se qualifiant aux dépends de l’Équateur était plutôt logique et je ne comprends pas les modèles qui avaient une prédiction inverse (bien sûr, je suis probablement biaisé sur le coup).

Ces sites continuent d’avoir le Brésil comme grand favori. Nate Silver lui accorde 41% de chances de gagner (en baisse par rapport à avant le tournois). Goldman’s Sachs continue de voir le Brésil gagnant (à 43%, là aussi en baisse)  mais la finale l’opposerait maintenant aux Pays-Bas et non plus à l’Argentine (donc les Pays-Bas perdrait une 4e finale, dont une 2e se suite). Et Bloomberg voit toujours un Brésil-Argentine avec le pays hôte remportant le trophée.

Comme je le disais la semaine passée, je n’ai pas de problème avec le fait que le Brésil soit vu comme favori. J’ai plus de misère avec les probabilités. Avoir le Brésil au-dessus des 40% me semble assez fou, surtout que cette équipe n’a pas joué de façon spectaculaire jusqu’à date. Avoir le Brésil avec plus du double de chances de l’Argentine ou 4x les chances de l’Allemagne me semble profondément incorrect. À voir le taux de succès de ces modèles jusqu’à maintenant, je maintiens mon point qu’ils ne représentent pas correctement l’incertitude qui existe. Bien sûr, pour vraiment tester cela, il faudrait avoir la même coupe du monde, avec les mêmes matchs, jouée 100 ou 1000 fois. Et alors on pourrait voir que le Brésil gagnerait effectivement 40% du temps. Le problème bien sûr étant que nous avons une coupe du monde seulement. Néanmoins, avec 36 matchs de joués, l’échantillon n’est pas si négligeable que cela et les probabilités devraient s’aligner.

Si nous utilisons plutôt les sites de paris, nous voyons des probabilités différentes. Prenons le match Brésil vs Chili d’aujourd’hui. Nate Silver a le Brésil gagnant 82% des fois! Bloomberg est à 81% aussi alors que Goldman Sachs est carrément sûr à 87% que le Brésil gagnera. À regarder ces prédictions, il semblerait que le Chili n’ait pratiquement aucune chance. Sauf que selon les sites de paris, on voit une situation bien différente. Le Brésil y est toujours favori, mais les probabilités sont moins élevées. En moyenne, si vous misez $1 sur une victoire du Brésil, vous pouvez gagner un peu moins de 50 cents (en plus de votre mise initiale). En moyenne, le Brésil est ainsi donné gagnant à 65-70%. Cela me semble bien plus raisonnable, surtout que jusqu’à présent, le Chili a dû faire face des des adversaires plus redoutables. Il est surprenant de voir les prédictions si confiantes en une victoire brésilienne, alors que cette confiance n’est pas aussi élevée chez les parieurs. Si vous regardez les paris les plus populaires, vous voyez que le Chili est choisi presque 50% du temps. Bien sûr, cela représente un mixte de probabilités de gagner et de volonté de prendre un risque pour gagner gros. Mais les parieurs ne sont pas fous non plus. Regardez Allemagne vs Algérie, plus de 75% des parieurs prennent que l’Allemagne va se qualifier (malgré le fait qu’une victoire surprise de l’Algérie vous rapporterait vraiment beaucoup d’argent).

À noter également que le Brésil n’est pas donné 4x plus gagnant que l’Allemagne sur ces sites. Encore une fois, les deux méthodes ne s’entendent pas. Si vous misez sur le Brésil, vous remportez 3x votre mise actuellement en cas de victoire finale, alors que pour l’Allemagne, votre mise serait multipliée par 4.

Nous verrons bien si les modèles auront plus de succès avec les matchs à élimination directe. Personnellement, je ne vois pas pourquoi les surprises devraient s’arrêter.

Prédire la coupe du monde

- 22 juin 2014

Oublions un instant la politique (après tout c’est l’été et nous venons d’avoir des élections au Québec et en Ontario, alors la prochaine campagne ne sera qu’en 2015 au niveau fédéral; En passant, le dernier sondage Crop montre le PLQ en tête, la CAQ deuxième et le PQ loin derrière. Résultats pas surprenant et en ligne avec le dernier Leger) et parlons foot (ou soccer). Étant Suisse, je suis naturellement un grand fan de ce sport (je regarde aussi le hockey et tennis si vous voulez savoir).

La coupe du monde de la FIFA 2014 au Brésil a commencé il y a un peu plus d’une semaine. Et tout comme nous pouvons tenter de prédire les résultats électoraux, certains essaient de prédire les gagnants de chaque match et du tournois. La plupart des sites offrant ce genre de prédictions le font via des probabilités basées sur des simulations. Tout comme je fais des simulations afin de déterminer les chances de gagner dans chaque comté. La comparaison s’arrête là cependant car la manière d’obtenir ces probabilités est forte différentes. En général, le principe est similaire: faire un classement des équipes on se basant sur les résultats passés et ensuite déterminer des chances de gagner en fonction de ce classement. Regardons les différents classements et prédictions.

1. Le classement FIFA. Il s’agît du classement officiel, mise à jour tous les mois. Il est basé sur les résultats des 4 dernières années et inclut de nombreuses variables (battre l’Allemagne va rapporter bien davantage de points que de battre le Luxembourg; Aussi, plus la différence de classement entre les deux équipes est grande et plus le nombre de points en cas de surprise peut être important. Imaginez un pays classé 100e battant le numéro 1). Ce classement est hautement important car il détermine les tirages au sort pour les tournois FIFA (les équipes sont réparties par niveau afin d’éviter d’avoir un groupe avec trois grosses équipes et un autre groupes avec que de « petites » équipes). Le problème ici est plutôt dans les détails. Il est par exemple possible de perdre des points malgré une victoire! Ce qui est absurde. En raison de ces problèmes, le classement a souvent l’air un peu fou. Mon pays natal, la Suisse, est actuellement classé 6e au monde! C’est complètement ridicule d’imaginer qu’elle se trouve devant l’Italie ou les Pays-Bas par exemple.

Voici le top 5:

1. Espagne

2. Allemagne

3. Brésil

4. Portugal

5. Argentine

Pour rappel, l’Espagne est déjà éliminée de cette coupe du monde (et elle perdra donc beaucoup de points) alors que le Portugal a très mal commencé. Néanmoins, vu que l’Espagne est double championne d’Europe en titre et championne du monde en 2010, il était normal de voir ce pays si haut. Cela ne voulait cependant pas dire que ce pays était le favori pour remporter le tournois.

2. Le classement Elo.

À la base un système pour classer les joueurs d’échecs, il a été adapté au foot. Et le consensus est que ce classement est bien plus fiable que celui de la FIFA (ironiquement, la FIFA utilise le système Elo pour le classement féminin…). Bien que le principe soit similaire (une équipe mieux classée est favorite), les détails de la méthodologie font en sorte que le classement Elo semble en effet meilleur. La Suisse ne se retrouve plus 6e mondial en raison de match « faciles » mais seulement 16e, ce qui me semble plutôt juste. Voici le top 5 actuel:

1. Brésil

2. Espagne

3. Allemagne

4. Argentine

5. Pays-Bas

Le trio de tête est le même que pour le classement Fifa, mais l’ordre est différent. Le mauvais côté de ce classement est qu’il est plus rigide. Cela prend bien plus de temps pour monter ou tomber que dans le classement FIFA.

Le système Elo a cela de remarquable qu’il détermine les points en se basant sur les probabilités de gagner. En effet, en se basant sur le classement actuel des deux équipes, Elo utilise une fonction de distribution qui calule le résultat probable. L’exemple sur wiki est très bien fait. Ainsi, si l’Espagne affronte Tahiti, cette première sera largement favorite et en cas de succès ne recevra que peu de points. Également, Tahiti ne perdra que peu de points. Les chances de gagner sont ainsi automatique dans le sens qu’elles sont déterminées par le classement et la fonction de probabilités.

3. Le SPI de Nate Silver. Celui-ci est probablement le classement le plus compliqué. Mais lui aussi a le même trio de tête.

 

Une fois que nous avons un classement, nous pouvons faire des prédictions. Il y a eu beaucoup de sites offrant cela, de Nate Silver (qui utilise naturellement son propre classement comme base) à Goldman Sachs (qui utilise le classement Elo par exemple) ou Bloomberg. Ou encore les nombreux sites de paris (qui n’utilisent pas de modèles bien sûr mais on peut imaginer que les parieurs le font). Je crois que toutes les prédictions ont le Brésil comme grand favori. Ce qui n’est pas surprenant. Ce qui peut l’être cependant est à quel point ce pays est vu comme favori. Nate Silver donne 45% de chances à ce pays, contre seulement 11% à l’Argentine. Goldman Sachs a des chiffres très similaires. Lorsque l’on sait qu’un match de soccer se joue souvent sur un seul but, et en tenant compte des erreurs d’arbitrage ou de la chance, cela peut paraître vraiment élevé. Nate Silver offre une page interactive mise à jour après chaque match quant aux chances de chaque équipe d’accéder au 2e tour. Il est particulièrement intéressant de voir les probabilités mises à jour après le premier match. Dans le groupe G par exemple, Portugal partait 2e favoris, derrière l’Allemagne mais devant les États-Unis. Or, une lourde défaite face aux Allemands (4-0) et une victoire des USA face au Ghana a complètement inversé les chances de se qualifier. Une belle illustration de probabilités conditionnelles pour les fans de statistiques.

Alors, est-ce que ces modèles fonctionnent bien? À date, pas vraiment. Cette coupe du monde offre du beau jeu et de très bons matches avec beaucoup de surprises. Une manière de voir à quel points les probabilités ne sont pas respectées est de comparer les prédictions de Bloomberg aux résultats réels (je ferais volontier cela avec le SPI de Nate Silver, mais une fois le match complété, les probabilités originales ne sont plus disponibles).

Il y a eu 29 matches de joués à date. Sur ces 29 parties, Bloomberg a fait la bonne prédiction dans 12 cas seulement (note: je ne regarde que le résultat, donc victoire, match nul ou défaite, pas la marge de victoire; Aussi, en théorie, prédire une victoire d’une équipe qui perd devrait être vue comme une pire prédiction que s’il y a un match nul mais je n’en tiens pas compte ici). Cela représente 17 erreurs (dans certains groupes, dont celui de l’Italie, toutes les prédictions à date ont été fausses!). Si j’utilisais les prédictions d’un autre site, j’aurais probablement des résultats similaires. Ces surprises sont l’une des raisons pour lesquelles je préfère de loin le soccer au hockey par exemple (une surprise au hockey, c’est quand le Canadien élimine Boston… alors que l’on parle de deux équipes qui dépensent 60 mio de dollars en joueurs… Même aux Jeux Olympiques, on parle d’énorme surprise si la Suisse, 7e mondial, bat le Canada, 1er).

Cela ne veut pas dire que les modèles ou classements avaient nécessairement torts. Bien sûr, si vous aviez prédit que le Costa Rica allait battre l’Uruguay et l’Italie, vous avez l’air d’un petit génie des prédictions. Sauf que vous avez plutôt été très chanceux. Cela revient au même que lorsque j’expliquais que la CAQ n’aurait jamais dû être projetée à 22 sièges lors de la dernière élections (je l’avais à 11, ce qui était une sous-estimation. À posteriori, j’aurais dû l’avoir à 14-15). Tant les sondages que les résultats par régions n’indiquent pas une telle performance. La CAQ a récolté 22 sièges en gagnant à peu près toutes les courses serrées dans le 450. Cela n’était pas probable (encore une fois, même en regardant les résultats de l’élection par région, après tout la CAQ n’était que 3e dans cette région).

Il reste que c’est une chose de se tromper, mais c’en est une autre si les probabilités ne s’alignent pas. Par exemple, le Costa Rica n’avait que 12% de chances de battre l’Italie (selon Bloomberg. Selon le SPI, c’était 30%, ce qui me semble fort élevé). Ce n’était ainsi pas impossible. Mais sur l’ensemble de la coupe (64 matches), l’échantillon est assez grand pour que les probabilités soient valides. Tout comme il est possible qu’un candidat avec moins de 5% de chances gagne son comté (par exemple la CAQ dans Masson), mais parmi les candidats entre 0 et 10%, ils ne peuvent/doivent pas tous gagner. Si cela arrive, le modèle n’était pas valide. Dans le cas du soccer, si ces surprises continuent, il faudra surement se dire qu’il y avait bien davantage d’incertitude que ces modèles le laissaient entendre. Encore une fois, avoir un pays avec près d’une chance sur deux de gagner ce tournois me semble un peu absurde. Je sais bien qu’il n’y a réalistiquement que 5-7 pays qui peuvent gagner (Brésil, Argentine, Espagne, Allemagne, Pays-Bas, France, Italie, etc), mais je pense que les chances de ces pays sont davantage égales que ce que les prédictions nous indiquent. Le nombre de matches sur lesquels on peut se baser pour créer ces classements et prédiction reste faible après tout. Et je ne crois pas que ces modèle reflète cette incertitude correctement. Cela ne veut pas dire que nous devrions seulement nous baser sur notre instinct cependant (cet article est un bon exemple de ce que nous ne devrions pas faire, malgré le fait que l’auteur a quelques bons points).

N’oublions pas que ces modèles pour le soccer en 2010 ne pouvaient faire mieux que la fameuse pieuvre! Je devrais peut-être trouver un animal pour la prochaine élection!

Pour ma part, je vais continuer de regarder cette extraordinaire coupe du monde et espérer que mon pays, la Suisse, se remettra de la raclée reçue contre la France.