Modèles de prédiction baseball : construire un système de paris

Construire son propre avantage

Parier sur le baseball sans modèle, c’est négocier à l’aveugle. Vous pouvez avoir une intuition, une lecture du match, une préférence pour tel lanceur — mais sans un cadre structuré pour transformer ces observations en probabilités chiffrées, vous ne pouvez pas savoir si la cote du bookmaker est trop haute, trop basse ou correctement calibrée. Le modèle est l’outil qui transforme l’opinion en estimation et l’estimation en décision de pari.

Un modèle de prédiction baseball n’a pas besoin d’être sophistiqué pour être utile. Un tableur Excel qui combine le FIP des lanceurs partants, le wRC+ des lineups et le park factor du stade produit déjà des estimations de probabilité supérieures à l’intuition nue. Le modèle parfait n’existe pas — mais un modèle imparfait bat l’absence de modèle à chaque fois, parce qu’il impose une discipline de pensée que le raisonnement informel ne peut pas garantir.

Ce guide couvre les trois étapes de la construction d’un modèle de paris baseball : la collecte des données, la construction du modèle proprement dit, et la validation par backtesting. Chaque étape est accessible à un parieur motivé sans background en data science — les outils sont gratuits, les données sont publiques et les méthodes sont documentées.

Collecter les données : sources et méthodes

FanGraphs est la source de données la plus complète et la plus accessible pour le baseball. Le site publie gratuitement les statistiques de chaque joueur et de chaque équipe MLB — ERA, FIP, xFIP, WHIP, wOBA, wRC+, park factors — mises à jour quotidiennement. Les données sont exportables en CSV, ce qui permet de les intégrer directement dans un tableur ou un script. Pour le parieur qui construit son premier modèle, FanGraphs fournit 90 % des données nécessaires.

Baseball Reference complète FanGraphs avec un historique plus profond et des gamelogs détaillés (performance match par match). Les gamelogs sont essentiels pour le backtesting : ils permettent de reconstruire les conditions de chaque match passé — qui lançait, quel était le lineup, quel était le score — et de vérifier si votre modèle aurait identifié correctement les value bets.

Baseball Savant, le portail Statcast de la MLB, offre des données de tracking de pointe : vitesse de sortie de balle, angle de lancement, spin rate des lancers, sprint speed des coureurs. Ces données alimentent les modèles les plus avancés, mais elles ne sont pas indispensables pour un premier modèle. Commencez avec les stats traditionnelles de FanGraphs ; intégrez Statcast quand votre modèle de base fonctionne et que vous cherchez des gains marginaux supplémentaires.

Pour les cotes, des sites comme Odds Portal et The Odds API archivent les lignes d’ouverture et de clôture des bookmakers pour chaque match MLB. Ces données sont cruciales pour le backtesting : elles permettent de comparer vos estimations passées aux cotes réelles qui étaient disponibles et de calculer votre closing line value théorique.

L’automatisation de la collecte est un investissement rentable à moyen terme. Un script Python basique utilisant les bibliothèques pandas et requests peut extraire les données de FanGraphs quotidiennement et les stocker dans un fichier structuré. Cette routine élimine le travail manuel de copier-coller et garantit que votre modèle est alimenté avec les données les plus récentes avant chaque session de pari.

Construire le modèle : de la régression au backtesting

Le modèle le plus simple et le plus efficace pour un premier système de paris baseball est la régression logistique. L’objectif est de prédire la probabilité de victoire d’une équipe en fonction de variables explicatives — les features — que vous sélectionnez. Les features de base pour un modèle de baseball sont le FIP du lanceur partant de chaque équipe, le wRC+ du lineup de chaque équipe contre le type de lanceur adverse (gaucher ou droitier), et le park factor du stade.

Le processus est le suivant. Collectez les données de chaque match de la saison précédente (ou de plusieurs saisons) : les features d’entrée et le résultat (victoire ou défaite de l’équipe locale). Entraînez une régression logistique sur ces données. Le modèle produit un coefficient pour chaque feature, qui quantifie son influence sur la probabilité de victoire. Appliquez le modèle aux matchs du jour en injectant les features actuelles : le résultat est une probabilité estimée de victoire pour chaque équipe.

L’ajout de features supplémentaires améliore le modèle — mais avec des rendements décroissants. Après le trio FIP-wRC+-park factor, les features les plus utiles sont l’ERA bullpen récent (7 derniers jours), le facteur de fatigue calendaire (jours sans repos, voyages récents) et les conditions météo (température, vent). Chaque feature ajoutée doit être testée : si elle n’améliore pas la performance prédictive sur les données de test, elle n’apporte que du bruit.

Le backtesting est l’étape de validation. Divisez vos données en deux parties : une période d’entraînement (par exemple, les saisons 2022-2024) et une période de test (la saison 2025). Entraînez le modèle sur la première période et simulez les paris qu’il aurait recommandés sur la seconde. Comparez vos estimations aux cotes de clôture pour calculer votre CLV théorique. Si votre modèle affiche une CLV positive sur la période de test, c’est un signal encourageant. Si la CLV est négative, le modèle ne capte pas suffisamment d’information pour battre le marché — retournez aux features et ajustez.

Un piège fréquent est le surapprentissage (overfitting). Un modèle avec 15 features peut coller parfaitement aux données passées tout en échouant misérablement sur les données futures. La parade est la simplicité : commencez avec 3 à 5 features, validez la performance, et n’ajoutez de la complexité que si le bénéfice est mesurable sur des données hors échantillon.

Un modèle imparfait bat l’absence de modèle

Votre premier modèle sera médiocre. C’est normal et c’est souhaitable. Un modèle médiocre qui produit des probabilités chiffrées est déjà supérieur à une analyse qualitative sans cadre structuré, parce qu’il vous oblige à expliciter vos hypothèses, à les confronter aux données, et à mesurer vos résultats. Chaque itération — un ajustement de feature, un recalibrage des coefficients, une nouvelle source de données — améliore le modèle de manière incrémentale.

Le modèle n’est pas une boîte noire qui produit des paris gagnants. C’est un outil de discipline intellectuelle qui vous empêche de miser sur la base d’impressions non vérifiées. Quand votre modèle dit 48 % et que votre instinct dit 55 %, la réponse n’est pas de suivre l’instinct — c’est de comprendre pourquoi les deux divergent et de déterminer lequel est le plus fiable dans ce contexte spécifique.

Le baseball est le sport le plus quantifiable du monde. Les données sont abondantes, gratuites et structurées. Le parieur qui refuse de construire un modèle renonce volontairement à son principal avantage compétitif. Commencez simple, testez rigoureusement, améliorez progressivement. Le processus est le produit.