Prédiction de performances en Force Athlétique

jedha bootcamp data science lyon

Projet réalisé dans le cadre du Bootcamp JEDHA “Les Fondamentaux en Data Science” en août 2019 à Lyon.

INTRODUCTION

La Force Athlétique est un sport de force dérivé de l’haltérophilie, dont l’objectif est de soulever une charge maximale sur 3 mouvements : le squat (flexion de jambes), le bench (développé couché) et le deadlift (soulevé de terre). L’athlète a 3 essais par mouvement et le classement est fait sur le total (somme des charges réalisées sur les 3 mouvements).

En France la première fédération officielle est la ffforce (fédération française de force), affiliée à la fédération internationale IPF (international powerlifting federation).

Source des données

Un passionné de force athlétique recense sur un site internet les résultats des compétitions depuis bientôt 15 ans, compétitions des années 70 à aujourd’hui. Ne pouvant avoir accès aux données de la base, j’ai récupéré à la main des données en sélectionnant un périmètre défini.

Après un premier nettoyage de données sur Excel (suppression des données incomplètes), le fichier contenait 25 114 lignes. Une ligne correspondant à un résultat de compétition d’un athlète.

Objectif de l’étude

La question était de savoir s’il est possible de prédire les performances d’un athlète. Les données que nous avons sont les performances passées, la catégorie d’âge, la catégorie de poids, le poids et le sexe.

À qui servirai la réponse à cette question ?

En premier lieu aux Clubs de force qui gèrent des athlètes. En effet, les budgets pour les compétitions (déplacements) et le matériel à acheter dépendent directement du niveau de ses compétiteurs. Beaucoup de Clubs ont des difficultés à planifier le budget de la saison à venir. Aussi, ses informations pourraient servir lors des demandes de subvention ou la stratégie des compétitions en équipes.

Ensuite, cette info pourrait être utile aux Coachs, qui pourraient améliorer/adapter leur planification. Et enfin aux athlètes, pour leur permettre d’avoir une idée de progression et ajuster leurs attentes.

Préparation des données

Les 25 114 performances ont été importées dans Jupyter, et c’est en Python qu’ont été traitées les données.

Dans le fichier de base, nous avons des lignes qui correspondent à des performances à une compétition donnée. Pour notre modèle, on cherche à regrouper les performances par saison (en prenant la meilleure réalisée sur la saison), en prenant les performances des 2 premières saisons afin de prédire celles de la 3ème saison.

Après traitement en Python sur Jupyter, le fichier final contient 1 548 lignes (correspondant à 1 548 athlètes ayant fait au moins 3 saisons de compétitions).

Description des données

Avant de trouver notre modèle, décrivons un peu nos données :

Nous avons 1 548 athlètes au total, dont 84 % d’hommes et 16% de femmes.

Il y a 37 % de jeunes (moins de 24 ans), 34 % de séniors (24 à 39 ans) et 29 % de masters (plus de 39 ans).

Cette première exploration permet d’avoir un ordre d’idée des valeurs de performances. Il y a peu de différence entre la moyenne et la médiane, notre échantillon est donc plutôt bien distribué. Pas de valeurs aberrantes à supprimer des données.

Description du modèle et résultats

L’objectif étant de prédire une performance en kg, j’ai choisi de faire une régression linéaire multiple.

Les coefficient R² sont plutôt bons, l’erreur absolue cohérente avec notre échelle. Nous allons donc pouvoir analyser nos résultats.

Dans un premier temps, j’ai lancé le modèle sur les 1 121 athlètes ayant fait exactement 2 saisons dans mes données d’origine. J’ai pu y voir mes propres prédictions :

Ces valeurs me semblent réalistes par rapport à ma progression, et en prenant en compte le biais naturel en compétition qui diminue légèrement les performances : le stress !

Étude des coefficients :

Pour nos 4 variables à prédire (total, squat, bench et deadlift), on constate que les performances précédentes, surtout la dernière, impactent le plus le résultat. Ce qui semble cohérent. Pour la suite de l’analyse j’ai donc décidé de les enlever afin de pouvoir mieux visualiser l’impact des autres paramètres.

En premier lieu, j’ai décidé de me pencher sur les critères impactant le Total. Sachant qu’il s’agit du total cumulé des 3 mouvements, nous pouvons considérer qu’il représente la performance globale, et donc que ses critères impactent globalement les performances.

Critères qui impactent négativement les performances :

La première chose que l’on constate, c’est que les Masters progressent globalement beaucoup moins.

Ensuite, les femmes de -72 kg progressent moins bien, et on remarque que l’impact n’est pas proportionnel au poids.

Critères qui impactent positivement les performances :

On sait que les facteurs de la force sont complexes, les principaux sont la longueur des membres, l’insertion des muscles et la quantité absolue de masse musculaire. On sait également que les hommes ont beaucoup plus de masse musculaire que les femmes. Sachant cela, il parait logique que les hommes soient beaucoup avantagés niveau performances.

Les jeunes progressent plus vite de manière générale, cela démontre qu’il y a un intérêt à démarrer jeune.

On constate également que les hommes en -105 kg sont avantagés. On peut se demander pourquoi pas les -120 kg et +120 kg ? Cela peut s’expliquer par le fait qu’à partir d’un certain poids, les athlètes n’ont pas forcément plus de masse musculaire.

Enfin, pour une femme de taille moyenne, un poids correspondant à une répartition corporelle idéale, atteint naturellement, oscille autour des 60 kg. Néanmoins, de nombreuses athlètes hésitent entre rester en 63 kg ou passer en 57 kg. Cette étude pourrait démontrer un intérêt à choisir la catégorie -57 kg.

Comparaison des critères par mouvement :

  • La première chose que l’on peut remarquer, c’est qu’il y a un comportement irrégulier parmi les mouvements, mais également par rapport au comportement sur le total. Cela confirme que les mouvements ne sont pas corrélés entre eux. Être fort sur un mouvement n’implique pas forcément être fort sur les autres.
  • Le seul critère commun : le fait d’être un homme.
  • Les hommes de -105 kg sont avantagés sur le Squat.
  • On remarque également que le poids de corps impacte directement le Bench. Cela pourrait paraitre illogique puisque c’est un mouvement « haut du corps ». Cependant, en pratique un transfert de force est fait des pieds vers le haut du corps (appelé aussi « leg drive »), ce transfert de force est directement proportionnel au poids du corps.
  • On ne peut pas « expliquer » la performance au Deadlift (hors âge). Ceci peut s’expliquer par le contexte du « match » en compétition. En effet, le Deadlift est le dernier mouvement effectué, et le choix de la performance à tenter/réaliser dépend des performances des concurrents. Ainsi, les performances réalisées ne sont pas toujours représentatives du potentiel de l’athlète.

L’équipe idéale pour le Championnat en équipes :

Chaque année a lieu une compétition en équipes : 3 athlètes, 1 athlète réalise un seul des trois mouvements. Si l’on prenait en compte la performance maximale absolue pour déterminer le succès d’une équipe, notre modèle nous permettrait de définir l’équipe idéale comme suit :

Conclusion et perspectives

Ce modèle de prédiction assez simple donne déjà quelques clés aux clubs et aux coachs en force athlétique pour planifier au mieux une saison à venir.

Pour poursuivre ce travail, dans un premier temps je construirai une nouvelle base à partir des résultats officiels publiés sur le site de la ffforce. Même si les données ont moins d’antériorité (fédération assez récente), je pense d’une part que la probabilité d’erreurs dans les données est plus faible, d’autre part cela me permettrai d’y ajouter la date de naissance et donc l’âge exact. Car dans les données que j’ai utilisées, nous n’avions que la catégorie d’âge. Je pense notamment à la catégorie Sénior, qui comprend les athlètes de 24 à 39 ans, qui est une fourchette plutôt large, et je me demande s’il ne serait pas possible d’affiner un peu plus le modèle en étant plus précis sur ce critère.

Aussi, cela permettrai d’ajouter au modèle le critère de la Ligue Géographique. Est-ce que les moyens humains, financiers, de formation etc. mis en place par une Ligue a un impact sur la progression de ses athlètes ?

Enfin, plutôt que de prendre les 2 premières saisons pour prédire la troisième, je chercherai à inclure les n dernières saisons et l’ancienneté, afin de prédire la prochaine saison.

La force athlétique est un sport complexe, je pense que présenter cette étude à un ou plusieurs coachs afin d’ouvrir la discussion et la critique sur la démarche pourrait être bénéfique.

Outils utilisés

J’ai récupéré mes données dans un fichier Excel, où j’ai effectué le nettoyage de mes données.

J’ai ensuite utilisé Tableau pour explorer dans un premier temps les données retravaillées, juste avant de les transformer pour appliquer la régression. Tableau est un outil très pratique pour explorer un jeu de données et commencer à apercevoir des tendances ou en tirer de l’information.

Jupyter est une application web avec une interface graphique très agréable à utiliser.

J’ai fait mes traitements en Python sur les données et appliqué ma méthode statistique. J’ai utilisé les librairies Pandas et Numpy.

Enfin, c’est sur Tableau que j’ai exploré visuellement les coefficients de mon modèle.