INGÉNIEuRS DE TouS LES PoSSIBLES
École d'Ingénieurs reconnue par l'État depuis 1922
Diplôme d'Ingénieur habilité par la CTI
Membre de la Conférence des Grandes Écoles (CGE)
Membre de l'Union des Grandes Écoles Indépendantes (UGEI)

Le blog de l'ESME Sudria

Vous êtes ici :

Ligue des Champions : deux étudiants de l’ESME Sudria connaissent déjà le futur vainqueur

  • 12/04/2019

 


Présents lors de l’ESME Speed, Cyril Tso et Tsiory Razafindrazaka (ESME Sudria promo 2019) font partie de la Majeure Big Data & IoT (pour « Internet of Things). Encadré par l’enseignante-chercheuse Francesca Bassi, ils ont travaillé ensemble durant plusieurs mois sur un projet autour des données pour tenter de prédire l’identité du club de football qui, en juin prochain, soulèvera le trophée de la Ligue des Champions, l’une des compétions sportives les plus populaires au monde. L’ESME Sudria a voulu en savoir plus en compagnie de ces deux futurs ingénieurs prometteurs.


Tsiory et Cyril


Quel est le concept de votre projet ?

Tsiory : Nous voulions simplement utiliser la data science pour prédire le vainqueur de la Ligue des Champions de la saison 2018-2019. Pourquoi ce sujet ? Parce que nous sommes des passionnés de foot qui avions envie de travailler sur un projet de fin d’études mêlant cette passion aux compétences acquises via notre Majeure Big Data & IoT. Et ce fut aussi un défi particulièrement amusant à relever !

 

Quel est le background technique de votre solution ?

Cyril : Tout d’abord, nous avons choisi de ne pas utiliser de datasets – autrement dit des bases de données – existants. Ainsi, nous avons préféré utiliser le langage Python, le principal langage pour la data science aujourd’hui, et une technique nommée web scraping, soit une forme de data mining qui permet d’extraire des données issues de sites Internet. Nous avons ensuite transformé et stocké ces données dans ce qu’on appelle une dataframe, c’est-à-dire notre base de données Python. Une fois cette étape réalisée, nous avons procédé à une phase de nettoyage des données ce qui, aujourd’hui, représente bien souvent 80% du travail des data scientists. En effet, récupérer les données ne suffit pas. Ainsi, dans nos données initiales, il y avait pas mal d’anomalies, des valeurs manquantes ou encore le nom de certaines équipes qui n’était pas normalisé du fait que nous avions scrapé des sites différents, français comme anglais. Après ce travail, nous sommes passés à l’exploration des données pour voir comment était distribuée chaque variable et savoir quels types de corrélations il y avait entre deux variables afin de pouvoir déjà recueillir un certain nombre d’informations. Et enfin, pour l’étape liée à la prédiction, nous avons utilisé le machine learning, un sous-domaine de l’intelligence artificielle, et la classification pour la simple et bonne raison que nous avions des données labellisées et que nous savions quel type de prédiction nous voulions. Evidemment, comme nous avions déjà les données des précédentes éditions de la compétition, nous avons aussi pu entraîner notre solution en ce sens. Nous avons aussi testé différents modèles, comme le KNN (pour k-nearest neighbors), Random Forest, EdgeBoost… Et, au final, nous avons pu obtenir un résultat cohérent.

 

Justement, quel sera selon vous le futur gagnant ?

Cyril : Notre prédiction concerne l’équipe de Manchester City. Ce qui est drôle, c’est que, lors de l’ESME Speed, une personne nous a dit que cette même équipe était également la favorite des pronostiqueurs, ce que nous ne savions pas. Du coup, on ne peut que vous conseiller de suivre la finale du 1er juin pour voir si nous avons raison ou non ! D’ailleurs, selon nous, son adversaire devrait être le FC Barcelone. Même si je suis un fan du Real Madrid et que cela ne me fait pas forcément plaisir de voir ce club en finale, ce résultat semble crédible. Par contre, cela ne me déplairait pas de voir Pep Guardiola, l’entraîneur actuel de City, gagner contre Barcelone chez qui il avait déjà tout gagné par le passé ! Même si je ne l’aime pas non plus !



Quels sites avez-vous « scrapés » ?

Tsiory : Nous en avons utilisé trois : WhoScored.com, FootyStats.org et ESPN.com. WhoScored nous a permis notamment d’obtenir de nombreuses statistiques plutôt générales, comme le nombre de buts marqués, le nombre de matchs joués, la possession de balle, etc.

Cyril : FootyStats nous a surtout permis d’obtenir les statistiques des équipes sur les phases éliminatoires – différences de buts, nombre de clean sheets… – et le team rating, soit une valeur attribuée par les pronostiqueurs en début de saison. L’équivalent d’une cote pour les parieurs. Enfin, ESPN nous a surtout servi à recueillir des données concernant les joueurs, notamment les meilleurs passeurs et buteurs, des années précédentes.

 

Quel a été le plus gros défi sur ce projet ?

Tsiory : Il y en a eu plusieurs d’un point de vue technique, comme la partie relative à la normalisation. L’acquisition des données n’a pas été évidente non plus car les données sur le football sont bien précises et disponibles que celles du basket auquel nous avions pensé nous intéresser au départ. En effet, pour le basket, il suffit de se rendre sur le site de la NBA pour toutes les données possibles, qu’elles portent sur les équipes ou les performances individuelles de chaque joueur. Pour le foot, c’est plus compliqué de trouver des données claires, réelles et accessibles, qui plus est sur les 20 dernières années de la compétition visée.

Cyril : Tsiory a raison. Avant 2011-2012, le football n’était pas vraiment data-driven. Cela signifie que les clubs et entraîneurs ne s’intéressaient pas vraiment aux statistiques pour gérer leur style des équipes alors que, en NBA et plus généralement dans le monde du sport aux Etats-Unis, les statistiques jouent un rôle majeur depuis de nombreuses années. En NBA, on peut trouver toutes les statistiques possibles : le pourcentage de tirs réels, les tirs réalisés à droite ou à gauche du terrain, etc. Au foot, les choses commencent à peine à évoluer.

Tsiory : Oui. Par exemple, le PSG et l’école Polytechnique viennent récemment de s’associer pour une mission de data science avec, à la clé pour l’étudiant ayant trouvé le meilleur algorithme, un contrat de trois ans et 100 000 euros d’aide.

Cyril : Sinon, pour revenir aux défis, l’autre grosse difficulté a été de gérer le tirage au sort de la Ligue des Champions qui intervient lors de la phase de groupe, lors des huitièmes de finale et lors des quarts. Cette partie aléatoire est difficile à gérer. De ce fait, nous n’avons pas forcément pu tirer les bons arbres de rencontres, simplement les vainqueurs.

 

Comptez-vous poursuivre le projet ?

Cyril : Tout dépendra du résultat le 1er juin !

 

Enfin, qu’est-ce qui vous plaît autant dans l’univers du Big Data ?

Cyril : Pour être honnête, j’ai vraiment découvert cet univers au moment de choisir cette Majeure. Ce qui me fascine dans ce domaine, c’est qu’il mélange parfaitement l’informatique, que j’ai commencé à apprécier au lycée, et les mathématiques, une matière que j’adore depuis le collège. Surtout, le fait de prendre données sans trop savoir où cela va nous mener pour, au final, en tirer des informations très pertinentes et établir des prédictions très fiables, je trouve ça vraiment cool et intéressant. Cela peut-être très utile dans de nombreux secteurs, comme par exemple pour aider la prise de décision au sein des entreprises. D’ailleurs, de plus en plus d’entre elles font désormais le choix de se tourner vers la data, non pour se spécialiser dedans, mais pour accorder une plus grande importance au rôle du data scientist.

Tsiory : Contrairement à Cyril, je ne souhaite pas devenir data scientist, mais ingénieur en cybersécurité. De ce fait, je m’intéresse surtout à comment protéger les données, notamment les données sensibles, et les structures par lesquelles elles transitent. C’est un enjeu majeur car, régulièrement dans les actualités, on découvre de nouvelles failles et brèches dans les systèmes d’information d’entreprises, qu’elles soient petites, moyennes ou des grands groupes. La donnée est, aujourd’hui, un important vecteur de valeur – il n’y a qu’à voir le nombre de sites ou applications qui proposent gratuitement leurs services et qui, en parallèle, vivent de ces données, comme Facebook ou Google. Les protéger est donc plus que nécessaire.


Partager cet article:

Etablissement d'enseignement supérieur privé - Inscription Rectorat Créteil 094 1953 M - Cette école est membre de IONIS Education Group comme :