Quels sont les algorithmes du Big Data ?

Paul PetonConsultant formateur spécialiste en data

Deux grandes familles d’algorithmes
Des applications dans tous les secteurs professionnels
Les algorithmes sont humains : ils peuvent se tromper !

La récente victoire du programme Google Deep Ming contre le champion du jeu de Go Lee Sedol a mis, une fois de plus en avant les performances de l’Intelligence Artificielle. Celle-ci a déjà pris une grande part dans nos vies, au travers des algorithmes de Machine Learning, mis en place par les Data Scientists.

Quels sont ces algorithmes et quels en sont les usages en entreprise ?

Deux grandes familles d’algorithmes

Nous nous pencherons ici sur le rôle prédictif des algorithmes, en scindant ceux-ci en deux catégories selon la connaissance ou non de l’information à prévoir.

Les méthodes supervisées

Commençons par la famille des méthodes supervisées en prenant l’exemple d’une banque qui dispose de multiples informations sur ses clients : sexe, âge, situations familiale et professionnelle, fréquence des opérations bancaires, etc. Cette banque cherche à anticiper les niveaux d’épargne de ces clients. Pour cela, elle fera appel aux méthodes de régression permettant d’établir par exemple le lien entre le niveau d’épargne, le salaire mensuel et le montant des prélèvements automatiques.

La banque dispose également d’une segmentation (encore appelée typologie) de ses clients, correspondant à leur répartition dans différentes catégories : mass market, young archivers, happy generation… L’objectif est alors de prédire, au moyen de méthodes dites de classification, le groupe d’appartenance de nouveaux clients, en fonction de leurs caractéristiques relevées lors d’un premier rendez-vous. Des propositions commerciales différenciées seront alors faites pour chacun de ces groupes.

Dans ces deux cas, l’information à prédire est identifiée sous forme d’un « label », c’est-à-dire d’une variable prédéfinie (le niveau d’épargne par régression, la catégorie client par classification).

Les méthodes non supervisées

A l’inverse, les méthodes non supervisées ne disposent pas de ce label. Ce sont donc des algorithmes qui permettent de faire émerger des structures inédites, car ne dépendant pas des a priori des chargés d’études.

Si nous imaginons ainsi le cas d’une nouvelle agence bancaire, celle-ci ne dispose pas de modèle de classification de ces premiers clients. Il serait bien sûr possible d’appliquer les standards de la profession mais une méthode non supervisée comme le clustering va peut-être permettre de découvrir des choses inattendues. Par exemple, l’agence identifiera des clients ayant un fort niveau de connexion sur l’application mobile de la banque mais répondant peu aux sollicitations de rendez-vous physiques. Proposer le passage dans la filiale de banque en ligne sera une piste marketing… anticipant le risque de départ à la concurrence !

Des applications dans tous les secteurs professionnels

Citons maintenant quelques outils statistiques mis à profit tout particulièrement dans le secteur du commerce en ligne mais dont l’utilisation peut être étendue à bien d’autres domaines.

Ainsi, un client parcourt les pages d’un site d’achats en ligne (« home », descriptif des produits, panier, coordonnées bancaires…). On étudiera l’enchainement de ces pages selon une « analyse de tunnel » permettant de comprendre les conversions ou les éventuels abandons.

Ensuite, en fonction des produits observés ou commandés, un algorithme de recommandation proposera des produits complémentaires (« cross selling ») ou une montée en gamme (« up-selling ») par comparaison aux achats de clients de profil similaire, appelés les « plus proches voisins ».

Enfin, la constitution finale du panier donnera lieu à une analyse des cooccurrences d’achat (« market basket analysis ») qui servira ensuite de base pour la proposition de coupons de réduction, lors du passage en caisse.

Les algorithmes sont humains : ils peuvent se tromper !

Les données qui nourrissent ces algorithmes proviennent de sources multiples (voir les 4 sources du Big Data) et sont mesurées sur des individus acteurs sur le Web, c’est-à-dire pratiquant les achats en ligne, publiant sur les réseaux sociaux ou tout simplement naviguant sur des sites déposant des cookies. On peut douter de la qualité de prédiction pour ceux qui ne rentrent pas dans cette catégorie ou bien qui protègent voire déguisent leur identité numérique.

En conclusion, n’oublions pas que les résultats des algorithmes sont avant tout des probabilités (probabilité de non remboursement d’un emprunt, de fraude, d’appartenance à un groupe…) et qu’à l’instar du risque 0, la certitude absolue n’existe pas !

« Il n’existe pas de bon modèle mais certains sont utiles », George Box

Pour aller plus loin :

Un excellent ouvrage sur les algorithmes du Big Data par le sociologue Dominique CARDON

Si ces exemples d’utilisation des algorithmes vous ont intéressées, venez découvrir les autres aspects d’un projet Big Data en suivant le stage de formation Cegos Les fondamentaux du Big Data.

Ecrit par

Paul Peton

Quels sont les algorithmes du Big Data ?