Le machine learning existe dans la littérature académique de manière profuse depuis les années 70. Néanmoins, ce n’est que depuis 3-4 ans qu’il a fait une entrée fracassante dans plusieurs industries comme le bras armé de la valorisation des données et la prise de décision augmentée voire déléguée.
Déjà, qu’est-ce que c’est ?
Je ne vais pas trop m’attarder sur la question, d’autres répondent de manière plus détaillée et plus fine. Je dirais simplement que le machine learning est l’art de coder des algorithmes qui automatiquement s’améliorent avec l’usage.
Ok, maintenant pourquoi un tel hype depuis peu de temps ?
On peut répondre de manière pragmatique qu’avant les départements SI étaient très occupés à collecter et structurer les données (d’où l’émergence des datawarehouses, aubaine pour Oracle & co). Aujourd’hui, après quelques décennies de collecte, ils en ont beaucoup. Du coup, les entreprises ont commencé à réfléchir à comment tourner ces données en un actif créateur de valeur au lieu du centre de coût qu’elles ont commencé à devenir avec toute l’infrastructure nécessaire pour les stocker et les maintenir dans des millions de serveurs bien au chaud (ou plutôt au froid).
Il faut tout de même reconnaître que les entreprises ont évidemment utilisé les données pour les transformer en des diagrammes et tableaux digestes pour pilotage et aide à la décision. Néanmoins, elles sont restées pour la plupart au stade descriptif et n’ont pas exploré les 2 potentiels niveaux du dessus à savoir le prédictif et le prescriptif.
Comme son nom l’indique, le prédictif permet d’anticiper des résultats en fonction d’une multitude d’informations disponibles observables et mesurables. Par exemple, le prédictif peut s’utiliser pour prédire la probabilité de succès d’un forage en tenant compte de centaines d’indicateurs combinés.
Le prescriptif, est la forme la plus complexe qui consiste à directement donner la bonne décision à prendre voire à la prendre et l’exécuter en direct. L’exemple le plus courant est l’algorithmique trading, qui va décider en fonction des conditions d’un marché et passer les ordres nécessaires pour exécuter un trade. De plus en plus d’entreprises, intègrent ce type de machine learning dans les exercices de planification stratégique.
Dans quels cas ça marche et ça peut générer du $ pour les entreprises ?
On va prendre le problème dans l’autre sens et expliquer quand ça ne marche pas.
5 facteurs entravent généralement le succès d’un projet de machine learning
- Proposition de valeur et attentes non claires
Le machine learning n’est pas une fin en soi, il DOIT y avoir un problème business qu’on essaie de résoudre. Aussi, les algos de machine learning ne produisent pas la valeur d’eux-même. La valeur est dans la donnée et les actions qui vont suivre. Ces actions doivent être claires avant même de lancer quoi que ce soit.
- Assimilation à la « Baguette Magique »
Les algos peuvent prédire des comportements mais sans des tests et de l’expérimentation avec des cas concrets, il ne sera pas possible d’expliquer ces comportements et encore moins de les empêcher.
- Tendance à croire que « plus c’est complexe, mieux ça va marcher »
Il est possible dans beaucoup de cas d’arriver à 80% du résultat avec des approches très simples (e.g., arbre de classification). Néanmoins, plusieurs entreprises se lancent dans des algos lourds et complexes sans tenir compte de la décroissance des retours marginaux (i.e. gagner 2-3% d’exactitude prédictive pour un effort qui prend x3 plus de temps).
- Données de faible qualité, « garbage in, garbage out »
C’est un mythe absolu d’envoyer un algo sur de la donnée brute et sortir avec des insights. Dans beaucoup de cas, des entreprises vont se lancer la fleur au fusil dans un projet de machine learning avec l’espoir de découvrir des mines d’or en alimentant un algo avec leur données brutes sans aucune évaluation ni connaissance de la qualité. Malheureusement beaucoup de prestataires charlatans lancent des promesses farfelues aux entreprises pour décrocher des projets et bien évidemment se retrouvent avec un résultat à côté de la plaque.
- Généralement l’entreprise a une faible culture de la donnée
Il est très important que l’entreprise dispose de (middle) managers capables de se poser les bonnes questions concernant les données, avoir les bons réflexes, jugement vis-à-vis des analyses et avoir un minimum de base statistique (e.g., connaître la différence entre médiane et moyenne). Malheureusement, dans beaucoup de cas, les middle managers attendent des analyses synthétiques du niveau C-level alors que regarder dans le détail est la seule façon pour eux de contribuer dans l’agenda de test&learn.
Bref, voilà d’après notre expérience, l’explication de l’engouement récent autour du machine learning et les principaux facteurs qui empêchent d’en récolter le véritable potentiel.