Les Machines Learning: des experts intelligents au service de l’Entreprise

2

L’accroissement exponentiel des données et de la puissance de calcul disponible au cours de la dernière décennie (Big Data[1] et lois de Moore[2]) ont permis de faire sortir des laboratoires l’apprentissage automatique (ou machine learning en anglais). L’apprentissage automatique consiste à permettre à un ordinateur « d’apprendre » à prédire certaines variables (comme les livres ou les films qui devraient vous plaire, la probabilité qu’un abonné quitte ou non son opérateur mobile, qu’une utilisation de carte bancaire soit frauduleuse ou non…), sans que le chemin logique pour y parvenir n’ait été explicitement programmé.

Les deux facteurs évoqués ont rendu possibles les applications fournissant des « insights » utiles au business, grâce aux données accumulées par l’entreprise, pour un coût et un temps de calcul raisonnable. L’apprentissage automatique constitue un champ d’étude de l’intelligence artificielle, mais point n’est besoin de vouloir développer une voiture autonome ou d’être doté de ressources faramineuses pour en tirer parti dès aujourd’hui, tant dans les PME que dans les grandes entreprises.

Dans les bonnes conditions, il permet de résoudre des problèmes complexes insolubles par une programmation « à la main » et cela de façon quasi instantanée. Basé sur l’exploitation des données, il s’appuie sur, et complète, l’analyse et la modélisation statistiques classiques de l’analyse de données.

L’objectif de cet article est:

  1. de donner un aperçu des questions auxquelles l’apprentissage automatique peut répondre,
  2. de préciser comment se met en œuvre une solution « machine learning » et les conditions requises pour l’implémentation d’algorithmes performants. Ceci concernera en particulier les données nécessaires selon le type de problème à résoudre,
  3.  de proposer une démarche pour identifier les questions de l’entreprise où la mise en œuvre de ces algorithmes pourrait résulter en une création de valeur élevée.

 

Pourquoi les Machines Learning vous intéressent-t-elles ?

Grand groupe ou PME, votre entreprise a certainement à gagner à s’intéresser aux possibilités offertes aujourd’hui par l’application de l’apprentissage automatique. Quelle que soit l’entreprise, il vient toujours un moment où la complexité des problèmes rencontrés et la multiplicité des facteurs qui les impactent rendent impossible de discerner de façon simple la réponse optimale.

Parallèlement, consciemment ou non, toute entreprise accumule des données clients, techniques, commerciales, marketing ou autres qui peuvent permettre de rationaliser, de soutenir ou de pousser plus loin la compétence des métiers de l’entreprise, en complétant les processus issus de l’expérience ou du bon sens.

La promesse faite par l’apprentissage automatique est de fournir une solution à des problèmes complexes, de façon plus rapide, plus précise et plus évolutive qu’elle ne pourrait être programmée manuellement. Il permet de hiérarchiser parmi cette multitude de facteurs, lesquels importent le plus et de prédire le résultat de l’interaction de ces facteurs sur la sortie qui nous intéresse. Une fois validé et mis en place, il suffit de présenter de nouvelles données à l’outil « machine learning » pour obtenir la prédiction, donc la décision, automatiquement.

 

Les domaines d’application sont variés :

  • La « churn analysis » pour prévoir quels clients sont les plus à risque de résilier un abonnement et ainsi mieux cibler les actions commerciales,
  • Les systèmes de recommandations pour proposer le bon produit, au bon client, au bon moment, dans le cadre du commerce en ligne en particulier,
  • La détection de fraudes ou de comportements inhabituels,
  • La segmentation et le ciblage client,
  • La gestion des risques,
  • L’aide au diagnostic en santé ou en maintenance industrielle,
  • L’exploitation des données des objets connectés,

Ceci ne constitue qu’un échantillon d’applications courantes et est très loin d’être exhaustif[3]. Découvrez les nombreux cas d’application des machines learning dont toute entreprise peut bénéficier aujourd’hui en téléchargeant le document ci-dessous (et si vous l’appréciez, merci de partager l’article sur vos réseaux sociaux !).

 

Comment construire une solution basée sur les Machines Learning ?

Dans le cadre d’applications relativement légères, deux types principaux d’algorithmes, associés à deux prérequis différents au niveau des données disponibles, sont à envisager :

  • L’apprentissage supervisé, où l’on connaît les valeurs possibles en sortie.
  • L’apprentissage non supervisé, où la gamme de valeurs en sortie ne sera pas spécifiée.

Il existe deux autres types majeurs d’algorithmes qui sont encore largement du domaine de la recherche actuellement :

  • Le « reinforcement learning » qui cherche à sélectionner les actions présentant le plus important retour après un certain délai.
  • Le « deep learning », basé sur les réseaux de neurones principalement, où l’ordinateur « apprend lui-même à apprendre ». Nous touchons là à l’intelligence artificielle proprement dite, telle que nécessaire pour la voiture autonome ou la vision robotique.

Pour les deux premiers types présentés, qui sont les seuls de portée pratique actuellement pour la plupart des entreprises, il faut bien évidemment des données à partir desquelles la machine va « apprendre ». La démarche commune à tous ces algorithmes est la suivante (cf. figure 1) :

 

Machine Learning Principe1.     Par la connaissance métier et/ou une phase exploratoire d’analyse de donnée, définir quelles variables seront fournies en entrée pour permettre la prédiction de la variable d’intérêt.

2.     Phase d’entraînement, où l’algorithme apprend à prédire à partir des variables d’entrées.

3.     Phase de validation des résultats, de leur robustesse et de leur généralisation à de nouvelles données inconnues. Évaluation de la performance globale (précision…).

Il y a plusieurs allers et retours entre les phases 2. et 3. et plusieurs algorithmes sont généralement testés. Celui donnant la meilleure performance est sélectionné. Les réglages optimaux du modèle retenu sont aussi précisés à ce stade.

4.     Implémentation de la solution à l’échelle de l’entreprise.

5.     Contrôle dans le temps du maintien des performances en cas de changement des comportements, et/ou dans un but d’amélioration incrémentale une fois les actions prioritaires mises en place.

.

Selon la très parlante expression anglaise « garbage in, garbage out » (déchet en entrée, déchet en sortie), la qualité des données fournies sera cruciale pour déterminer la qualité des prédictions réalisées. Dans cette étape, l’interaction avec les intervenants métiers sera primordiale pour capitaliser sur leur connaissance des paramètres d’importance dans le cadre du problème. Nous ne pourrons prédire une sortie que si les variables d’entrée permettent de l’estimer.

Généralement, un second adage se vérifiant est qu’une quantité accrue de données d’apprentissage amène un accroissement des performances du modèle.

Dans le cas le plus fréquent, celui de l’apprentissage supervisé, il faudra un recul minimum afin d’avoir observé un nombre raisonnable des différentes valeurs possibles en sortie à fournir à l’algorithme. En effet, l’apprentissage se fera par la machine en trouvant le meilleur jeu de paramètre pour prédire ces sorties observées et connues à partir des valeurs des variables d’entrée associées.

De plus, toutes les données disponibles ne pourront servir à l’entrainement : il faudra conserver une partie de ces observations au résultat connu de la variable d’intérêt pour la phase de validation, afin

  • d’affiner le paramétrage du modèle, pour ajuster au mieux les prédictions,
  • d’évaluer les performances du modèle final, ceci de façon indépendante des données d’entraînement.

Dans le cas d’un apprentissage non supervisé, le plus souvent par « clustering » dans le cadre d’une recherche de segmentation ou de structures de ressemblances, il n’y a pas de sortie connue et l’algorithme choisira lui-même ce qu’il présentera au final.

Lorsque les paramètres permettant au modèle d’obtenir la précision voulue sur de nouvelles données sont définis, il est alors possible de le déployer et de le rendre accessible à tous ceux susceptibles d’en avoir l’usage dans l’entreprise. Le rôle des ressources IT est prépondérant dans cette étape.

Enfin, dans les temps qui suivent, puisque des décisions devraient être prises en relation avec l’usage de l’outil de « machine learning », les données sont susceptibles de changer. De ce fait, un suivi des performances devrait être mis en place pour :

  • détecter les nouvelles variables prioritaires, par exemple dans le cas de la « churn analysis », une fois les causes majeures d’insatisfaction client adressées, les causes secondaires pourront être analysées de la même façon.
  • s’adapter en cas de changement progressif des préférences si elles sont sensibles aux tendances par exemple. Ce pourrait être le cas des systèmes de recommandation par exemple.

 

Comment reconnaître une opportunité d’application gagnante des Machines Learning?

Tout d’abord, voici à titre d’illustration l’étendue des applications concrètes des machines-learning appliquées chez un leader de l’exploitation des données, American-Express[4] :

 

Machine Learning ExempleÉtant donné leur flux de données, ces machines-learning s’appuient aussi sur le Big Data. D’autres exemples des gains obtenus en adossant ces outils à de grands volumes de données sont disponibles ici[5].

Mais le big data n’est nullement une nécessité pour profiter de l’apprentissage automatique, améliorer la prise de décision et accumuler les gains, par les leviers d’une fréquence élevée d’usage ou du facteur temps.

Ces méthodes sont désormais accessibles et sont celles ayant assuré le succès des pionniers.

L’apparition de nouveaux insights, la prise de décisions optimisées et les gains de temps associés aux machines-learning permettent, au-delà des gains immédiats, de favoriser l’innovation en libérant du temps pour vos cadres. Ceux-ci peuvent en consacrer davantage au développement de nouveaux services, éventuellement dans les directions indiquées par ces nouveaux outils.

Parmi les ingrédients d’une implémentation gagnante, il faudra bien sûr s’intéresser aux questions pour lesquelles nous pouvons espérer disposer de données de qualité, en quantité suffisante pour mettre en place un outil « machine learning » performant.

Au-delà de ces conditions préalables, il s’agira d’estimer les gains attendus si l’entreprise disposait de l’outil avec les spécifications voulues. Par exemple, quel serait le gain par rapport au fonctionnement actuel si les équipes commerciales disposaient chaque lundi matin, pour préparer leur « phoning » du listing client, trié par probabilité de résiliation décroissante et estimant également la « lifelong value » attendue pour ce client si nous ne le perdions pas à court terme ?

Ce type de questions, associé à la faisabilité technique de l’outil à mettre en place dans chaque cas, donne un premier panorama des opportunités et des rapports coûts/bénéfices attendus. Cependant, il faut également qu’une fois en place, l’outil emporte l’adhésion des utilisateurs finaux, au niveau métier, pour que leur appropriation de l’outil apporte une réelle plus-value.

Avant la phase de déploiement, il sera important d’avoir instauré un dialogue à la fois avec ces utilisateurs finaux, afin de définir l’ergonomie de l’outil pour qu’elle soit un confort supplémentaire et non un frein à son usage, et avec les services IT s’ils sont ceux qui devront réaliser l’implémentation. Ces derniers devront valider que la mise en place de l’outil est possible dans les conditions ainsi définies. Ils seront alors les garants d’un usage optimal de l’outil et la réalisation pleine de son potentiel de valeur.

Dans un océan de données toujours croissant, collectées par consommateur ou via les objets connectés, l’analyse prédictive par machine-learning fournit les outils de navigation essentiels aux entreprises pour atteindre en toute sécurité leur destination. Grâce à l’aperçu de l’avenir offert, il devient possible de répondre de façon plus pertinente, plus sûre, plus efficace et plus rentable aux défis futurs. Alors, pourquoi s’en priver ?

Si vous souhaitez discuter de comment les machines learning peuvent vous aider à développer la performance de votre entreprise, visitez notre site. >>

[1] Création d’autant de données que depuis le début de l’humanité tous les deux ans. http://fr.slideshare.net/rolandcoma5/le-big-data

[2] Doublement des densités de transistors des microprocesseurs tous les deux ans. https://fr.wikipedia.org/wiki/Loi_de_Moore

[3] http://www.journaldunet.com/solutions/analytics/machine-learning.shtml

[4] https://www.mapr.com/blog/machine-learning-american-express-benefits-and-requirements

[5] https://blog.pivotal.io/big-data-pivotal/features/20-examples-of-roi-and-results-with-big-data

 

Recevez nos derniers articles!
Les meilleures pratiques des entreprises dans votre boite mail tous les mois.
Nous détestons les spams! Votre adresse email ne sera jamais cédée ou revendue.

About Author

Frank Sauvage
Entreprise / organisation

Nom / Prénom

Email

Téléphone

Objet

Demande


Docteur en biostatistique, ancien élève de l’ENS Lyon, Frank Sauvage est enseignant-chercheur à l’interface entre mathématiques et biologie durant 12 ans. Conscient des difficultés pour l’appropriation des concepts statistiques par les non-mathématiciens et de l’importance de l’analyse des données pour la prise de décision, il fonde Statsphere Consultancy en 2014. Sa mission est désormais d’accompagner les entreprises dans la formation de leur personnel et la mise en place de leurs projets dans le domaine du traitement statistique de leurs données.

2 commentaires

  1. Merci pour cet excellent article, et qui donne envie de se lancer dans la recherche d’opportunités pour identifier de nouvelles performances pour nos entreprises.

    Une question, ne doit-on pas investir lourdement dans des solutions technologiques de type BI pour pouvoir tenter l’aventure. Car le ticket d’entrée serait alors plutôt élevé !

    Merci de votre réponse.

  2. Frank Sauvage
    Frank Sauvage on

    Merci pour ce retour enthousiaste Yannick!
    Le grand intérêt de la période actuelle pour le domaine de l’apprentissage automatique est que non seulement la quantité et la pertinence des données, mais aussi les capacités de stockage et de calcul pour les traiter, se sont accrues exponentiellement, mais également qu’ en parallèle, le coût du traitement s’est, lui, réduit selon la relation inverse!
    En effet, la plupart de ces analyses peuvent être aujourd’hui réalisées avec des outils open-source, donc gratuits. Ainsi, R et Python, les deux « piliers » de la programmation informatique pour les data scientists sont des projets open-source. Hadoop, l’outil de prédilection pour gérer le Big Data, l’est également.
    Tous ces projets fédèrent des communautés aussi passionnées que compétentes, qui amènent très rapidement à disposition les outils issus des derniers développement de la recherche dans le domaine.

    Le coût est finalement essentiellement celui du temps passé à bien cerner la problématique et ce qu’autorisent les ressources « données » de l’entreprise, ainsi qu’au développement des outils spécifiques au besoin identifié, sans surcoût « technique » obligatoire (nouvelles licences logicielles ou autre).
    Si le dimensionnement de l’infrastructure informatique de l’entreprise est trop « juste », des possibilités via le Cloud computing et l’utilisation des outils en mode SaaS (Software as a Service) permettent de maintenir ce coût technique à quelque chose de très modique (quelques centimes d’euros à l’heure) et surtout de bien contrôler ce coût mois après mois.

    La BI traditionnelle (outils de reporting, dashboards… centrés sur la description de la performance passée) est de plus en plus découplée de « l’advanced analytics », l’approche prédictive présentée dans cet article. Elle ne lui est absolument pas nécessaire. Les deux utilisent les mêmes données, celles de l’entreprise, mais apportent des informations différentes.
    Bien sûr, les grands acteurs traditionnels de la BI tentent d’inclure ces outils dans leurs plate-formes BI, mais ils ne sont pas forcément les plus performants actuellement (CF. les Magic Quadrants de Gartner), ni surtout les plus compétitifs en termes de coûts!
    D’ailleurs, ces grandes plate-formes traditionnelles sont toutes en train de permettre l’usage en interne de R (surtout et parfois de Python). Ainsi, Microsoft vient de racheter RevolutionAnalytics, une version commerciale de… R pour s’occuper des développements d’Azure.

Leave A Reply