Big Data et Machine Learning : lorsque trop d’information tue l’information.

0

Les questions autour du Big Data se déplacent actuellement vers la façon d’analyser et d’exploiter ces données, pour développer une expérience client unique, développer l’autonomie et la performance des équipes opérationnelles et optimiser la chaine de valeur.

Dans ce cadre, le problème vient de la difficulté d’appréhender ces masses de données par l’exploration classique, car la multitude de variables, au-delà même de leur élaboration de plus en plus complexe du fait de la nature souvent non structurée des données brutes, implique une multitude d’interactions, de corrélations, de données aberrantes, de patrons particuliers… présents dans et entre ces variables et difficiles à observer par l’analyste. Ceci en plus des ressources informatiques et temporelles élevées requises par la manipulation de fichiers volumineux.

Les techniques de « Machine Learning » constituent un auxiliaire précieux et incontournable pour le traitement de telles données. Cependant, si le Machine Learning est nécessaire au Big Data, la réciproque n’est pas forcément vraie.

L’objectif de cet article est de préciser certains aspects de la relation entre données et performances des algorithmes de machine learning, afin de briser le schéma mental assez répandu selon lequel il faut du Big Data pour de bons modèles de Machine Learning.

<< Découvrez 12 applications du machine learning pour l’Entreprise >>

.

La genèse du « mythe »

Derrière cette grande vérité se cachent de nombreuses nuances, comme cela est le cas derrière la plupart des grandes vérités. Et le diable se cachant, lui, dans les détails, cette vérité peut rapidement s’avérer un piège si nous la prenons au pied de la lettre, sans le recul nécessaire.

Historiquement, la statistique a vécu dans une situation de pénurie de données, qui étaient rares, couteuses à obtenir et à maintenir. Les calculs étaient lourds et réalisés sans ordinateurs pendant une bonne partie de l’histoire de la discipline. Les statisticiens ont beaucoup travaillé à optimiser ces calculs et se sont ingéniés à pouvoir tirer le maximum d’information d’un minimum de données.

Il demeure que le principal écueil à la validation ou à la réfutation statistique d’hypothèses, scientifiques ou business, est très longtemps resté le manque de « puissance ». C’est-à-dire l’incapacité d’affirmer si les différences observées étaient le fruit de l’action d’un facteur donné (par exemple l’appartenance à un segment de consommateurs, présentant réellement une fréquence d’achat supérieure) ou de simples variations aléatoires (par exemple une saisonnalité d’achat ou une variabilité biologique incompressible). Ceci pour la simple raison qu’il n’y avait pas assez de données pour faire la part entre ces deux sources dans les variations observées.

Le manque de puissance revient en pratique à parler d’un manque de données et est la limite historique des statistiques appliquées au business. Ce manque de données limitait en particulier la profondeur d’analyse autorisée : pour chaque nouvelle variable que nous voulions intégrer dans l’analyse, il fallait obtenir des données multiples pour chaque combinaison des catégories de cette nouvelle variable avec celles des précédentes. Par simple question de combinatoire, le besoin en données nouvelles pouvait vite devenir exponentiel.

Imaginer pouvoir procéder à des analyses complexes, au niveau individuel, pour des millions de personnes relevait de la pure science-fiction statistique : « Restons sérieux, il n’y aura JAMAIS assez de données pour cela mon brave Monsieur ! Et quand bien même, ce serait des millénaires au boulier et l’épuisement des stocks mondiaux de marbre pour graver toutes ces données sur tablettes ! ». Par contre, « plus il y aura de données, plus nous pourrons aller loin dans l’analyse » est gravé dans l’ADN statistique. Et correspond bien à une réalité !

Imaginer une voiture conduisant seule, des robots autonomes ou capables de soutenir une conversation sont quelques exemples d’applications, sorties de la fiction pour devenir de la (data) science.

Cependant, toutes les données ne se valent pas, en tout cas pas dans tous les contextes. Plutôt que d’insister sur le volume de données, il faudrait plutôt insister sur le degré de qualité qu’elles doivent avoir. Ce degré de qualité peut impliquer un volume important pour être atteint, mais implique plus encore la pertinence de ces données, en rapport avec la tâche à effectuer et la qualité de leur collecte, en termes de fiabilité, d’exhaustivité et de précision.

Le volume peut dans une certaine mesure générer à lui seul un accroissement de cette qualité si « dans la masse », on accroît la probabilité de récupérer les bonnes données. Cependant, ce seul accroissement quantitatif a un coût et exige des algorithmes utilisés ensuite qu’ils soient capables par eux-mêmes d’extraire la substantifique moelle des données pertinentes dissimulées. Dans l’intervalle, beaucoup de ressources auront été allouées à récolter des données non stratégiques, à les mettre en forme et à identifier et optimiser des modèles qui en auraient demandé moins, pour un résultat final sans doute meilleur, si la sélection des données avait eu lieu en amont.

Les outils de machine learning sont donc cruciaux dans cette approche de « force brute » pour traiter ces masses de données, où l’œil humain et les outils classiques échoueraient probablement. Mais les Big Data ne sont pas un prérequis pour implémenter un outil de Machine-Learning efficace, et ne sont pas forcément souhaitables en première approche. N’oublions pas que dans « analyse de données », il y a analyse et pas seulement données !

Voyons un peu plus ce que l’analyse des liens données – algorithmes d’apprentissage automatique peuvent nous apprendre.

 

Les sources d’erreurs de prédiction d’un modèle

Par souci de clarté, nous définirons ici une variable (par exemple la profession d’un consommateur, la couleur d’un produit, le budget alloué à un projet, …) comme une mesure ou une caractéristique pouvant être relevée sur chaque individu de notre population d’intérêt (par exemple des clients, des produits, des projets, …) et décrivant cet individu. Nous appellerons prédicteur une de ces variables prise en compte pour prédire la variable qui nous intéresse, que nous appellerons la cible (par exemple le CA à venir issu de ce client, la conformité ou non du produit, le degré de succès à attendre d’un projet, …). Ces variables sont nommées ainsi car variant d’un individu à l’autre et dont la valeur ne peut être connue à priori.

Pour cela, nous tenterions de la comparer aux autres maisons vendues récemment dans le secteur et dont nous connaîtrions le prix de vente. Il s’agit du pain quotidien d’un agent immobilier qui procèderait à l’évaluation de notre maison. La population d’intérêt serait l’ensemble des maisons de notre secteur, la cible serait le prix de vente, qui varie bien d’une maison à l’autre, et un prédicteur raisonnable la superficie de ces maisons, grandeur qui varie à nouveau d’une maison à l’autre.

La statistique cherche à comprendre quelles lois sous-tendent ces variables et comment se distribuent les probabilités qu’elles prennent telle ou telle valeur. La modélisation statistique cherche à comprendre les relations entre les variables, comment elles varient ensemble, de façon opposée ou de façon indépendante. Dans notre exemple, nous souhaiterions modéliser la relation entre superficie et prix de vente d’une maison, afin de prédire à l’avance un prix de vente probable de notre maison en fonction de sa superficie. Lorsque nous parlons de modèles statistiques, sous-jacents aux algorithmes de Machine Learning, il existe trois sources d’erreurs pouvant impacter leurs prédictions (cf. Figure 1) :

  • L’erreur résiduelle du modèle, inexpliquée par les prédicteurs pris en compte pour prédire notre cible. Dans notre exemple, nous savons que toutes les maisons de 100 m² ne se vendent pas toutes au même prix (les matériaux, la taille du jardin, le nombre de chambres… peuvent aussi varier et impacter le prix), ce qui introduit des écarts entre les observations individuelles de la cible et les prédictions réalisées pour les mêmes valeurs des prédicteurs.
  • Le biais du modèle. Il correspond à l’écart entre la véritable relation entre nos prédicteurs et la cible et la relation que nous aurons estimée. L’estimation étant faite sur la base de notre échantillon d’entraînement. Notre modèle est trop simple pour représenter la diversité des valeurs de la cible et s’y ajuster, il est en situation d’« underfit». Dans notre exemple, nous pourrions avoir représenté le lien entre superficie et prix de vente par une simple droite alors qu’en réalité la relation est quadratique (c’est-à-dire intègrerait également la superficie au carré, permettant de représenter un plafonnement du prix, cf. Figure 1) : en effet, il est connu que le prix au m² est plus élevé pour les petites surfaces que pour les grandes.
  • La variance du modèle. L’augmentation du nombre de prédicteurs est un moyen de corriger les problèmes de biais en gagnant en flexibilité. Un tel modèle s’ajustera à plus de sources de variabilité de la cible et pourra représenter des relations plus complexes. Ainsi, tenir compte du carré de la superficie et peut-être également du nombre de chambres donnerait des prédictions plus proches de la réalité du marché pour l’estimation de notre maison. Cependant, plus un modèle est complexe et plus il sera difficile pour un jeu de données d’entraînement de taille fixée d’être représentatif de toutes les combinaisons possibles entre les prédicteurs. Un modèle trop complexe se spécialise à prédire les moindres mouvements aléatoires de notre jeu d’entraînement, comme le bruit résiduel de ces observations spécifiques. Ses performances seront mauvaises lorsqu’il devra prédire de nouvelles données, « bruitées » différemment. Nous parlerons alors de situation d’« overfit» : l’erreur de généralisation est forte, celle d’entraînement très faible. C’est dans ce cas seulement que l’accroissement des données améliorera la performance.

Fig 1 - Big data machine learningFigure 1 : Représentation des trois types d’erreurs à partir d’un même jeu de données d’entraînement et d’une même relation entre la cible et le prédicteur.

–        Haut-Gauche : erreur résiduelle, i.e. l’écart entre chaque observation de la cible et la moyenne sous-jacente de la cible pour une valeur donnée du prédicteur (courbe verte).

–        Haut-Droite : biais, i.e. écart entre la relation réelle (quadratique dans cet exemple) et la relation estimée par le modèle (une simple droite ici).

–        Ci-contre : variance, 5 modèles complexes sont ajustés sur 10 observations du jeu de données. D’un échantillon à l’autre, l’erreur d’entraînement est faible (l’écart entre les points représentés par un + et la courbe d’une couleur donnée) mais nous constatons l’absurdité des prédictions pour les points extérieurs et leur grande variabilité entre modèles.

 

 

 

 

Il s’agit bien d’un compromis car les deux choses, à données égales, fonctionnent en sens inverse. Nous allons maintenant en préciser les conséquences.

 

 

 

Le véritable enjeu de la construction d’un modèle : optimiser le compromis biais-variance

Un modèle est par définition une représentation simplifiée de la réalité. Par définition encore, il est donc toujours faux dans une certaine mesure puisque soumis aux sources d’erreurs détaillées au paragraphe précédent. Première remarque : ce n’est pas parce qu’il est « faux » qu’il n’est pas (souvent très) utile, comme le souligne la fameuse citation (chez les statisticiens au moins !) de George E. P. Box « All models are wrong but some are useful ».

De la même façon qu’une carte routière est « fausse » en tant que représentation de la réalité du terrain, mais très utile pour repérer son chemin, un modèle même faux peut faciliter la compréhension des processus à l’œuvre.

Et de la même façon qu’une carte à l’échelle 1:1 représentant chaque arbre et chaque immeuble dans ses moindres détails serait beaucoup moins utile, bien que moins « fausse », un modèle très complexe pourrait être moins utile. Comme nous le verrons, c’est pourtant exclusivement pour produire des modèles très complexes que le Big Data fait sens.

Le travail du praticien du Machine Learning (et du statisticien en général) est ainsi d’optimiser la complexité de son modèle, en rapport avec la question métier qu’il a mission d’aider à résoudre au mieux. Ceci se traduit par l’optimisation du compromis entre biais et variance pour construire le modèle le plus utile et le plus performant possible avec les données disponibles : avoir une prédiction la plus proche possible de la réalité et un modèle le plus généralisable possible, fonctionnant au mieux dans toute la diversité de situations à laquelle il pourrait être confronté avec la même précision et sans fioritures inutiles qui ne ferait que brouiller la prise de décision.

Alors quand avons-nous un problème de données insuffisantes et nécessité d’en acquérir d’autres ?

 

Les outils de diagnostic témoignant d’un manque de données (ou pas) pour réduire l’erreur de prédiction

Les théoriciens de la statistique et du Machine Learning nous ont fourni un cadre solide pour identifier quand un modèle est « suffisamment bon » et mettre sur la piste de ce qui pourrait l’améliorer, s’il en est besoin.

Sans aller trop loin dans les détails, au cours de la construction d’un modèle le data scientist (sans discuter ici des détails de ce que recouvre ce titre) dispose d’un certain nombre d’outils de diagnostic lui permettant de comprendre ce qu’il se passe entre ses données et son modèle. Le premier d’entre eux lui permet d’explorer le rapport bais – variance avec les données à sa disposition (cf. Figure 2). Cet outil lui permet de mettre en rapport l’erreur de prédiction faite par le modèle sur les données d’entraînement qui ont permis de le construire et l’erreur de « généralisation », c’est-à-dire l’erreur de prédiction faite par le même modèle sur des données du même type mais n’ayant pas servi à sa construction.

L’idée est que ces données extérieures doivent présenter le même taux d’erreur que des données nouvelles, qui seraient prédites à l’avenir en utilisant ce modèle. Chaque modèle fourni donc un taux d’erreur pour les données d’entraînement et un taux d’erreur de généralisation aux données « nouvelles ». Si les deux erreurs sont proches et élevées, nous avons un problème de biais, le modèle est trop simple et il faut ajouter des facteurs explicatifs. Si l’erreur d’entraînement est faible et celle de généralisation élevée, nous avons un problème de variance et le modèle est en « overfit ».

En construisant des modèles de plus en plus complexes, nous obtenons donc l’évolution du rapport biais – variance et sommes capables d’évaluer le degré de complexité optimum minimisant l’erreur de généralisation. Il faut être conscient d’une chose : un modèle plus complexe s’ajustera toujours mieux aux observations du jeu d’entraînement car nous diminuons le biais et nous ajustons au bruit présent dans CE jeu de données.

Ceci se traduit par une diminution régulière de l’erreur d’entraînement. Par contre il arrivera toujours un moment où cette augmentation de complexité entraînera une augmentation de l’erreur de généralisation car le modèle se sera « spécialisé » à prédire les variations aléatoires du jeu d’entraînement qui n’ont pas de lien réel avec nos prédicteurs. De nouvelles données auront d’autres variations aléatoires qui présenteront donc un écart élevé avec les prédictions « spécialisées ».

 Fig 2 - Big data machine learning Figure 2 : lorsque les performances ne sont pas au rendez-vous, ce type de courbe permet d’identifier s’il s’agit d’un problème de « biais », le modèle est trop simple pour rendre compte des données ; ou de « variance », le modèle s’est spécialisé sur des variations aléatoires propres à l’échantillon d’entraînement du modèle. L’optimum de complexité est le modèle minimisant l’erreur sur les données nouvelles.

 

Un autre outil de diagnostic intéressant liant données et modèle est la courbe d’apprentissage ou « learning curve ».

Son principe est de représenter l’erreur sur le jeu d’apprentissage et l’erreur de généralisation, d’un modèle donné cette fois, en fonction de la quantité de données d’apprentissage utilisée (cf. Figure 3). Lorsqu’il y a très peu de données, l’erreur d’entraînement est faible. Pour caricaturer, imaginons que nous ayons seulement deux maisons dont nous connaissions à la fois la superficie et le prix de vente. Nous pourrions toujours construire un modèle de prédiction sous forme d’une droite passant par ces deux points.

La prédiction du prix pour ces deux maisons serait alors exactement le prix de vente constaté et l’erreur d’entraînement serait nulle. Par contre, l’erreur de généralisation serait très élevée pour un modèle construit sur deux points. Au fur et à mesure que la taille du jeu de données d’entraînement augmente, un modèle sous forme de droite aura de plus en plus de mal à passer par la plupart des points et l’erreur d’entraînement augmentera également. Par contre, cette droite estimera de mieux en mieux la relation réelle entre superficie et prix de vente, en faisant la synthèse d’un nombre croissant de situations et l’erreur de généralisation diminuera.

Lorsque ces deux erreurs deviennent comparables, c’est-à-dire lorsque les prédictions sur données nouvelles deviennent aussi bonnes que celles réalisées sur le jeu d’entraînement, alors il n’est plus besoin, pour ce modèle précis en tout cas, d’augmenter le jeu d’entraînement. Le taux d’erreur constaté provient de l’erreur résiduelle et du biais qui ne peuvent être diminués sans un accroissement de complexité du modèle, en considérant de nouveaux prédicteurs. Ainsi, un modèle n’étant pas en situation d’overfit ne gagne pas grand-chose à être construit sur un jeu de données plus grand.

 Fig 3 - Big data machine learning Figure 3 : Courbe d’apprentissage (learning curve) pour un modèle de complexité fixée. La limite est atteinte lorsque les données sont suffisantes pour être représentative de la diversité des cas possibles. L’erreur qui reste est la somme du « bruit » issu d’autres variables non prises en compte et du biais inhérent à la simplification de la réalité que représente ce modèle.

 

Nous allons voir que dans certaines situations, partir trop vite sur un modèle complexe, intégrant de multiples variables et de très nombreuses observations dans le jeu d’entraînement, peut être contre-productif si nous n’avons pas un minimum de connaissances sur la situation modélisée.

 

Les dangers du « trop » de « mauvaises » données

Par « mauvaises données », nous pouvons entendre plusieurs choses :

  • Une mauvaise qualité, car l’appareil de mesure est défaillant ou peu précis, ou car les relevés seront manquants pour de nombreux individus. Ceci impose la gestion des valeurs aberrantes ou des données manquantes qui peuvent compliquer l’analyse.
  • Une mauvaise pertinence des données par rapport à la question. Si de nombreux prédicteurs sont indépendants de la cible à prédire, ils vont alourdir l’exploration des modèles et leur entraînement sans apporter de valeur prédictive.
  • Une redondance des données. Si nous relevons un peu tout et n’importe quoi et l’incluons dans les modèles « au cas où », nous pouvons rencontrer quelques difficultés. Ainsi, certains algorithmes, en particulier ceux de régression permettant de prédire une valeur continue (comme un prix de vente immobilier, un chiffre d’affaire ou un bénéfice), font des hypothèses concernant l’indépendance des prédicteurs entre eux et peuvent mal fonctionner si cette hypothèse est violée de façon trop importante.

Ce dernier point est le plus délicat à gérer, car le moins facile à détecter et dont appréhender les conséquences. Avoir des données redondantes signifie qu’elles contiennent de l’information commune. Ceci se traduit souvent par une corrélation élevée. Si deux prédicteurs sont positivement corrélés, ceci signifie qu’ils auront tous les deux des valeurs élevées ou faibles pour un individu donné et ce pour la plupart des observations. La corrélation peut être négative, si pour de nombreux individus une valeur élevée d’un prédicteur est associée à une valeur faible pour l’autre et réciproquement. En quelque sorte, connaissant la valeur de l’un des prédicteurs, nous avons une bonne idée de ce que vaudra l’autre avant même de le mesurer.

Une corrélation élevée, positive ou négative, entre prédicteurs et cible est une très bonne chose, c’est même la base qui permet la prédiction de la cible connaissant les prédicteurs. Cependant la corrélation entre prédicteurs est un problème : notre maison a-t-elle une valeur plus élevée parce qu’elle est plus grande ou parce qu’elle a plus de chambres ou de salles de bain ? Ces différentes variables sont forcément liées (nous n’aurons jamais cinq chambres ou quatre salles de bain dans 60m²) mais qu’est-ce qui l’emporte ? Que dois-je faire comme travaux en priorité pour valoriser ma maison ?

Cette difficulté à pouvoir certifier que nous avons identifié la véritable cause agissant sur notre cible ou seulement utilisé un prédicteur bien corrélé à cette cause représente ce que l’on appelle le risque de confusion de variables : on confond la cause avec une variable qui lui est corrélée. Ceci n’empêche pas une bonne prédiction de la cible, mais si nous voulons agir sur cette cause pour influencer la cible, nous n’aurons pas d’impact en agissant sur une variable confondante non directement associée à la cible.

Pire, si la corrélation entre la cause et le prédicteur confondant utilisée diminue au cours du temps (par exemple si le goût des gens s’oriente vers des pièces plus grandes plutôt que plus de pièces pour une même superficie), alors nos prédictions basées sur le nombre de chambres pour approximer la taille de la maison vont se dégrader.

Certains algorithmes de Machine Learning permettent de sélectionner les variables impactant le plus la cible. Une amélioration incrémentale est envisageable. De premiers modèles moins ambitieux peuvent permettre une sélection des données pertinentes à collecter en priorité en vue de répondre à la complexité supérieure. Si la relation « plus de données, meilleure analyse » est vraie en général, la relation « qualité des données, qualité des résultats » l’est d’avantage et finalement, est celle qui donne du sens à la première en cela que plus de données donne plus de chances d’avoir les données pertinentes.

A nouveau, nous voyons que l’analyse des données est souvent cruciale[1], plutôt que de mettre en masse toutes les données disponibles, s’il s’agit de comprendre les ressorts de nos observations et les moyens d’influencer la cible qui nous intéresse, par un ciblage marketing approprié ou par l’identification des produits au meilleur potentiel.

Il faut garder à l’esprit que le Big Data ajoute une complexité supplémentaire aux statistiques et aux jeux de données de taille « traditionnelle » qu’il faut introduire avec des raisons le justifiant.

Le Big Data est très puissant s’il permet de tenir compte de multiples prédicteurs, à une échelle fine et en permettant une bonne représentation de toutes les combinaisons possibles de ces prédicteurs. Cette profusion pertinente permettra alors de construire des modèles très complexes, fiables et sans « overfit ». S’il s’agit de démultiplier des observations similaires, concentrées et donc redondantes, et finalement explorant mal l’ensemble des situations possibles, la désillusion est probable.

Paradoxalement, en réglant le problème de la puissance de l’analyse évoquée plus haut, grâce à la multitude de données, il est possible d’imaginer des situations où le Big Data pourrait nous fourvoyer sur l’importance des relations observées : la capacité à discriminer des différences de plus en plus fines peut nous conduire à considérer des facteurs statistiquement significatifs mais à l’impact quantitativement marginal.

Ou bien alors se focalise-t-on à expliquer du « bruit » sans grand intérêt ? Si ces questions ne sont pas appréhendées, nous sommes dans une situation de risque important[2].

En plus du compromis biais-variance pour optimiser les performances de précision du modèle, le praticien doit également optimiser son choix d’algorithme selon le compromis « opérationnel », à savoir le temps requis pour optimiser le modèle, via la difficulté de cette optimisation, sa robustesse et les temps de calcul nécessaires. Selon le besoin opérationnel toujours et la problématique métier pour laquelle l’outil est développé, il pourra privilégier un algorithme permettant de bien identifier les variables les plus importantes pour la prédiction d’intérêt ou accepter une « boîte noire » de précision supérieure.

La facilité de « maintenance » et de ré-entraînement éventuel du modèle, afin de conserver sa performance dans un environnement en évolution, peut être un autre facteur important dans les choix réalisés, en lien également avec la problématique du volume de données qu’il faudra peut-être contenir.

Certains algorithmes sont d’ailleurs connus pour performer au mieux dans une gamme de volume de données et peu envisageables dans un contexte « Big Data », malgré des performances potentielles supérieures, pour une simple question de temps de calcul et de contraintes opérationnelles en situation de production.

N’oublions pas non plus que les statisticiens ont travaillé à pouvoir produire de l’information à partir de quelques dizaines d’observations, cette efficacité peut être à double tranchant lorsqu’appliquée à des millions d’observations. Elle peut effectivement permettre de mettre en évidence des différences infimes. Il faut s’interroger sur leur sens réel pour les affaires.

L’interaction du data scientist avec les experts métiers est alors fondamentale[3] :

Si nous obtenons un modèle relativement simple, performant en termes de prédictions, correctement ajusté aux données, il n’est pas besoin de démultiplier les données d’entraînement. Ce cas recouvre aujourd’hui encore un large panel de situations d’affaires, où les outils d’apprentissage automatique (ou Machine Learning) peuvent apporter une valeur ajoutée importante.

Si vous souhaitez discuter de comment les machines learning peuvent vous aider à développer la performance de votre entreprise, visitez notre site. >>

 

[1] Un data scientist doit avoir une tête bien faite plutôt que bien pleine (https://www.oreilly.com/ideas/what-to-look-for-in-a-data-scientist)

[2] Le Big Data est affaire de taille, la «Data Analytics» de qualité (https://www.oreilly.com/ideas/what-to-look-for-in-a-data-scientist).

[3] Importance de l’implication des direction et métiers dans les projets d’analytique. (http://www.dictanova.com/actualites/etude-kpmg-les-benefices-de-lanalyse-de-donnees-pour-lentreprise.html).

Recevez nos derniers articles!
Les meilleures pratiques des entreprises dans votre boite mail tous les mois.
Nous détestons les spams! Votre adresse email ne sera jamais cédée ou revendue.

About Author

Frank Sauvage
Entreprise / organisation

Nom / Prénom

Email

Téléphone

Objet

Demande


Docteur en biostatistique, ancien élève de l’ENS Lyon, Frank Sauvage est enseignant-chercheur à l’interface entre mathématiques et biologie durant 12 ans. Conscient des difficultés pour l’appropriation des concepts statistiques par les non-mathématiciens et de l’importance de l’analyse des données pour la prise de décision, il fonde Statsphere Consultancy en 2014. Sa mission est désormais d’accompagner les entreprises dans la formation de leur personnel et la mise en place de leurs projets dans le domaine du traitement statistique de leurs données.

Leave A Reply