Le « Big Data » sinon rien ? Comment définir sa stratégie d’analyse de données

4

Le « Big Data »[1], omniprésent dans les médias et dans notre quotidien, est prometteur. Il illustre plus largement l’importance croissante des statistiques dans les prises de position des décideurs (le data-driven business). Il conserve également la plupart des fondamentaux de l’analyse de données traditionnelle. Pour obtenir des résultats pertinents, mieux vaut donc maîtriser certains concepts basiques de la démarche statistique.

Pour définir ses besoins dans cette discipline stratégique et faire les bons choix pour la révolution annoncée, encore faut-il déterminer à quels objectifs on souhaite répondre et quelle est la meilleure façon d’y parvenir. Répondre aux trois questions suivantes sera un préalable à l’implémentation d’une stratégie d’analyse de données et permettra de définir la roadmap : dans quel but souhaite-t-on analyser les données, comment peut-on les analyser et quels sont les outils adaptés pour ce faire, tant au niveau matériel que des compétences ?

 

Analyser les données : pour quoi faire ?

Une analyse statistique peut avoir trois grands types d’objectifs[2] :

  • Décrire, c’est le cas des études factorielles ou du clustering visant par exemple une segmentation de sa population de prospects afin de cibler une campagne marketing,
  • Expliquer, ceci peut être illustré par les études cliniques de facteurs de risque associés à une pathologie donnée ou au contraire visant à établir l’efficacité d’un traitement,
  • prédire, c’est par exemple la promesse du Big Data, qui permettra d’identifier qui sera intéressé par quel produit ou à quel moment. Cependant, il n’est pas absolument nécessaire d’entrer dans le Big Data pour réaliser une étude prédictive, à moins de vouloir s’appuyer massivement sur l’analyse de données textuelles non structurées.

Ces trois objectifs ont pour finalité ultime, commune à toute démarche statistique en entreprise, d’être des outils d’aide à la décision pour le(s) décideur(s). Ces approches sont couvertes par l’expression anglophone de « Business Intelligence », qui retrace surtout l’activité passée de l’entreprise, complétée désormais par l’« Advanced Analytics » pour l’aspect prédictif tourné vers l’activité future.

Cependant, il est une chose qui ne peut être demandée de la statistique : obtenir une certitude absolue. Par définition, il existera toujours au moins deux sources d’incertitude lors d’une étude statistique, aussi parfaitement réalisée soit-elle :

  • Le biais, ou erreur d’approximation, qui provient du simple fait que nous tirons des conclusions d’une fraction seulement de la population qui nous intéresse (de prospects potentiels, par exemple). Cette fraction constitue l’échantillon étudié. Ces approximations peuvent être renforcées par des arrondis ou simplifications propres aux méthodes mathématiques employées pour traiter les cas complexes.
  • La variabilité intrinsèque au phénomène étudié, mesurée en statistique par le terme de variance. C’est ce qui fait que deux jumeaux vrais, élevés dans les mêmes conditions, ne voudront pas forcément le même cadeau à Noël ou que deux personnes suivant le même traitement n’auront pas forcément la même évolution clinique. Même la plus poussée des études, et c’est heureux, ne pourra prédire à 100 % le moment où vous aurez envie d’une orange (ou d’une nouvelle voiture de tel modèle).

Une fois ce cadre général posé, l’objectif de l’étude/analyse et les moyens d’obtenir et/ou les données déjà disponibles pour la conduire amènent à la méthode la plus appropriée, selon diverses contingences techniques et théoriques.

 

Analyser les données : Comment faire ?

Attention, il est facile d’appliquer une méthode inappropriée ou mathématiquement invalide sans s’en rendre compte, en l’absence du bagage théorique associé. Deux types d’approches existent lors de la conduite d’une étude statistique :

  • classiquement, « à l’ancienne », une fois les hypothèses de travail posées, une démarche dite de planification expérimentale permet d’établir quelles données doivent être récupérées, en quelle quantité, avec quels contrôles et de quelle façon pour limiter le biais et optimiser la décision. Les données sont alors récoltées dans le cadre de l’étude et ce cas concerne typiquement les études en R&D ou réglementaire.
  • de façon plus « opportuniste », qui est typiquement l’approche du « Data Mining » et aujourd’hui du Big Data. Dans ce cas, on se dit plutôt : « pourquoi ne pas exploiter la masse de données clients du CRM, les informations de profil Facebook des internautes accédant à nos services ou les données comptables pour mieux définir les comportements d’achats et les attentes clients ? ». Ici, les données préexistent et ont été récoltées dans un cadre initial différent de celui de l’étude.

 

Analyser les données : avec quoi ? L’outil adapté à l’objectif et à la stratégie de l’entreprise

Dans notre cadre, on peut désigner par outil deux choses différentes :

  • la méthode mathématique employée, brièvement évoquée précédemment, mais qui ne constitue pas la matière principale du présent article,
  • l’outil informatique utilisé pour la mettre en œuvre, caractérisé par son interface utilisateur, sa richesse et sa souplesse, soit pour réaliser des calculs automatiques, soit pour programmer des analyses sophistiquées.

Trop souvent, des aspects techniques contraignent l’analyse de données :

  • Au lieu d’avoir l’outil adapté, les utilisateurs métiers doivent s’adapter à l’outil disponible, généraliste et tout venant le plus souvent, et faire « entrer » leur analyse à l’intérieur. Au prix parfois d’un nombre limité de méthodes implémentées dont les résultats seront biaisés, car la nature des données nécessiterait un raffinement non disponible.
  • Ou bien l’entreprise peut avoir déjà investi dans une plateforme puissante, pouvant potentiellement réaliser toutes les analyses imaginables, mais nécessitant un paramétrage ou de la programmation additionnelle que ne maîtrisent pas les utilisateurs.
  • Un troisième point, plus méthodologique, vient de ce que parfois le choix de la méthode prend le pas sur le problème à résoudre. Une approche est choisie a priori: parce qu’on la connaît, parce que les autres font comme cela, parce qu’on a toujours fait ainsi… on peut alors se retrouver avec un résultat d’analyse qui ne correspond pas forcément à la question que l’on souhaitait vraiment explorer.

Face à ses besoins en analytique, l’entreprise peut choisir parmi trois voies principales :

  • Sous-traiter le traitement statistique.
  • Utiliser des logiciels ou plateformes génériques à déployer et à adapter aux besoins internes.
  • Développer ses propres outils « sur mesures », en interne ou les faire développer par un prestataire.

Ce choix impactera fortement le niveau de connaissances statistiques nécessaire aux collaborateurs, pour utiliser de façon optimale les outils mis en place, mais également la portée des résultats obtenus.

 

Analyser les données : avec qui ? Former ses collaborateurs aux statistiques

Les paragraphes précédents ont mis en évidence l’importance de connaissances en statistique pour l’analyse des données de l’entreprise[3]. Ces connaissances couvrent la théorie mathématique et son application pratique via des outils logiciels. De nombreux freins peuvent expliquer que l’exploitation des données ne soit pas optimale, comme le manque de confort avec la théorie mathématique sous-jacente ou la force de l’habitude des routines en place. Un nouvel outil performant, ayant nécessité un investissement important, peut ainsi rester sous-exploité.

Ces freins seront encore plus dangereux dans le cadre d’un projet Big Data prématuré puisque tout y est plus grand : le volume des données, la variété de leur nature, leur vitesse d’acquisition qui conditionnent aussi la validité des analyses. Les blocages sont souvent issus d’un manque de formation dans ces domaines des outils mathématiques et logiciels, ou de l’absence des outils qui pourraient les compenser. Attention donc au chant des sirènes du Big Data si les bases de l’analyse de données ne sont pas en place[4]. Ceci reviendrait à vouloir étudier le voyage spatial en faisant l’impasse sur l’aéronautique, ce n’est pas forcément impossible, mais conduirait sans doute à quelques déconvenues évitables.

Comment faire évoluer les pratiques et tirer le maximum des données de l’entreprise ?

Il est aujourd’hui possible pour le formateur de développer des supports interactifs permettant aux personnes en formation de découvrir par elles-mêmes les concepts majeurs de la statistique, leur richesse et les points de vigilance de manière ludique et pratique.

Vos collaborateurs percevront intimement l’intérêt de l’analyse de données et retiendront aussi facilement les concepts statistiques présentés que cette citation d’Aaron Levenstein :

« Statistics are like a bikini. What they reveal is suggestive, but what they conceal is vital. »

« Les statistiques, c’est comme le bikini. Ce qu’elles révèlent est suggestif. Ce qu’elles dissimulent est essentiel. »

Références

[1] L’article fondateur par Doug Laney définissant les 3 V du Big Data : http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/

[2] Une introduction (et un cours très complet de statistique !) à l’intérêt des données pour la prise de décision en entreprise : http://home.ubalt.edu/ntsbarsh/business-stat/opre504.htm#rintroduction

[3] Deux avis « éclairés » sur les risques d’échecs liés au Big Data et sur l’importance des compétences pour l’exploitation des données :

L’un en anglais : http://www.julianbrowne.com/article/viewer/big-data-deception

[4] L’autre en français : https://bigdatafrance.wordpress.com/

Recevez nos derniers articles!
Les meilleures pratiques des entreprises dans votre boite mail tous les mois.
Nous détestons les spams! Votre adresse email ne sera jamais cédée ou revendue.

About Author

Frank Sauvage
Entreprise / organisation

Nom / Prénom

Email

Téléphone

Objet

Demande


Docteur en biostatistique, ancien élève de l’ENS Lyon, Frank Sauvage est enseignant-chercheur à l’interface entre mathématiques et biologie durant 12 ans. Conscient des difficultés pour l’appropriation des concepts statistiques par les non-mathématiciens et de l’importance de l’analyse des données pour la prise de décision, il fonde Statsphere Consultancy en 2014. Sa mission est désormais d’accompagner les entreprises dans la formation de leur personnel et la mise en place de leurs projets dans le domaine du traitement statistique de leurs données.

4 commentaires

  1. Bonjour et merci pour cet articles et les informations importantes qu’il apporte, j’ai une question: ne pensez vous pas qu’a terme l’immensité de l’analyse des données apportés par le big data puissent amener à une surcharge du système général et amener à penser que la pluspart des informations ne sont pas fondamentales ? merci d’avance

  2. Bonjour et merci pour cet articles et les informations importantes qu’il apporte, j’ai une question: ne pensez vous pas qu’a terme l’immensité de l’analyse des données apportés par le big data puissent amener à une surcharge du système général et amener à penser que la pluspart des informations ne sont pas fondamentales ? merci d’avance

  3. Frank Sauvage
    Frank Sauvage on

    Bonjour Mickael, Merci beaucoup pour votre retour. C’est une excellente question, d’ailleurs certains analystes pensent que le Web lui-même pourrait un jour connaître ce problème d’engorgement… mais cela n’est pas ma partie ^^.
    Pour revenir à votre question concernant l’analyse des données et le big data, nous sortons tout juste de la phase « stockons tout au cas où… ah oui, mais comment stockent-t-on de tels volumes et comment y accède-t-on ensuite? », qui était la problématique initiale du big data, à la phase plus subtile (en terme d’analyse proprement dite) du « que peut-on en faire? quels éclairages nouveaux apportent-elles? Que permettent-elles que nous ne pouvions faire avant? ».

    Maintenant qu’on a les tuyaux et que le Datapétrole coule dedans, quels moteurs va-t-il permettre de faire fonctionner? Il faut bien le dire, je crois que le premier réflexe a été « On ne sait pas ce que l’on peut découvrir avec toutes ces données: intégrons tout ce que l’on a à chaque analyse, au cas où… ».

    Ces moteurs sont à mon sens principalement les algorithmes de Machine-Learning, qui animent déjà de nombreuses applications de notre vie quotidienne, et le travail du data scientist dont on parle beaucoup ces temps-ci est précisément de faire le tri dans cette masse de données (le datamining), afin d’extraire les variables pertinentes pour répondre à une question ou à un problème précis.

    Et vous avez parfaitement raison: bien que ces variables pertinentes puissent être assez nombreuses dans l’absolu pour une question donnée, ramenées à l’ensemble de celles potentiellement disponibles, la plupart des informations ne sont pas fondamentales.
    Par contre, une autre question aura peut-être l’usage d’autres de ces variables. Ces masses de données ne sont pas utiles pour chaque question, mais elle permettront d’en explorer beaucoup de différentes.
    Au fur et à mesure que nos connaissances sur ces nouvelles questions vont augmenter, je pense que l’on va apprendre à mieux discriminer celles à intégrer à l’analyse de celles qui n’apportent rien, pour éviter justement ce collapsus. A mon sens, les experts métiers et les data scientists devront travailler de façon de plus en plus coordonnée, et que la connaissance métier jouera un rôle fondamental dans cette sélection de variables et pour les gains d’efficacité de l’analyse statistique.

    Je viens d’écrire un article pour préciser justement dans quelles situations le volume propre au big data peut-être utile mais aussi les risques liés à considérer toute la masse de données dans chaque analyse « juste au cas où ». Il devrait être publié ces jours-ci, alors si ces questions vont intéressent, restez à l’écoute du blog ^^.

Leave A Reply