Les 4 sources du Big Data

    Par le 7 mars 2016

    Pour piloter son activité, l’entreprise doit enrichir ses données avec celles du Big Data (volumes de données sans limite, réponses en temps réel, personnalisation accrue,…). Le Big Data permet ainsi de faire passer l’entreprise de l’analyse reporting à l’analyse prescriptive. Tour d’horizon des quatre sources d’information sur lesquelles s’appuie le Big Data.

    L’information produite par l’entreprise (journal des ventes, états des stocks, liste des clients et prospects…) s’organise dans des bases de données (dites de production), elles-mêmes agrégées dans des entrepôts de données (datawarehouse ou datamarts).

    Ces données sont ensuite traitées sous forme de cubes décisionnels pour permettre de visualiser des indicateurs de performance sous différentes dimensions (temporelle, géographique, catégories de produits, segmentation client,…).

    big-data

    « More Data » : plus de que du volume, de nouvelles sources

    Une approche Big Data permet d’enrichir les données de l’entreprise avec celles de sources externes. Il n’est pas ici question de tendre vers « l’infobésité » (en accumulant toujours plus d’information non exploitée) mais plutôt de se donner de nouveaux angles de vue sur l’activité de l’entreprise, la conjoncture dans son secteur, ou encore son positionnement sur le Web.

    Le Big Data s’appuie sur quatre sources de données :

    • Les « logs » des sites web
    • Les « insights » des médias sociaux
    • Les « third party data »
    • L’Open data

    Les « logs » (journaux de connexion) issus du trafic sur le site officiel de l’entreprise

    Votre entreprise dispose certainement d’une vitrine sur le Web au travers de son site officiel. Ce site génère du trafic qu’il est indispensable d’analyser. Pour une approche plus fine, et donc plus riche en informations, on disposera des trackers sur les différentes pages afin de mesurer les chemins de navigation, ou encore les temps passés sur chaque page… Voire les déplacements de la souris sur l’écran !

    D’autres questions intéressantes, et donc d’autres sources de données, sont les chemins pris par les visiteurs pour parvenir sur le site : moteurs de recherche, annuaires, rebonds depuis d’autres sites…

    Citons parmi les solutions d’analyse les plus connues : Google Analytics, Adobe Omniture, Coremetics.

    Le contenu et les mesures de réputation (« insights ») issus des médias sociaux

    Se définir une identité numérique, animer une communauté sont des pratiques maintenant bien ancrées. C’est une source de données, venant concurrencer les traditionnelles enquêtes par questionnaires.

    Attention toutefois au travers des « mesures de vanité », très faciles à obtenir (like, partage, retweet…). Les signaux négatifs sont moins nombreux, mais expriment un geste fort de la part de leur auteur. Pensez donc à mesurer les publications masquées ou les désabonnements (et à y réagir !).

    Une approche complémentaire, mêlant méthodes quantitatives et qualitatives, consiste à recueillir les commentaires aux publications et à y appliquer des algorithmes d’analyse de sentiment.

    Quelques pistes pour suivre vos différents comptes : Hootsuite, Radian6 ou encore les API mises à disposition et interrogées avec le complément Power Query pour Excel, IRaMuTeQ pour l’analyse de données textuelles.

    La « third party data » : des données comportementales pour mieux cibler

    Des acteurs spécialisés du Web vous aident à collecter de l’information sur vos clients ou prospects et à améliorer ainsi les campagnes de communication. Les données sur les internautes (third party data) sont récoltées par ces entreprises via des formulaires ou des cookies. Au-delà des classiques informations d’identité (sexe, âge, CSP…), il est maintenant beaucoup plus efficace de mesurer les comportements (navigation, configuration matérielle, temps passé sur les pages…).

    Quelques acteurs du domaine de la third party data : Bluekai, Exelate, Weborama, Datalogix…

    L’open data : les données ouvertes et réutilisables

    Les données ouvertes et réutilisables ne sont pas encore légions même si une mission gouvernementale est très active sur le sujet. Manque de complétude, niveau de détail insuffisant, relative ancienneté sont les défauts actuels de nombreux jeux de données. Toutefois, c’est un champ d’investigation qu’il ne faut pas négliger, ne serait-ce que par son faible coût (celui du temps passé à chercher !) et son développement inéluctable.

    Les sites de référence : www.data.gouv.fr mais aussi www.data-publica.com

    Si ces premières pistes pour enrichir vos données vous intéressent, venez découvrir et pratiquer ces nouvelles approches en suivant le stage de formation Les fondamentaux du Big Data.

    Laisser un commentaire

    Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

    Nathalie Il y a 2 années

    Très bien ce billet! Il est très clair et on voit bien en quoi consiste le big data de manière opérationnelle. Les outils que vous décrivez sont de bonnes pistes à utiliser car ils sont très différents. Evidemment s’inscrire au stage, c’est encore plus opérationnel.

    Répondre

    katrine Il y a 1 année

    Veuillez poursuivre ce travail remarquable et j’attends avec impatience de plus de billets de votre super blog.

    Freelance Maroc

    Répondre

    sara Il y a 1 année

    Je tiens à vous remercier pour les efforts que vous avez faits dans la rédaction de cet article.
    Tawjih

    Répondre

    rustic lace wedding invitations Il y a 1 année

    That is how you end up being in a Garfield movie because you think it is being written be the Coen He has admitted he did the movie because he thought the writer Joel Cohen was one of the He Edit: Yes, made same mistake Murray Coen, not

    Répondre

    karima Il y a 4 semaines

    Excellent site à tout point de vue : contenu, contenant. Il y a beaucoup de recherche et la présentation est intéressante tout en restant sobre. BRAVO et bonne continuation.
    photographe casablanca

    Répondre