Comment travailler dans le Big Data ?
En juillet 2014, l’ex-ministre de l’économie présentait la feuille de route des 34 plans de la Nouvelle France Industrielle (NFI), un projet de ré industrialisation dont l’ambition est de positionner la France stratégiquement sur le Big Data. Par ce projet, l’Etat montre officiellement que malgré l’engouement médiatique qu’il y’a autour du Big Data, la transition vers l’ère Numérique est bien réelle et que les opportunités du Big Data sont bel et bien existantes.
Aujourd’hui, plus de 5 ans après, la demande dans le marché du Big Data n’est plus à prouver.
Vous souhaitez travailler dans le Big Data ? Vous souhaitez vous reconvertir vers l’un des 7 métiers porteurs de la data ? Alors vous faites un bon choix et cet article va vous aider.
Pour vous orienter dans le Big Data, 3 choses sont indispensables à savoir :
1. Technologiquement, le Big Data exige le changement d’une approche centralisée à une approche décentralisée
Traditionnellement, l’approche technologique de gestion des données consiste à centraliser le stockage et le traitement des données sur un serveur central dans une architecture client/serveur. Ces données sont gérées dans le serveur par un SGBDR. Malheureusement, les approches traditionnelles de gestion de données ont de plus en plus de mal à s’adapter aux contraintes du Big Data, qui sont nouvelles.
Pour gérer les contraintes du Big Data, l’approche technologique ne consiste plus à centraliser le stockage et le traitement des données dans un seul serveur, mais à distribuer le stockage et à paralléliser le traitement de ces données sur plusieurs nœuds d’un cluster. Hadoop est l’implémentation logicielle la plus mature de cette approche technologique.
Hadoop est l’implémentation du modèle de calcul MapReduce de Google et de son système de fichier distribué le HDFS (Hadoop Distributed File System). Il est utilisé aujourd’hui au moins en pilote par toutes les entreprises qui souhaitent se lancer sérieusement dans l’exploitation à grande échelle de leurs données.
Pour bien utiliser les technologies du Big Data, nous vous recommandons de choisir une distribution Hadoop. Il y’a en 2 sur le marché actuellement : CDH de Cloudera, et HDP de Hortonworks (quoique Cloudera a acquis Hortonworks depuis). Vous pouvez aussi vous orienter vers une distribution Cloud comme Amazon EMR ou Microsoft Azure HDInsight.
Ainsi, lorsqu’on parle d’Hadoop, on ne fait pas simplement référence à une technologie, mais à un changement de paradigme (traitement centralisé au traitement décentralisé). On n’est donc pas en train de parler d’une technologie particulière, mais d’une approche de traitement de données qui correspond aux contraintes d’une nouvelle génération de problèmes. En soi, Hadoop peut disparaître, mais toutes les autres technologies qui vont être développées à sa suite seront basées sur son approche conceptuelle (à savoir les traitements vont être divisés en tâches réparties sur un cluster, et les données vont être partitionnées, distribuées et gérées par un système de fichier distribué)
2. L’adoption des technologies du Big Data en entreprise ne dépend pas des développeurs, mais des métiers
Les technologies du Big Data, notamment Hadoop, ont été créés à la base pour des profils hautement qualifiés en développement logiciel. Or, l’expérience a montré à mainte reprise que l’adoption à grande échelle d’une technologie en entreprise et son succès ne dépendent pas des utilisateurs spécialisés, mais des utilisateurs métiers, plus familiers aux outils comme SQL, qu’à un langage de programmation informatique comme Java, et Hadoop n’y fait pas exception. Heureusement, la fondation Apache a vite compris cela, c’est pourquoi dès l’année de la sortie d’Hadoop en 2009, elle a donné naissance à un large éventail de projets autour de lui pour faciliter son adoption. Cet écosystème est aujourd’hui catalogué sous le nom d’écosystème Hadoop. Plus encore, la fondation Apache s’est évertuée à rapprocher Hadoop du SQL. Pourquoi spécialement le SQL ? Pour deux raisons majeures : premièrement parce que le SQL est transparent aux utilisateurs, en d’autres termes, il très simple à utiliser pour les métiers. Deuxièmement parce que les entreprises utilisent de plus en plus le HDFS comme répertoire de stockage central pour toutes leurs données, données ; la majorité des outils d’exploitation de ces données (par exemple Business Objects, Oracle, SAS, Tableau, etc.) s’appuient sur le SQL. Il faut donc des outils capables d’exécuter le SQL directement sur le HDFS.
3. Le Big Data est l’expression visible d’une transition de l’ère industrielle à l’ère Numérique qui requiert obligatoirement un changement de mentalité
Le Big Data est l’expression d’un changement d’ère qui est provoqué par la vulgarisation d’Internet et l’augmentation du nombre d’objets et de personnes connectés à Internet. Le monde est en train de quitter d’une ère industrielle caractérisée par l’électricité à une ère Numérique caractérisée par les données. L’humanité a créé ces deux dernières années, bien plus de données en volume que sur l’ensemble des données générées dans les années précédentes. La transition Numérique va obliger tous les acteurs économiques (professionnels, entreprises, commerçants, etc.) à revoir la façon dont ils créent la valeur (le business model) pour leurs clients, leurs employés, leurs fournisseurs et l’Etat. Cela demande une nouvelle mentalité, ou un nouveau rapport à l’environnement, c’est ce qu’on appelle couramment un « paradigme ».
Si vous souhaitez vous orienter dans une carrière durable dans le Big Data, vous devez être conscient du fait que le marché est soutenu par ces 3 constats. Ce sont ces 3 constats qui font du marché de la data un marché très porteur aujourd’hui. Comme vous avez pu le constater tout au long de ce billet, saisir les opportunités du Big Data va impliquer d’exploiter la donnée d’une manière intelligente et exploiter la donnée va nécessiter d’une manière ou d’une autre de travailler avec Hadoop et son écosystème technologique.
Maintenant que vous avez compris ces 3 piliers, il vous faut choisir un métier vers lequel vous orienter. En Big Data, il existe plusieurs métiers vers lesquels vous pouvez vous orienter, mais les plus importants et les plus porteurs d’entre eux sont les suivants : Data Engineer, Data Architect, Data Scientist et Data Analayst. Faites votre choix et prenez le temps de développer vos compétences, car les opportunités à la clé sont très nombreuses !