COMPRENDRE L'ÉCOSYSTEME DATA : DES FONDATIONS AUX PLATEFORME MODERNES

L'Évolution des Métiers De La Donnée

De DBA à Data Engineer

Temps de lecture : 15 min Niveau : Intermédiaire Mise à jour : 2024

Comprendre l'Écosystème Data

Des Fondations aux Plateformes Modernes

Une transformation historique des architectures et des métiers

Évolution Historique

De 1970 à nos jours, découvrez comment les technologies data ont transformé les entreprises

Architectures

Du monolithe aux microservices, en passant par le cloud et les architectures distribuées

Métiers

Comment le DBA traditionnel est devenu le Data Engineer moderne

L'ÈRE DES BASES OPÉRATIONNELLES

1970-1990 : Les Fondations

Le contexte initial

  • Tout centralisé sur mainframes
  • Bases de données relationnelles (DB2, Oracle, SQL Server)
  • Systèmes OLTP (Online Transaction Processing)
  • Analyses directes sur les systèmes de production

Qu'est-ce que l'OLTP ?

OLTP (Online Transaction Processing) : systèmes optimisés pour traiter rapidement des transactions individuelles

  • Exemples : ERP, CRM, base PostgreSQL pour e-commerce
  • Transactions typiques : insertion commande, mise à jour stock, paiement
  • Caractéristiques : rapides, fiables, isolées

Le problème des requêtes analytiques

Exemple concret : "Donne-moi le top 100 des produits les plus vendus depuis 1 an"

Impact sur le système OLTP :

  • Scanner des millions de lignes
  • Agrégations coûteuses en CPU et mémoire
  • Monopolisation des verrous (locks) sur les tables
  • Résultat : transactions courantes ralenties ou bloquées
CONSÉQUENCE

Dans une base unique, mélanger opérations transactionnelles et analyses lourdes créait un conflit d'usage.

L'ÉMERGENCE DU DATA WAREHOUSING

1990-2000 : La Séparation des Responsabilités

C'est ce qui a conduit à l'apparition du principe :

OLTP

Bases optimisées pour des transactions rapides et fréquentes

  • MySQL, PostgreSQL
  • Oracle, SQL Server
  • DB2, etc.
OLAP

Bases séparées, optimisées pour des requêtes analytiques massives

  • Teradata, Netezza
  • Puis Snowflake, BigQuery
  • Redshift, etc.

Solution adoptée : Data Warehouses

  • On extrait les données des systèmes transactionnels (ERP, CRM, etc.)
  • On les charge dans une base analytique dédiée
  • Les analyses ne gênent plus le système transactionnel

Architecture ETL

SourcesExtractTransformLoadData WarehouseData Marts

Outils dominants

Informatica, DataStage, Business Objects, Cognos

Aujourd'hui, avec le cloud et la séparation du stockage et du calcul (Snowflake, BigQuery), on a encore plus d'isolation et d'élasticité.

OLTP VS OLAP : DEUX PARADIGMES

Comprendre les Différences Fondamentales

OLTP (Online Transaction Processing)

  • Optimisé pour : Transactions rapides
  • Opérations : INSERT, UPDATE, DELETE
  • Structure : Normalisée (éviter redondance)
  • Volume : Quelques lignes par requête
  • Concurrence : Élevée
  • Exemple : Validation commande e-commerce

OLAP (Online Analytical Processing)

  • Optimisé pour : Analyses et rapports
  • Opérations : SELECT complexes, agrégations
  • Structure : Dénormalisée (performance lecture)
  • Volume : Millions de lignes par requête
  • Concurrence : Faible
  • Exemple : Chiffre d'affaires par région/mois

Cette distinction fondamentale guide encore aujourd'hui nos choix architecturaux

LA RÉVOLUTION BIG DATA

2000-2010 : L'Explosion des Données

Les nouveaux défis

Volume

Explosion des données web, logs, capteurs

Variété

Données non-structurées (texte, images, vidéos)

Vélocité

Données en temps réel, streaming

Timeline

2003-2006 Naissance de Hadoop

Google publie ses papiers sur GFS et MapReduce. Doug Cutting crée Hadoop

Écosystème Hadoop

HDFS (stockage), MapReduce (calcul), Hive (SQL), Pig (scripting), HBase (NoSQL)

Bases NoSQL

MongoDB, Cassandra, Redis - Nouvelles approches de stockage

Impact sur les métiers

Les DBA traditionnels doivent évoluer vers des compétences de développement distribué et administration de clusters.

DU DBA AU DATA ENGINEER

La Transformation des Compétences

DBA Traditionnel

  • Administration bases de données
  • Optimisation requêtes SQL
  • Sauvegardes et restaurations
  • Sécurité et accès
  • Maintenance des index
  • Monitoring performances

Focus : Stabilité et performance

Data Engineer Moderne

  • Architecture de pipelines de données
  • Développement ETL/ELT
  • Infrastructure cloud et containers
  • Orchestration et monitoring
  • APIs et intégrations
  • DataOps et CI/CD

Focus : Scalabilité et automatisation

Nouvelles compétences requises

Programming (Python, Scala) Infrastructure as Code DevOps Distributed Systems Stream Processing

L'ÈRE CLOUD ET MICROSERVICES

2010-2020 : La Démocratisation de l'Infrastructure

La transformation cloud

  • Démocratisation de l'infrastructure massive
  • Pay-per-use vs investissements lourds
  • Managed services vs administration manuelle
  • Auto-scaling et élasticité

Timeline

2012 AWS Redshift

Premier data warehouse cloud massivement parallèle

2012 Google BigQuery

Analytics serverless avec séparation compute/storage

2016 Snowflake IPO

Architecture cloud-native révolutionnaire

Impact architectural

  • Passage des monolithes aux microservices
  • API-first et découplage des systèmes
  • Event-driven architecture
  • Containerisation (Docker, Kubernetes)

LA MODERN DATA PLATFORM

L'Architecture Actuelle

Architecture actuelle

Sources APIs, Databases, Files, IoT, ...
Ingestion Fivetran, Airbyte, Kafka, Pub/Sub, ...
Storage S3, GCS, ...
Transformation dbt, Spark, Airflow, ...
Datawarehouse Snowflake, BigQuery, Redshift, ...
Lakehouse Databricks, ...
Visualization Looker, Tableau, Power BI

Caractéristiques clés

  • ELT over ETL : transformation dans le cloud
  • Schema-on-Read : flexibilité des données
  • Git-based workflows : versioning du code
  • Self-service analytics : autonomie des équipes
  • Real-time + Batch : architectures hybrides

Conclusion

L'évolution du métier de la donnée reflète la transformation numérique des entreprises. Du DBA traditionnel au Data Engineer moderne, les compétences ont évolué vers plus de programmation, d'automatisation et de cloud. Cette transformation continue avec l'émergence de nouvelles technologies et architectures.