La science des données a transformé les industries au cours des dernières décennies, révolutionnant des domaines comme la santé, les télécommunications, l’énergie, et bien d’autres. En analysant des quantités massives de données avec l’apprentissage automatique (machine learning) et l’intelligence artificielle (IA), les data scientists ont découvert de nouvelles informations qui influencent notre vie quotidienne. Cependant, aussi puissant soit-il, l’approche traditionnelle et centralisée de la science des données — qui consiste à tout traiter dans de grands centres de données distants (data centers) — pose des défis importants qui vont au-delà des aspects techniques. Ces défis affectent la confidentialité des données, leur souveraineté, ainsi que notre environnement, suscitant un intérêt croissant pour des alternatives décentralisées qui abordent directement ces enjeux.
L’Évolution de la Science des Données : De la Centralisation à la Décentralisation
La promesse initiale du cloud computing était indéniable : des ressources de stockage et de calcul massives accessibles de n’importe où, centralisant le contrôle des données et simplifiant de nombreux processus. Cette approche a bien fonctionné pour les premières applications de la science des données, où des données provenant de diverses sources — capteurs IoT (Internet des objets), dispositifs et applications commerciales — pouvaient être agrégées dans le cloud pour un traitement approfondi.
Cependant, la centralisation a également introduit de nouveaux défis, en particulier pour gérer le volume croissant de données provenant des appareils connectés. D’ici 2030, 500 milliards d’appareils devraient être connectés à Internet, et la moitié des données mondiales proviendra de capteurs, selon Cisco. Alors que la génération de données se déplace de plus en plus vers ces appareils en périphérie (edge devices), le modèle cloud conventionnel a du mal à suivre.
Un secteur qui fait face à ces défis est celui des véhicules autonomes, qui dépendent d’une grande quantité d’informations sensibles — allant de la localisation au comportement du conducteur — qui doivent rester sécurisées. Le traitement en temps réel nécessaire à la navigation autonome pose également des problèmes de latence, où les délais peuvent avoir un impact direct sur la sécurité. Ces complexités montrent clairement que le modèle centralisé du cloud n’est pas adapté à tous les besoins en matière de données, notamment pour les industries qui privilégient la confidentialité, la sécurité et le traitement rapide.
En plus des véhicules autonomes, des secteurs comme la surveillance des réseaux et la détection des menaces, les caméras autonomes et les robots industriels rencontrent des défis similaires. Ces applications génèrent et traitent de grandes quantités de données sensibles en temps réel, soulignant davantage la nécessité de modèles décentralisés qui privilégient le traitement local des données.
Les Défis Croissants de la Confidentialité, de la Sécurité et de la Souveraineté des Données
Risques pour la Confidentialité des Données dans un Modèle Cloud Centralisé
Transmettre de grandes quantités de données à des serveurs centralisés pour les traiter comporte des risques inhérents. Les violations de données dans le cloud deviennent de plus en plus courantes ; en 2023 seulement, 39 % des entreprises ont signalé une violation de données dans leur environnement cloud, contre 35 % l’année précédente [1]. Les conséquences de ces violations vont au-delà de l’accès non autorisé — elles perturbent les services et érodent la confiance, avec une récupération qui prend souvent plusieurs jours ou plus.
Les données personnelles, manipulées avec un minimum de supervision sur qui peut y accéder, ont également soulevé des inquiétudes. Les scandales liés à l’utilisation abusive des données personnelles ont poussé les pays à appliquer des réglementations plus strictes en matière de protection des données, comme le Règlement Général sur la Protection des Données (RGPD) de l’Union Européenne [2], qui impose des normes rigoureuses pour la gestion des données des utilisateurs. Face à l’escalade des préoccupations concernant la confidentialité, un nombre croissant d’organisations se demandent si la centralisation des données dans le cloud est vraiment dans leur meilleur intérêt.
Souveraineté des Données : Enjeux Nationaux et Juridiques
Un autre problème critique réside dans la souveraineté des données. De plus en plus de pays et de régions imposent des lois sur le stockage et le traitement des données, exigeant que les données restent dans leurs frontières ou soient soumises à des réglementations locales. Cela est particulièrement important en Europe, où il existe une forte tension politique concernant la dépendance vis-à-vis des fournisseurs de cloud américains. L’utilisation de ces fournisseurs étrangers pose des préoccupations sur l’accès et le contrôle des données nationales sensibles, faisant de la souveraineté des données non seulement une question juridique, mais aussi une question de sécurité nationale et de stratégie économique.
Dans cet environnement, le stockage centralisé des données dans le cloud n’est plus une solution simple — il s’accompagne de couches de complexité réglementaire et politique, surtout lorsqu’il s’agit de fournisseurs internationaux.
L’Impact Environnemental du Cloud Computing
Une Empreinte Carbone Alarmante
Il s’avère que le coût du cloud computing n’est pas seulement financier. Le secteur numérique représente environ 4 % des émissions mondiales de gaz à effet de serre, et ce chiffre devrait augmenter. Les centres de données, qui sont le cœur du cloud computing, sont très énergivores. En 2016, les centres de données consommaient environ 200 térawattheures (TWh) ; ce chiffre devrait atteindre un impressionnant 2967 TWh d’ici 2030 [3].
De plus, les centres de données nécessitent d’énormes quantités d’eau pour le refroidissement, ce qui accentue leur impact environnemental. Cette demande en ressources en eau a de graves répercussions, notamment dans les régions où la pénurie d’eau est déjà un problème majeur.
Le modèle de scalabilité horizontale (horizontal scaling) du cloud computing, qui nécessite l’ajout de serveurs pour gérer l’augmentation des charges de données, entraîne une demande encore plus grande en énergie et en ressources. Cette tendance est particulièrement préoccupante pour les modèles d’apprentissage automatique et d’apprentissage profond (deep learning), qui nécessitent des ressources de calcul considérables. En conséquence, l’empreinte environnementale du cloud computing est devenue insoutenable, avec les centres de données figurant parmi les plus grands consommateurs d’énergie et de ressources au monde.
Coûts Financiers de la Dépendance au Cloud
Non seulement le cloud computing est nuisible à l’environnement, mais il est aussi coûteux financièrement. Les fournisseurs de services cloud facturent souvent des frais pour l’ingress (données entrant dans le cloud), l’egress (données sortant du cloud), le stockage et le traitement. Ces types de coûts peuvent rendre la facture du cloud computing d’une entreprise imprévisible et opaque, car les dépenses réelles dépendent des schémas d’utilisation qui ne sont pas toujours faciles à prévoir ou à optimiser. Les centres de données hyperscales, opérés par de grands fournisseurs de cloud, ont entraîné une forte augmentation des coûts opérationnels pour les entreprises qui dépendent de ces services.
Dans certains cas, les serveurs restent sous-utilisés, ne fonctionnant qu’à 10-15 % de leur capacité tout en consommant une énergie considérable. De plus, les serveurs zombies (zombie servers), qui sont inactifs mais continuent de consommer de l’énergie, représentent environ 30 % de tous les serveurs de centres de données. Ensemble, ces inefficacités soulignent un cycle insoutenable. À mesure que les entreprises continuent d’étendre leur utilisation du cloud, la demande en énergie augmente, tout comme les impacts environnementaux et économiques.
Conclusion : Une Vision pour l’Avenir
L’approche actuelle centrée sur le cloud en matière de science des données a permis des avancées significatives, mais elle a également introduit de sérieux défis en termes de confidentialité, de souveraineté et d’impact environnemental. Avec 4 % des émissions mondiales de gaz à effet de serre attribuées au secteur numérique et des centres de données consommant d’énormes quantités d’énergie et de ressources en eau, il est clair que nous devons repenser notre approche.
Au cœur de la vision de Manta se trouve un passage de la dépendance au cloud vers un modèle compute-to-data (traitement près des données), où le traitement des données se fait à proximité de l’endroit où les données sont générées. En développant des solutions logicielles qui supportent le edge computing et le traitement collaboratif, Manta vise à aider les entreprises à surmonter les limites du cloud, leur permettant d’innover avec des solutions de données sécurisées, efficaces et durables. Dans notre prochain article, nous explorerons comment le middleware de Manta rapproche la computation des données, réduisant l’impact environnemental et améliorant la sécurité — ouvrant ainsi la voie à un avenir plus intelligent et décentralisé de la science des données.