Surveillance et analyse thermique dans le centre de calcul

Vers une efficacité énergétique accrue dans la salle blanche du Data Center

La surveillance de l’environnement du centre de calcul fournit des données, des analyses et des informations importantes aux opérateurs, ce qui leur permet d’accroître l’efficacité, de réduire la consommation d’énergie et ainsi de réaliser des économies. Les solutions modulaires visant à augmenter l’efficacité thermique, qui commandent la salle blanche du Data Center à l’aide de mesures de température et de pression, définissent des objectifs clairs. Il est donc possible pour les opérateurs d’atteindre leurs objectifs, de mettre en place des systèmes neutres en termes de coûts et de réaliser des économies.

La notion de salle blanche dans le Data Center désigne la zone dédiée aux serveurs et aux systèmes de ventilation des armoires pour serveur. Les autres zones du centre de calcul, tout aussi importantes et qui abritent les groupes réfrigérants, les onduleurs et les autres dispositifs de fonctionnement, sont appelées zones de support. Des dispositifs de surveillance et de commande sont indispensables dans les zones de support ainsi que dans les salles blanches, afin de satisfaire une série d’exigences liées à la conformité et aux clients, par exemple pour les indicateurs d’efficacité énergétique.

Les exigences du secteur et des clients incitent de plus en plus d’opérateurs de centres de calcul à implémenter des systèmes de surveillance de l’environnement. Il existe dans ce contexte des différences majeures entre les centres de calcul « stratégiques » et « fondamentaux ». Les avantages financiers et écologiques liés à l’utilisation d’un système de surveillance intelligent, notamment dans les solutions modulaires de gestion des actifs et de la connectivité, sont un argument de taille.

Image 1. Raisons pour lesquelles les opérateurs de centres de calcul investissent dans la surveillance de leur environnement
(source : estimations d’IBM)

Il n’est pas rare que les coûts liés aux pannes et à leur fréquence augmentent. L’arrêt d’un centre de calcul utilisé par Wikipédia a eu pour conséquence de rendre le site Web indisponible pendant plusieurs heures. De même, le service de messagerie Outlook de Microsoft a été paralysé pendant
16 heures en raison d’un arrêt imprévu. Ces deux incidents ont été provoqués par la surchauffe des serveurs du centre de calcul qui a conduit à leur coupure automatique. Pourquoi n’y avait-il aucun système de surveillance et de commande qui aurait permis d’éviter ces arrêts non planifiés ?

 Image 2. Coûts d’un arrêt partiel et d’un arrêt complet

Des normes internationales telles que ASHREA TC 9.9, ETSI EN 300 et EN 50600-2-3 établissent un cadre en matière de bonnes pratiques, de conformité et de mise en place d’environnements informatiques (Information Technology Environments, ITE) adaptés. Les opérateurs disposent
également de la technologie permettant de concevoir des systèmes et des recommandations basés sur ces principes de base pour les environnements de traitement des données, afin de pouvoir éviter les problèmes de surchauffe de ce type et de réduire, voire d’éliminer totalement les interruptions pour les utilisateurs avec les conséquences financières que celles-ci peuvent entraîner.

Principes de base de la gestion de l'écoulement d'air et de la commande de systèmes de refroidissement conformément à la norme ASHREA TC 9.9

  1. Au niveau de l’armoire de serveur/du rack : la température d’entrée et l’humidité relative de l’air des racks et des armoires de serveurs sont mesurées et surveillées sur la partie inférieure, au centre et sur la partie supérieure afin de maintenir une valeur de référence de température
    recommandée (15-32°C).
  2. Au niveau de la zone confinée (en complément du 1er point) : lors de l’utilisation d’une zone confinée à allée froide, la température dans l’allée chaude peut atteindre 50°C. La température de sortie est mesurée et surveillée sur le dessus du rack et de l’armoire de serveur. Lorsqu’une zone confinée à allée chaude est utilisée, il est nécessaire de surveiller la température dans toute la pièce.
  3. L’humidité de l’air et la température doivent être surveillées à l’entrée et à la sortie à proximité de chaque unité CRAC/CRAH. La valeur de référence de l’humidité relative de l’air est de 60%. Les valeurs admissibles sont comprises entre 20% et 80% d’humidité relative.
  4. Gestion de l’écoulement d’air et commande du système de refroidissement : une stratégie doit être définie pour la gestion de l’écoulement d’air et la commande du système de refroidissement. En cas de gestion adéquate de l’écoulement d’air, la température peut augmenter de 20°C ; lorsque la température d’entrée est de 40°C, la température dans l’allée chaude est d’environ 60°C.

La gestion de la pression de l’air est un autre composant important du système de gestion de l’écoulement d’air et de refroidissement de la salle blanche du centre de calcul.

Les centres de calcul requièrent une grande quantité d’énergie. Le fonctionnement d’une salle blanche avec plusieurs centaines ou plusieurs milliers de serveurs implique une consommation d’énergie très importante, qui va de pair avec un dégagement de chaleur conséquent. Celui-ci doit être maîtrisé. Il n’est pas rare que le système de refroidissement d’un tel équipement consomme autant voire davantage d’énergie que la salle blanche elle-même. Une salle blanche bien conçue avec un système de refroidissement surveillé et commandable présente aujourd’hui des besoins en énergie considérablement réduits. Les nouveaux développements en matière de planification thermique, de surveillance et d’optimisation du refroidissement permettent d’économiser des milliers d’euros, de livres sterling et de dollars en coûts énergétiques, et de prévenir en même temps les problèmes afin de garantir la stabilité et la fiabilité du centre de calcul.

Afin de mettre ces changements importants en application, il est nécessaire d’opérer une réorientation. L’approche classique consistait auparavant à assurer un environnement frais dans lequel l’air froid s’écoulait sur les surfaces des appareils chauds (serveur et interrupteurs), et l’air chaud sortant était évacué. Cette solution CVC consomme beaucoup d’énergie pour amener la température de l’air puisé à la valeur nécessaire pour réduire la température des appareils chauds, tandis que l’air chaud sortant souvent inutilisé est évacué et perdu.

Tendances en matière de méthodes de refroidissement alternatives dans les Data Centers

Les installations de traitement des données actuelles dans les salles blanches présentent des températures de fonctionnement plus élevées. Cela a poussé le secteur des centres de calcul à développer des méthodes de refroidissement alternatives, qui tirent parti d’environnements intelligents. Plus la température dans la salle blanche est élevée, plus la quantité d’énergie nécessaire pour équilibrer la température de l’air puisé est faible. Une température d’entrée comprise entre 18°C et 27°C au niveau des appareils et une humidité relative de l’air comprise entre 20 et 80% permettent généralement de réunir les conditions de fonctionnement requises par le fabricant.

Il est donc de plus en plus courant de pouvoir surveiller et commander les conditions ambiantes, parmi lesquelles la température et l’humidité relative de l’air, et de maintenir les conditions ambiantes admissibles grâce auxquelles les systèmes fournissent des performances optimales.

Le fonctionnement dans un environnement plus chaud signifie que les serveurs hautes performances s’approchent de leurs limites de fonctionnement maximales. Par exemple, lorsqu’un pic d’utilisation important survient au niveau du processeur et qu’un grand nombre de serveurs sont en cours de fonctionnement et qu’au même moment un générateur tombe en panne alors que la protection de l’onduleur n’est pas efficace à 100%, les ventilateurs sont susceptibles de ne pouvoir démarrer suffisamment rapidement pour éviter la surchauffe et, à terme, l’arrêt des serveurs.

Comme nous l’avons déjà mentionné, les arrêts non planifiés peuvent entraîner des pertes de chiffre d’affaires conséquentes pour le centre de calcul, par exemple en raison des indemnisations devant être versées aux clients, des atteintes à la réputation et de la perte de nouveaux clients potentiels.

Pour que les performances soient optimales, il est nécessaire de pouvoir surveiller l’environnement thermique de la salle blanche de manière intelligente et analyser les données générées en temps réel afin d’obtenir des informations pertinentes pour maintenir un fonctionnement efficace de la salle blanche.

Les opérateurs de centres de calcul doivent respecter et implémenter trois niveaux spécifiques afin de mettre en place une solution optimisée de surveillance et de refroidissement de l’environnement de fonctionnement :

  1. Surveillance – alarme et messages : la norme ASHREA définit les principes de base concernant la disposition des capteurs dans la salle blanche. La nouvelle génération de capteurs propose des nœuds thermiques, des nœuds thermiques avec mesure de l’humidité de l’air et des nœuds de pression. Ceux-ci peuvent être facilement configurés au sein d’un réseau maillé sans fil et permettent une mise en place facile, rapide et sûre d’appareils avec un réseau de capteurs extrêmement stable, autorégénérant, évolutif et efficace.
  2. Optimisation du refroidissement – adaptation de l’écoulement d’air et compensation des inégalités du sol : l’établissement d’indicateurs concernant l’écoulement de l’air au moyen de la mécanique des fluides permet de modéliser les conditions environnantes possibles en accord avec les objectifs de l’opérateur. L’évaluation des possibilités en matière de zone confinée et l’installation de plaques de sol perforées garantissent un écoulement d’air optimal pour l’ensemble du circuit thermique. Un logiciel de représentation du refroidissement en temps réel permet de créer des cartes thermiques de la salle blanche.
  3. Commande CVC (chauffage, ventilation, climatisation) et adaptation dynamique du refroidissement à la charge informatique : les analyses de données en temps réel sur tout le système fournissent des informations utiles. Le système analyse les données en continu afin d’améliorer la gestion de l’écoulement d’air et de réduire la consommation d’énergie. La
    commande en temps réel permet au système de maintenir un état optimisé grâce à la gestion de l’écoulement d’air. Pour cela, le régime de rotation des ventilateurs est régulé, la température de l’air est commandée en adaptant la valeur de température nominale via la surveillance thermique.

Conclusion

Selon les estimations, la quantité d’énergie requise pour refroidir les centres de calcul du monde entier au cours des dix dernières années a triplé, ce qui n’est pas sans conséquence sur les coûts et l’environnement. C’est pourquoi les clients, les organisations environnementales et les gouvernements poussent le secteur à utiliser l’énergie de manière plus efficace.

Les opérateurs de centres de calcul étudient et implémentent actuellement des systèmes intelligents permettant d’ouvrir la voie à une analyse continue des données et à une optimisation dynamique. Les systèmes de gestion du refroidissement et de l’environnement de nouvelle génération, conçus pour répondre à ces exigences particulières des opérateurs de centres de calcul, fournissent des informations utiles qui permettent, grâce à un meilleur rendement des installations à l’aide de méthodes simples, de réduire de manière drastique la durée nécessaire avant de parvenir à un retour sur investissement.

L’auteur : 

Michael Akinla, TSE Manager EMEA, Panduit Europe

Recommander cet article

Nous vous recommandons

Les trois principes fondamentaux d’une infrastructure de data center

Les trois principes fondamentaux d’une infrastructure de data center

Découvrez comment rendre l’infrastructure de votre data centre plus intelligente, plus efficace et plus sûre grâce à l’utilisation ciblée d’unités d’alimentation électrique intelligentes et de leurs fonctions supplémentaires. En savoir plus sur les demandes croissantes en matière de data centre

Utilisation des unités de distribution électrique intelligentes pour les Technologies de l’information

Utilisation des unités de distribution électrique intelligentes pour les Technologies de l’information

Capacités d’alimentation des unités d’alimentation électrique intelligentes équipées de capteurs, d’indicateurs, d’éléments de commutation et d’accès au réseau. En savoir plus sur l’utilisation de ces unités de distribution d’énergie (PDU) dans les armoires de réseaux de données et leurs avantages.

Atténuation des risques pour la sécurité sur le panneau de commande

Atténuation des risques pour la sécurité sur le panneau de commande

Dans cet article, vous pourrez comparer la différence entre espace blanc et espace gris dans le data center et ce qui sépare les data centers « stratégiques » des data centers « standards ».