La demande de capacités informatiques et de data centers a atteint un niveau sans précédent. Les data centers de colocation et hyperscale fonctionnent à leur niveau optimal, mais la fiabilité et le temps de bon fonctionnement demeurent un sujet de préoccupation. L’enquête menée par le Uptime Institute’s 2019 Global Data Center Survey, par exemple, indique qu’un tiers des 1600 personnes interrogées a connu une interruption de service ou une importante dégradation du service. Un certain nombre de ces incidents a entraîné de graves pertes financières liées à l’activité. Près de 80 % des personnes interrogées ont également indiqué que leur dernière interruption de service aurait pu être évitée. Le temps de rétablissement complet suite à la plupart des interruptions était compris entre une et quatre heures, et plus d’un tiers des personnes consultées déclare un temps de remise en service supérieur à cinq heures.
Pour les data centers de colocation et hyperscale dont les clients exigent un niveau de fiabilité déterminé, une telle situation est intenable. Les approches innovantes doivent aller au-delà de la simple garantie de fiabilité des équipements de l’infrastructure physique de chaque data center. Bien qu’un équipement, comme un onduleur, puisse fonctionner pendant une longue période sans connaître aucune défaillance, une approche plus globale est indispensable pour garantir un degré plus élevé de fiabilité opérationnelle.
C’est là qu’intervient l’approche de la fiabilité critique (CTR : Critical To Reliability) pour ajouter de la valeur. Celle-ci intègre les nombreux composants physiques utilisés dans les systèmes d’infrastructure des data centers qui garantissent le temps de bon fonctionnement – comme les onduleurs, les appareillages de commutation, les systèmes SCADA, les disjoncteurs, les logiciels de surveillance de l’alimentation et les automates programmables (PLC) – et les gère de manière globale. Correctement mise en œuvre, l’approche CTR contribue à renforcer la fiabilité totale des systèmes de colocation et hyperscale.
L’approche CTR fournit une prévision de durée de fonctionnement plus précise
Afin de mettre en application l’approche CTR, les fournisseurs de data centers de colocation doivent d’abord connaître la différence qu’il existe entre la qualité d’un produit et sa fiabilité. Par exemple, un onduleur de qualité doit fonctionner correctement après sa fabrication, ses tests et sa mise en service. Cependant, une fois que l’onduleur est exploité au sein d’un environnement de production réel, le facteur de temps – la durée pendant laquelle l’onduleur fonctionnera effectivement – entre en jeu. Ce paramètre, qui est essentiel à la notion de fiabilité du produit, intègre également le moment où un client est affecté par une défaillance (c’est-à-dire la rapidité avec laquelle la défaillance est corrigée).
L’approche CTR repose sur un concept théorique qui permet aux hyperscalers et aux fournisseurs de services de colocation de se conformer aux normes de fiabilité qui les engagent auprès de leurs clients. « S’ils installent, par exemple, 10 onduleurs et 10 ensembles de commutation, ils savent que tous ces systèmes doivent fonctionner ensemble sans problème pendant cinq ans afin de remplir leurs engagements en termes de fiabilité », déclare Andy Durand, conseiller des clients auprès des géants d’Internet dans l’équipe « Qualité et satisfaction clients » de Schneider Electric.
« Aujourd’hui, de nombreuses données sont recueillies sur les actifs des infrastructures physiques des data centers et leurs performances sur le terrain », explique Andy. « Ces données permettent aux parties prenantes qui analysent une flotte d’actifs, par exemple, de savoir combien de temps les systèmes et les ensembles de systèmes fonctionnent sans connaître de défaillance. » La création d’un tel référentiel de mesures de temps de bon fonctionnement permet d’approfondir la compréhension du niveau véritable de la fiabilité des systèmes.
L’analyse des défaillances intègre l’équation prédictive
L’analyse des défaillances est également un facteur essentiel. Un processus intégré au CTR, appelé « issue-to-prevention » (du problème à la prévention), prévoit de manière automatique des interventions de maintenance et des mécanismes de répartition et de coordination des services aux systèmes. Ces services s’appuient également sur des indicateurs de performance clés (KPI) pour mesurer l’efficacité et la rapidité de chaque cas traité, ainsi que les données collectées et analysées pour, une fois encore, améliorer la précision des prévisions de fiabilité. Lorsqu’un problème est résolu, une dernière phase permet d’examiner les raisons de la défaillance du système. Cette évaluation technique examine les pièces défectueuses et les compare à d’autres incidents pour déterminer s’il existe un problème systémique, comme une augmentation des pannes de condensateur, par exemple.
L’objectif du processus CTR est d’anticiper les défaillances grâce à des prévisions plus précises, de documenter les problèmes à mesure qu’ils surviennent et de les classer en fonction de leur niveau de criticité. Au fur et à mesure que ces problèmes sont traités, ils sont, soit mieux contrôlés, soit les défauts de conception des équipements sont corrigés afin de favoriser la continuité de l’alimentation du data center.
Pour en savoir plus sur la manière dont les fournisseurs de services de colocation se concentrent sur le niveau de fiabilité proposé aux clients d’hyperscale et les entreprises, consultez ce blog, Pourquoi les hyper-convergents s’appuient sur les fournisseurs de services de colocation pour répondre à la forte demande de capacité et de services des data centers.
Ajouter un commentaire