Checklist de Recuperação em 4 Etapas para UPS e Outros Equipamentos de TI Após uma Interrupção

As quedas de energia se tornaram mais frequentes e severas nos últimos anos. Em 2021, por exemplo, diversas comunidades no Texas e em todo o sul dos Estados Unidos tiveram que lidar com o maior blecaute forçado e falha na rede elétrica da história.

Como profissional de TI, você pode ser um especialista nas formas de preparar e proteger equipamentos — (UPS) fontes de alimentação ininterruptas, geradores, etc. — em caso de queda de energia. Inclusive, se você precisar de uma atualização, este artigo é um bom lugar para começar.

Mas e depois que a energia voltar? Quais são as perguntas que você precisa fazer para avaliar sua infraestrutura de TI durante o estágio de recuperação?

Nesta postagem, estão descritas quatro perguntas que você precisa fazer ao avaliar seu equipamento de TI após uma queda de energia.

Checklist de recuperação de equipamentos de TI

1. Eu planejei corretamente?

Mesmo a instalação mais avançada não pode garantir 100% de disponibilidade de sua infraestrutura de TI – há sempre o risco de uma interrupção. Uma das melhores maneiras de garantir uma resposta rápida e eficaz quando uma interrupção acontecer é ter um plano de emergência em vigor.

Sem plano? Se você não tinha um plano em vigor, é hora de criar um. O artigo “Como Preparar e Responder a Emergências de Data Center” é um recurso útil. Ele inclui informações detalhadas sobre os elementos essenciais a serem incluídos em seu plano, como procedimentos de resposta a emergências, exercícios de emergência e informações de gerenciamento de incidentes.

Lembre-se de que este documento é específico para Data Centers, mas você pode aplicá-lo a qualquer instalação com infraestrutura de TI crítica.

Tem um plano? Legal. Dê uma olhada no seu plano de emergência e determine se ele atendeu às suas necessidades. A principal pergunta a ser respondida é: tudo funcionou como pretendido? Se tudo funcionou como planejado, o que significa que não houve danos a ativos/instalações ou perda de dados, as pessoas certas se mobilizaram rapidamente e você não precisou fazer nada diferente, então parabéns a você.

Mas, devido à natureza das quedas de energia, as respostas de emergência nem sempre são perfeitas. Se você notar algumas áreas para melhoria, aprofunde-se ainda mais no problema passando para a próxima pergunta.

2. O sistema em vigor funcionou como esperado?

Seu plano de emergência provavelmente inclui muitos elementos para manter sua infraestrutura de TI protegida durante uma interrupção. Por exemplo, ele pode detalhar o que fazer durante uma falha de serviço público ou transformador, ou como solucionar problemas de geradores em standby e fontes de alimentação ininterruptas.

Como você determinou áreas para melhoria com seu plano de emergência, vá até a raiz dos problemas. Os mais comuns que afetam a infraestrutura de TI durante e após uma interrupção envolvem circuitos, energia de backup, resfriamento e software — então comece por aí.

  • Os circuitos e dispositivos certos estavam protegidos?
  • O tempo de execução da fonte de alimentação ininterrupta foi adequado?
  • Os geradores de backup ligaram?
  • O software desligou com segurança os sistemas críticos antes que a UPS ficasse sem bateria?
  • Todos os procedimentos de manutenção preventiva do equipamento (UPS, geradores, etc.) estavam atualizados?

Uma resposta “não” a qualquer uma dessas perguntas justifica um mergulho mais profundo no problema. Por exemplo, se a fonte de alimentação ininterrupta não funcionou por tempo suficiente, talvez seja necessário trabalhar com um provedor de soluções de TI para substituir baterias mais antigas ou trocar o gabinete de bateria por um maior para aumentar o tempo de execução.

3. Houve danos?

Quedas de energia geralmente resultam de desastres naturais. Durante esses eventos, ventos fortes, água e fogo, com mudanças ambientais aparentemente menores, como uma flutuação de temperatura, podem danificar equipamentos de TI e causar tempo de inatividade.

Nesta fase do processo de recuperação, identifique a localização e o alcance do dano. E à medida que você ou um provedor de serviços corrige quebras, ou problemas, lembre-se também de abordar a causa raiz. Digamos que um servidor foi danificado por um pico de tensão. Nesse caso, você pode querer examinar as soluções aprimoradas de proteção contra surtos.

4. O que eu devo fazer de diferente da próxima vez?

Encerre sua lista de verificação avaliando seu sentimento geral sobre a resposta à falta de energia. Se você se sentiu confortável com seu plano e execução, observe isso em seu plano, detalhe todas as lições aprendidas e tenha certeza de que está pronto para a próxima interrupção.

Porém, se você observar quaisquer áreas gritantes para melhoria, é hora de rever sua estratégia de falta de energia. Ao montar um plano renovado, considere tanto erros claros quanto “quase erros”. E depois que a nova versão estiver concluída, realize exercícios de emergência para avaliar e ajustar o processo.

Suporte adicional para infraestrutura de TI

Quedas de energia são um dado. Mas uma recuperação rápida não é. Seguir a lista de verificação de quatro etapas descritas neste artigo ajudará você a avaliar seu equipamento e plano e lhe dará orientação sobre a melhor forma de se preparar para a próxima interrupção.

Precisando de suporte? Nós podemos ajudar.

Clique aqui para explorar mais recursos de falta de energia.

Além disso, veja este relatório da NEMA, que descreve padrões para avaliar, substituir e/ou recondicionar equipamentos elétricos danificados pela água.

E se tiver dúvidas específicas sobre o seu equipamento APC™ ou Schneider Electric™, entre em contato com o Centro de Apoio ao Cliente!

Tags: , ,

Adicione um comentário

Todos os campos são obrigatórios.