DOWNTIMES EM DATA CENTERS: 7 causas principais e como evitá-las em sua empresa

 

Os downtimes de Data Centers são paralisações não programadas, normalmente causadas por falhas que prejudicam o funcionamento de equipamentos ou  sistemas inteiros, muitas vezes interrompendo o processamento de dados e gerando expressivos prejuízos às empresas.

Essas interrupções não planejadas costumam ocasionar a indisponibilidade do acesso a dados e serviços que são vitais às atividades corporativas.

Por isso, mesmos que sejam de curta duração, downtimes em Data Centers de empresas podem gerar prejuízos como:

  • Interrupção no processamento de dados.
  • Indisponibilidade de informações e sistemas corporativos.
  • Queda na produtividade.
  • Danos à imagem da corporação.
  • Perda de negócios e receitas.
  • Violações à conformidade de dados.
  • Altos custos para reestabelecer as operações de TI.

De acordo com o Instituto Uptime, mais de dois terços dos downtimes de Data Center custam acima de 100 mil dólares. E a cada quatro paralisações não programadas, uma ultrapassa um milhão de dólares em prejuízos diretos e indiretos.

Mas o que fazer para reduzir os riscos de paralisações e evitar esses prejuízos em sua corporação?

O primeiro passo é conhecer as causas mais comuns de downtimes em Data Center. E, com esse conhecimento, aplicar as estratégias certas para proteger as operações críticas da sua empresa contra as falhas que geram paralisações inesperadas.

Como? É o que vamos explicar agora. Confira no índice o que você verá neste post!

 

7 principais causas de downtimes em Data Centers e como evitá-las

 

Nos últimos anos, muita coisa mudou na operação de Data Centers. Com isso, novas causas de paralisações não programadas despontaram no ranking de downtimes em Data Centers.

A segurança das infraestruturas de missão crítica melhorou, mas a pandemia elevou bruscamente as cargas de TI.

Operar com cargas cada vez maiores se tornou o “novo normal” da era dos dados, na qual os Data Centers ocupam um papel central.

A resiliência – resistência para funcionar sob pressão – passou a ser um dos principais fatores a serem considerados quando projetamos ou operamos um Data Center corporativo.

Não foi à toa que, de acordo com o Global Data Center Survey Results 2022, 40% dos operadores de Data Center elevaram a resiliência de suas infraestruturas aumentando “os níveis de redundância de seus data centers primários nos últimos três a cinco anos”.

Significa que, além de serem cada vez mais essenciais, os Data Centers corporativos precisam ser bem projetados e administrados com as políticas de segurança certas para evitar downtimes a todo custo.

Como começar? Uma ótima estratégia é: avalie sua operação. Se você ainda está implantando seu Data Center, projete sua infraestrutura com foco em evitar as 7 causas mais comuns de downtimes de Data Centers que abordaremos agora!

 

1. Networking: problemas em rede estão entre as principais causas de Downtimes em Data Center

 

Com a utilização de aplicativos e dados cada vez mais volumosos e baseados em internet, as redes de telecomunicação em Data Centers se complicaram.

Por isso, a causa mais comum de indisponibilidades de serviços de TI em Data Centers é a falha de redes, liderando o ranking que era tradicionalmente ocupado pelos problemas de energia.

E, nesse quesito, a maior parte das paralisações é provocada por:

  • Erros de firmware, que são as programações de hardware embarcadas em equipamentos eletrônicos.
  • Falhas de configuração que geram congestionamento de dados ou a perda de capacidade de transmissão.
  • Roteamento corrompido.

Esses problemas de rede, atualmente, são responsáveis por cerca de 21% dos downtimes em Data Centers.

E eles se somam às causas de falhas mais tradicionais, como atrasos no recebimento de dados ou o rompimento de cabos. Os problemas no cabeamento estruturado – a infraestrutura que viabiliza a transmissão de dados – chegam a gerar 8% dos downtimes em Data Centers.

Mas como ter uma rede saudável?

 

Estratégias para evitar downtimes em seu Data Center por falhas de rede

 

O desafio atual é contar com inteligência especializada para projetar as soluções em cada etapa de expansão do Data Center, otimizando servidores, switches e cabos para elevar velocidade e eficiência com o menor custo.

Para suportar o volume crescente de dados, adote um cabeamento com mais fibras óticas por cabo. Isso aumenta a largura de banda e eleva a capacidade da rede de modo a suportar novas cargas no futuro.

Harmonize a rede e o processamento de dados adotando servidores com módulos ópticos adequados às necessidades atuais e de longo prazo.

Além disso, aposte numa infraestrutura com cabeamento estruturado de qualidade, certificada por testes e implantada por equipes capacitadas, bem como na manutenção preventiva de toda a infraestrutura.

 

→ Veja aqui como construir a rede de cabeamento estruturado do seu Data Center preparada para evitar downtimes.

 

2. Falhas em softwares e sistemas de TI

 

As falhas de software podem bloquear o acesso a dados ou causar sua perda. Além disso, podem gerar paradas mecânicas em componentes do Data Center.

Acompanhando a sofisticação das redes, esse tipo de falha cresceu muito com a elevação de cargas de TI nas empresas desde a pandemia.

De acordo com o Instituto Uptime, as falhas de software são “resultantes do maior uso de serviços públicos baseados na internet e de zonas complexas de disponibilidade multisite”, especialmente impulsionados pela pandemia de covid-19.

Serviços que eram realizados por equipamentos dedicados rumaram para “arquiteturas de TI em arco, onde mais funções são executadas em sistemas padrão, muitas vezes distribuídos ou replicados em muitos sites”.  Com isso, falhas em sistemas de TI e problemas de rede se tornaram mais comuns.

Em outras palavras: a arquitetura de informação está mais complexa, gerando novos desafios à segurança contra downtimes em Data Centers.

 

Estratégias para evitar downtimes em Data Centers por falhas de software 

 

O problema dos erros de software está na dificuldade de identificá-los. Por isso, é recomendado investir na segurança lógica para evitá-los.  Algumas medidas preventivas importantes são:

  • Mantenha softwares sempre atualizados. As atualizações podem evitar erros de programação e falhas de segurança, sendo vitais à proteção de dados.
  • Avalie o desempenho dos servidores. Se eles estiverem sobrecarregados pelo crescimento contínuo no processamento de dados, podem perder desempenho, ficar lentos e gerar paradas inesperadas.
  • Verifique também a evolução dos sistemas informatizados utilizados pela empresa, buscando sempre versões recentes.
  • Adote uma política de segurança de dados incluindo backups para a recuperação de informações em caso de paradas nos sistemas lógicos do Data Center.

Uma das ações mais fundamentais na segurança de redes corporativas é o estabelecimento de procedimentos e protocolos periódicos de avaliação e atualização de senhas, versões de softwares embutidos em equipamentos e mecanismos de proteção.

Adote uma política de segurança que englobe a identificação multifocal de usuários permitidos, a utilização de senhas fortes e firewalls de proteção.

Crie uma organização segmentada da rede corporativa. Assim, caso um setor sofra um ataque virtual, os demais terão um funcionamento independente.

→ Leia aqui tudo o que você precisa fazer para monitorar softwares, ter uma política eficiente de backup e manter a segurança de dados do seu Data Center.

 

3. Downtimes em Data Center por falhas em nuvem

 

Há quem acredite que a hospedagem de dados em nuvem é 100% segura e acaba com as preocupações das empresas em relação à gestão do Data Center.

No entanto, nos últimos três anos, 56% dos operadores de Data Center pesquisados pelo Instituto Uptime e que usam a nuvem sofreram uma paralisação moderada a grave causada por problemas em um provedor de serviços terceirizado.

Falhas de rede, software e mecânico/elétricas foram as principais causadoras de downtimes em nuvem.

Para o Instituto Uptime, as paralisações de Data Centers que dependem de infraestruturas terceirizadas são, muitas vezes, acompanhadas de falta de transparência.

“Atualmente, mesmo os clientes de grandes empresas nem sempre sabem por que uma paralisação  ocorreu  até  muito tempo depois que o  problema foi  resolvido” – cita a pesquisa Annual Outage Analysis 2021.

Em 2022, essa pesquisa anual apontou que 70% de todas as interrupções eram causadas por operadoras comerciais. Além disso, operadores de TI como nuvem, hospedagem, colocation e provedores de telecomunicações responderam por “63% de todas as interrupções relatadas publicamente que o Uptime rastreou desde 2016”.

O estudo aponta que nem sempre as empresas que usam serviços em nuvem podem “garantir com antecedência que os data centers (ou a TI) de seu fornecedor são bem projetados e operados”.

Portanto, sim, como em todo centro de dados, pode haver downtimes nos Data Center hospedados em nuvem.

Da mesma forma, a hospedagem colocation também pode apresentar problemas de resiliência e paralisações de serviços ou acesso a dados.

Sala segura 3

 

Estratégia para evitar downtimes em nuvem

 

Se você decidir armazenar dados em nuvem, fique muito atento à política de segurança do fornecedor do serviço. Bem como à sua transparência quanto a falhas e ao regime de operação e acesso a dados, já que você estará submetido a ela.

Corporações que precisam assumir o controle total de seus dados, garantindo sigilo e um regime próprio de operação, encontram vantagens em ter um Data Center corporativo próprio.

→ Conheça aqui as razões que levam muitas empresas a optarem por implantar um Data Center corporativo próprio.

Mas estratégias híbridas, com Data Center físico tradicional e backup de dados em nuvem ou colocation estão despontando no mercado brasileiro.

De acordo com uma pesquisa de 2021 feita pela IDC-Brasil/Oi, 80% das empresas brasileiras com grande volume de dados possuem um Data Center próprio tradicional, e 30% delas usam estratégias híbridas, como o backup virtual.

→ Aproveite para conhecer mais sobre os tipos de Data Center físicos ou em nuvem. E entenda os prós e contras de cada um deles.

 

4. Capacidade menor que a demanda

 

Na “era de dados”, vivemos um aumento considerável de cargas de TI. Com isso, infraestruturas mais simples, que muitas vezes nem foram projetadas para a missão crítica, acabaram assumindo essa função.

Naturalmente, problemas de segurança são gerados quando a capacidade de processamento está acima das condições oferecidas pela infraestrutura do Data Center.

Esse cenário – em que as demandas são maiores do que a capacidade – é ameaçador especialmente nas infraestruturas obsoletas, que operam fora das normas.

Elas são comuns mesmo em grandes empresas e ocorrem especialmente quando os centros de dados não são planejados de modo ideal. Ou seja, são dimensionados sem prever o crescimento natural do volume de operações de TI, tornando-se uma das causas mais comuns de downtimes em Data Centers.

→ Aqui você pode entender melhor o que acontece quando um Data Center não é planejado para o crescimento e opera fora das normas.

Mas o que fazer quando a empresa cresceu, as operações de TI aumentaram de uma hora para outra e o Data Center envelheceu?

 

Estratégia para evitar downtimes em Data Centers obsoletos

 

Aqui, a estratégia ideal é projetar o Data Center para o crescimento com sobras e redundâncias de infraestrutura. Além disso, manter uma política de segurança com protocolos periódicos de manutenções preventivas e backup de dados.

Desta forma, o Data Center da sua empresa não se tornará obsoleto. Mas e quando isso já ocorreu?

O caminho é chamar uma empresa especializada para avaliar a situação da infraestrutura, o que chamamos de “avaliação de risco” ou “Data Center assessment”.

Depois disso, é possível partir para o retrofit – uma reforma para atualizar a infraestrutura do Data Center.

Será fundamental enxergar o Data Center de modo global, porque não bastará inserir mais servidores para aumentar a capacidade de processamento. Também será necessário calcular novas demandas de energia, climatização e demais sistemas que compõem um ambiente de missão crítica.

Afinal, um Data Center é como o corpo humano, com sinergia entre todos os órgãos. Se um deles falhar, pode haver paralisações em um ou mais sistemas.

→ Veja como contornar esse problema com o retrofit, a reforma para atualização da infraestrutura do Data Center.

 

5. Falhas de energia

 

Falhas no suprimento de energia continuam entre as principais causas de downtimes em Data Centers, respondendo por 43% das interrupções significativas.

Problemas energéticos normalmente acontecem de modo inesperado e paralisam todo o Data Center, afetando muitos serviços ao mesmo tempo.

O conserto da falha pode até ser rápido, mas reiniciar servidores e sistemas chega a levar horas. É por isso que o custo de uma paralisação inesperada costuma ser muito alto.

As principais causas de falhas de energia são:

  • Ausência de redundância elétrica. Ou seja, de fontes de energia backup que possam entrar em operação caso a alimentação principal venha a falhar.
  • Falhas em no-breaks e fontes de alimentação ininterrupta (UPSs).
  • Defeitos em switches que fazem a transferência automática das fontes na operação energética do Data Center.
  • Problemas em geradores que não iniciam adequadamente.

 

→ Clique aqui para saber como projetar o sistema elétrico do seu Data Center com tudo que é necessário para evitar downtimes.

 

Estratégias para evitar downtimes do Data Center por falha elétrica

 

Um passo fundamental é construir seu Data Center com algumas “camadas de redundância” elétrica, conhecidas como tiers.

  • Um Data Center simples tem apenas uma camada, sendo um tier 1 – com apenas uma fonte principal de energia.
  • O tier 2 possui alguma duplicação de fonte.
  • E o tier 3, com três camadas de redundância, possui alternativas de suprimento energético como: energia da concessionária + gerador+ sistema de alimentação ininterrupta (UPS).
  • Já empresas com operações de TI muito críticas, que precisam da mais alta segurança contra donwtimes, normalmente adotam uma infraestrutura com nível de redundância elétrica tier4 , que além de fontes alternativas, possui caminhos independentes de abastecimento energético.

→ Você pode entender melhor como isso tudo funciona lendo nosso post sobre Data Centers Tier 3 e Tier 4.

 

Implantação de Data Center: funcionário em máquina de Data Center

 

Aposte na manutenção elétrica do seu Data Center

 

A instalação de fontes de energia redundantes é suficiente para mitigar falhas no fornecimento elétrico. Mas, ainda assim, downtimes no Data Center podem ocorrer por falta de manutenção preventiva nos equipamentos do sistema elétrico.

Os problemas costumam ocorrer em baterias vencidas de nobreaks/ UPSs, falhas em ventiladores, utilização de peças de má qualidade ou desgaste de componentes importantes, como geradores e nobreaks.

Sem manutenção adequada, não são incomuns os problemas mecânicos, a falta de combustível ou a degradação do óleo do motor do gerador de energia.

Também podem ocorrer sobrecargas nos circuitos elétricos ou em outros componentes da infraestrutura elétrica. Elas podem não só paralisar como gerar curtos-circuitos ou, o que é pior, incendiar o Data Center.

Portanto, redundância e manutenção preventiva são fundamentais para evitar falhas elétricas que podem paralisar as operações de TI da sua empresa.

Clique na imagem a seguir para saber  como deve ser feita a manutenção de Data Centers e por que ela é diferente da manutenção de um ambiente comum! 

 

Quais são as diferenças entre a MANUTENÇÃO DE UM DATA CENTER e a manutenção comum?

 

6. Downtimes em Data Center por falhas na climatização e proteção contra incêndios

 

Falhas nos sistemas de refrigeração, detecção e supressão de incêndios geraram boa parte dos downtimes em Data Centers.

Esses sistemas são críticos e devem ser bem projetados. Problemas como o superaquecimento do Data Center por falhas na climatização costuram ocasionar o desarme automático de servidores e equipamentos, paralisando o processamento de dados.

Já se houver um princípio de incêndio, a falta de um sistema de detecção e supressão eficiente pode causar de downtimes a danos em equipamentos, além de colocar todo o Data Center em risco, incluindo os dados que a infraestrutura armazena.

 

Estratégias para evitar paralisações

 

Aposte no planejamento, adotando um bom design de infraestrutura. Isso implica na implantação de um sistema adequado de climatização de precisão.

Um Data Center seguro também conta com um sistema moderno de proteção contra incêndios, que pode ter sensores a laser, com detectores de fumaça capazes de se antecipar à formação de chamas.

Além disso, Data Centers modernos possuem extintores a base de gases supressores não poluentes e que não danificam os equipamentos.

Outra boa estratégia para evitar downtimes é adotar um sistema de monitoramento remoto e gestão do Data Center com DCIM, que centraliza todos os dados em tempo real e permite ao operador solucionar problemas à distância.

 

7. Falhas de gestão e erros humanos: principal causa indireta de downtimes em Data Centers

 

Os erros humanos estão por trás de grande parte de todas as falhas que acabamos de comentar.

De acordo com o Uptime Institute’s Outage Analysis 2022, “40% das empresas sofreram uma grande interrupção causada por erro humano nos últimos três anos”.

E 85% desses downtimes foram gerados por descumprimento de procedimentos ou falhas nos processos de operação dos Data Centers.

Em 2021, o erros humanos mais comuns foram:

  • Não realização de procedimentos necessários (57%)
  • Execução de procedimentos ou processos incorretamente (44%)
  • Problemas em serviços como os ajustes de equipamentos ou manutenção (27%)
  • Problemas na instalação do Data Center (26%)
  • Equipe de operação insuficiente (22%)
  • Problemas na frequência das manutenções preventivas (20%)
  • Omissões ou falhas em relação ao design do Data Center (20%) e outros erros humanos (8%).

 

Estratégias contra as falhas humanas que geram downtimes de Data Centers

 

Os números evidenciam que apostar em uma boa gestão de processos pode evitar a maioria dos downtimes de Data Center por falhas humanas.

Portanto, uma boa gestão de Data Center começa com um olhar crítico sobre toda a operação. Depois de fazer essa avaliação, 75% dos gestores entrevistados na pesquisa do Instituto Uptime 2020 concluíram que a paralisação mais recente de seu Data Center poderia ter sido evitada se houvesse melhor gerenciamento das operações.

A autoavaliação permitirá que você faça ajustes, muitas vezes simples, que mitigarão muitas falhas na operacionalização do Data Center.

→  Veja aqui as dicas de gestão para evitar falhas de operação no Data Center da sua empresa! 

Mas para que os melhores procedimentos sejam colocados em prática, a melhor estratégia “antidowntime é investir em um staff de qualidade e no treinamento contínuo da equipe.

→ Saiba como o treinamento de equipes pode ajudar você a elevar a eficiência na operação e evitar downtimes em seu Data Center.

 

Check list para evitar downtimes em seu Data Center

 

 

Note que algumas medidas de proteção contra downtimes em Data Centers demandam investimento em componentes de segurança que fazem parte da infraestrutura física do site. Por isso devem ser previstas no projeto do Data Center.

No entanto, com o atual cenário de virtualização e aumento no volume de dados processados, surge um grande foco na segurança de dados.

E com isso, a proteção contra downtimes depende não só de equipamentos, mas de políticas de gestão e atualizações de softwares. Ou seja, de uma boa administração do Data Center com foco na prevenção de falhas humanas.

Sintetizamos todas as informações deste post num resumo das estratégias que a sua empresa pode (e deve!) adotar para evitar downtimes em seu Data Center. Confira!

 

 

Avalie pontos frágeis na infraestrutura do Data Center

 

Adote uma estratégia multifocal para mitigar falhas, com investimento nas áreas críticas de energia, climatização, combate a incêndios, ferramentas de gestão remota e monitoramento do Data Center.

 

 

 

Adote uma política de segurança lógica para evitar downtimes em seu Data Center

 

Estabeleça protocolos de atualização de softwares e de gestão da manutenção das redes de TI, bem como backup de dados.

 

 

Dê mais atenção à gestão para impedir downtimes no Data Center

 

Novas tecnologias, sistemas de armazenamento híbrido e a evolução das redes baseadas em internet podem representar desafios à política de gestão do Data Center. A prevenção de paralisações requer atenção a procedimentos e equipes.

 

 

 

Aposte em treinamento para evitar falhas humanas

 

A falha humana está por trás de grande parte dos downtimes de Data Center, pois grande parte dos erros está na adoção de processos inadequados ou em falhas para seguir os processos. O treinamento da equipe, somado à boa gestão, é uma ótima estratégia.

 

 

Invista em manutenção preventiva para afastar riscos de downtimes no seu Data Center

 

Muitos problemas nos equipamentos e sistemas que mais geram downtimes em Data Centers ocorrem por falhas na manutenção. Adote um protocolo de manutenção preventiva programada. Se possível, invista numa infraestrutura com redundância Tier 3 ou Tier4, que permita a manutenção simultânea (capacidade de parar equipamentos para fazer correções sem paralisar o Data Center).

→ Clique na imagem abaixo para baixar  nosso e-book sobre o protocolo de manutenção preventiva de Data Centers da Zeittec.

 

Data Center corporativo em Porto Alegre

 

Vamos ajudar a evitar downtimes em seu Data Center!

 

Para começar, leia nosso guia completo sobre como planejar o Data Center da sua empresa do projeto à obra, passando pelo moving dos ativos e pelo comissionamento – os ensaios finais que atestam o bom funcionamento da infraestrutura.

→ Aqui você pode ver nosso post com vídeo que mostra os 11 passos para construir um Data Center seguro.

Mas se você já tem um Data Center, só que precisa torná-lo mais resiliente para enfrentar o aumento de cargas de TI na sua empresa, comece a elevar a segurança contra downtimes lendo estes materiais especiais que preparamos para você:

Os perigos de operar um Data Center fora das normas e como solucioná-los

→ Retrofit de Data Centers: como fazer a reforma de um Data Center sem paralisar sua empresa?

Conte com a Zeittec para projetar um Data Center preparado para o futuro da sua corporação!

Do projeto ao moving, passando pela reforma para evitar downtimes de Data Centers, a Zeittec já tem mais de duas décadas de atuação no Brasil.

Nesse período, foram dezenas de Data Centers construídos para empresas como IBGE, no Rio de Janeiro, Autoridade Portuária de Santos, em São Paulo, MP-MS, Celesc, Sanepar, ALRS, TRF4 e outros, além de várias obras premiadas!

Entre em contato aqui e converse com nossa equipe para fazer a avaliação de riscos de sua infraestrutura e iniciar seu projeto. Com certeza encontraremos a solução de TI com o melhor custo-benefício para a sua empresa.

Obrigado pela visita e até o próximo post!

Comentários