ti-enxame.com

Cliffhanger: Os backups estão certos ... aqui ... certo?

No meu trabalho, os backups têm uma prioridade surpreendentemente baixa. A estratégia de backup foi implementada há algum tempo, e desde então é apenas assumido que os backups estão bem. Se você perguntar aos sysadmins, eles dirão que tudo é backup.

Mas então, quando você pede um backup específico, metade do tempo eles não estão lá:

  • O disco ficou cheio
  • A fita falhou
  • Parece que alguém desativou o trabalho de backup
  • A conexão de rede tinha tempo de inatividade
  • Nós pedimos que os anos de disco atrás, mas Finanças não aprovou o pedido de compra
  • Os arquivos estão corrompidos
  • Arquivo contém banco de dados errado
  • Apenas backups de log de transações (inútil sem um completo)

Algumas semanas atrás, o desastre ficou real próximo como um dos servidores perdeu muitos discos RAID. Felizmente, um disco ainda era gentil o suficiente para copiar os dados, se você tentou muitas vezes.

Mas mesmo depois daquele desastre, não consigo convencer os sysadmins a melhorar a situação. Então estou me perguntando, quaisquer dicas para abrir os olhos das pessoas? Parece-me que estamos andando pela beira de um penhasco.

28
Andomar

Por onde começar? Isso é um desastre esperando para ocorrer. ma função de trabalho principal do SysAdmins é garantir que os dados sejam submetidos a backup e recuperáveis. Todo o resto é secundário. Não, se não é, mas é.

Aqui estão algumas coisas que você pode fazer:

  1. Rastrear kpis para restaurações. Deve ser possível produzir um relatório mostrando quantas solicitações de restauração foram bem sucedidas. Qualquer coisa menos de 100% deve ser investigada completamente. Gerenciamento de relatórios de amor e isso é uma evidência difícil.

  2. Deve haver procedimentos documentados para todas as operações de backup e restauração, incluindo todos os sistemas e sua estratégia de backup, rotações de fita, agendamentos, caminhos de escalonamento, restauração de teste, etc. Peça para vê-los.

  3. Fale com o gerente dos administradores do SYS e expresse suas preocupações. Vá armado com a prova de que restaura não estão funcionando. Se nenhuma alegria for maior.

Sério - chute um confuso. Coisas como esta podem destruir uma empresa.

14
PowerApp101

Proponha (no mínimo) testes de recuperação de desastres anuais. O trabalho necessário para executar com sucesso o teste deve revelar deficiências.

5
aharden

É fácil culpar os administradores - no entanto Oskar tem direito: essas coisas são conduzidas do topo. Se a administração não gastar os dólares para fazer backups uma prioridade, então os sysadmins geralmente estão sem sorte e fazem o melhor que podem com os recursos que possuem.

A chave, se você é um desses administradores azarados - e eu estive neste barco para alguns compromissos de clientes - é que você garante que a gerência seja informada, repetidamente, e de uma forma de papel confirmável, que isso é um risco para o negócio.

Minha estratégia é martelar constantemente nos problemas. Se você fizer isso, às vezes os problemas serão consertados, mas é principalmente para que o que informe não possa me esconder atrás do "Eu nunca foi informado" desculpa. Como consultor, geralmente posso ir melhorar. Eu posso obter meus chefes para breve gerência mais sênior do que posso que há uma vulnerabilidade. Isso espalha a culpa, ou pelo menos o concentra em um nível mais alto do que eu.

Ao mesmo tempo você tem que ser inventivo e trabalhar duro para minimizar os riscos com quaisquer recursos que o cliente possa fornecer.

Em alguns casos, os administradores podem ser culpáveis, a gestão é sempre responsável: por conhecer o risco e não fazer o suficiente para mitigá-lo, ou contratar pessoas que não os alertam para esses riscos.

4
David Mackintosh

Um backup que não é testado não é um backup.

2
Dave Cheney