ti-enxame.com

Taxas relativas de falhas para componentes de hardware

Vamos dizer que estou configurando um único servidor de máquina. Sem conhecer os componentes específicos nele (e ser capaz de procurar seus MTBFs), quais são as taxas de falhas relativas típicas dos componentes de hardware no servidor?

Equivalentemente, quais são os rankings dos componentes mais frequentemente substituídos em todos os servidores em uso corporativo?

5
Jim Hunziker

Sobre discos rígidos, muitas pessoas entendem mal o MTBF e pensam uma unidade com um MTBF 100.000 horas durará, em média, por 11,5 anos. O que o fabricante significa é que em uma coleção de um grande número de unidades, n, todos dentro de sua vida, que uma unidade arquivará para cada 100.000/n horas. Se você tiver 100.000 unidades que cada um tenha um MTBF de 100.000 horas, então você deve esperar uma unidade para falhar - em média - a cada hora.

Discos rígidos falham com mais frequência do que as pessoas esperam. Backup, faça backup, faça backup.

Qualquer coisa com partes móveis pode falhar, incluindo discos de fita, disquetes, fãs e assim por diante. Eu tive o fã em placas gráficas morrendo, causando a morte da placa gráfica. Eu tive o ventilador da fonte de alimentação, fazendo com que a maioria das partes do computador morresse. (Desde então, eu nunca construí um sistema sem fãs extras)) Drives de fita exigem cuidados extras, ou suas vidas serão significativamente encurtadas. Isso ocorre porque não só se move, mas a cabeça de fita faz contato físico com a mídia de fita - pelo menos em muitos tipos de unidades de fita. Limpar a unidade com muita frequência com a mídia de limpeza de fita comum desgastará as cabeças de fita.

Eu tive os fãs de chipset embutidos morrem, mas até agora sem qualquer efeito. Até agora eu nunca tive um fã de CPU morrido, mas tendem a atualizar muitas vezes que eu provavelmente evite isso por meio de upgrades. (sorriso)

Eu substitui minhas unidades de disco a cada vários anos (principalmente porque a capacidade disponível aumenta tão rapidamente), então tenha experimentado relativamente poucos falhas de disco rígido. Eu tive muitas fontes de alimentação falham - muito mais do que eu teria esperado ingênuo para um componente sem partes móveis além do ventilador. Eu suponho que as irregularidades do poder são a causa de muitas falhas de alimentação.

Até agora, em algumas décadas de computação, nunca tive uma CPU ou RAM ou placa-mãe falha a menos que haja uma causa razoável, como superaquecimento (fãs morrendo). No entanto, algumas marcas de placas-mãe ao longo dos anos tiveram muitas vidas mais curtas do que o esperado devido a partes sub-pares, muitas vezes incorretamente fabricadas capacitores onde a energia entra na placa-mãe.

Em qualquer lugar que você tenha uma conexão conectada é um ponto de falha. Eu tive computadores falhar (principalmente há muito tempo) devido a conectores baratos de estanho. A lata oxidada e com o tempo a conexão, porque menos e menos confiável. Eventualmente, eu desconectei tudo, levou uma borracha para os conectores de lata para remover a oxidação, conectado tudo em tudo, e estava em cima e indo por mais tempo. Conectores de ouro são o conector de escolha por um motivo.

Pelo que vi em um ambiente corporativo, com minha casa experimentada misturada, os componentes parecem falhar nesta ordem, desde a maioria a menos frequentemente.

  1. Discos rígidos e unidades de fita
  2. Suprimentos de energia
  3. fans
  4. distante, tudo mais

Não mencionado acima, mas você deve esperar todos Sticks/cartões de memória flash para morrer, dependendo da frequência de uso. Mas levará muito tempo, dado o uso médio da maioria dessas cartas. A memória flash "desgasta" com uso e células de memória acabará com falhar.

7
Eddie

Qualquer coisa que se mova, que em um servidor é basicamente discos e fãs, falhará muito mais vezes do que componentes de estado sólido. As fontes de alimentação são distantes, mas notáveis, segundo. Tudo o mais (CPU, memória, etc) é bastante confiável ... o que não é dizer imune ao fracasso, mas definitivamente deve ser preocupado depois de ter suas bases de disco/fã/psu coberta.

3
Kyle Cronin

Anecdiotalmente, baterias.

Não tenho dados difíceis, mas substitui mais baterias fracassadas ou subjacentes na minha vida do que qualquer outro componente. Isso inclui fontes de alimentação ininterruptas, laptops/notebooks, baterias controladoras, baterias de celular e provavelmente muitos outros.

Isso me levou a sempre Aquotação de uma bateria extra para o UPS do Servidor.

3
Portman

Apenas pesquisando isso para a minha empresa hoje, encontrei um resumo de um dos whitepapers da Microsoft em extremetech.com com este gráfico por um período de 8 meses:

failure rates w/ underclocking

A coluna classificada foi uma referência decente para os meus cálculos do valor das garantias de hardware da Dell (só vamos investir em hardware extra).

O whitepaper completo está aqui: http://research.microsoft.com/apps/pubs/default.aspx?id=144888

2
Brad
  1. Discos rígidos
  2. Todo o resto

Melhor manter sobressalentes de tudo no local, a menos que você esteja bem com o tempo de inatividade Seu fornecedor de hardware decide lhe dar.

2
womble

Você verá mais problemas com o firmware e os drivers para o hardware do que você realmente verá falhas físicas (pelo menos no início da vida do dispositivo), portanto, certifique-se de que essas estejam atualizadas e testadas primeiro.

Unidades SATA geralmente serão as primeiras a ir. SAS tende a ser mais confiável (embora eu tenha ouvido coisas boas sobre as últimas unidades SATA 2)

0
Eric Z Beard
  1. Discos rígidos
  2. Suprimentos de alimentação (todos muito comuns)
  3. Coisas que você conecta e sai (mais comum para desktops do que servidores)
  4. Tudo mais, especialmente depois que a fonte de alimentação morre e leva as coisas com isso ...

Era uma vez, os fãs da CPU também costumavam estar na lista; Ultimamente, não me lembro da última vez que vi uma parada de trabalho, mas é uma possibilidade, especialmente em um ambiente empoeirado.

0
Mikeage

O Google publicou um papel, "Tendências de falha em uma grande população de disco de disco" , sobre estatísticas de falha para um grande conjunto de unidades. O principal take embora é que os discos falham acima e além do que o MTBF sugeriria. Os discos são facilmente a mais propensa a falha na sala do servidor.

0
jldugger