Un ordinateur est un système physique soumis à toutes sortes de perturbations susceptibles de causer des erreurs.
C'est pour cette raison que l'on a inventé les ordinateurs à tolérance de panne. Par exemple un système peut contenir 3 unités de calcul, toutes connectées à un système de vote à la majorité, ainsi, si une unité est défaillante (donne un résultat anormal) cette unité peut être mise hors ligne, vérifiée, etc.
C'est typiquement le genre de système que l'on trouve dans les ordinateurs de bord depuis les fusées américaines des années 60 (jusqu'aux avions d'aujourd'hui).
Notez que tous les systèmes peuvent défaillir de façon permanente ou transitoire : un rayon cosmique peut changer la valeur d'un bit dans la mémoire ou le processeur (transitoire) ou bien un circuit griller (permanent). Les disques durs ont un système intégré de gestion des erreurs (blocs devenus soudainement illisibles ou non inscriptibles, etc. et système de reallocation vers une zone spéciale). Les mémoires vives peut être associées à un système de detection et/ou correction d'erreur (ECC). Les transmissions inclues des sommes de contrôle pour vérifier que les données transmises n'ont pas été altérées. Bref : des vérifications sont faites à tous les étages.
Les vibrations, la chaleur, les rayons cosmiques, la fatigue électrique ou mécanique des composants de l'ordinateur sont des facteurs augmentant les risques de défaillance.
Photo de l'article : plaque de l'ordinateur équipant la navette spatiale américaine, complètement symétrique.