C'est un scénario que redoute toute équipe informatique. Vous sauvegardez consciencieusement vos serveurs critiques sur votre appliance sur site ou dans le cloud, mais lorsqu'un incident survient et que vous en avez le plus besoin, la restauration de la sauvegarde échoue.

Voyons pourquoi la reprise après sinistre échoue et comment vous pouvez éviter les facteurs qui conduisent à cet échec :

1. Incapacité à identifier et à comprendre les dépendances liées à la récupération

Les plans de reprise après sinistre comprennent souvent des stratégies de sauvegarde et de conservation des données qui ne prennent pas suffisamment en compte les interdépendances et les exigences nécessaires à une reprise sans heurts. Ne pas adapter les plans de sauvegarde aux attentes spécifiques en matière de restauration peut avoir des conséquences désastreuses.

La reprise des opérations du serveur n'est qu'un début

Pour les opérations métier s'appuyant sur des applications à plusieurs niveaux ou à N niveaux, la simple restauration du fonctionnement des serveurs ne suffit pas. Dans ces environnements, les fonctions de traitement, de gestion des données et de présentation peuvent être hébergées sur différentes machines qui doivent toutes communiquer entre elles de manière parfaitement coordonnée. Si vous sauvegardez ces composants selon des calendriers différents ou si vous les restaurez avec un ordre de démarrage incorrect ou sur un hôte doté d'un réseau virtuel différent, la communication entre eux risque d'être interrompue. En conséquence, la reprise après sinistre échouera, des données risquent d'être perdues et vous risquez de passer de nombreuses heures à résoudre ces problèmes.

Problèmes de configuration

Les problèmes de configuration dans l'environnement de production peuvent compromettre votre plan de reprise après sinistre. Par exemple, lorsque vous configurez des environnements de serveurs virtuels comme cibles de sauvegarde, vous devez allouer de l'espace pour les instantanés afin qu'ils puissent être correctement exécutés et enregistrés.

Conseils pour identifier les dépendances critiques et garantir la réussite des restaurations :

Réfléchissez à divers scénarios d'indisponibilité et passez en revue les étapes spécifiques à suivre pour rétablir le service auprès des utilisateurs finaux. Examinez chaque étape du processus afin d'identifier les éventuelles dépendances ou les obstacles à la reprise après sinistre.
Répertorier les dépendances critiques (ordre de démarrage, exigences des applications, etc.) et les intégrer aux étapes de restauration.

2. Comprendre et éviter les problèmes de compatibilité logicielle

Il existe toute une série de problèmes de compatibilité logicielle susceptibles de rendre les données irrécupérables. Le service VSS (Volume Shadow Copy Service) de Microsoft est une source fréquente de problèmes de compatibilité. Cependant, les nouvelles technologies de sauvegarde et de reprise après sinistre dans le cloud intègrent désormais des logiciels avancés dotés de capacités d’auto-réparation pour résoudre ces problèmes de compatibilité. Cette technologie détecte automatiquement les problèmes de compatibilité VSS, les erreurs de configuration et toute une série de menaces pesant sur la récupérabilité. Le logiciel gère les conflits VSS, relance les sauvegardes et effectue diverses autres opérations pour résoudre les problèmes de sauvegarde avant qu'ils ne compromettent la restauration, sans nécessiter aucune intervention de votre équipe informatique.

3. Tests insuffisants

Les équipes informatiques peinent toujours à trouver le temps et les ressources nécessaires pour effectuer des tests de reprise après sinistre à une fréquence suffisante afin de garantir que les reprises se dérouleront comme prévu. Or, tester les sauvegardes est essentiel pour assurer une reprise sans heurts. Un plan de reprise après sinistre solide doit éviter les raccourcis tels que les tests annuels (voire l'absence totale de tests), le préchargement des bandes dans les bibliothèques de bandes, la préparation préalable des serveurs et le recours à des contrôles ponctuels au lieu de tests complets de restauration.

Conseils pour améliorer les tests :

Mettez en place des solutions avancées de sauvegarde et de restauration dans le cloud qui effectueront automatiquement des tests complets de restauration de votre environnement de sauvegarde.
Investissez dans des solutions de sauvegarde et de restauration qui testent automatiquement la capacité de restauration des applications et enregistrent le temps de restauration réel ainsi que le point de restauration.

4. Absence de protection contre la corruption des données et les logiciels malveillants

Les causes de corruption des données de sauvegarde susceptibles d'entraîner l'échec des restaurations sont innombrables : cela va des inversions de bits dues à des éruptions solaires aux coupures de courant imprévues, en passant par les problèmes liés au système de fichiers XFS et à divers dysfonctionnements matériels (problèmes avec les contrôleurs RAID, les contrôleurs de stockage, la corruption du système de fichiers, les pannes de NAS, etc.).

Malgré la fréquence croissante des incidents qui font la une des journaux, l'incapacité à détecter les logiciels malveillants dans les environnements de sauvegarde reste l'un des problèmes les plus courants à l'origine des échecs de reprise après sinistre. Les créateurs de ransomware font preuve d'une sophistication croissante : ils conçoivent des programmes qui restent latents suffisamment longtemps pour être intégrés aux sauvegardes de données, rendant ainsi impossible toute défense contre les attaques par une simple restauration des données les plus récentes.

Conseils pour éviter la corruption des données et les infections par des logiciels malveillants dans vos sauvegardes :

Optez pour une technologie de sauvegarde et de restauration basée sur Linux. La plupart des infections par des logiciels malveillants visent les systèmes Windows.
Assurez-vous que votre solution de sauvegarde et de restauration est capable de détecter les premiers signes d'une infection par un logiciel malveillant.
Utilisez une solution de sauvegarde et de restauration qui lance automatiquement et teste la capacité de restauration des applications dans votre environnement de sauvegarde, afin de vous assurer de pouvoir restaurer vos données en toute sécurité à partir de sauvegardes non infectées en cas d'attaque par un ransomware (ou tout autre logiciel malveillant).
Assurez-vous que votre solution de sauvegarde intègre un contrôle de redondance cyclique (CRC). Le CRC est un code de détection d'erreurs utilisé pour repérer les modifications accidentelles apportées aux blocs de données entrant dans votre système de sauvegarde, afin de garantir l'intégrité des données.

5. Non-respect des bonnes pratiques en matière de gestion des médias

L'une des raisons les plus courantes pour lesquelles une sauvegarde apparemment parfaite ne peut être restaurée tient à une mauvaise gestion des supports de sauvegarde ou d'archivage – bandes magnétiques, disques durs amovibles, etc. Bien que les bandes magnétiques et les disques amovibles soient des supports relativement peu sophistiqués, leur utilisation est très manuelle et exige un respect rigoureux des bonnes pratiques. De simples erreurs humaines, telles qu'un étiquetage erroné des bandes ou des disques d'archivage, peuvent rendre impossible la restauration à partir de ces supports.

Pour une sauvegarde efficace des données, vous pouvez automatiser l'ensemble du processus de gestion des sauvegardes, de la réplication hors site et de la conservation à long terme. Vous pouvez également opter pour la reprise après sinistre en tant que service (DRaaS).

Les appareils électroménagers haut de gamme d'aujourd'hui sont également équipés de composants capables de s'auto-réparer et d'un système de surveillance à distance qui détecte les premiers signes avant-coureurs de problèmes matériels et planifie automatiquement une intervention de maintenance avant qu'une panne ne se produise.

Les infrastructures informatiques actuelles sont des combinaisons de plus en plus complexes d'environnements sur site, SaaS, cloud et virtuels. Pour garantir l'efficacité de vos sauvegardes et de vos restaurations, optez pour une solution de sauvegarde qui s'intègre à votre solution de gestion des terminaux. Surveillez et gérez l'ensemble de vos terminaux, ainsi que les déploiements antivirus/antimalware et les sauvegardes, le tout à partir d'une seule et même console.

Tableau de bord de sauvegarde unifiée Kaseya

Kaseya Unified Backup réunit les meilleurs services au monde en matière de sauvegarde, de protection contre les ransomwares, de stockage dans le cloud, ainsi que de continuité des activités et de reprise après sinistre (BCDR) au sein d'une puissante plateforme tout-en-un basée sur des appliances. Pour en savoir plus sur Kaseya Unified Backup, téléchargez notre fiche produit ici.