Annonces

[Avocado] Incident 09 avril 2026 - Downtime

  • jeudi, 9 avril, 2026
  • 03:39

Cher clients,

Nous tenons à vous informer que le serveur Avocado.easyhoster.com rencontre actuellement un problème technique.

Voici le détail de la situation :

2h27 : Nous avons reçu une notification de down du serveur Avocado.easyhoster.com.

2h36 : Le serveur a d'abord été vérifié de fond en comble au niveau matériel (tests hardware) par un technicien du data center.

3h19 : Après retour du data center, une vérification du système de fichiers va être démarrée en mode rescue (FSCK).

3h49 : La vérification des disques RAID, obligatoire avant FSCK, nous montre qu'une resynchronisation des deux disques RAID1 est en cours. Il nous est donc nécessaire de patienter que celle-ci soit terminée avant de pouvoir envisager de lancer la vérification du système de fichiers sans quoi nous risquons de corrompre le disque.

4h12 : La resynchronisation des disques RAID et la vérification FSCK sont à présent terminées. Nous analysons les données collectées.

4h23 : Le serveur est à nouveau accessible. Nous poursuivons les vérifications.

5h10 : Un reboot est nécessaire afin d'effectuer l'update du Kernel d'Avocado.

5h49 : Le serveur est à jour et accessible.

Rapport de clôture – 9 avril 2026

Origine du down :

L'incident survenu cette nuit a été déclenché par une défaillance logicielle critique (Kernel Panic) au niveau du noyau Linux. Ce crash a été provoqué par un conflit imprévu lors de l'application automatique d'un patch de sécurité par le service KernelCare (CloudLinux). Plus précisément, une incompatibilité entre les modules de filtrage réseau (« iptables ») et les nouveaux standards du noyau a généré une corruption temporaire de la mémoire vive, entraînant l'arrêt immédiat de la machine par mesure de sécurité.

Déroulement de l'intervention :

Dès l'alerte à 02h27, nos équipes ont mobilisé les techniciens du centre de données pour écarter toute défaillance matérielle. Après avoir reçu la confirmation de la parfaite santé du hardware (CPU, RAM et disques NVMe), nous avons basculé le serveur en mode maintenance (Rescue) pour traiter les conséquences du crash.

La violence de l'arrêt a nécessité deux opérations de maintenance de bas niveau : une resynchronisation complète des volumes RAID1 pour garantir la cohérence des données entre les deux disques NVMe, suivie d'une vérification approfondie du système de fichiers (FSCK). Ces étapes de sécurité, bien que chronophages, étaient indispensables pour prévenir toute perte de données et assurer un redémarrage sur une base saine.

En parallèle du rétablissement des services, le serveur a dû absorber un pic anormal de trafic réseau (SYN Flood) lors de sa phase critique de démarrage, ce qui a nécessité une intervention manuelle via console déportée (IPMI) pour stabiliser les couches d'authentification et de sécurité.

Mesures correctives et finalisation :

Afin de ne pas simplement "réparer" mais de pérenniser la situation, nous avons profité de cette fenêtre pour procéder à une mise à jour majeure du noyau vers la dernière branche stable de CloudLinux 9.7. Cette mise à jour élimine les conflits de modules identifiés et renforce la résilience du serveur face aux futures mises à jour de sécurité.

Le serveur Avocado est désormais pleinement opérationnel, à jour, et son système de fichiers a été certifié conforme (« clean »).

Nous regrettons sincèrement l'indisponibilité causée par cette régression logicielle de notre fournisseur d'OS et vous remercions de votre confiance.

« Retour