SOMMAIRE
- Date de l'incident : 11 février 2023
- Impact sur les clients : Aucune recommandation renvoyée, plus un volume élevé d'erreurs sur le service de recherche.
Jeudi 16 février
Veuillez trouver le rapport RCA joint à cet article.
La cause principale est ajoutée à la section ci-dessous.
Lundi 13 février
Le rapport d'incident interne a été livré, et nous travaillons sur un RCA officiel, qui sera ajouté à cet article.
Dimanche 12 février 2023-02-12 02:25
Le service de recommandation a été rétabli le 2023-02-11 22:55. L'équipe Attraqt a également continué à travailler pour résoudre le service XO Search.
Tous les services sont revenus à la normale le 12 février à 02h25.
Samedi 11 février 19:59
Attraqt a reçu une alerte interne pour dégradation des performances sur l'API Recommendations et a lancé une enquête pour identifier la cause première du problème. Une fois que cela a été clarifié, les actions d'atténuation ont commencé, car il a été diagnostiqué que l'API de recherche était également affectée.
RAPPORT D'ANALYSE DES CAUSES FONDAMENTALES
La cause principale du problème a été identifiée comme le résultat d'une défaillance de communication interservice pour les microservices XO provoquée par l'expiration d'un certificat SSL sur l'un des composants internes, ce qui permet ces communications. En raison d'un échec d'alerte, le certificat n'a pas été renouvelé avant son expiration.
Pour corriger cela, le certificat expiré a été régénéré et tous les services concernés ont été rechargés.
Après l'incident, tous les autres certificats SSL ont été examinés pour s'assurer qu'aucun autre n'était sur le point d'expirer à ce moment-là.
Les actions d'amélioration suivantes ont eu lieu sur le site Attraqt :
- Les certificats SSL ont été régénérés avec une validité de dix ans pour éviter que le problème ne se reproduise.
- L'automatisation de la génération des certificats est à l'étude.
POUR PLUS D'INFORMATIONS
Toutes les informations actuellement disponibles sont incluses dans cet article. Nous continuerons à fournir des mises à jour sur le problème ici pendant que nous nous efforçons de résoudre l'incident.
Si vous avez enregistré un ticket avec nous, nous vous fournirons les mêmes informations dès que possible.
Le rapport de notre enquête d'analyse des causes profondes est généralement publié ici quelques jours après la résolution de l'incident. Si vous avez d'autres questions sur cet incident, veuillez créer un ticket avec nous.
Commentaires
0 commentaire
Vous devez vous connecter pour laisser un commentaire.